在【LLM】LLM 中 token 简介与 bert 实操解读一文中对 LLM 基础定义进行了介绍,本文会对 LLM 中增量解码与模型推理进行解读。
一、LLM 中增量解码定义
增量解码(Incremental Decoding)是指在自回归文本生成过程中,模型每次只计算并生成一个新的 token,并且会利用之前计算得到的中间结果,而不需要重新计算整个序列的表示,以此来提高生成效率和减少计算资源消耗。
在 GPT 系列模型生成对话回复、文章续写等场景中广泛应用了增量解码。
二、增量解码工作过程
初始输入:在生成文本时,首先输入一个初始的文本序列(比如一个问题或者提示词 ),模型通过 Prefill 阶段计算这个初始序列的隐藏状态,同时生成并缓存与注意力机制相关的键(Key)和值(Value)矩阵,即 KV 缓存(KV Cache) 。
逐个生成 token:接下来进入解码阶段,模型会基于上一步生成的 token 和缓存的 KV 矩阵,计算当前位置的隐藏状态,然后预测下一个 token。例如,在生成第一个 token 后,将其与之前缓存的 KV 矩阵结合,计算得到第二个 token 的隐藏状态,进而预测第二个 token 。每生成一个新的 token,模型就更新相关的计算状态,但不需要重新计算整个输入序列的隐藏状态,只是在之前计算结果的基础上增量式地进行计算。
循环直至结束:重复上述步骤,直到达到预设的结束条件,比如生成了特定的结束标记、达到了最大文本长度限制或者满足了其他停止生成的条件 。 总之,增量解码通过复用计算结果和 KV 缓存,可以有效提升自回归模型文本生成的效率和性能。
注意:当 KV cache 的长度超出阈值(例如 1024KB)会进行清理,清理策略取决于大模型的处理策略,有滑动窗口(清理最早的)和全部清理等。
三、新 token 选择
模型在生成新 token 时,从可能的下一个词表(token)中选择一个特定的词。词表中有多个词,词的个数可以理解为 vocab size,其中每个位置的大小表示选取这个 token 的概率,如何基于这个信息选择合适的 token 作为本次生成的 token。
贪婪采样(Greedy Sampling) 在每一步,模型选择概率最高的词作为下一个词。这种方法快速且计算成本低,但它可能导致重复。
随机采样(Random Sampling) 模型根据概率分布随机选择下一个词。这种方法能够引入随机性,从而生成更多样化的文本。但是,随机性也可能导致文本质量下降,因为模型可能选择低概率但不相关的词。
Top-k 采样(Top-k Sampling) 这种方法首先选择 k 个最可能的词,然后从这个子集中随机选择下一个词。这种方法旨在平衡贪婪采样的确定性和随机采样的多样性。
四、Prompt(提示词)
Prompt 是用户与 LLM 交互的入口,Prompt 进入 Prefill 阶段处理,并成为生成后续内容的“上下文语境”。其核心作用是引导模型生成特定类型、风格或内容的输出。简单来说,Prompt 就是你告诉模型 “要做什么” 的一段话。
在大模型推理中,Prompt 是用户与模型交互的起点,它在 Prefill 阶段被模型处理,作为生成后续内容的基础。例如:
设计优质 Prompt 是激发 LLM 能力的关键,需要明确任务、约束条件和期望输出,例如:明确任务指令/给出格式规范/提供上下文例子
五、模型推理:Prefill 与 Decode
参考链接:https://blog.csdn.net/firehadoop/article/details/146341556
通过 KV Cache,避免了重复计算,提高生成效率。
prefill 与 decode 的关系类似于接力赛:Prefill 阶段跑完第一棒,然后 Decode 阶段接过接力棒,一个接一个地完成余下的路程。
以查询 “介绍一下爱因斯坦” 为例,其核心流程如下:
5.1 初始化阶段(Prefill)
5.2 循环迭代解码阶段(Deocde)
5.3 小结
六、MoE 简介
一般来说,一个 MoE layer 包含 N 个 Experts(FFN 网络)和一个 Gating Network。其中 Gating Network 可以将一个 token routing(Token 路由)到少数的专家进行计算。可参考下图:
总结:Token routing 就是给不同重要性、不同功能的 Token,规划调用不同专家模型,让大模型更聪明分配算力、协同专家能力,最终实现 “又快又准又省资源” 的推理。
从整体看,MoE 在 LLM 模型的什么位置呢?如下图:
参考 https://github.com/jingyaogong/minimind?tab=readme-ov-file
专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们
相关推荐
数字PID控制及其改进算法的应用
地平线征程 6 系列集成 Cadence Tensilica Vision DSP,实现规模化量产,合作加速智能驾驶解决方案部署
加快实现自动驾驶(完整小组讨论)
自动驾驶正推动汽车行业加速布局人形机器人
无线传感器网络低功耗分簇路由算法设计
采用Mean-Shift和Camshift算法相结合的火焰视频图像跟踪设计
计算机科学与技术反思录(2)
求FSK信号的解调算法,主要是铁路上的移频信号!
数字PID控制算法之一
Ouster推出 Rev8 OS 激光雷达系列 原生彩色激光雷达正式落地
CRC算法原理及C语言实现
76-81GHz自动驾驶CMOS RADAR
2035年自动驾驶出租车市场规模将达1680亿美元
曲面显示屏取代传统汽车挡风玻璃
特斯拉监督版FSD加入中国市场
基于LPC2138的血压测量算法开发平台电路图
携手ADI赢得未来
ADI:传感技术助力未来自动驾驶的发展
自动驾驶的现状与未来(节选)
面向算法硬件加速的FPGA实现方法
[转帖]us/os就绪表的维护算法分析
目标跟踪算法在红外热成像跟踪技术上的应用
加密算法之MD5算法
实时训练驾驶人工智能
掘金自动驾驶,不要把大坑当机会
高阶智驾要落地,线控底盘为什么必须执行得准
PID算法
简单实用的单片机CRC 快速算法
有关指纹算法
vxwokrs下静态图像压缩算法(上)