利用辅助模型提升大语言模型推理的效率与效果

智猩猩AI新青年讲座 2025/07/03 10:00:00

课程讲师

秦宗岳加州大学洛杉矶分校博士生

加州大学洛杉矶分校（UCLA）计算机科学系博士生，导师为孙怡舟教授。研究方向主要围绕提升深度学习模型的效率，具体涉及大语言模型（LLM）、图神经网络（GNN）以及推荐系统等领域。本科毕业于北京大学元培学院，期间师从邹磊教授。曾在Amazon，Qualcomm等公司担任实习研究员。在KDD、NeurIPS、AAAI和ICLR等国际顶级会议上发表过多篇学术论文。

秦宗岳

加州大学洛杉矶分校博士生

课程提纲

1.推测解码speculative decoding背景介绍
2.DSBD利用speculative decoding加速beam decoding
3. 优化的多Token联合解码方法MTAD
4. 总结与未来方向

课程简介

大型语言模型（LLM）凭借其强大的生成能力广泛应用于各类人工智能任务，但在推理阶段往往面临计算资源消耗大、推理速度慢、生成质量不稳定等问题。近年来，推测解码（speculative decoding）逐渐兴起，这是一种提升LLM推理效率的技术，它通过一个小的辅助模型预生成若干Token，接着由更大的模型并行验证，能够实现1–2倍的推理加速。然而，这类方法仍然基于单步概率分布进行生成，无法提升生成内容的整体质量与连贯性。

为此，来自加州大学洛杉矶分校的研究者提出了一种多Token辅助解码（Multi-Token Assisted Decoding，MTAD）框架，通过高效的验证策略保持LLM的高质量输出并降低资源占用。

该成果首先证明了一种比传统多项式采样和推测解码更高效、困惑度更低的多Token联合解码（MTJD, Multi-Token Joint Decoding）方法。与传统解码方法不同，MTJD 在解码过程中基于多个Token的联合分布生成文本，能够综合考虑Token间的相互影响。

然而，MTJD 时间和空间复杂度随 Token 数量增加而呈指数级增长，导致该方法在实际应用中面临着大量的执行时间和内存压力，限制了其可行性。受推测解码启发，MTAD框架通过引入小型辅助模型对MTJD进行高效近似，在保证效果的同时提升了LLM的推理速度。

MTAD的核心思想主要包括三个部分：首先，使用辅助模型输出的联合分布来近似大模型的分布，并生成多个候选Token；其次，利用大模型并行验证这些候选Token，并接受通过验证的最长前缀子序列；最后，从大模型的分布中额外采样一个 Token，确保每轮至少生成一个 Token，而无需增加额外计算开销。然而，直接从联合分布中生成候选Token仍然不可行。因此，采用束采样（beam sampling）高效生成高概率序列。

通过以上步骤，MTAD显著降低了生成多个Token所需的大模型调用次数，从而实现类似于传统推测解码的LLM推理加速效果。

为了验证MTJD是否能在提升LLM推理速度的同时改善生成质量，研究者在Spider、MTBench 和HumanEval数据集上进行了对比实验。实验结果显示，在所有设置下，MTJD 均取得了最高的得分和更低的困惑度。这些结果表明，MTJD能够提升LLM的生成质量。

在效率分析方面，MTAD在所有基线方法中表现出最优的时间效率、最低的资源消耗。此外，当MTAD只使用单个候选序列（draft sequence）时，其性能仍优于使用多个候选序列的方法(Spectr、MCSS、SpecInfer)。这些方法通常在遇到某个Token被拒绝后就立即终止验证，而MTAD则继续验证后续 Token，尝试寻找仍可能通过验证的部分。这种机制使得MTAD在每次迭代中能够接受更长的有效序列，从而提升了整体效率。

在不同解码算法的下游任务性能比较中，MTAD与仅依赖单Token分布的传统解码方法相比，始终展现出最优的生成质量。此外，可以发现有损解码算法可以在牺牲一定推理效率的前提下实现更高的下游性能。这表明，所有有损解码方法都可以通过调整验证的严格程度，在效率与生成质量之间进行灵活权衡。

7月3日早上10点，智猩猩邀请到论文一作、加州大学洛杉矶分校博士生秦宗岳参与「智猩猩AI新青年讲座」第267讲，以《利用辅助模型提升大语言模型推理的效率与效果》为主题带来直播讲解。

精彩问答

提问

目前还没有问题，可以点击右侧的“提问按钮”提问

{{item.name}}
{{item.createdDate}}

{{item.answerOmit}} 阅读全文〉

更多问题...