Qwen2.5长上下文推理提速2.66倍！加州大学&NVIDIA提出CPU-GPU协同混合注意力计算框架HybridGen

大语言模型

2026-04-30 13:56:00

智猩猩AI整理

编辑：林夕

在大型语言模型（LLM）领域，随着GPT-4、Gemini 3Pro等模型将上下文长度推向数百万token的新高度，KV缓存的爆炸式增长。

现有优化方案存在显著局限：

基于KV 缓存剪枝的方法会丢弃部分历史 token，直接造成模型精度下降；
基于KV 缓存卸载的方法在CPU与GPU间频繁传输张量，数据传输开销极高；
传统架构仅依赖单一设备完成注意力计算，硬件资源利用率低、负载失衡严重；
面向 CXL 扩展内存的方案未充分考虑NUMA 延迟，内存访问效率难以保障。

在这样的背景下，如何在几乎不损失精度、不依赖超大显存、充分释放 CPU+GPU 算力前提下，把长上下文推理跑快，成为学界与工业界的共同难题。

针对以上痛点，加州大学默塞德分校与NVIDIA联合提出高效混合注意力计算框架HybridGen，通过三大原创技术，彻底破解长上下文LLM推理三大核心障碍。

HybridGen核心思路十分简洁清晰：让CPU与GPU基于各自本地内存做协同混合注意力计算，一边并行计算、一边动态均衡负载，同时用语义感知策略高效使用CXL扩展内存，最终在几乎不损失精度的前提下，把长上下文LLM推理速度提升1.41×–3.2×。

论文标题：HybridGen: Efficient LLM Generative Inference via CPU-GPUHybrid Computing
论文链接：https://arxiv.org/pdf/2604.18529
01 核心创新

（1）Attention Logits 并行化

传统注意力因Softmax全局依赖与层间串行执行，无法在多设备间并行。HybridGen首次将注意力计算解耦为两段独立流程：Attention Logits计算（Q・Kᵀ）与 Softmax+Value聚合。其中，Logits计算无全局依赖，可由CPU与GPU分别针对本地KV并行执行。

同时，论文观测到连续Transformer层的输入具有高度相似性，因此允许CPU使用当前层输入提前计算下一层Logits，与GPU当前层计算形成流水线重叠。GPU最终只需要合并结果、执行Softmax与后续FFN，功能完全等价于原生注意力，但延迟大幅降低。

图1 在各种KV缓存管理下估计的LLM推断时间

如图1所示，相比全GPU、传统卸载、预取卸载、重要token筛选等方案，HybridGen的混合注意力模式在延迟上具备压倒性优势。

（2）反馈驱动调度器

随着上下文变长，大量KV被卸载到CPU，极易导致CPU成为瓶颈。HybridGen 提出闭环反馈调度机制，实时监测GPU计算延迟、CPU计算与传输延迟，动态调整CPU处理的token数量，并在精度约束下自动切换最优策略。

图2 两种词元选择机制下的注意力logits计算过程

如图2所示，系统可在Post‑QKᵀ（先算全量Logits再选重要token，精度优先）与Pre‑QKᵀ（先选token再计算，速度优先）之间智能切换，让CPU阶段始终隐藏在GPU流水线之后，实现资源利用率最大化。

（3）语义感知 KV 缓存映射

CXL内存容量大但延迟高，直接存放KV会显著拖慢推理。HybridGen提出按语义分置K/V的全新策略：K向量参与CPU高频Logits计算，放入CPU本地DRAM；V向量不被CPU访问，直接存放于CXL内存，通过DMA直传GPU。这一设计从根源上将CXL延迟排除在关键路径之外，实现大容量内存高效扩展，且无需在线热数据监测、无需硬件修改。

图3展示了HybridGen的完整架构，三大核心模块协同构成端到端混合计算体系。

图3 HybridGen架构

02 工作流程

在生成阶段，HybridGen采用CPU-GPU流水线协同模式，GPU在执行第i层Transformer的注意力与FFN计算的同时，CPU会依据反馈调度结果筛选重要token，并利用层间输入相似性提前计算第i+1层的Attention Logits，实现计算深度重叠；

随后CPU仅将筛选后的logits与对应value向量传输至GPU，GPU在完成本地token的logits计算后，对CPU与本地两路结果进行拼接和位置还原，再执行Softmax与Value聚合，完成当前层剩余计算并将输出传递给CPU，以此循环迭代直至文本生成结束，全程无阻塞、数据传输量低。

图4 HybridGen的工作流程

03 实验结果分析

实验在A100、H100 NVL、RTX 5090三类GPU平台展开，覆盖OPT、Llama-3.1、Qwen2.5等11种不同规模模型，对比FlexGen、MoE-Lightning、Keyformer、H2O、StreamingLLM、InfiniGen共6种SOTA方案，从速度、扩展性、精度、鲁棒性四个维度全面验证。

（1）全模型性能：统一领先，提速1.41×~3.2×

图5展示了不同模型下端到端推理延迟（以FlexGen为基线归一化）。可以看到，HybridGen在所有参数量级（1.3B–14B）上均取得最低延迟。相比最优Pre-QKᵀ方案InfiniGen平均提速1.41×，相比最优Post-QKᵀ方案Keyformer平均提速1.86×，相比传统卸载方案最高提速3.2×。

图5 不同模型的端到端推理延迟（以基线模型为归一化基准）

（2）长上下文性能：越长越稳，优势持续放大

图6展示Qwen2.5-7B与Llama-3.1-8B在2K–32K token下的性能。随着序列长度增加，传统方法延迟急剧上升，而HybridGen增长最平缓。在32K超长上下文下，Qwen2.5-7B最高提速2.66×，Llama-3.1-8B最高提速3.18×。结果说明：HybridGen的动态负载均衡与流水线并行，完美适配超长上下文场景。