A6000部署Qwen3推理提速2.6倍！英伟达韩松团队提出ParoQuant刷新4-bit线性量化SOTA

1970-01-01 08:00:00

智猩猩AI整理

编辑：卜圆

仅权重量化的后训练量化（PTQ）是一种广泛应用的技术，通过将LLM的权重压缩为低比特表示，有效降低内存占用并提升推理速度。然而，权重和激活中普遍存在的异常值往往会引发显著的量化误差，导致模型精度明显下降——这一问题在当前强调复杂推理能力的大模型中尤为严重，因为微小的误差会在多步推理过程中不断累积，最终影响整体输出质量。

现有 PTQ 方法要么无法充分抑制异常值，要么在推理阶段引入显著的计算开销。为此，NVIDIA联合加州大学圣迭戈分校提出了成对旋转量化（Pairwise Rotation Quantization, ParoQuant）。该方法融合了硬件友好的可优化 Givens 旋转与通道级缩放，有效均衡了各通道间的数值幅度，并显著缩小了每个量化组内部的动态范围，从而大幅缓解由异常值引起的量化误差。此外，英伟达还协同设计了专用的推理内核，充分挖掘 GPU 的并行计算能力，确保旋转与缩放操作在运行时保持轻量高效。

实验表明，在 4-bit 线性量化这一特定类别中，ParoQuant 在多个主流大语言模型上达到了SOTA，优于此前所有同类方法；在推理任务上相比 AWQ 平均提升 2.4% 的准确率，同时额外推理开销低于 10%。这一成果为在现代 GPU 平台上高效、高精度地部署复杂推理型LLM开辟了新路径。

论文标题：
PAROQUANT: PAIRWISE ROTATION QUANTIZATIONFOR EFFICIENT REASONING LLM INFERENCE
论文链接：
https://arxiv.org/pdf/2511.10645

01 方法

量化与旋转可以通过不同策略平衡计算效率与量化误差，研究团队发现通过仅优化大幅度差异的通道对，能够减少冗余参数，同时保持旋转的有效性，为参数高效的旋转设计提供了新的思路。

图2 针对 LLaMA-3-8B 模型第一层中 k_proj 权重矩阵，优化变换以最小化量化引起的输出误差所得到的损失曲线

如图2 所示，旋转在降低量化误差方面优于通道级缩放，并且仅保留幅度差异最显著的 10% 通道对进行旋转，其表达能力与完整旋转相当。

（1）带缩放的成对旋转

缩放配对旋转变换分为三步：首先，通过用分解的Givens旋转代替正交矩阵，避免直接的矩阵乘法。接下来，消除这些旋转之间的依赖关系，以便在GPU上并行执行，从而实现独立旋转。最后，由于单一的独立旋转不足以有效地拟合复杂的权重分布，所以依次应用一系列独立旋转，并结合通道级的缩放，以提高拟合能力。

图3 带缩放的配对旋转流程图

如图3所示，通道维度被划分为固定大小的组（图中组大小为4）。每个权重组（W）首先通过通道级缩放（S）进行变换，然后经过一系列独立旋转（IR）。每个独立旋转由相互独立的配对旋转组成。在变换后，应用量化（Q），其组大小与通道组大小相等。逆变换（T⁻¹）应用于激活值（X）。

1）Givens旋转

选择一组通道对P = {(i₁, j₁), . . . , (i_m, j_m)}，并依次旋转 P 中的每一对。形式上，给定 P、旋转角度集Θ = {θ₁, ..., θ_m}以及权重矩阵 W，变换后的权重为：

其中 G(i_k, j_k, θ_k) 是一个Givens旋转，它仅对矩阵中的第 i_k 行和第 j_k 行进行旋转，而保持其余行不变。

2）独立旋转

Givens 旋转不满足交换律，其执行顺序会影响结果。因此，存在依赖的 Givens 旋转必须串行计算，无法充分利用 GPU 强大的并行能力，导致显著的延迟。为解决这一问题，研究者令旋转对集合 P 中的所有配对相互独立，即每个通道最多只能出现在一个配对中，使得集合 P 中的所有 Givens 旋转均可完全并行化。

除了计算效率外，独立旋转的另一个优势在于其与分块量化（block-wise quantization）天然兼容，可以利用分块量化中组间的隔离性，为每个组分别应用独立的旋转，这使得每个组都能独立进行细粒度的通道配对，从而进一步提升并行度。

为了解决单次独立旋转表达能力不足的问题，研究团队提出在推理时连续应用少量（比如 8 次）独立旋转，并将它们融合成一个高效计算核。每次旋转随机选择尚未用过的通道对，确保各次旋转之间不重复、保持独立性。这样做既提升了模型的表达能力，又几乎不增加计算开销。

3）结合通道级缩放

在一系列独立旋转的基础上，进一步引入逐通道缩放，以更有效地降低量化误差。由于独立旋转仅作用于有限数量的通道对，其本身难以全局均衡所有通道的数值幅度。逐通道缩放能够直接调节整个矩阵中各通道的尺度，对于弥补独立旋转表达能力的不足、逼近完整旋转的效果至关重要。此外，相比 Givens 旋转，逐通道缩放也更简单高效地抑制孤立的异常值（outliers）。

在结合独立旋转与通道级缩放后，量化前应用于权重的最终变换为：

其中，K表示旋转次数，P={P₁,...,P_K}和Θ={Θ₁,...,Θ_K}分别是相应的旋转对和角度集合，R(P_t, Θ_t)是第t个独立旋转，α是每通道缩放因子集合。

（2）层级优化

该优化分为两个阶段：第一阶段联合优化独立旋转和逐通道缩放，有效抑制权重中的大部分异常值，使权重分布更利于量化；第二阶段则借鉴量化感知训练（QAT）的思想，对权重及线性量化参数进行微调，进一步缓解 Round-To-Nearest（RTN）算法带来的残余误差。这一两阶段流程兼顾效率与精度，显著提升了量化模型的整体性能。

（3）高效 Transformer 算子的协同设计

为了加速推理，将缩放成对旋转（scaled pairwise rotation）这一变换操作实现为一个高度优化的融合 CUDA 核函数（fused CUDA kernel），并充分利用其在三个粒度上的天然并行性：在 token 维度上并行处理不同输入序列，在通道组维度上为每个组分配独立的 CUDA block，在旋转对维度上由单个 CUDA 线程负责一对通道的旋转计算。

这种三级细粒度并行设计带来了显著优势：首先，由于通道组规模较小（如 128），激活值可完整载入片上共享内存，而旋转所需的配对索引和角度参数则直接驻留在寄存器中，从而大幅减少高延迟的全局内存访问；其次，通道分组显著增加了活跃线程块的数量，尤其在通道数很大时能更充分地占用 GPU 计算单元；最后，组内各旋转对彼此完全独立，无需线程间同步，进一步提升了硬件利用率。如图4所示，缩放后的成对旋转相对于Hadamard变换速度提升。

图4 缩放后的成对旋与Hadamard变换的速度对比

02 评估

图1 优化的通道级别缩放和旋转效果，左图展示了LLaMA-3-8B第一层的k投影权重在变换后异常值通道得到了有效去除。右图则呈现了权重矩阵中两个通道的散点图，不同通道的值在每个token上更加接近，呈现出沿x = y线聚集的趋势。

（1）精度结果

1）困惑度

如表1所示，在线性量化方法中，ParoQuant实现了SOTA。在所有尺寸上均表现出高精度，尤其是在LLaMA‑3和4B以下的较小模型等具有挑战性的模型上。

ParoQuant与基于旋转的方法（包括 QuIP#、QTIP 和 SpinQuant）的对比中也表现出色,在所有模型上优于 QuIP# 并与 QTIP 持平。此外，ParoQuant 相较于这两种方法提供了显著的加速效果。

表1 4位量化模型的困惑度结果

2）推理任务

表2展示了在四个推理基准上的准确率结果：MMLU-Pro（12,000个样本）、GPQA Diamond（198个样本）、AIME-24（30个样本）和AIME-25（30个样本）。在规模较大的MMLU-Pro基准上，ParoQuant始终优于所有线性量化基线，并达到了与QTIP相当的准确率。尽管GPQA和AIME等较小基准由于样本量有限，结果表现出一定的随机性，但ParoQuant在大多数情况下仍优于现有基线方法。

总体而言，ParoQuant仅带来平均0.9%的准确率下降，并在EfficientQAT、AWQ和QTIP基础上分别实现了6.5%、2.4%和0.9%的性能提升。这一结果充分验证了ParoQuant在长文本生成任务中优异的量化精度优势。

表2 推理任务的零样本准确率

表3展示了在关闭思维链模式下的常识基准上的零样本准确率。ParoQuant保持近乎无损的性能，分别比AWQ、EfficientQAT和QTIP高出0.9%、0.7%和0.2%。由于这些基准仅评估少量生成的词元，误差累积极小，因此准确率差距较推理任务更小。

表3 非推理任务的零样本准确率

（2）效率结果

表4展示了ParoQuant在RTXA6000上的解码吞吐量。ParoQuant 仅比 AWQ 慢约 10%，却带来了显著的准确率提升;同时，它在准确率上与 QTIP相当，但推理速度提升了15%-30%。值得注意的是，Qwen3-14B获得了最大的推理加速收益，相较FP16 实现约2.6 倍吞吐量提升，同时保持近乎无损的生成精度。

表4 解码吞吐量（token/s）