微软1bit LLM新研究:原生4bit激活值量化

微软又有“1 bit LLM”新成果了——

发布BitNet v2框架,为1 bit LLM实现了原生4 bit激活值量化,由此可充分利用新一代GPU(如GB200)对4 bit计算的原生支持能力。

同时减少内存带宽&提升计算效率

微软1bit LLM新研究:原生4bit激活值量化

之前,微软持续研究BitNet b1.58,把LLM的权重量化到1.58-bit,显着降低延迟、内存占用等推理成本。

然鹅BitNet b1.58激活值还是8-bit,这就导致没办法充分利用新一代硬件的4 bit计算能力,计算环节出现效率瓶颈。

还有个问题也很关键:

研究发现注意力层和前馈网络层的输入激活值分布还比较接近高斯分布,量化起来相对容易。

中间状态的激活值有很多异常值,这就给低bit量化带来了很大阻碍。

此前的BitNet a4.8相关研究,尝试过用4 bit量化输入,8 bit稀疏化处理中间状态。

这种方法虽然性能损失不大,可稀疏化在批量推理场景里不太适合用来提高吞吐量,因为硬件更适合密集计算。

微软1bit LLM新研究:原生4bit激活值量化

这次,团队最新推出了BitNet v2,通过引入H-BitLinear模块,该模块在激活量化前应用Hadamard变换。

研究中能有效将注意力层和前馈网络中尖锐的激活分布重塑为更接近高斯分布的形式,显着减少异常通道,使4 bit激活量化成为可能。

微软1bit LLM新研究:原生4bit激活值量化

下面来看看究竟是怎么做的。

引入H-BitLinear模块

对于权重量化,根据团队此前研究,使用per-tensor absmean函数将权重量化为三元值{-1, 0, 1}

微软1bit LLM新研究:原生4bit激活值量化

对于低bit激活,团队引入了H-BitLinear。

H-BitLinear被用于注意力层的权重矩阵Wo和前馈网络(FFN)层的Wdown中,这两处正是激活值异常值最为集中的位置

微软1bit LLM新研究:原生4bit激活值量化

该模块在激活值量化前应用Hadamard变换,满足以下条件:

微软1bit LLM新研究:原生4bit激活值量化

通过Hadamard变换,中间状态分布更接近高斯分布,显着减少了异常值数量,使其更适合INT4量化。

微软1bit LLM新研究:原生4bit激活值量化

对于8 bit和4 bit激活,分别采用per-token absmax和absmean函数,激活量化可以表示为:

微软1bit LLM新研究:原生4bit激活值量化

最终,H-BitLinear的矩阵乘法运算可形式化表示为:

微软1bit LLM新研究:原生4bit激活值量化

其中LN表示层归一化(layer normalization)操作。

另外,训练策略方面,研究人员用了STE来近似梯度,还采用混合精度训练更新参数。在反向传播的时候,会绕过量化里那些不可微函数,并且利用Hadamard变换矩阵的正交性,对梯度也进行变换。

团队还表示,4 bit激活的BitNet v2可以从8 bit激活的版本接着训练,用少量数据微调就行,性能损失基本可以忽略不计,优化器的状态还能接着用。

4bit激活版本相比8bit激活性能几乎不降

实验阶段,研究者将BitNet v2与BitNet b1.58、BitNet a4.8在不同模型规模(400M、1.3B、3B和7B)上进行了对比,所有模型都使用1.58bit权重训练

主要实验结果显示,引入Hadamard变换的BitNet v2(8 bit激活)相比BitNet b1.58在各规模模型上都有所提升,在7B规模上,平均准确率提高了0.61%。

微软1bit LLM新研究:原生4bit激活值量化

当降至4 bit激活时,BitNet v2的困惑度与BitNet a4.8相当,下游任务表现甚至更优。

研究者还对BitNet v2进行了低bit注意力状态的详细实验,采用后RoPE量化处理QKV状态。采用3 bit KV缓存的BitNet v2在3B、7B模型上达到了与全精度KV缓存版本相当的准确率:

微软1bit LLM新研究:原生4bit激活值量化

与后训练量化方法SpinQuant、QuaRot相比较,BitNet v2表现更优:

微软1bit LLM新研究:原生4bit激活值量化

消融实验则进一步验证了Hadamard变换对低bit激活的关键作用,没有旋转变换则模型会发散。

微软1bit LLM新研究:原生4bit激活值量化

更多研究细节,感兴趣的童鞋可以查看原论文。

论文链接:https://arxiv.org/pdf/2504.18415

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/9547.html

(0)
人脑网的头像人脑网
上一篇 2025年4月29日 下午3:26
下一篇 2025年4月29日 下午3:28

相关推荐

  • 人类一生所学不过4GB,加州理工顶刊新研究引热议

    24小时不间断学习且不遗忘,一辈子也只有4GB的“知识储量”? 科学家们最新研究,计算出了人类学习积累上限,就这么多~~(甚至还不如一块U盘能装)。 这是来自Cell旗下神经科学顶刊Neuron上的一项工作,它提出了一个发人深省的悖论: 由此,按照每秒10bit的速度来算,人类24小时不间断学习且不遗忘,100年储存的知识也不过4GB。 什么概念呢?来和大模…

    2025年4月14日
    1400
  • 全球首个Linux开发本:50TOPS算力,DeepSeek已配好,可随地开发

    不是你以为的AI PC,全球首个算力本——AIBOOK,它来了! 要说跟AI PC最大的区别,那就是AIBOOK它内嵌的系统,就是程序员们搞开发最爱的Linux。 而也因如此,它同时还解锁了“全球首个基于Linux的开发本”的头衔。 当然,若是想用Windows搞开发,也可以一键切换云桌面,甚至可以通过Android容器支持安卓开发哦~ 最重要的是,在它50…

    2025年4月12日
    2200
  • 挤爆字节服务器的Agent到底啥水平?一手实测来了

    “字节版Manus”有多能打?量子位实测在此。 △扣子智能体生成的活动介绍网页 我们用光了一天的对话额度,考验了扣子空间(Coze Space)的信息整理、任务执行、工具调用等多项技能。 结果,仍处在早期测试中的扣子空间整体表现已经相当惊艳,在自主任务规划和资料搜集方面表现不错,已经具备解决很多真实任务的潜力。 不过在指令遵循方面,还是比较“有自己的想法”。…

    2025年4月23日
    600
  • 4090玩转大场景几何重建,RGB渲染和几何精度达SOTA

    仅用4090就能实现大规模城市场景重建 高效几何重建新架构CityGS-X来了,通过一种新型并行化混合分层三维表征架构(PH²-3D)的可扩展系统,突破了传统三维重建在算力消耗和几何精度上的限制。 算力瓶颈无处不在,当前3D高斯泼溅技术虽取得显着进展,却仍面临三大核心挑战:处理速度缓慢、计算成本高昂、几何精度有限 来自上海AI Lab和西工大的研究团队认为,…

    2025年4月14日
    1700
  • 智能车速度刷新:仅10个月,首个纯端侧大模型上车量产!

    端侧大模型圈子的《速度与激情》,就这么水灵灵地上演了。 坐标上海车展,在长安马自达新车发布之际,车上的智能座舱竟然成了大亮点之一。 因为速度着实有点太快——从零到量产,只花了10个月的时间! 要知道,这件事儿在汽车领域里面,一般都是要按“年”这个单位来计算。 此举可谓是一鸣惊人,一举刷新行业纪录,一步迈进了“月”的计量单位。 而且啊,搞出这件事的,还是车圈的…

    2025年4月25日
    500

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信