微软开源“原生1bit”三进制LLM:2B参数,0.4GB内存/单CPU就能跑

微软以小搏大,发布首个开源2B参数规模“原生1bit”LLM——

BitNet b1.58 2B4T,单CPU就能跑,性能与同规模全精度开源模型相当。

微软开源“原生1bit”三进制LLM:2B参数,0.4GB内存/单CPU就能跑

它采用三进制{-1, 0, 1}存储权重,相较于传统的16位浮点数可大幅降低显存需求。

只需0.4GB内存即可运行。

基于4T token语料训练,BitNet b1.58 2B4T在保持性能的同时,计算效率突出。

单个CPU即可达到“与人类阅读速度”相当的速度,每秒5-7个token,CPU端解码延迟29ms,能耗低至0.028J。

这种效率使其可在普通笔记本电脑甚至边缘设备上实时运行。

例如在苹果M2 CPU上快速运行:

微软开源“原生1bit”三进制LLM:2B参数,0.4GB内存/单CPU就能跑

另外值得一提的是,BitNet b1.58 2B4T具有原生训练优势,与训练后量化(PTQ)模型对比,避免了PTQ常见的性能衰减

BitNet b1.58 2B4T刚发布就吸引了大量网友点赞关注,作者们也当起了自己个儿的自来水。

微软开源“原生1bit”三进制LLM:2B参数,0.4GB内存/单CPU就能跑

如何实现原生1bit?话不多说,一起来看看技术详情。

权重映射为三元值{-1, 0, +1}

BitNet b1.58 2B4T模型基于Transformer架构,对核心组件进行了系统性改造。
传统LLM依赖16bit或32bit浮点数存储权重,而BitNet b1.58 2B4T采用一种称为absmean的量化方案,将权重映射为三元值{-1, 0, +1},平均每个权重仅需1.58bit(log₂3≈1.58)来表示。

模型内存占用骤降至0.4GB,仅为同类全精度模型的1/5-1/12。

微软开源“原生1bit”三进制LLM:2B参数,0.4GB内存/单CPU就能跑

另外,线性投影中的激活值被量化为8bit整数,采用基于每token的absmax量化策略,团队还引入subln归一化,增强量化训练稳定性。

其它关键设计包括:

  • 激活函数:前馈网络(FFN)子层采用ReLU²替代常见的SwiGLU,通过提升模型稀疏性,优化了1bit环境下的计算特性。
  • 位置编码:使用旋转位置嵌入(RoPE)。
  • 偏置消除:与Llama等架构一致,所有线性层和归一化层均移除偏置项,减少参数量并简化量化流程。

训练方面,BitNet b1.58 2B4T采用三阶段训练:大规模预训练监督微调(SFT)和直接偏好优化(DPO)。

先是大规模预训练,模型经历了两阶段学习率调度:得益于1bit模型的训练稳定性,初期采用高学习率快速收敛;中期骤降至低水平,使模型能在高质量数据上精细化调整。配合动态权重衰减策略,模型在保持泛化能力的同时避免过拟合。

监督微调(SFT)阶段,值得注意的是,训练中采用损失函数求和而非平均策略,并延长了训练轮次,这一调整被证明对低精度模型的收敛至关重要。

直接偏好优化(DPO)阶段,基于UltraFeedback、MagPie等人类偏好数据集,模型通过无奖励模型的直接优化,提升了回答的安全性与用户满意度,避免了传统RLHF的高计算成本。

实验效果方面,BitNet b1.58 2B4T内存占用仅为0.4GB,CPU端解码延迟29ms,能耗低至0.028J。

在数学推理任务GSM8K中,BitNet以58.38的准确率远超Llama 3.2-1B(38.21)和Qwen2.5-1.5B(56.79);在常识推理任务WinoGrande中,BitNet 71.90的得分超同类模型均值(63.55)。

微软开源“原生1bit”三进制LLM:2B参数,0.4GB内存/单CPU就能跑

团队特别指出,BitNet b1.58 2B4T具有原生训练优势。与训练后量化(PTQ)模型对比,BitNet的原生1bit训练策略避免了PTQ常见的性能衰减。

微软开源“原生1bit”三进制LLM:2B参数,0.4GB内存/单CPU就能跑

参数更大的Llama3-8B模型量化至1bit后,也难打BitNet b1.58 2B4T。

和其它1bit模型相比,BitNet b1.58 2B4T也有显着更强的整体性能,绝大多数基准测试中取得SOTA。

微软开源“原生1bit”三进制LLM:2B参数,0.4GB内存/单CPU就能跑

有关BitNet b1.58 2B4T的具体表现,再来看几个例子。

让它生成几个笑话,笑话简短但也蛮有意思:

微软开源“原生1bit”三进制LLM:2B参数,0.4GB内存/单CPU就能跑

单CPU生成97个token,总耗时3.452秒,每秒处理 28.1 token。

再让它基于2000年的背景,让一位PowerPC处理器爱好者和一位英特尔处理器爱好者进行五行辩论。

BitNet b1.58 2B4T生成结果也很快,并且反映了那个时代科技行业的竞争特性。

微软开源“原生1bit”三进制LLM:2B参数,0.4GB内存/单CPU就能跑

微软在1 bit LLM上的探索

1 bit LLM的实现方法,微软其实早在2023年就有相关研究,当时就称为BitNet,用BitLinear替换了nn.Linear

微软开源“原生1bit”三进制LLM:2B参数,0.4GB内存/单CPU就能跑

微软开源“原生1bit”三进制LLM:2B参数,0.4GB内存/单CPU就能跑

之后,微软原班人马在上一篇论文的基础之上做了优化,提出BitNet b1.58,在原始BitNet的基础上增加了一个额外的0值

也就是“The Era of 1-bit LLMs”这篇论文,用6页研究引发网友广泛关注。

微软开源“原生1bit”三进制LLM:2B参数,0.4GB内存/单CPU就能跑

这种方法发布后,也有不少人在这项研究的基础之上进行探索。Huggingface Transformers还曾整合了BitNet b1.58,运用一些技巧,使得现有模型可以直接微调到1.58bit。

接着,微软还开发并开源了针对GPU和CPU平台的专用推理库

BitNet b1.58采用独特量化方案(1.58bit权重和8bit激活值,W1.58A8)需要专门的实现,标准深度学习库通常缺乏针对这种混合精度、低比特格式的优化内核,微软开发了专门针对W1.58A8矩阵乘法的自定义CUDA内核。

另外,微软还开源了bitnet.cpp——一个用于1 bit LLM CPU推理的官方参考C++库,提供针对标准CPU架构优化的内核,旨在高效适配模型的特定量化方案,尽可能避免通用量化库的开销或复杂的底层位操作。

技术报告:https://arxiv.org/abs/2504.12285
抱抱脸链接:https://huggingface.co/microsoft/bitnet-b1.58-2B-4T

参考链接:https://arstechnica.com/ai/2025/04/microsoft-researchers-create-super%e2%80%91efficient-ai-that-uses-up-to-96-less-energy/

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/7169.html

(0)
人脑网的头像人脑网
上一篇 2025年4月21日 下午4:05
下一篇 2025年4月21日 下午4:06

相关推荐

  • 中国初创芯片登Nature:比英伟达A10快500倍!自研光电混合技术

    来自国内的光电混合芯片技术,登上最新顶刊Nature! 这次的成果主要聚焦在了自主研发的光子计算处理器——PACE(Photonic Arithmetic Computing Engine)。 简单来说,PACE是一种基于光电混合的架构,它通过光执行矩阵向量乘法,可以实现超低延迟和高能效的计算。 根据论文中公开的数据显示,PACE在解决组合优化问题(如伊辛问…

    2025年4月14日
    1100
  • MSRA首席研究员刘炜清:为每位研究员提供AI科研助理

    编辑部 发自 凹非寺 2025,随着大语言模型技术的迅猛发展,数据科学领域正经历一场静默的革命。传统的特征工程、模型训练与迭代优化流程,正被智能化的研发助手所改变。 在第三届AIGC产业峰会上,微软亚洲研究院(MSRA)首席研究员刘炜清带来了一项引人瞩目的研究成果——RD-Agent,一个旨在“自动化、增强到重塑”数据科学研发流程的智能系统。 这项研究源于一…

    2025年4月25日
    800
  • DeepSeek前脚发新论文,奥特曼立马跟上:GPT-5就在几个月后啊

    有点意思。 这不DeepSeek前脚刚刚上新了一篇关于推理时Scaling Law的论文嘛,引得大家纷纷联想是不是R2马上要来了 然鹅……奥特曼这边却发了一条“变卦”的消息: 至于大家翘首以盼的GPT-5,奥特曼表示: 至于原因,奥特曼也做出了解释。 大概意思就是,顺利整合所有内容比他们想象的要困难得多,希望确保有足够的能力来支持预期的需求。 咱就是说啊,现…

    2025年4月6日
    1900
  • 1450亿!马斯克xAI与X合并后再寻资金,将成第二大初创企业单轮融资

    马斯克xAI与X合并后,又有新动向! 彭博社消息,马斯克正在为合并后的XAI Holding寻求一笔200亿美元(约1450亿人民币)的融资。 如果交易完成,新·XAI的估值将超过1200亿美元(约8745亿人民币)。 届时,这笔交易也将成为继OpenAI(400亿美元)之后史上第二大初创企业单轮融资。 马斯克筹钱还债 按照彭博社的说法,马斯克这次寻求融资的…

    2025年4月27日
    500
  • ICLR高分论文险遭拒,只因未引用「造假」研究???作者怒喷

    有在离谱。 高分论文因为没有引用先前的研究而被ICLR拒稿了?! 于是作者提起上诉,审稿主席们推翻之前的决定,最终论文被接收并选为Spotlight。 本以为这场闹剧就这么结束了。 没想到,诶,还牵出更离谱的事儿。 该论文的作者举报,所谓「先前的研究」本身有实验结果矛盾,甚至还涉嫌抄袭他们的成果,拿他们的论文当大模型语料用Claude生成论文等不当行为。但却…

    2025年4月14日
    1600

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信