小米首个推理大模型突然开源!股价上涨近5%

小米首个推理大模型突然开源!股价上涨近5%
人脑网
作者 ZeR0
编辑 漠影

人脑网4月30日报道,今日,小米开源其首个推理大模型Xiaomi MiMo。其中经强化学习训练形成的MiMo-7B-RL,在数学推理(AIME 24-25)和代码竞赛(LiveCodeBench v5)公开测评集上,仅用7B参数量,得分超过了OpenAI的闭源推理模型o1-mini和阿里Qwen开源推理模型QwQ-32B-Preview。

小米首个推理大模型突然开源!股价上涨近5%

在相同强化学习训练数据情况下,MiMo-7B-RL在数学和代码推理任务上均表现出色,分数超过DeepSeek-R1-Distill-7B和Qwen2.5-32B。

小米首个推理大模型突然开源!股价上涨近5%
MiMo是新成立不久的小米大模型Core团队的初步尝试,4款MiMo-7B模型(基础模型、SFT模型、基于基础模型训练的强化学习模型、基于SFT模型训练的强化学习模型)均开源至Hugging Face。代码库采用Apache2.0许可证授权。

小米首个推理大模型突然开源!股价上涨近5%

小米首个推理大模型突然开源!股价上涨近5%

开源地址:https://huggingface.co/XiaomiMiMo

小米大模型Core团队已公开MiMo的26页技术报告。

小米首个推理大模型突然开源!股价上涨近5%

技术报告地址:https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf

受此消息提振,截至午间休市,小米集团今日股价上涨4.74%,总市值1.29万亿港元(约合人民币1.21万亿元)。

小米首个推理大模型突然开源!股价上涨近5%

一、预训练+后训练,联动提升推理能力

MiMo系列模型从零开始训练,其推理能力的提升由预训练和后训练阶段中数据和算法等多层面的创新联合驱动,包括:

预训练:核心是让模型见过更多推理模式

  • 数据:着重挖掘富推理语料,并合成约200B tokens推理数据。

小米首个推理大模型突然开源!股价上涨近5%

  • 训练:采用三阶段数据混合策略,逐步提升训练难度,MiMo-7B-Base在约25T tokens上进行预训练;受DeepSeek-V3启发,将多token预测作为额外的训练目标,以增强模型性能并加速推理。

小米首个推理大模型突然开源!股价上涨近5%

▲使用MiMo-7B实现多token预测:在预训练期间使用单个MTP层,推理阶段可使用多个MTP层以获得额外的加速

后训练:核心是高效稳定的强化学习算法和框架

  • 算法:提出Test Difficulty Driven Reward来缓解困难算法问题中的奖励稀疏问题,并引入Easy Data Re-Sampling 策略,以稳定强化学习训练。
  • 数据:精选了13万道数学和代码题作为强化学习训练数据,可供基于规则的验证器进行验证。每道题都经过仔细的清理和难度评估,以确保质量。仅采用基于规则的准确率奖励机制,以避免潜在的奖励黑客攻击。
  • 框架:设计了Seamless Rollout系统,集成了连续部署、异步奖励计算和提前终止功能,以最大限度地减少GPU空闲时间,使得强化学习训练加速2.29倍,验证加速1.96倍。

小米首个推理大模型突然开源!股价上涨近5%

▲MiMo-7B-RL Seamless Rollout引擎概览

二、7B强化学习模型,性能超过阿里32B模型和OpenAI o1-mini

小米大模型Core团队将MiMo-7B-Base与Llama-3.1-8B、Gemma-2-9B、Qwen2.5-7B等规模相当的开源基础模型进行了比较,所有模型评估都共享相同的评估设置。

结果如图所示,MiMo-7B-Base在所有基准和评估的k值取得了高于其他对比模型的pass@k分数。随着k增加,MiMo-7B-Base与其他模型的分数差距稳步拉大,特别是在LiveCodeBench上。

小米首个推理大模型突然开源!股价上涨近5%

在评估语言推理模型的BBH基准测试上,MiMo-7B-Base的分数为75.2分,比Qwen2.5-7B高出近5分。SuperGPQA基准测试结果展示出MiMo-7B-Base在解决研究生水平问题方面的出色表现。在阅读理解基准测试DROP上,该模型的表现优于其他对比模型。

小米首个推理大模型突然开源!股价上涨近5%

在代码和数学推理任务中,MiMo-7B-Base的多项分数超过Llama-3.1-8B、Gemma-2-9B。

MiMo-7B-Base在支持的32K上下文长度内实现了近乎完美的NIAH检索性能,并在需要长上下文推理的任务中表现出色,多数情况下分数都超过了Qwen2.5-7B。这些结果验证了其在预训练期间将多样化数据与高质量推理模式相结合的策略的有效性。

小米首个推理大模型突然开源!股价上涨近5%

▲RULER上的长上下文理解结果

MiMo-7B-RL在多项通用基准测试接近或超过拥有32B参数规模的QwQ-32B Preview模型,数学和代码性能更是全面领先。

小米首个推理大模型突然开源!股价上涨近5%

在数学基准测试AIME 2025测试、代码基准测试LiveCodeBench v6中,MiMo-7B-RL的得分均超过OpenAI o1-mini。

MiMo-7B系列4款大模型的多项数学和代码测试对比如下:

小米首个推理大模型突然开源!股价上涨近5%

结语:今年大模型的三大热点,MiMo一举覆盖

今年,在DeepSeek爆红后,开源和推理迅速成为大模型领域的热门风向。如今低调许久的小米也正式加入这一战局。

作为国产手机头部企业之一,小米这次开源的四款模型参数规模只有7B,小到可以满足在端侧设备上本地运行的需求,贴合了大模型的另一大趋势——从卷参数规模转向追求经济高效。

通过在预训练和后训练过程中的多项创新联动,MiMo-7B-Base在数学、代码和通用任务上都展现了出色的推理能力。这项研究可以为开发更强大的推理模型提供参考。

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/9983.html

(0)
人脑网的头像人脑网
上一篇 2025年4月30日 下午3:28
下一篇 2025年4月30日 下午3:33

相关推荐

  • 曝国产Agent黑马完成超5亿融资!估值暴增5倍,将扩大海外市场

    人脑网编译 程茜编辑 心缘 人脑网4月25日消息,据彭博社今日报道,Manus的母公司蝴蝶效应(Butterfly Effect)被曝完成7500万美元(折合人民币约5.5亿元)新融资,由硅谷风投公司Benchmark领投,投后估值被曝增长约5倍,达到近5亿美元(折合人民币约36.4亿元)。 3月6日,Manus以“全球首个通用AI Agent”的称号横空出…

    2025年4月25日
    600
  • 六足机器狗“上岗”守卫千年古建筑,联想集团用AI助力文化遗产保护

    人脑网作者 ZeR0编辑 漠影 人脑网4月23日报道,今日,“AI智慧应县木塔2.0:具身智能X数字文遗升级路径研讨会”在清华大学建筑馆正式举办。会上,联想集团携手清华大学-故宫博物院文化遗产联合研究中心,正式开启智慧应县木塔项目2.0阶段,将具身智能机器人创新应用于文化遗产保护场景,共同探索具身智能在文化遗产保护场景下的创新应用。 应县木塔全称为佛宫寺释迦…

    2025年4月24日
    900
  • Nature公布21世纪高被引论文,何恺明的ResNet登顶

    人脑网编译 陈家阳编辑 漠影 人脑网4月17日报道,近日,Nature杂志对21世纪以来引用次数最多的25篇论文进行了分析,揭示出一个有趣的现象:在科学界,讲述方法和软件的论文比着名的科学发现更常被引用,这些论文主要集中在人工智能(AI)、研究方法或综述、癌症统计和软件研究等领域。 特别值得关注的是,于2016年发表的《应用于图像识别中的深度残差学习(Dee…

    2025年4月18日
    1000
  • 古尔曼打脸爆料:苹果没有放弃智能眼镜,仍在推进,或取消AR功能

    人脑网编译 王涵编辑 漠影 人脑网4月28日消息,知名苹果爆料人、彭博社记者马克·古尔曼(Mark Gurman)再爆猛料,虽两次叫停AR眼镜项目但苹果并没有放弃智能眼镜项目,仍在持续推进研发工作。 据悉,这款眼镜将搭载苹果智能系统(Apple Intelligence),具备“分析周边环境并向佩戴者反馈信息”的功能,或将对标Ray-Ban Meta智能眼镜…

    2025年4月29日
    800
  • 对话润和软件马超:全栈国产化+软硬一体,加速企业AI场景落地

    人脑网作者 ZeR0编辑 漠影 “人工智能的发展,不应该是让人类被取代,而是让人类拥有更好的工具去解决问题。”这句看似简单的话语,却道出了人工智能发展的真正意义。 近年来ChatGPT的横空出世将AI浪潮推向了新的高度,今年伊始,DeepSeek模型的出现更让众多企业看到了将AI技术从“尝鲜”转变为快速落地赋能业务的新机遇。然而高昂的成本、复杂的部署流程、技…

    2025年4月15日
    1700

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信