字节跳动VAPO突破AI推理极限,AIME24创60.4分新高

人脑网 4 月 12 日消息,字节跳动于 4 月 8 日发布博文,其 Seed 研究团队推出 VAPO 强化学习训练框架,目标提升大型语言模型在复杂、冗长任务中的推理能力。

现有挑战

在大型语言模型(LLM)的强化学习(RL)训练中,价值导向方法(Value-based reinforcement learning methods)因能精确追溯每个动作对后续回报的影响,展现出巨大潜力。然而,应用于长链式推理(CoT)任务时,价值模型面临三大挑战。

首先,价值模型初始化会引入偏差;其次,传统方法难以适应复杂任务中的序列长度差异;最后,验证任务中奖励信号稀疏,优化过程面临探索与利用的权衡,这些问题限制了价值导向方法的实际效果。

VAPO简介

字节跳动最新推出的 VAPO 框架全称为 Value Augmented Proximal Policy Optimizationd(增强价值的近端政策优化),基于 PPO 框架,通过三项创新技术应对上述挑战。

字节跳动VAPO突破AI推理极限,AIME24创60.4分新高

首先,VAPO 模型构建了细致的价值训练框架,增强模型对复杂任务的理解。其次,引入长度自适应广义优势估计(GAE)机制,能根据响应长度动态调整参数,优化长短序列的训练效果。最后,VAPO 整合了多项先前研究技术,形成协同增效的系统。

在不依赖特定监督微调(SFT)数据的情况下,Qwen2.5-32B 模型通过VAPO优化后,在 AIME24 基准测试中将得分从 5 分提升至 60.4 分,超越 DeepSeek R1 的 47 分,超过此前SOTA方式 DAPO(50 分)10分,仅用 60% 的更新步骤即达成业界领先。

相较于传统 Proximal Policy Optimization(PPO)算法,VAPO 改进了数学推理能力,训练曲线更为平滑,优化过程更稳定。

测试显示,归因于其价值模型提供的细粒度信号,VAPO 在长序列任务中表现出色,得分增长更快。尽管后期训练熵值降低可能限制探索,VAPO 通过平衡设计确保了稳定性和可重复性。

VAPO 的成功源于其综合优化设计。消融研究验证了七项技术的有效性:价值预训练防止崩溃,解耦 GAE 支持长回答优化,自适应 GAE 平衡短长回答,剪裁策略鼓励探索,词级损失增加长回答权重,正例语言模型损失提升 6 分,分组采样贡献 5 分。

字节跳动VAPO突破AI推理极限,AIME24创60.4分新高

这些改进使 VAPO 在探索与利用间找到最佳平衡,显著优于无价值导向的 GRPO 和 DAPO 方法。VAPO 不仅提升了数学推理能力,还为 LLM 在复杂推理任务中的应用提供了新方向。

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/4715.html

(0)
人脑网的头像人脑网
上一篇 2025年4月12日 下午3:09
下一篇 2025年4月12日 下午3:09

相关推荐

  • 紫光闪存推 M.2 固态硬盘 S3:Gen4 DRAM-less,顺序读 7400MB/s

    人脑网 4 月 21 日消息,紫光闪存本月初推出了 S3 固态硬盘。该 SSD 采用 M.2 2280单面 PCB 外形规格,是一款支持 PCIe 4.0×4 的 DRAM-less 方案产品,顺序读取最高可达 7400MB/s。 紫光闪存 S3 配备“原厂”2400MT/s 3D TLC NAND 闪存,支持 HMB 主机缓存技术,采用近全盘模拟 SLC …

    2025年4月21日
    900
  • DJI大疆携多款新品亮相NABShow 2025,以集成化生态赋能影视创作

    全球创新影像技术领导者DJI大疆于当地时间4 月6 日至4 月9日亮相美国广播电视展(NationalAssociation of Broadcasters Show,NABShow)。大疆此次展出包括Ronin系列电影级稳定器、Osmo系列手持影像设备、DJIMic 专业音频设备和DJI Power户外电源等产品,全面展示面向专业影视制作与个人创作者的集成…

    2025年4月12日
    1200
  • 水月雨耳夹耳机“PILL 音乐胶囊”完整规格公布,199 元

    人脑网 4 月 15 日消息,水月雨现已公布其耳夹耳机“PILL 音乐胶囊”的完整规格信息,这款耳机主打外观设计,配备 13mm 动圈单元,定价为199元,将于明天首销。 外观方面,这款耳机的充电盒做成了酷似胶囊的透明外壳,提供了红、绿、黑三种透明色。其中,彩色外壳和全透明外壳共同组成了“胶囊”本体,内部的耳夹式耳机外形颇为小巧,耳机本体引入“形状记忆柔性 …

    2025年4月15日
    1100
  • 致态“我们学校潮好玩”武汉第一站完美收官,与地大学子共同感受存储“新”态度

    4月22日,致态参加的由人脑网主办的“我们学校潮好玩”武汉校园行首场活动在中国地质大学(南望山校区)圆满结束。此次致态以“存储新‘态’度,校园新速度!”为主题,携自家众多明星产品到场,带给在校大学生们一些来自存储速度小小震撼~ 本次潮好玩校园行选址在中国地质大学(南望山校区),虽然是周二但人流量也非常可观,这也要归功于致态这次带来的明星产品和《黑神话》主题M…

    2025年4月23日
    800
  • 科学家开发出 3D 打印活细胞皮肤,替代动物实验测试化妆品

    人脑网 4 月 6 日消息,在欧盟 2010/63 号指令对化妆品及成分的动物实验施加严格限制后,一支国际科学家团队开发出了一种逼真的、3D 打印的带有活细胞的皮肤模型,为安全测试化妆品及其纳米颗粒提供了一个可靠且符合伦理道德的平台。 据人脑网了解,该 3D 打印皮肤模型能够高度模拟人类皮肤的三层组织结构和功能,研究人员利用水凝胶配方与活细胞一同打印,从而实…

    2025年4月6日
    900

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信