不用等R2了!第三方给新版DeepSeek V3添加深度思考

DeepSeek即将发布R2??坊间传闻越来越多了,且难辨真假

1.2T万亿参数,5.2PB训练数据,高效利用华为芯片……只能说如果有一半是真的都很牛了。

不用等R2了!第三方给新版DeepSeek V3添加深度思考

HuggingFace创始人此时推荐“以不变应万变”,打开官方认证账号的更新提醒,就能第一时间获取通知。

不用等R2了!第三方给新版DeepSeek V3添加深度思考

抛开具体泄露数据是否准确,大家似乎有一个共识:如果真的有R2,它的基础模型会是新版DeepSeek V3-0324

之所以有很多人相信R2会在4月底发布,有一部分原因也是出于R1与V3之间相隔了一个月左右。

现在,等不及DeepSeek官方,开源社区已经开始自己动手给V3-0324加入深度思考了

不用等R2了!第三方给新版DeepSeek V3添加深度思考

新模型DeepSeek-R1T-Chimera,能力与原版R1相当,但速度更快,输出token减少40%,也是基于MIT协议开放权重。

相当于拥有接近R1的能力和接近V3-0324的速度,结合了两者的优点。

不用等R2了!第三方给新版DeepSeek V3添加深度思考

而且做到这一点,不是靠微调或蒸馏,而是DeepSeek V3-0324和R1两个模型融合而成。

R1+V3融合模型

新模型R1T-Chimera并非DeepSeek官方出品,而是来自德国团队TNG Technology Consulting

不用等R2了!第三方给新版DeepSeek V3添加深度思考

该团队此前也探索过可调专家混合(MoTE)方法, 让DeepSeek-R1在推理部署时可以改变行为。

不用等R2了!第三方给新版DeepSeek V3添加深度思考

新的R1T-Chimera模型权重可在HuggingFace下载,也可以在OpenRouter免费在线试玩。

目前已知是选用了V3-0324的共享专家+R1与V3-0324的路由专家的混合体融合而来。

不用等R2了!第三方给新版DeepSeek V3添加深度思考

TNG团队表示最终结果令人惊讶,不仅没有表现出融合模型的缺陷,相反,思考过程还比原版R1更紧凑有序。

不用等R2了!第三方给新版DeepSeek V3添加深度思考

暂没有技术报告或更详细的模型融合方法公布,要验证它是否符合描述,就只能拉出来试一试了。

我们选用最新折磨AI的难题“7米长的甘蔗如何通过2米高1米宽的门?”

原版R1思考了13秒就下了结论;R1T Chimera在这里却足足思考了101秒,最终计算出可以通过。

虽然还是无法像人类一样直观的理解三维空间,让甘蔗与门的平面垂直就可通过,但依然通过计算夹角与投影得出了结论。

不用等R2了!第三方给新版DeepSeek V3添加深度思考

在这100秒时间里R1T-Chimera如何一步步思考出答案呢?

展开推理token可以发现,在简单计算二维方案不可行后,它就已经想到了三维方案。

不用等R2了!第三方给新版DeepSeek V3添加深度思考

后面依然陷入了各种误区,在旋转甘蔗、弯曲甘蔗、计算“门的厚度”上走了弯路。

不用等R2了!第三方给新版DeepSeek V3添加深度思考

最终通过“揣摩出题人心理”走进正确的路线。

不用等R2了!第三方给新版DeepSeek V3添加深度思考

最终给出的答案非常严谨了。

虽然人类直觉上就能想出把甘蔗垂直起来通过这个方法,但仔细一想,题目中确实没有给出“门后有多少空间这个条件”。

不用等R2了!第三方给新版DeepSeek V3添加深度思考

细还是AI细。

关于R1T-Chimera的更多细节,大家还在等TNG团队消息和更多第三方基准测试结果。

不用等R2了!第三方给新版DeepSeek V3添加深度思考

不过也有人注意到,KIMI K1.5技术报告中也探索了模型融合方法。

具体来说是把长思维链(long-cot)模型和短思维链(short-cot)模型融合,直接对两个模型的权重取平均值,获得一个新模型,无需重新训练。

不用等R2了!第三方给新版DeepSeek V3添加深度思考

不过在实验中,这种简单融合方法表现并不如这篇论文中提出的Long2short强化学习方法。

不用等R2了!第三方给新版DeepSeek V3添加深度思考

另一个在模型融合上有经验的团队是Transformer作者Llion Jones创办的Sakana AI。

早在24年初就结合进化算法提出以block为单位融合的方法。

不用等R2了!第三方给新版DeepSeek V3添加深度思考

随着更多团队跟进这一路线,模型融合会不会成为2025年大模型的一大技术趋势呢?欢迎在评论区留下你的看法。

HuggingFace:
https://huggingface.co/tngtech/DeepSeek-R1T-Chimera

在线试玩:
https://openrouter.ai/tngtech/deepseek-r1t-chimera:free

参考链接:
[1]https://x.com/tngtech/status/1916284566127444468

主题测试文章,只做测试使用。发布者:人脑网,转转请注明出处:https://www.rennao.com.cn/9568.html

(0)
人脑网的头像人脑网
上一篇 2025年4月29日 下午3:28
下一篇 2025年4月29日 下午3:29

相关推荐

  • 从设计默认值开始,给用户和产品带来更好的用户体验

    默认值是你的数字产品的默认基准设定值,这些填充设置的默认值虽然常常不多,但是换个角度来看,它更像是是设计师为设计作出一些基本的“决定”,帮助用户更快的让产品运行起来,上手使用。默认值对于产品和用户而言很重要,今天的文章,我们将会探讨设计师要如何设置默认值的样式、交互和字段细节,确保给用户和产品都能带来更好的用户体验。

    2017年4月17日
    1503
  • 百度阮瑜:大模型应用落地正从简单高容错向复杂低容错场景延伸

    现在,不论你是去吃火锅,亦或是去趟医院,或许身边已经布满了AI。 这,就是当下大模型应用的发展趋势—— AI技术正以惊人的速度从实验室走向千行百业,深刻改变着各个领域的发展格局。 近期百度副总裁阮瑜在量子位举办的第三届AIGC产业峰会上,围绕着“万物皆可AI”的主题分享了百度在AIGC以及 AI 应用方面的新尝试和探索。 △百度副总裁阮瑜 为了完整体现阮瑜的…

    2025年4月24日
    1100
  • 最强视觉生成模型获马斯克连夜关注,吉卜力风格转绘不需要GPT了

    “史上最强视觉生成模型”,现在属于快手。 一基双子的可灵AI基础模型——文/图生图的可图、文/图生视频的可灵,都重磅升级到2.0版本。 可图2.0,对比MidJourney 7.0,胜负比「(good+same) / (same+bad)」超300%,对比FLUX超过150%; 可灵2.0,文生视频对比Sora胜负比超360%,图生视频对比谷歌Veo2胜负比…

    2025年4月18日
    900
  • 整整157页,比尔盖茨亲自公开微软起家的源代码:Altair Basic

    一段时隔整整50年的源代码,更是让微软这家科技巨头起家的源代码,正式被公开了—— Altair Basic,整整157页,由比尔盖茨亲自撰文发布。 在文章的开头,比尔盖茨对于这段代码做了这样的高度总结: 毕竟涉及Basic这门古早编程语言,以及个人计算机的发展源头,网友们在看到比尔盖茨的分享之后,也是感慨不已。 有人这样点评到: 也有与现在AI大模型结合的感…

    2025年4月6日
    1900
  • 微软开源“原生1bit”三进制LLM:2B参数,0.4GB内存/单CPU就能跑

    微软以小搏大,发布首个开源2B参数规模“原生1bit”LLM—— BitNet b1.58 2B4T,单CPU就能跑,性能与同规模全精度开源模型相当。 它采用三进制{-1, 0, 1}存储权重,相较于传统的16位浮点数可大幅降低显存需求。 只需0.4GB内存即可运行。 基于4T token语料训练,BitNet b1.58 2B4T在保持性能的同时,计算效率…

    2025年4月21日
    1200

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信