不用等R2了！第三方给新版DeepSeek V3添加深度思考

人脑网 • 2025年4月29日下午3:28 • 智能 • 阅读 4

DeepSeek即将发布R2？？坊间传闻越来越多了，且难辨真假。

1.2T万亿参数，5.2PB训练数据，高效利用华为芯片……只能说如果有一半是真的都很牛了。

HuggingFace创始人此时推荐“以不变应万变”，打开官方认证账号的更新提醒，就能第一时间获取通知。

抛开具体泄露数据是否准确，大家似乎有一个共识：如果真的有R2，它的基础模型会是新版DeepSeek V3-0324。

之所以有很多人相信R2会在4月底发布，有一部分原因也是出于R1与V3之间相隔了一个月左右。

现在，等不及DeepSeek官方，开源社区已经开始自己动手给V3-0324加入深度思考了。

新模型DeepSeek-R1T-Chimera，能力与原版R1相当，但速度更快，输出token减少40%，也是基于MIT协议开放权重。

相当于拥有接近R1的能力和接近V3-0324的速度，结合了两者的优点。

而且做到这一点，不是靠微调或蒸馏，而是DeepSeek V3-0324和R1两个模型融合而成。

R1+V3融合模型

新模型R1T-Chimera并非DeepSeek官方出品，而是来自德国团队TNG Technology Consulting。

该团队此前也探索过可调专家混合（MoTE）方法，让DeepSeek-R1在推理部署时可以改变行为。

新的R1T-Chimera模型权重可在HuggingFace下载，也可以在OpenRouter免费在线试玩。

目前已知是选用了V3-0324的共享专家+R1与V3-0324的路由专家的混合体融合而来。

TNG团队表示最终结果令人惊讶，不仅没有表现出融合模型的缺陷，相反，思考过程还比原版R1更紧凑有序。

暂没有技术报告或更详细的模型融合方法公布，要验证它是否符合描述，就只能拉出来试一试了。

我们选用最新折磨AI的难题“7米长的甘蔗如何通过2米高1米宽的门？”。

原版R1思考了13秒就下了结论；R1T Chimera在这里却足足思考了101秒，最终计算出可以通过。

虽然还是无法像人类一样直观的理解三维空间，让甘蔗与门的平面垂直就可通过，但依然通过计算夹角与投影得出了结论。

在这100秒时间里R1T-Chimera如何一步步思考出答案呢？

展开推理token可以发现，在简单计算二维方案不可行后，它就已经想到了三维方案。

后面依然陷入了各种误区，在旋转甘蔗、弯曲甘蔗、计算“门的厚度”上走了弯路。

最终通过“揣摩出题人心理”走进正确的路线。

最终给出的答案非常严谨了。

虽然人类直觉上就能想出把甘蔗垂直起来通过这个方法，但仔细一想，题目中确实没有给出“门后有多少空间这个条件”。

细还是AI细。

关于R1T-Chimera的更多细节，大家还在等TNG团队消息和更多第三方基准测试结果。

不过也有人注意到，KIMI K1.5技术报告中也探索了模型融合方法。

具体来说是把长思维链（long-cot）模型和短思维链（short-cot）模型融合，直接对两个模型的权重取平均值，获得一个新模型，无需重新训练。

不过在实验中，这种简单融合方法表现并不如这篇论文中提出的Long2short强化学习方法。

另一个在模型融合上有经验的团队是Transformer作者Llion Jones创办的Sakana AI。

早在24年初就结合进化算法提出以block为单位融合的方法。

随着更多团队跟进这一路线，模型融合会不会成为2025年大模型的一大技术趋势呢？欢迎在评论区留下你的看法。

HuggingFace：
https://huggingface.co/tngtech/DeepSeek-R1T-Chimera

在线试玩：
https://openrouter.ai/tngtech/deepseek-r1t-chimera:free

参考链接：
[1]https://x.com/tngtech/status/1916284566127444468

主题测试文章，只做测试使用。发布者：人脑网，转转请注明出处：https://www.rennao.com.cn/9568.html

赞 (0)

0 0

RAG性能暴增20%！清华等推出以笔记为中心的深度检索增强生成框架

上一篇 2025年4月29日下午3:28

美国T-Mobile宣布推出全国性5G SA网络

下一篇 2025年4月29日下午3:29

智能

从设计默认值开始，给用户和产品带来更好的用户体验

默认值是你的数字产品的默认基准设定值，这些填充设置的默认值虽然常常不多，但是换个角度来看，它更像是是设计师为设计作出一些基本的“决定”，帮助用户更快的让产品运行起来，上手使用。默认值对于产品和用户而言很重要，今天的文章，我们将会探讨设计师要如何设置默认值的样式、交互和字段细节，确保给用户和产品都能带来更好的用户体验。

人脑网
2017年4月17日
150336
智能

百度阮瑜：大模型应用落地正从简单高容错向复杂低容错场景延伸

现在，不论你是去吃火锅，亦或是去趟医院，或许身边已经布满了AI。这，就是当下大模型应用的发展趋势—— AI技术正以惊人的速度从实验室走向千行百业，深刻改变着各个领域的发展格局。近期百度副总裁阮瑜在量子位举办的第三届AIGC产业峰会上，围绕着“万物皆可AI”的主题分享了百度在AIGC以及 AI 应用方面的新尝试和探索。 △百度副总裁阮瑜为了完整体现阮瑜的…

人脑网
2025年4月24日
11000
智能

最强视觉生成模型获马斯克连夜关注，吉卜力风格转绘不需要GPT了

“史上最强视觉生成模型”，现在属于快手。一基双子的可灵AI基础模型——文/图生图的可图、文/图生视频的可灵，都重磅升级到2.0版本。可图2.0，对比MidJourney 7.0，胜负比「(good+same) / (same+bad)」超300%，对比FLUX超过150%；可灵2.0，文生视频对比Sora胜负比超360%，图生视频对比谷歌Veo2胜负比…

人脑网
2025年4月18日
9000
智能

整整157页，比尔盖茨亲自公开微软起家的源代码：Altair Basic

一段时隔整整50年的源代码，更是让微软这家科技巨头起家的源代码，正式被公开了—— Altair Basic，整整157页，由比尔盖茨亲自撰文发布。在文章的开头，比尔盖茨对于这段代码做了这样的高度总结：毕竟涉及Basic这门古早编程语言，以及个人计算机的发展源头，网友们在看到比尔盖茨的分享之后，也是感慨不已。有人这样点评到：也有与现在AI大模型结合的感…

人脑网
2025年4月6日
19000
智能

微软开源“原生1bit”三进制LLM：2B参数，0.4GB内存/单CPU就能跑

微软以小搏大，发布首个开源2B参数规模“原生1bit”LLM—— BitNet b1.58 2B4T，单CPU就能跑，性能与同规模全精度开源模型相当。它采用三进制{-1, 0, 1}存储权重，相较于传统的16位浮点数可大幅降低显存需求。只需0.4GB内存即可运行。基于4T token语料训练，BitNet b1.58 2B4T在保持性能的同时，计算效率…

人脑网
2025年4月21日
12000

发表回复

联系我们

400-800-8888

在线咨询： QQ交谈

邮件：admin@example.com

工作时间：周一至周五，9:30-18:30，节假日休息

关注微信