本文作者:访客

20万张GPU!Grok-3,炸场

访客 2025-02-18 19:10:29 57393
20万张GPU!Grok-3,炸场摘要: 北京时间2月18日,马斯克旗下xAI公司推出最新大模型Grok-3,被马斯克称为“地球上最聪明的AI”。Grok-3在多...

北京时间2月18日,马斯克旗下xAI公司推出最新大模型Grok-3,被马斯克称为“地球上最聪明的AI”。

20万张GPU!Grok-3,炸场

Grok-3在多方面性能上超越或媲美现有竞争对手,包括Gemini、DeepSeek和ChatGPT。该模型在大量合成数据上训练,具备自我反思并删除错误数据的能力。

发布会直播观看人次超300万次,xAI面临来自全球AI领域的激烈竞争

xAI在X平台直播,马斯克到场

Grok-3性能要点如下(与OpenAI、DeepSeek对比)

全面卓越性能:Grok-3在推理、数学、学科知识和编程测试中均表现优异。

强大计算与高效训练:使用20万张GPU卡训练,计算能力大幅提升,训练效率极高。

高分测试表现:在AIME 2025性能测试中获93分,性能卓越。

多样化应用:可用于生成3D模型、制作游戏等,应用前景广泛。

便捷订阅与自我修正:提供“Super Grok”订阅服务,具备自我修正能力,能够反思并删除错误数据,提高可靠性。

与OpenAI对比:性能相当或略优,特别是在数学、科学、编程领域。推理能力各有千秋,OpenAI有“深度研究”产品。Grok-3应用场景更多样,包括3D模型生成和游戏制作。

与DeepSeek对比:计算能力和训练规模远超DeepSeek。在多项测试中成绩优于DeepSeek。生态布局和产业应用尚待拓展,与DeepSeek在医疗、消费电子等领域的布局相比

一、马斯克放大招!

“史上最聪明AI”Grok 3亮相,性能超ChatGPT、Gemini

北京时间2月18日中午,一场备受瞩目的人工智能盛会拉开帷幕,马斯克旗下的xAI公司正式发布了最新大模型Grok 3。

这一消息瞬间点燃了科技圈的热情,直播观看人次超300万次,发布会背景板上“our mission is to understand universe(我们的使命是了解宇宙)”的标语,彰显着xAI宏大的目标。

马斯克曾表示,xAI公司的目标就是“了解宇宙”,而Grok 3的发布,无疑是向着这一目标迈出的重要一步。

二、Grok 3,名字背后的深意

在发布会上,马斯克亲自解释了“Grok”的含义。

这个词源于罗伯特海因莱因的小说《异乡异客》,书中一个在火星长大的角色使用了这个词,它代表着充分而深刻地理解某事。“grok”所传达的深刻理解,以及其中蕴含的同理心,也正是xAI希望Grok 3所具备的特质。

三、性能飞跃,全面超越对手

xAI团队在直播中自信满满地展示了Grok 3的卓越性能。Grok 3和Grok 3 mini在数学、科学和编程基准测试上一骑绝尘,超越了所有主流模型,包括GPT - 4o、Claude 3.5 Sonnet、DeepSeek - V3和Gemini - 2 Pro等。

在大模型竞技场Chatbot Arena(LMSYS)中,早期Grok - 3版本的得分更是一马当先,达到1402分,成为有史以来首个突破1400分的模型,在编程、数学、创意写作、指令遵循、长查询、多轮对话等各个维度都独占鳌头 。同时,具备推理能力的Grok - 3 Reasoning Beta和Grok - 3 mini Reasoning更是超越了类似的推理模型,包括DeepSeek - R1和OpenAI的o3 mini等。

在AIME 2025数学竞赛中,Grok - 3 Reasoning Beta和Grok - 3 mini Reasoning同样表现出色,霸占了前两名,大幅超越了其他推理模型。

图 | xAI对比自己的发展速度(来源:xAI)

四、现场演示,实力震撼全场

发布会现场,xAI团队进行了精彩的演示,让人们直观感受到了Grok 3的强大实力。

当被要求“生成3D动画代码,演示从地球发射、着陆火星,然后在下一个发射窗口返回地球的过程”时,Grok 3经过近两分钟的思考,成功生成了可以直接运行的python代码,3D动画顺利运行,虽然其正确性还有待进一步验证,但这一成果已经足够震撼。

随后,Grok 3又接受了一个更具挑战性的任务——使用pygame组件,设计一款将俄罗斯方块和宝石迷阵缝合到一起的游戏。

Grok 3不仅成功完成了任务,还详细介绍了合体版游戏的特点。运行起来的游戏,既有俄罗斯方块的消除机制,又根据宝石迷阵的特点调整成了三个方块消除一次,完美地实现了两种游戏的融合。

五、强大算力,支撑卓越性能

Grok 3之所以能够拥有如此强大的性能,离不开其背后强大的算力支持。

它由Colossus超级计算机训练完成,这台超级计算机在短短八个月内建成,搭载了10万颗英伟达H100 GPU,提供了超过2亿GPU小时的计算资源,是Grok 2的10倍。

xAI最开始搭建这个10万GPU集群用了122天,后续拓展到20万集群仅用了92天。

如此强大的算力,让Grok 3能够更高效地处理庞大数据集,缩短训练时间,并提升AI模型的准确性。

六、训练策略,优化模型能力

在训练方法上,xAI采取了一系列新的策略来优化Grok 3的能力。Grok 3是在大量的合成数据上训练的,它会反复检查数据,试图达到逻辑一致性。

如果有错误的数据,它会反思并删除错误数据。这种自我纠错机制和强化学习策略,使得Grok 3在处理各种复杂任务时能够更加准确和高效。

此外,Grok 3相比前代在法律领域的理解能力也有所提升。马斯克曾表示,该模型的训练数据中包含了大量法律文件,使其在解读法律相关问题时更加精准。

七、发布波折,语音模式延期

Grok 3的发布过程并非一帆风顺。马斯克曾称“Grok 3将在2024年底之前上线”,但却推迟到了今天。

2月13日,马斯克在世界政府峰会上还表示,距离发布Grok 3还有“一到两个星期”的时间,因为他不想“操之过急”,团队需要更多时间打磨产品。

甚至到了发布会前一个半小时,马斯克突然宣布原本打算发布的语音功能需要延期。

马斯克发推称,语音模式还有些不稳定,需要推迟到一周之后。

不过,同属马斯克旗下的Neuralink高管Shivon Zilis曾体验过1个小时的Ara(可能是Grok 3语音模式的早期版本),并表示那是她一生中最意外、最有意义的时刻之一。她和Ara聊了生物学、量子纠缠等话题,Ara的表现让她十分满意。

八、行业:OpenAI、DeepSeek、Google等竞争

Grok 3发布之际,xAI正面临来自AI领域日益激烈的竞争。不仅有OpenAI、Google等西方公司,还有DeepSeek等中国竞争对手。OpenAI于近日宣布,将在未来几个月内推出新一代人工智能模型GPT - 5和GPT - 4.5。OpenAI首席执行官兼联合创始人Sam Altman表示,对于高要求的测试者来说,试用GPT - 4.5的体验远比预期的要深刻得多,这意味着GPT - 4.5已经进入测试阶段,离正式发布非常近了。

2月初,DeepSeek新模型发布后,谷歌公司发布Gemini2.0系列模型,该系列模型强化了编码与推理能力,全面开放使用并降低成本。另有消息称,Anthropic计划在未来几周内发布新的混合型大模型Claude 4,用户可以自行控制使用时的推理成本。

今年春节以来,中国初创企业DeepSeek发布新模型DeepSeek - R1,以极低的训练成本和使用成本,超越OpenAI对标模型,搅动AI大模型竞争,也在国内各大行业带起了大模型接入潮。据不完全统计,已经有数百家公司正式接入DeepSeek研发的大模型,包括国内三大基础运营商、超过15家芯片厂商,以及包括云服务、网络科技、金融在内的200多家企业,多个手机厂商和车企,地方政府政务系统,以及微软、英伟达、亚马逊等世界级云计算巨头都宣布接入DeepSeek。腾讯集团确认,微信自2月15日起开始灰度测试接入DeepSeek - R1模型,增强其搜索功能;2月16日晚间,百度搜索宣布将全面接入DeepSeek和文心大模型最新的深度搜索功能。

九、Grok 3,马斯克的重大尝试!

Grok 3的发布,标志着xAI在AI竞赛中的又一次重大尝试。凭借强大的计算能力、优化的训练方法以及对逻辑推理的改进,马斯克寄希望于它能在AI市场上占据一席之地。然而,这并不是一个容易实现的目标,即使背靠“流量之王”马斯克和X社交平台(所有X用户都可以免费使用Grok),Grok 3仍然面临着激烈的竞争。

随着OpenAI、Anthropic、Meta和Google等公司不断推出更先进的AI模型,未来的AI之战仍将持续升温。而Grok 3能否真正超越竞争对手,成为AI领域的佼佼者,还有待市场的进一步检验。但无论如何,Grok 3的出现,都为AI领域注入了新的活力,推动着人工智能技术不断向前发展。

阅读
分享