20万张GPU！Grok-3，炸场

访客 2025-02-18 19:10:29 57393

默认

摘要： 北京时间2月18日，马斯克旗下xAI公司推出最新大模型Grok-3，被马斯克称为“地球上最聪明的AI”。Grok-3在多...

北京时间2月18日，马斯克旗下xAI公司推出最新大模型Grok-3，被马斯克称为“地球上最聪明的AI”。

Grok-3在多方面性能上超越或媲美现有竞争对手，包括Gemini、DeepSeek和ChatGPT。该模型在大量合成数据上训练，具备自我反思并删除错误数据的能力。

发布会直播观看人次超300万次，xAI面临来自全球AI领域的激烈竞争

xAI在X平台直播，马斯克到场

Grok-3性能要点如下（与OpenAI、DeepSeek对比）

全面卓越性能：Grok-3在推理、数学、学科知识和编程测试中均表现优异。

强大计算与高效训练：使用20万张GPU卡训练，计算能力大幅提升，训练效率极高。

高分测试表现：在AIME 2025性能测试中获93分，性能卓越。

多样化应用：可用于生成3D模型、制作游戏等，应用前景广泛。

便捷订阅与自我修正：提供“Super Grok”订阅服务，具备自我修正能力，能够反思并删除错误数据，提高可靠性。

与OpenAI对比：性能相当或略优，特别是在数学、科学、编程领域。推理能力各有千秋，OpenAI有“深度研究”产品。Grok-3应用场景更多样，包括3D模型生成和游戏制作。

与DeepSeek对比：计算能力和训练规模远超DeepSeek。在多项测试中成绩优于DeepSeek。生态布局和产业应用尚待拓展，与DeepSeek在医疗、消费电子等领域的布局相比

一、马斯克放大招！

“史上最聪明AI”Grok 3亮相，性能超ChatGPT、Gemini

北京时间2月18日中午，一场备受瞩目的人工智能盛会拉开帷幕，马斯克旗下的xAI公司正式发布了最新大模型Grok 3。

这一消息瞬间点燃了科技圈的热情，直播观看人次超300万次，发布会背景板上“our mission is to understand universe（我们的使命是了解宇宙）”的标语，彰显着xAI宏大的目标。

马斯克曾表示，xAI公司的目标就是“了解宇宙”，而Grok 3的发布，无疑是向着这一目标迈出的重要一步。

二、Grok 3，名字背后的深意

在发布会上，马斯克亲自解释了“Grok”的含义。

这个词源于罗伯特海因莱因的小说《异乡异客》，书中一个在火星长大的角色使用了这个词，它代表着充分而深刻地理解某事。“grok”所传达的深刻理解，以及其中蕴含的同理心，也正是xAI希望Grok 3所具备的特质。

三、性能飞跃，全面超越对手

xAI团队在直播中自信满满地展示了Grok 3的卓越性能。Grok 3和Grok 3 mini在数学、科学和编程基准测试上一骑绝尘，超越了所有主流模型，包括GPT - 4o、Claude 3.5 Sonnet、DeepSeek - V3和Gemini - 2 Pro等。

在大模型竞技场Chatbot Arena（LMSYS）中，早期Grok - 3版本的得分更是一马当先，达到1402分，成为有史以来首个突破1400分的模型，在编程、数学、创意写作、指令遵循、长查询、多轮对话等各个维度都独占鳌头。同时，具备推理能力的Grok - 3 Reasoning Beta和Grok - 3 mini Reasoning更是超越了类似的推理模型，包括DeepSeek - R1和OpenAI的o3 mini等。

在AIME 2025数学竞赛中，Grok - 3 Reasoning Beta和Grok - 3 mini Reasoning同样表现出色，霸占了前两名，大幅超越了其他推理模型。

图 | xAI对比自己的发展速度（来源：xAI）

四、现场演示，实力震撼全场

发布会现场，xAI团队进行了精彩的演示，让人们直观感受到了Grok 3的强大实力。

当被要求“生成3D动画代码，演示从地球发射、着陆火星，然后在下一个发射窗口返回地球的过程”时，Grok 3经过近两分钟的思考，成功生成了可以直接运行的python代码，3D动画顺利运行，虽然其正确性还有待进一步验证，但这一成果已经足够震撼。

随后，Grok 3又接受了一个更具挑战性的任务——使用pygame组件，设计一款将俄罗斯方块和宝石迷阵缝合到一起的游戏。

Grok 3不仅成功完成了任务，还详细介绍了合体版游戏的特点。运行起来的游戏，既有俄罗斯方块的消除机制，又根据宝石迷阵的特点调整成了三个方块消除一次，完美地实现了两种游戏的融合。

五、强大算力，支撑卓越性能

Grok 3之所以能够拥有如此强大的性能，离不开其背后强大的算力支持。

它由Colossus超级计算机训练完成，这台超级计算机在短短八个月内建成，搭载了10万颗英伟达H100 GPU，提供了超过2亿GPU小时的计算资源，是Grok 2的10倍。

xAI最开始搭建这个10万GPU集群用了122天，后续拓展到20万集群仅用了92天。

如此强大的算力，让Grok 3能够更高效地处理庞大数据集，缩短训练时间，并提升AI模型的准确性。

六、训练策略，优化模型能力

在训练方法上，xAI采取了一系列新的策略来优化Grok 3的能力。Grok 3是在大量的合成数据上训练的，它会反复检查数据，试图达到逻辑一致性。

如果有错误的数据，它会反思并删除错误数据。这种自我纠错机制和强化学习策略，使得Grok 3在处理各种复杂任务时能够更加准确和高效。

此外，Grok 3相比前代在法律领域的理解能力也有所提升。马斯克曾表示，该模型的训练数据中包含了大量法律文件，使其在解读法律相关问题时更加精准。

七、发布波折，语音模式延期

Grok 3的发布过程并非一帆风顺。马斯克曾称“Grok 3将在2024年底之前上线”，但却推迟到了今天。

2月13日，马斯克在世界政府峰会上还表示，距离发布Grok 3还有“一到两个星期”的时间，因为他不想“操之过急”，团队需要更多时间打磨产品。

甚至到了发布会前一个半小时，马斯克突然宣布原本打算发布的语音功能需要延期。

马斯克发推称，语音模式还有些不稳定，需要推迟到一周之后。

不过，同属马斯克旗下的Neuralink高管Shivon Zilis曾体验过1个小时的Ara（可能是Grok 3语音模式的早期版本），并表示那是她一生中最意外、最有意义的时刻之一。她和Ara聊了生物学、量子纠缠等话题，Ara的表现让她十分满意。

八、行业：OpenAI、DeepSeek、Google等竞争

Grok 3发布之际，xAI正面临来自AI领域日益激烈的竞争。不仅有OpenAI、Google等西方公司，还有DeepSeek等中国竞争对手。OpenAI于近日宣布，将在未来几个月内推出新一代人工智能模型GPT - 5和GPT - 4.5。OpenAI首席执行官兼联合创始人Sam Altman表示，对于高要求的测试者来说，试用GPT - 4.5的体验远比预期的要深刻得多，这意味着GPT - 4.5已经进入测试阶段，离正式发布非常近了。

2月初，DeepSeek新模型发布后，谷歌公司发布Gemini2.0系列模型，该系列模型强化了编码与推理能力，全面开放使用并降低成本。另有消息称，Anthropic计划在未来几周内发布新的混合型大模型Claude 4，用户可以自行控制使用时的推理成本。

今年春节以来，中国初创企业DeepSeek发布新模型DeepSeek - R1，以极低的训练成本和使用成本，超越OpenAI对标模型，搅动AI大模型竞争，也在国内各大行业带起了大模型接入潮。据不完全统计，已经有数百家公司正式接入DeepSeek研发的大模型，包括国内三大基础运营商、超过15家芯片厂商，以及包括云服务、网络科技、金融在内的200多家企业，多个手机厂商和车企，地方政府政务系统，以及微软、英伟达、亚马逊等世界级云计算巨头都宣布接入DeepSeek。腾讯集团确认，微信自2月15日起开始灰度测试接入DeepSeek - R1模型，增强其搜索功能；2月16日晚间，百度搜索宣布将全面接入DeepSeek和文心大模型最新的深度搜索功能。

九、Grok 3，马斯克的重大尝试！

Grok 3的发布，标志着xAI在AI竞赛中的又一次重大尝试。凭借强大的计算能力、优化的训练方法以及对逻辑推理的改进，马斯克寄希望于它能在AI市场上占据一席之地。然而，这并不是一个容易实现的目标，即使背靠“流量之王”马斯克和X社交平台（所有X用户都可以免费使用Grok），Grok 3仍然面临着激烈的竞争。

随着OpenAI、Anthropic、Meta和Google等公司不断推出更先进的AI模型，未来的AI之战仍将持续升温。而Grok 3能否真正超越竞争对手，成为AI领域的佼佼者，还有待市场的进一步检验。但无论如何，Grok 3的出现，都为AI领域注入了新的活力，推动着人工智能技术不断向前发展。

标签：模型性能