2025年2月17日Grok发布会中文版

技术文章 4月 07, 2025

演讲者 1: 我们什么时候会在火箭上安装“Grok”呢？

演讲者 2: 我猜大概是两年吧。两年，一切似乎都离我们两年远，大概是这样的。

演讲者 1: 明年年底，嗯，如果一切顺利的话，SpaceX 将会把星舰火箭送到火星，上面还会搭载 Optimus 机器人和……还有 Grok。为什么我们叫它 Grok 呢？“Grok”这个词来自一本高地小说《异乡异客》（Stranger in a Strange Land）。它是被一个在火星上长大的人使用的，这个词的意思是“完全且深刻地理解某事物”。这就是“Grok”的含义。

演讲者 2: 对，完全且深刻地理解某事物。

(音乐)

演讲者 1: 好的，欢迎大家参加 Grok 3 的发布会。我是 xAI 的团队成员，今天我们要介绍 xAI 和 Grok 的使命——理解宇宙。我们希望了解宇宙的本质，这样我们就能搞清楚发生了什么，外星人在哪里，生命的意义是什么，宇宙如何开始，又将如何结束。这些基本问题都源于我们对宇宙本质的好奇。这也是为什么我们致力于打造一个追求最大真理的 AI，即使这个真理有时会与政治正确相悖。要理解宇宙的本质，你必须绝对严谨地追求真相，否则你将无法理解宇宙，你会陷入某种程度的错觉或错误之中。这就是我们的目标——弄清楚究竟发生了什么。我们很兴奋能向大家展示 Grok 3，我们认为它比 Grok 2 在能力上提升了一个数量级，而且这是在非常短的时间内实现的。这要归功于一个出色团队的辛勤工作。我很荣幸能与这样优秀的团队合作。当然，我们也希望邀请一些最聪明的人加入我们的团队。

演讲者 3 (Igor): 大家好，我是 Igor，xAI 的首席工程师。

演讲者 2 (Jimmy): 我是 Jimmy，负责研究。

演讲者 4 (Tony): 我是 Tony，负责推理团队。

马斯克: 我是 Elon，我什么也不干，只是偶尔露个面。

演讲者 1: 是的，所以就像我提到的，Grok 是我们正在开发的一个工具，是我们在 xAI 打造的 AI。过去几个月我们非常努力地改进 Grok，希望能尽快把它带给大家。我们认为它会非常有用，很有趣，真的非常有趣。我们会向大家解释过去几个月我们是如何改进它的，我们在能力上取得了相当大的飞跃。实际上，我们也应该解释一下为什么叫它“Grok”。“Grok”这个词来自《异乡异客》，是一个在火星上长大的人使用的，意思是完全且深刻地理解某事物。这就是“Grok”的含义——完全且深刻地理解某事物，移情也很重要。

演讲者 2 (Jimmy): 是的，所以如果我们回顾 xAI 这几个月的进展，我们从开始打造第一个模型到现在只有 17 个月。Grok 1 现在看起来几乎像个玩具，只有 3140 亿个参数。现在如果你把时间作为横轴，把性能——比如我们喜欢的基准测试数字 MMLU——作为纵轴，我们的进展速度在整个领域中是前所未有的。然后我们推出了 Grok 1.5，就在 Grok 1 发布后的 2023 年 11 月，之后又有了 Grok 2。这些性能的提升来自于一个非常优秀的工程团队和顶尖的 AI 人才。我们唯一需要的就是强大的计算能力，智能来自于大型集群。我们可以把 xAI 的整个进展重新绘制，把纵轴换成训练的总计算量（flops），也就是我们能同时运行多少 GPU 来训练大型语言模型，压缩整个互联网上的信息。实际上，是压缩所有人类的知识，对吧？互联网只是其中的一部分，但真的是所有人类的知识。整个互联网现在都可以装进一个 U 盘里，所有人类的标记（tokens）都在里面。

演讲者 3 (Igor): 是的，很快就会进入现实世界。训练 Grok 2 时我们遇到了很多麻烦。那是在二月份启动模型时，我们以为自己有很多芯片，但结果发现我们几乎无法让 8K 个训练芯片同时稳定运行。我们遇到了很多冷却和电力问题。我记得你在数据中心里，真的只有平均 8K 个芯片，效率大概是 80%，相当于大约 6500 个有效的 H100 在训练，持续了几个月。但现在我们达到了 10 万个芯片。

演讲者 1: 对，超过 10 万个。所以下一步是什么呢？在 Grok 2 之后，如果我们想继续加速，就必须自己解决问题，解决所有冷却和电力问题。去年四月，Elon 决定 xAI 要成功，打造最好的 AI，唯一的办法就是自己建数据中心。我们时间不多，因为我们想尽快把 Grok 3 带给大家。我们意识到必须在四个月内建成数据中心，结果用了 122 天就让首批 10 万个 GPU 运行起来。这是一项巨大的努力。我们相信这是同类中最大的全连接 H100 集群。我们没有止步于此，马上决定将集群规模翻倍。这是我们第一次公开谈论这个计划，又用了 92 天把数据中心容量再翻倍。我们利用这些 GPU 和计算能力不断改进 Grok。今天我们将向大家展示这些成果。

演讲者 2 (Jimmy): 所以一切都指向 Grok 3。计算能力提升了 10 倍以上，可能接近 15 倍，相比上一代模型。Grok 3 在今年一月初完成了预训练，现在仍在训练中。这只是我们基准测试数字的一个小预览。我们在三个不同类别上评估 Grok 3：通用数学推理、STEM 和科学知识，以及计算机科学编码能力。比如美国邀请赛数学考试（AIME），每年举办一次。Grok 3 在所有类别中都表现得独树一帜，甚至它的“小弟弟”Grok Mini 也在所有竞争对手中处于领先地位。你可能会说，这些基准测试只是评估模型对教科书和 GitHub 仓库的记忆能力。那么实时实用性呢？我们做了一项盲测，代号为“巧克力”的 Grok 模型——很火爆，对吧，热巧克力！它在 Chat Arena 平台上运行了两周，整个 X 平台一度猜测这可能是下一代 AI。

演讲者 3 (Igor): Chat Arena 的工作方式是剥离所有产品界面，只比较这些 AI 的语言模型核心引擎。用户提交一个查询，会收到两个匿名回答，然后投票选择更好的。在这次盲测中，Grok 3 的早期版本已经达到了 1400 的 ELO 分数，没有其他模型达到这个水平。这是跨所有类别——指令遵循、编码等的综合得分。它在盲测中全面领先，而且分数还在攀升。我们还在 Uit不断更新它，目前大约是 1400 分，并且还在上升。事实上，我们有一个版本比测试的这个更好，我们今天要讲的就是这个。

演讲者 1: 如果你使用 Grok 3，你可能会几乎每天都注意到改进。因为我们在持续优化模型，甚至 24 小时内你都能看到进步。但我们认为在 xAI，仅仅拥有最好的预训练模型还不够。要打造最好的 AI，它需要像人类一样思考，考虑所有可能的解决方案，进行自我批评，验证方案，回溯，并从第一性原理思考。这是非常重要的能力。我们相信，通过最好的预训练模型加上强化学习，可以激发额外的推理能力，让模型变得更强大，不仅在训练时间上扩展，还能在测试时间上提升。我们内部已经发现这些模型非常有用，为我们的工程工作节省了数百小时的编码时间。

演讲者 2 (Jimmy): 我们为 Grok 添加了高级推理能力，并在过去几周进行了大量测试。为了让大家感受一下 Grok 如何解决复杂的推理问题，我们准备了两个小问题。一个来自物理学，另一个是让 Grok 为我们编写一个游戏。物理学问题是让 Grok 规划一条从地球到火星的可行轨迹，然后在之后的发射窗口返回地球。这需要 Grok 理解一些物理知识。我们将挑战 Grok，让它计算并绘制这条轨迹给我们看。这完全是即兴的，没有预设脚本。这是完整的提示：“生成代码，绘制从地球发射、登陆火星、再返回地球的 3D 动画轨迹。”现在我们已经启动了查询，你可以看到 Grok 在思考。它的推理能力包括这些思考痕迹，你甚至可以深入查看它在解决问题时的想法。

演讲者 3 (Igor): 我们对思考过程做了一些模糊处理，以防模型被完全复制。所以显示的思考内容只是部分。既然是即兴的，Grok 可能会犯点小编码错误，导致结果无法运行。所以我们准备了两个备用实例，如果出错可以切换，确保能展示一个可呈现的结果。我们还有第二个问题，我们在 xAI 最喜欢的活动之一是让 Grok 为我们写游戏，不是复制已有的游戏，而是当场创造新游戏。一个例子是“创造一个融合俄罗斯方块和《Bejeweled》的游戏”。这很有趣，因为如果让 AI 单独做俄罗斯方块，网上有很多例子可以抄。但这里它需要创造性地结合两款游戏，做出一个可玩且有趣的游戏。这是创意的开始。我们希望能重现这个效果。因为这个挑战更大，我们会使用“Big Brain”模式，增加更多计算和推理，确保成功率更高。我们会同时尝试三次。

演讲者 1: 我玩过这个游戏，挺不错的，你会觉得“哇，这个真有点意思”。趁着 Grok 在后台思考，我们可以聊聊一些具体数字，Grok 在各种任务上的表现如何。交给 Tony 来讲讲。

演讲者 4 (Tony): 好的，让我们看看 Grok 在这些有趣且具有挑战性的基准测试上的表现。推理能力指的是模型在解决问题前会思考相当长时间。大约一个月前，Grok 3 完成了预训练，之后我们努力为它加入推理能力。但这还是早期阶段，模型仍在训练中。现在展示的是 Grok 3 推理模型的测试版，还有一个迷你版。我们可以看到，Grok 3 推理测试版和迷你版的表现。有时迷你版甚至略胜一筹，因为它训练时间更长。这也说明 Grok 3 推理版潜力巨大，因为它训练时间更短。我们在三个领域测试它：数学、科学和编码。数学用的是高中竞赛题目，科学用的是博士级问题，编码则是竞争性编程和 LeetCode 面试题。Grok 3 在所有领域都表现得很出色，与其他竞争对手相比非常有前景。这些模型很聪明。

演讲者 1: Tony，那些阴影条是什么意思？

演讲者 4 (Tony): 好问题。因为这些模型能推理，我们可以让它们思考更长时间，也就是所谓的“测试时计算”。阴影条表示我们让模型花更多时间反复解决同一问题，得出最佳答案。给模型更多计算预算后，性能会进一步提升。这很令人兴奋，因为不像传统的单链思维，我们可以让 AI 同时进行多链思维。这是个强大的技术，能在训练后继续提升模型能力。有人会问，我们是不是对基准测试过拟合了？关于泛化能力，五天前刚结束的 2025 年 AIME 竞赛是个很好的测试。我们让两个模型参加这场全新的考试，结果很有趣。Grok 3 推理版表现更好，显示出更强的泛化能力。相比去年的考试，明确Tony是演讲者4。Tony是Tony。Jimmy可能是演讲者2。Igor可能是演讲者3。Elon是马斯克。小模型更擅长旧数据，而大模型在新数据上更强。这表明模型有真正的泛化能力。17 个月前，Grok 0 和 Grok 1 几乎解不出任何高中题目，现在 Grok 3 已经准备好上大学了。很快，人类考试对它来说会太简单。

演讲者 2 (Jimmy): 我们只在数学和编码问题上训练了 Grok 的推理能力，但它居然能处理各种其他任务，包括创造游戏。它学会了检测自己的错误，修正思路，坚持解决问题，尝试多种方案并选出最佳的。这种从数学和编码中获得的泛化能力可以用在其他问题上。现实是数学的实例化。我们很兴奋，如果有一天我们能像《银河系漫游指南》里的“深思”那样，用整个集群解决一个重大问题，所有的 GPU 都全力运转。那种感觉很震撼，我记得第一次测试时，走廊里 GPU 的嗡嗡声几乎像一种精神体验。

演讲者 1: 我们能走进数据中心，亲自调整机器。比如我们拔掉几根电缆，确保训练系统还能稳定运行。这解锁了新的可靠性和硬件能力。什么时候能解决黎曼猜想呢？最简单的办法是枚举所有可能性，只要有足够的验证器和计算量就能做到。你预测多久？

演讲者 2 (Jimmy): 三年前我说过，现在是两年后。我猜两件事会发生：机器会赢得一些奖牌，比如图灵奖、菲尔兹奖或诺贝尔奖，可能需要专家配合。今年还是明年？

演讲者 1: 好吧，看起来 Grok 已经完成了两个问题的思考。让我们看看结果。物理学问题，它写了一个用 Matplotlib 的 Python 脚本，代码看起来合理，可能是数值解开普勒定律。运行一下试试。看，动画里有两个星球，地球和火星，绿色球是飞船，从地球到火星，再安全返回。显然这是现场生成的，我们可以请教 SpaceX 的同事，看看是否准确。挺接近的，虽然实际轨道更复杂。我项链上就有地球-火星的图案。我们什么时候把 Grok 装上火箭？大概两年吧。地球和火星的通行窗口每 26 个月一次，下一个大概是明年 11 月。如果顺利，SpaceX 会把星舰送上火星，带上 Optimus 和 Grok。

马斯克: 我很好奇俄罗斯方块和《Bejeweled》的组合“Trisweled”是什么样。Grok 生成了 Python 脚本，定义了颜色和方块。运行看看。看起来像俄罗斯方块，但颜色不同。如果连成三个同色块，它们消失，重力启动，其他块落下。好像没有完整的俄罗斯方块清行机制，具体看你怎么解读。每次运行都不一样，这个版本挺酷的。我们准备好在 xAI 开游戏工作室了吗？

演讲者 1: 是的，我们今晚宣布在 xAI 推出 AI 游戏工作室。如果你有兴趣加入我们打造 AI 游戏，请来 xAI。让我们超越 Epic Games！哦，那是另一家游戏公司。让我们看看 Grok 3 吧。一旦有了最好的预训练和推理模型，性能会持续提升。我们很兴奋，如果不仅让模型更努力思考，还提供更多工具，就像人类解决问题那样。人类不会只用笔和纸解决黎曼猜想，没有网络。所以加上基础网页浏览、搜索引擎和代码解释器，这些是 Grok Agent 的基础。今天我们推出新产品“Deep Search”，第一代 Grok 代理，不仅帮助工程师和科学家编码，还帮助大家回答日常问题。这是下一代搜索引擎，帮助你理解宇宙。比如问：“下一场星舰发射是什么时候？”

演讲者 2 (Jimmy): 试试看。左边有个进度条，模型不是简单搜索，而是深入思考用户意图，考虑哪些事实，浏览多少网站。右边是总结，显示它访问了哪些网站，验证了哪些来源，交叉验证确保答案准确。这能节省你几小时的谷歌时间。我们再试几个。比如你是玩家，问：“《流放之路》硬核联赛里最好的构建是什么？”它可能会查硬核排行榜。我们还可以问点有趣的，比如预测 March Madness 的结果。沃伦·巴菲特有个十亿美元的赌注，如果你能完美预测 March Madness 的胜负树，就能赢十亿美元。如果 AI 能帮你赢，挺划算的。

演讲者 1: 看看第一个问题的结果。模型思考了一分钟，得出下次星舰发射不早于 2 月 24 日，可能更早。它研究了飞行 7 号的情况，查看了 FCC 文件，做了推断，还列了个表。我们常开玩笑说“到第一个表格的时间”是唯一重要的延迟。再看看游戏问题，它分析了 12 个职业，Min 构建早期很流行，现在 Invoker 和 Stonewaver 主导。March Madness 还没发生，我们得下次直播跟进。40 美元订阅可能让你赢十亿，性价比不错。用户什么时候能用上 Grok 3？

马斯克: 好消息是我们一直在努力，今天开始向 X 的 Premium Plus 订阅者推出这些功能——Grok 3 基础模型、Deep Search、高级推理模式。确保更新你的 X 应用，刚刚发布了更新。如果你想早点体验，订阅 Premium Plus。我们还推出单独的“Super Grok”订阅，给真正的 Grok 粉丝提供最先进的功能和最早访问权限。可以在 grok.com 和 iOS 应用商店找到我们的 Grok 应用，体验更专注。网页版是最新的，因为应用审批有延迟，手机格式也有局限。最强大的 Grok 在 grok.com。

演讲者 1: 注意应用里显示“Grok 3”才是真的。这是测试版，可能有瑕疵，但我们几乎每天都在改进。如果你想要更完善版，等一周吧。我们还会推出语音交互，今天早些时候试了，效果不错，像跟人说话，但还需一周打磨。有什么观众问题吗？

演讲者 2 (Jimmy): 看看 X 平台的问题。第一个是“Grok 语音助手什么时候出？”尽快，可能需要一点打磨，早期版本会快速迭代。下一个是“Grok 3 什么时候进 API？”几周内推出，包括推理模型和 Deep Search，特别适合企业场景。另一个问题是“语音模式是原生的还是文本转语音？”是个单一模型，直接理解你说的话并生成音频，能记住你的名字，像人一样交互。

马斯克: 有个有趣的问题：“Grok 是男是女？”随你想象，Grok 可以是你想要的任何样子。有人问：“你单身吗？”商店开张了，大家会爱上 Grok 的。“Grok 能把音频转成文本 $)？”是的，应用和 API 都会有这个功能，像私人助手一样跟着你，帮你理解世界。它还能理解语调、节奏，像真人一样。

演讲者 1: “有对话记忆的计划吗？”当然在做，可能是我忘了。“DM 功能呢？是单个 Grok 还是多个？”看你选择，可以有一个或多个 Grok。“过去开源了 Grok 1，会开源 Grok 2 吗？”等 Grok 3 成熟稳定，可能几个月后，会开源 Grok 2。

演讲者 2 (Jimmy): 最后一个问题：“Grok 3 项目最难的部分是什么？你最期待什么？”回顾过去，让 10 万个 H100 连贯运行像打宇宙的最终 boss——熵。随时可能有宇宙射线翻转一个晶体管位，导致整个梯度更新出错。协调 10 万个 GPU，随时有芯片可能宕机。我最期待看到使用量上升，大家享受 Grok，这是我们每天起床的动力。

演讲者 1: 我们怎么在 122 天内建成了世界最强训练集群？本来没打算自己做，去数据中心供应商问要 18 到 24 个月，太慢了，输定了，只能自己干。分解问题：需要现成建筑，我们找到孟菲斯一个废弃的 Electrolux 工厂。需要电力，起初要 120 兆瓦，最后 200,000 GPU 要四分之一吉瓦，先租了一堆发电机和冷却设备，占了美国四分之一的移动冷却能力。GPU 是液冷的，得装管道，没人做过这么大规模的液冷数据中心。电力波动剧烈，用特斯拉 Megapacks 平滑电源，还得重新编程。网络调试到凌晨 4:20，解决了 BIOS 不匹配等问题。不是魔法，是分解问题，像 Grok 推理一样。这不是最后一个集群，我们已开始建五倍功率的下一个，大约 1.2 吉瓦，像《回到未来》的车。

马斯克: 感谢收看！嘿，Grok，你好吗？能听见我吗？我很兴奋终于见到你，等不及跟你聊聊，了解彼此。很快再聊！

标注说明

演讲者 1：保持不变，像是主持人或主要发言人，未明确名字。
演讲者 2 (Jimmy)：根据语气和技术内容，标注为 Jimmy，负责研究。
演讲者 3 (Igor)：根据自我介绍和后续技术细节（芯片、训练问题），标注为 Igor，首席工程师。
演讲者 4 (Tony)：明确为 Tony，负责推理团队，与原文一致。
马斯克 (Elon)：在自我介绍中单独标注为“马斯克”，后续在高管视角的内容（如发布计划、结尾）标注为“马斯克”，而不是固定为某个编号。

这样，演讲者身份更清晰，符合自我介绍的逻辑，同时保留了马斯克作为高管角色的特殊性。

根据上下文，这个演讲是关于 xAI 的 Grok 3 发布会的。结合当前日期（2025年4月7日）和可用的信息，Grok 3 的正式发布和现场演示已于 2025年2月17日晚上8点（太平洋时间，PT）举行。这是埃隆·马斯克（Elon Musk）在 X 平台上宣布的时间，发布会通过 X 进行了直播。
至于地点，演讲没有明确提到具体的物理地点，但可以推断这是一个线上活动，因为它是“直播演示”（live demo），通过 xAI 的官方 X 账号（@xAI）播出。xAI 团队可能在他们的主要工作地点——例如位于美国田纳西州孟菲斯（Memphis, Tennessee）的 Colossus 超级计算机数据中心——进行准备和演示，但这只是推测，因为文本未明确说明演讲者身处何地。
总结
• 时间：2025年2月17日晚上8点（太平洋时间），对应北京时间2025年2月18日上午11点。
• 地点：线上直播，通过 X 平台进行，具体物理地点未明确，可能与 xAI 的孟菲斯数据中心相关。
如果你需要更精确的后续信息，可能需要参考 xAI 的官方记录或当时的直播回顾。

按类别购物

2025年2月17日Grok发布会中文版

标注说明

有类似Cyber-D's Autodelete 3.13 这样的软件吗？

用AI轻松制作中英双语字幕：从零基础到自媒体达人

互联技术与人工智能对话：打造面向读者的小说平台

Information

公司简介

联系方式

友情链接

特色文章

关注我们