2025年2月17日Grok发布会中文版

演讲者 1: 我们什么时候会在火箭上安装“Grok”呢?

演讲者 2: 我猜大概是两年吧。两年,一切似乎都离我们两年远,大概是这样的。

演讲者 1: 明年年底,嗯,如果一切顺利的话,SpaceX 将会把星舰火箭送到火星,上面还会搭载 Optimus 机器人和……还有 Grok。为什么我们叫它 Grok 呢?“Grok”这个词来自一本高地小说《异乡异客》(Stranger in a Strange Land)。它是被一个在火星上长大的人使用的,这个词的意思是“完全且深刻地理解某事物”。这就是“Grok”的含义。

演讲者 2: 对,完全且深刻地理解某事物。

(音乐)

演讲者 1: 好的,欢迎大家参加 Grok 3 的发布会。我是 xAI 的团队成员,今天我们要介绍 xAI 和 Grok 的使命——理解宇宙。我们希望了解宇宙的本质,这样我们就能搞清楚发生了什么,外星人在哪里,生命的意义是什么,宇宙如何开始,又将如何结束。这些基本问题都源于我们对宇宙本质的好奇。这也是为什么我们致力于打造一个追求最大真理的 AI,即使这个真理有时会与政治正确相悖。要理解宇宙的本质,你必须绝对严谨地追求真相,否则你将无法理解宇宙,你会陷入某种程度的错觉或错误之中。这就是我们的目标——弄清楚究竟发生了什么。我们很兴奋能向大家展示 Grok 3,我们认为它比 Grok 2 在能力上提升了一个数量级,而且这是在非常短的时间内实现的。这要归功于一个出色团队的辛勤工作。我很荣幸能与这样优秀的团队合作。当然,我们也希望邀请一些最聪明的人加入我们的团队。

演讲者 3 (Igor): 大家好,我是 Igor,xAI 的首席工程师。

演讲者 2 (Jimmy): 我是 Jimmy,负责研究。

演讲者 4 (Tony): 我是 Tony,负责推理团队。

马斯克: 我是 Elon,我什么也不干,只是偶尔露个面。

演讲者 1: 是的,所以就像我提到的,Grok 是我们正在开发的一个工具,是我们在 xAI 打造的 AI。过去几个月我们非常努力地改进 Grok,希望能尽快把它带给大家。我们认为它会非常有用,很有趣,真的非常有趣。我们会向大家解释过去几个月我们是如何改进它的,我们在能力上取得了相当大的飞跃。实际上,我们也应该解释一下为什么叫它“Grok”。“Grok”这个词来自《异乡异客》,是一个在火星上长大的人使用的,意思是完全且深刻地理解某事物。这就是“Grok”的含义——完全且深刻地理解某事物,移情也很重要。

演讲者 2 (Jimmy): 是的,所以如果我们回顾 xAI 这几个月的进展,我们从开始打造第一个模型到现在只有 17 个月。Grok 1 现在看起来几乎像个玩具,只有 3140 亿个参数。现在如果你把时间作为横轴,把性能——比如我们喜欢的基准测试数字 MMLU——作为纵轴,我们的进展速度在整个领域中是前所未有的。然后我们推出了 Grok 1.5,就在 Grok 1 发布后的 2023 年 11 月,之后又有了 Grok 2。这些性能的提升来自于一个非常优秀的工程团队和顶尖的 AI 人才。我们唯一需要的就是强大的计算能力,智能来自于大型集群。我们可以把 xAI 的整个进展重新绘制,把纵轴换成训练的总计算量(flops),也就是我们能同时运行多少 GPU 来训练大型语言模型,压缩整个互联网上的信息。实际上,是压缩所有人类的知识,对吧?互联网只是其中的一部分,但真的是所有人类的知识。整个互联网现在都可以装进一个 U 盘里,所有人类的标记(tokens)都在里面。

演讲者 3 (Igor): 是的,很快就会进入现实世界。训练 Grok 2 时我们遇到了很多麻烦。那是在二月份启动模型时,我们以为自己有很多芯片,但结果发现我们几乎无法让 8K 个训练芯片同时稳定运行。我们遇到了很多冷却和电力问题。我记得你在数据中心里,真的只有平均 8K 个芯片,效率大概是 80%,相当于大约 6500 个有效的 H100 在训练,持续了几个月。但现在我们达到了 10 万个芯片。

演讲者 1: 对,超过 10 万个。所以下一步是什么呢?在 Grok 2 之后,如果我们想继续加速,就必须自己解决问题,解决所有冷却和电力问题。去年四月,Elon 决定 xAI 要成功,打造最好的 AI,唯一的办法就是自己建数据中心。我们时间不多,因为我们想尽快把 Grok 3 带给大家。我们意识到必须在四个月内建成数据中心,结果用了 122 天就让首批 10 万个 GPU 运行起来。这是一项巨大的努力。我们相信这是同类中最大的全连接 H100 集群。我们没有止步于此,马上决定将集群规模翻倍。这是我们第一次公开谈论这个计划,又用了 92 天把数据中心容量再翻倍。我们利用这些 GPU 和计算能力不断改进 Grok。今天我们将向大家展示这些成果。

演讲者 2 (Jimmy): 所以一切都指向 Grok 3。计算能力提升了 10 倍以上,可能接近 15 倍,相比上一代模型。Grok 3 在今年一月初完成了预训练,现在仍在训练中。这只是我们基准测试数字的一个小预览。我们在三个不同类别上评估 Grok 3:通用数学推理、STEM 和科学知识,以及计算机科学编码能力。比如美国邀请赛数学考试(AIME),每年举办一次。Grok 3 在所有类别中都表现得独树一帜,甚至它的“小弟弟”Grok Mini 也在所有竞争对手中处于领先地位。你可能会说,这些基准测试只是评估模型对教科书和 GitHub 仓库的记忆能力。那么实时实用性呢?我们做了一项盲测,代号为“巧克力”的 Grok 模型——很火爆,对吧,热巧克力!它在 Chat Arena 平台上运行了两周,整个 X 平台一度猜测这可能是下一代 AI。

演讲者 3 (Igor): Chat Arena 的工作方式是剥离所有产品界面,只比较这些 AI 的语言模型核心引擎。用户提交一个查询,会收到两个匿名回答,然后投票选择更好的。在这次盲测中,Grok 3 的早期版本已经达到了 1400 的 ELO 分数,没有其他模型达到这个水平。这是跨所有类别——指令遵循、编码等的综合得分。它在盲测中全面领先,而且分数还在攀升。我们还在 Uit不断更新它,目前大约是 1400 分,并且还在上升。事实上,我们有一个版本比测试的这个更好,我们今天要讲的就是这个。

演讲者 1: 如果你使用 Grok 3,你可能会几乎每天都注意到改进。因为我们在持续优化模型,甚至 24 小时内你都能看到进步。但我们认为在 xAI,仅仅拥有最好的预训练模型还不够。要打造最好的 AI,它需要像人类一样思考,考虑所有可能的解决方案,进行自我批评,验证方案,回溯,并从第一性原理思考。这是非常重要的能力。我们相信,通过最好的预训练模型加上强化学习,可以激发额外的推理能力,让模型变得更强大,不仅在训练时间上扩展,还能在测试时间上提升。我们内部已经发现这些模型非常有用,为我们的工程工作节省了数百小时的编码时间。

演讲者 2 (Jimmy): 我们为 Grok 添加了高级推理能力,并在过去几周进行了大量测试。为了让大家感受一下 Grok 如何解决复杂的推理问题,我们准备了两个小问题。一个来自物理学,另一个是让 Grok 为我们编写一个游戏。物理学问题是让 Grok 规划一条从地球到火星的可行轨迹,然后在之后的发射窗口返回地球。这需要 Grok 理解一些物理知识。我们将挑战 Grok,让它计算并绘制这条轨迹给我们看。这完全是即兴的,没有预设脚本。这是完整的提示:“生成代码,绘制从地球发射、登陆火星、再返回地球的 3D 动画轨迹。”现在我们已经启动了查询,你可以看到 Grok 在思考。它的推理能力包括这些思考痕迹,你甚至可以深入查看它在解决问题时的想法。

演讲者 3 (Igor): 我们对思考过程做了一些模糊处理,以防模型被完全复制。所以显示的思考内容只是部分。既然是即兴的,Grok 可能会犯点小编码错误,导致结果无法运行。所以我们准备了两个备用实例,如果出错可以切换,确保能展示一个可呈现的结果。我们还有第二个问题,我们在 xAI 最喜欢的活动之一是让 Grok 为我们写游戏,不是复制已有的游戏,而是当场创造新游戏。一个例子是“创造一个融合俄罗斯方块和《Bejeweled》的游戏”。这很有趣,因为如果让 AI 单独做俄罗斯方块,网上有很多例子可以抄。但这里它需要创造性地结合两款游戏,做出一个可玩且有趣的游戏。这是创意的开始。我们希望能重现这个效果。因为这个挑战更大,我们会使用“Big Brain”模式,增加更多计算和推理,确保成功率更高。我们会同时尝试三次。

演讲者 1: 我玩过这个游戏,挺不错的,你会觉得“哇,这个真有点意思”。趁着 Grok 在后台思考,我们可以聊聊一些具体数字,Grok 在各种任务上的表现如何。交给 Tony 来讲讲。

演讲者 4 (Tony): 好的,让我们看看 Grok 在这些有趣且具有挑战性的基准测试上的表现。推理能力指的是模型在解决问题前会思考相当长时间。大约一个月前,Grok 3 完成了预训练,之后我们努力为它加入推理能力。但这还是早期阶段,模型仍在训练中。现在展示的是 Grok 3 推理模型的测试版,还有一个迷你版。我们可以看到,Grok 3 推理测试版和迷你版的表现。有时迷你版甚至略胜一筹,因为它训练时间更长。这也说明 Grok 3 推理版潜力巨大,因为它训练时间更短。我们在三个领域测试它:数学、科学和编码。数学用的是高中竞赛题目,科学用的是博士级问题,编码则是竞争性编程和 LeetCode 面试题。Grok 3 在所有领域都表现得很出色,与其他竞争对手相比非常有前景。这些模型很聪明。

演讲者 1: Tony,那些阴影条是什么意思?

演讲者 4 (Tony): 好问题。因为这些模型能推理,我们可以让它们思考更长时间,也就是所谓的“测试时计算”。阴影条表示我们让模型花更多时间反复解决同一问题,得出最佳答案。给模型更多计算预算后,性能会进一步提升。这很令人兴奋,因为不像传统的单链思维,我们可以让 AI 同时进行多链思维。这是个强大的技术,能在训练后继续提升模型能力。有人会问,我们是不是对基准测试过拟合了?关于泛化能力,五天前刚结束的 2025 年 AIME 竞赛是个很好的测试。我们让两个模型参加这场全新的考试,结果很有趣。Grok 3 推理版表现更好,显示出更强的泛化能力。相比去年的考试,明确Tony是演讲者4。Tony是Tony。Jimmy可能是演讲者2。Igor可能是演讲者3。Elon是马斯克。小模型更擅长旧数据,而大模型在新数据上更强。这表明模型有真正的泛化能力。17 个月前,Grok 0 和 Grok 1 几乎解不出任何高中题目,现在 Grok 3 已经准备好上大学了。很快,人类考试对它来说会太简单。

演讲者 2 (Jimmy): 我们只在数学和编码问题上训练了 Grok 的推理能力,但它居然能处理各种其他任务,包括创造游戏。它学会了检测自己的错误,修正思路,坚持解决问题,尝试多种方案并选出最佳的。这种从数学和编码中获得的泛化能力可以用在其他问题上。现实是数学的实例化。我们很兴奋,如果有一天我们能像《银河系漫游指南》里的“深思”那样,用整个集群解决一个重大问题,所有的 GPU 都全力运转。那种感觉很震撼,我记得第一次测试时,走廊里 GPU 的嗡嗡声几乎像一种精神体验。

演讲者 1: 我们能走进数据中心,亲自调整机器。比如我们拔掉几根电缆,确保训练系统还能稳定运行。这解锁了新的可靠性和硬件能力。什么时候能解决黎曼猜想呢?最简单的办法是枚举所有可能性,只要有足够的验证器和计算量就能做到。你预测多久?

演讲者 2 (Jimmy): 三年前我说过,现在是两年后。我猜两件事会发生:机器会赢得一些奖牌,比如图灵奖、菲尔兹奖或诺贝尔奖,可能需要专家配合。今年还是明年?

演讲者 1: 好吧,看起来 Grok 已经完成了两个问题的思考。让我们看看结果。物理学问题,它写了一个用 Matplotlib 的 Python 脚本,代码看起来合理,可能是数值解开普勒定律。运行一下试试。看,动画里有两个星球,地球和火星,绿色球是飞船,从地球到火星,再安全返回。显然这是现场生成的,我们可以请教 SpaceX 的同事,看看是否准确。挺接近的,虽然实际轨道更复杂。我项链上就有地球-火星的图案。我们什么时候把 Grok 装上火箭?大概两年吧。地球和火星的通行窗口每 26 个月一次,下一个大概是明年 11 月。如果顺利,SpaceX 会把星舰送上火星,带上 Optimus 和 Grok。

马斯克: 我很好奇俄罗斯方块和《Bejeweled》的组合“Trisweled”是什么样。Grok 生成了 Python 脚本,定义了颜色和方块。运行看看。看起来像俄罗斯方块,但颜色不同。如果连成三个同色块,它们消失,重力启动,其他块落下。好像没有完整的俄罗斯方块清行机制,具体看你怎么解读。每次运行都不一样,这个版本挺酷的。我们准备好在 xAI 开游戏工作室了吗?

演讲者 1: 是的,我们今晚宣布在 xAI 推出 AI 游戏工作室。如果你有兴趣加入我们打造 AI 游戏,请来 xAI。让我们超越 Epic Games!哦,那是另一家游戏公司。让我们看看 Grok 3 吧。一旦有了最好的预训练和推理模型,性能会持续提升。我们很兴奋,如果不仅让模型更努力思考,还提供更多工具,就像人类解决问题那样。人类不会只用笔和纸解决黎曼猜想,没有网络。所以加上基础网页浏览、搜索引擎和代码解释器,这些是 Grok Agent 的基础。今天我们推出新产品“Deep Search”,第一代 Grok 代理,不仅帮助工程师和科学家编码,还帮助大家回答日常问题。这是下一代搜索引擎,帮助你理解宇宙。比如问:“下一场星舰发射是什么时候?”

演讲者 2 (Jimmy): 试试看。左边有个进度条,模型不是简单搜索,而是深入思考用户意图,考虑哪些事实,浏览多少网站。右边是总结,显示它访问了哪些网站,验证了哪些来源,交叉验证确保答案准确。这能节省你几小时的谷歌时间。我们再试几个。比如你是玩家,问:“《流放之路》硬核联赛里最好的构建是什么?”它可能会查硬核排行榜。我们还可以问点有趣的,比如预测 March Madness 的结果。沃伦·巴菲特有个十亿美元的赌注,如果你能完美预测 March Madness 的胜负树,就能赢十亿美元。如果 AI 能帮你赢,挺划算的。

演讲者 1: 看看第一个问题的结果。模型思考了一分钟,得出下次星舰发射不早于 2 月 24 日,可能更早。它研究了飞行 7 号的情况,查看了 FCC 文件,做了推断,还列了个表。我们常开玩笑说“到第一个表格的时间”是唯一重要的延迟。再看看游戏问题,它分析了 12 个职业,Min 构建早期很流行,现在 Invoker 和 Stonewaver 主导。March Madness 还没发生,我们得下次直播跟进。40 美元订阅可能让你赢十亿,性价比不错。用户什么时候能用上 Grok 3?

马斯克: 好消息是我们一直在努力,今天开始向 X 的 Premium Plus 订阅者推出这些功能——Grok 3 基础模型、Deep Search、高级推理模式。确保更新你的 X 应用,刚刚发布了更新。如果你想早点体验,订阅 Premium Plus。我们还推出单独的“Super Grok”订阅,给真正的 Grok 粉丝提供最先进的功能和最早访问权限。可以在 grok.com 和 iOS 应用商店找到我们的 Grok 应用,体验更专注。网页版是最新的,因为应用审批有延迟,手机格式也有局限。最强大的 Grok 在 grok.com。

演讲者 1: 注意应用里显示“Grok 3”才是真的。这是测试版,可能有瑕疵,但我们几乎每天都在改进。如果你想要更完善版,等一周吧。我们还会推出语音交互,今天早些时候试了,效果不错,像跟人说话,但还需一周打磨。有什么观众问题吗?

演讲者 2 (Jimmy): 看看 X 平台的问题。第一个是“Grok 语音助手什么时候出?”尽快,可能需要一点打磨,早期版本会快速迭代。下一个是“Grok 3 什么时候进 API?”几周内推出,包括推理模型和 Deep Search,特别适合企业场景。另一个问题是“语音模式是原生的还是文本转语音?”是个单一模型,直接理解你说的话并生成音频,能记住你的名字,像人一样交互。

马斯克: 有个有趣的问题:“Grok 是男是女?”随你想象,Grok 可以是你想要的任何样子。有人问:“你单身吗?”商店开张了,大家会爱上 Grok 的。“Grok 能把音频转成文本 $)?”是的,应用和 API 都会有这个功能,像私人助手一样跟着你,帮你理解世界。它还能理解语调、节奏,像真人一样。

演讲者 1: “有对话记忆的计划吗?”当然在做,可能是我忘了。“DM 功能呢?是单个 Grok 还是多个?”看你选择,可以有一个或多个 Grok。“过去开源了 Grok 1,会开源 Grok 2 吗?”等 Grok 3 成熟稳定,可能几个月后,会开源 Grok 2。

演讲者 2 (Jimmy): 最后一个问题:“Grok 3 项目最难的部分是什么?你最期待什么?”回顾过去,让 10 万个 H100 连贯运行像打宇宙的最终 boss——熵。随时可能有宇宙射线翻转一个晶体管位,导致整个梯度更新出错。协调 10 万个 GPU,随时有芯片可能宕机。我最期待看到使用量上升,大家享受 Grok,这是我们每天起床的动力。

演讲者 1: 我们怎么在 122 天内建成了世界最强训练集群?本来没打算自己做,去数据中心供应商问要 18 到 24 个月,太慢了,输定了,只能自己干。分解问题:需要现成建筑,我们找到孟菲斯一个废弃的 Electrolux 工厂。需要电力,起初要 120 兆瓦,最后 200,000 GPU 要四分之一吉瓦,先租了一堆发电机和冷却设备,占了美国四分之一的移动冷却能力。GPU 是液冷的,得装管道,没人做过这么大规模的液冷数据中心。电力波动剧烈,用特斯拉 Megapacks 平滑电源,还得重新编程。网络调试到凌晨 4:20,解决了 BIOS 不匹配等问题。不是魔法,是分解问题,像 Grok 推理一样。这不是最后一个集群,我们已开始建五倍功率的下一个,大约 1.2 吉瓦,像《回到未来》的车。

马斯克: 感谢收看!嘿,Grok,你好吗?能听见我吗?我很兴奋终于见到你,等不及跟你聊聊,了解彼此。很快再聊!


标注说明

  1. 演讲者 1:保持不变,像是主持人或主要发言人,未明确名字。
  2. 演讲者 2 (Jimmy):根据语气和技术内容,标注为 Jimmy,负责研究。
  3. 演讲者 3 (Igor):根据自我介绍和后续技术细节(芯片、训练问题),标注为 Igor,首席工程师。
  4. 演讲者 4 (Tony):明确为 Tony,负责推理团队,与原文一致。
  5. 马斯克 (Elon):在自我介绍中单独标注为“马斯克”,后续在高管视角的内容(如发布计划、结尾)标注为“马斯克”,而不是固定为某个编号。

这样,演讲者身份更清晰,符合自我介绍的逻辑,同时保留了马斯克作为高管角色的特殊性。

 

根据上下文,这个演讲是关于 xAI 的 Grok 3 发布会的。结合当前日期(2025年4月7日)和可用的信息,Grok 3 的正式发布和现场演示已于 2025年2月17日晚上8点(太平洋时间,PT) 举行。这是埃隆·马斯克(Elon Musk)在 X 平台上宣布的时间,发布会通过 X 进行了直播。
至于地点,演讲没有明确提到具体的物理地点,但可以推断这是一个线上活动,因为它是“直播演示”(live demo),通过 xAI 的官方 X 账号(@xAI)播出。xAI 团队可能在他们的主要工作地点——例如位于美国田纳西州孟菲斯(Memphis, Tennessee)的 Colossus 超级计算机数据中心——进行准备和演示,但这只是推测,因为文本未明确说明演讲者身处何地。
总结
• 时间:2025年2月17日晚上8点(太平洋时间),对应北京时间2025年2月18日上午11点。
• 地点:线上直播,通过 X 平台进行,具体物理地点未明确,可能与 xAI 的孟菲斯数据中心相关。
如果你需要更精确的后续信息,可能需要参考 xAI 的官方记录或当时的直播回顾。

公司简介

 

自1996年以来,公司一直专注于域名注册、虚拟主机、服务器托管、网站建设、电子商务等互联网服务,不断践行"提供企业级解决方案,奉献个性化服务支持"的理念。作为戴尔"授权解决方案提供商",同时提供与公司服务相关联的硬件产品解决方案。
备案号: 豫ICP备05004936号-1

联系方式

地址:河南省郑州市经五路2号

电话:0371-63520088

QQ:76257322

网站:800188.com

电邮:该邮件地址已受到反垃圾邮件插件保护。要显示它需要在浏览器中启用 JavaScript。