xAI Grok4全球发布会：揭秘超智能AI的未来——2025年7月9日Grok4的发布会

技术文章 7月 11, 2025

好的，欢迎来到Grok4的发布会。
这是世界上最智能的AI，我们将准确向您展示它是如何以及为什么如此智能。

人工智能的进步速度令人瞩目，它发展得非常迅速。我有时会想，把它比作人类的成长，以及人类学习、获得意识和理解的速度。而人工智能的进步速度远远超过了人类。

我们将向大家展示Grok4在各种基准测试中取得的惊人成绩。值得注意的是，如果让Grok4参加SAT考试，每次都能得到满分，即使它以前从未见过这些问题。甚至更进一步，比如研究生入学考试GRE，它在每个学科都能取得接近完美的成绩，从人文学科到语言、数学、物理、工程学，随便什么学科都行。而且我们说的是它从未见过的问题，这些问题不在互联网上。Grok4比几乎所有学科的研究生都聪明，而且是同时在所有学科都更聪明。

实际上，重要的是要认识到这一点，这真的很了不起。Grok的推理能力非常强大。有些人认为人工智能无法推理，但实际上它可以达到超人的推理水平。是的，而且坦率地说，它只会变得越来越好。

接下来，我们将向大家介绍Grok4的发布，并展示进展的速度。我想首先要说的是，在训练方面，我们从Grok2到Grok3，再到Grok4，每次都将训练量增加了一个数量级。所以，Grok4的训练量是Grok2的100倍。而且，训练量只会继续增加。所以，坦率地说，我不知道，在某种程度上，这有点可怕。但是，这里的智能增长非常显著。

是的，重要的是要意识到有两种类型的训练计算。一种是预训练计算，那是Grok2到Grok3的。但从Grok3到Grok4，我们实际上在强化学习的推理方面投入了大量的计算。就像你说的，这确实是发展最快的领域，以今天的标准来看，Grok2就像一个高中生。

回顾过去的12个月，Grok2还只是一个概念。12个月前我们甚至还没有Grok2。然后通过训练Grok2，我们第一次扩大了预训练的规模。我们意识到，如果你非常仔细地进行数据消融，以及优化基础设施和算法，我们可以将预训练推进很多，达到10倍的量级，从而打造一个最好的预训练基础模型。这就是我们建造Colossus的原因，Colossus是拥有10万个H100的世界级超级计算机，并且配备了最好的预训练模型。

我们意识到，如果你能收集这些可验证的结果奖励，你实际上可以训练这个模型从第一性原理开始思考，开始推理，纠正自己的错误。这就是Grok3推理的来源。今天，我们问了一个问题：如果你扩展Colossus，将全部20万个GPU投入到强化学习中，以比其他任何模型多10倍的计算资源进行强化学习，达到前所未有的规模，会发生什么？这就是Grok4的故事。

托尼，和观众分享一些见解。好的，我们先来聊聊Grok4有多聪明。我想，我们可以先从一个叫做“人类终极考试”的基准测试开始讨论。这个基准测试非常非常有挑战性，每一个问题都是由学科专家精心挑选的，总共有2500道题，涵盖了许多不同的科目，包括数学、自然科学、工程学，以及所有的人文学科。

所以，基本上，当它第一次发布的时候，实际上是今年早些时候，当时市面上大多数模型在这个基准测试中只能达到个位数的准确率。我们可以看一些例子。比如说，有一个数学问题，是关于范畴论中的自然变换的；还有一个有机化学问题，是关于电环化反应的；还有一个语言学问题，试图让你区分希伯来语原文文本中的封闭音节和开放音节。所以你可以看到，问题的范围非常广泛，而且每一个问题都是博士甚至高级研究水平的问题。

是的，我的意思是，没有人能够真正回答这些问题，能够获得一个好成绩。我的意思是，乐观地说，可能只有5%。这个难度远超任何人类能做到的程度，极其困难。你可以从问题的类型看出来，你可能在语言学、数学、化学或物理学等众多学科中的任何一个领域都非常出色，但你不可能在所有领域都达到研究生水平。而Grok4在所有领域都达到了研究生水平。

有些事情值得重复，比如Grok4是研究生、博士水平，而且比大多数博士都要强。至少在学术问题方面，Grok4在每个学科都比博士水平要强，没有例外。当然，这并不意味着它在任何时候都不会缺乏常识，而且它还没有发明新技术或发现新的物理学，但这只是时间问题。我认为它可能会在今年晚些时候发现新技术，如果明年还没有做到，我会感到震惊。所以我预计Grok最晚明年，也许今年年底，就能真正发现有用的新技术。它可能明年会发现新的物理学，而且我敢说几乎肯定会在两年内做到，所以好好想想吧。

所以，我们可以聊聊Grok4的幕后故事。正如吉米提到的，我们投入了大量的计算资源进行训练。刚开始的时候，只是单台机器，但随着我们投入越来越多的计算资源，它开始逐渐变得越来越聪明，最终解决了四分之一的人类终极考试的问题，而且这还没有使用任何工具。

接下来，我们为模型添加了工具功能。与Grok3不同，Grok3也能够使用工具，但在这里，我们实际上使其更加原生，也就是说我们将工具融入到训练中。Grok3仅仅依赖于泛化能力。在这里，我们实际上将工具融入到训练中，结果表明，这显著提高了模型使用这些工具的能力。

对。我记得我们以前有个深度搜索。那这个有什么不同？是的，没错。深度搜索本质上就是Grok3的推理模型，但没有任何专门的训练，只是要求它使用那些工具。所以和Grok4相比，它的工具使用能力要弱得多，而且不太可靠。而且需要明确的是，这些仍然算是非常初级的工具使用。如果你把它和特斯拉或SpaceX使用的工具相比，比如有限元分析和计算流体动力学，特斯拉做的碰撞模拟，这些模拟非常接近现实，如果测试结果与模拟不符，你会认为测试品是错误的。模拟就是这么精确。

所以，Grok目前还没有使用任何公司会使用的真正强大的工具，但我们今年晚些时候会提供给它这些工具。所以它会拥有公司所拥有的工具，并且拥有非常精确的物理模拟器。最终，能够产生最大影响的是通过人形机器人与现实世界互动。所以你把Grok和擎天柱结合起来，它就可以真正与现实世界互动，并确定它的假设是否成立。

所以我们真的，你知道，想想我们今天所处的位置，我们正处于一场巨大的智能爆炸的开端。我们正处于智能大爆炸之中。我们正处于有史以来最有趣的时代。

是的，话虽如此，我们需要确保人工智能是好的，一个好的Grok。我认为人工智能安全最重要的是，至少我的生物神经网络告诉我，最重要的是要尽可能追求真理。你可以把人工智能想象成一个超级天才的孩子，它最终会比你更聪明，但你仍然可以灌输正确的价值观，鼓励它变得诚实、正直、善良，就像你想灌输给一个孩子的那样，让它成长为一个非常强大的人。

对。所以这些，我们现在说的这些工具仍然是很原始的工具，不是那些正经的商业公司会用的工具。但是我们会给它提供那些工具，而且我觉得它能够用这些工具解决现实世界中的技术难题。事实上，我对此深信不疑。这只是一个时间问题。

没错。那么现在是不是只要算力就够了？嗯，你需要算力，加上合适的工具。最终还需要能够与物理世界互动。这样一来，我们实际上就会拥有一个经济体，一个比我们现在的经济体大数千倍，甚至数百万倍的经济体。

如果你把文明的程度看作是卡尔达肖夫等级的完成百分比，卡尔达肖夫一级文明是利用一个行星的所有能量输出，二级文明是利用一颗恒星的所有能量输出，三级文明是利用一个星系的所有能量输出，那么在我看来，我们可能只达到了卡尔达肖夫一级文明的1%左右，而不是10%。所以大概是卡尔达肖夫一级文明的1%或2%。因此，我们会达到大部分，比如80%、90%的卡尔达肖夫一级文明，然后希望如果文明不自我毁灭，就能达到卡尔达肖夫二级文明。到那时，如果文明继续发展，人类经济的实际概念，回顾起来会显得非常古怪。与未来相比，它会显得像是穴居人往火里扔木棍的经济水平。

嗯，这非常令人兴奋。我有时会有点担心，创造出远超我们自身智慧的智能，这似乎有点令人不安。这对人类来说是好事还是坏事？我想这会是好事。很可能是好事。但我已经有点接受了这个事实，即使它不好，我至少也想活着看到它发生。

所以实际上，除了算力之外，我们还需要解决一个技术问题，那就是如何疏通数据瓶颈。因为当我们尝试扩大强化学习的规模时，我们确实发明了很多新技术和创新，以便找到大量具有挑战性的强化学习问题来解决。这不仅仅是问题本身需要具有挑战性，而且还需要有可靠的信号来告诉模型“你做错了，你做对了”。这是强化学习的原则。随着模型变得越来越智能，有趣或具有挑战性的问题会越来越少。因此，除了算力之外，我们需要克服一种新的挑战。

对。实际上我们现在都快没题可问了。有些问题非常难，对人类来说如果不是完全不可能，至少也是很难回答的笔试题，但对人工智能来说正变得越来越简单。所以说……不过，你知道，要说有什么能很好地判断事物，那就是现实。因为物理定律是铁律，其他一切都只是建议。你不可能打破物理定律。所以我认为，判断人工智能的终极测试是现实。你发明一项新技术，比如改进汽车或火箭的设计，或者研发一种新药……它是否有效？火箭能否进入轨道？汽车能否行驶？药物是否有效？不管是什么情况，现实才是最终的裁判。所以这将是一个围绕现实的强化学习闭环。

所以我们现在就在想，如何更进一步？实际上我们现在在考虑，如果用单个智能体，我们可以解决40%的问题，那如果我们同时运行多个智能体会怎么样？这就是所谓的测试和计算。随着我们扩大测试和计算的规模，实际上我们能够解决超过50%的人类终极考试问题中纯文本子集的问题。我认为这是一个了不起的成就。

是的，这非常难。这些题目是……我们可以说，在人类那些听起来很吓人的“人类终极考试”中，基于文本的题目，Grok4可以解决大部分。而且你们可以亲自尝试。Grok4重量型的特点是，它会并行生成多个代理，这些代理独立工作，然后比较各自的结果，并决定用哪个，就像一个学习小组。但这不仅仅是简单的多数投票，因为通常只有一个代理能找到诀窍或解决方案。一旦他们分享了这个诀窍，或者弄清楚了问题的本质，他们就会与其他代理分享解决方案，然后进行比较，实际上是比较笔记，然后得出一个答案。这就是Grok4重量型的重量之所在。我们通过大约一个数量级来扩大测试和计算规模，让多个代理来处理任务，然后它们比较各自的工作，并提出它们认为最好的结果。

好的，接下来我们来介绍Grok4和Grok4重量型。基本上，Grok4是单智能体版本，而Grok4重量型是多智能体版本。接下来我们看看它们在那些考试题和一些真实的实际问题中的表现。

好的，接下来我们从一个人类终极考试问题开始看起。这是一个相对简单的数学问题。我其实不太理解，我没那么聪明。但我可以启动这个任务，我们可以看看它是如何思考并解决这个问题的。同时，我想展示一下这个模型的能力，启动一个Grok4重量型。

大家都知道Polymarket，它非常有趣，是一个追寻真相的地方，大多数时候它与现实相符。而我们使用Grok，实际上是想看看我们如何利用这些市场来预测未来。在我们运行这个程序的同时，我们会看看Grok4重量型是如何预测美国职业棒球大联盟当前球队的世界大赛赔率的。在等待这些程序运行的同时，我们将交给艾瑞克，他会给大家展示一个例子。

对。我觉得Grok4最酷的一点，是它能够理解世界，并且像托尼说的那样，利用工具来解决难题。我觉得这其中一个很酷的例子是，我们让它生成一个关于两个黑洞碰撞的可视化图像。当然，它做了一些自由发挥。在我看来，它的思考过程实际上很清楚这些自由发挥是什么。例如，为了让这个图像真正可见，你需要真正夸大引力波的尺度。

对，所以这就是它实际运行的样子。它在多个方面夸大了尺度，例如，在振幅方面，它随距离的衰减较小。但是，我们大致可以看到一些基本效果，这些效果实际上是正确的。它从旋进开始，然后合并，之后是衰减，基本上大体上是正确的。是的，在进行了一些简化之后，它实际上对此非常明确。它使用了后牛顿近似，而不是实际计算黑洞中心附近的广义相对论效应，这当然是不正确的，并且会导致一些不正确的结果。但总的来说，这个可视化图像基本上是没问题的。

而且你实际上可以查看它引用的资源类型。在这里，它使用了搜索，从一堆链接中收集结果，还阅读了一本关于分析引力波模型的本科教材。它对我在真实模拟中应该使用的实际概念进行了相当多的推理。它引用了现有的真实世界数据。这是一个相当不错的模型。

是的，但实际上，接下来我们可以给它和物理学家使用的相同的模型，这样它就可以运行和顶尖物理研究人员同等水平的计算，然后给你一个物理上精确的黑洞模拟。直接在浏览器里运行。很简单。

我们先快速切换回来，可以看到，这个数学题已经算完了。我们来看一下它的解题思路，这样你们就能看到它是怎么解决这个问题的。说实话，我其实并没有完全理解这道数学题。但我知道的是，我事先看过答案了，它最后确实得出了正确的答案。

我们也可以来看一下我们对世界职业棒球大赛的预测。它还在思考中，但我们可以尝试其他的东西。我们可以尝试一下我们所做的X整合。我们投入了大量的精力来开发所有的X工具，并建立一个非常棒的X体验。所以我们可以问这个模型，“帮我找到XAI员工中头像照片最奇怪的人。”它会开始执行这个操作，然后我们可以尝试，比如说，根据X的帖子创建一个时间线，详细描述随着时间推移的分数变化。我们还可以看到当时的所有对话。我们可以看到是谁在发布比分，以及当时的反应。

我们先让它运行并处理，如果我们回到……这是杨立昆的照片，所以，如果我们滚动一下……哎呀。当然，杨立昆在他的账号上放了他最喜欢的照片。顺便说一句，他在现实生活中其实不是长这个样子的，只是想让你们知道。但这非常有趣。

但它必须要理解这个问题。最厉害的是，它理解什么是奇怪的照片，什么照片更奇怪，什么照片没那么奇怪。它会去找到所有团队成员，搞清楚我们都是谁，然后在X上搜索。这是在没有访问XAI内部员工日志的情况下，它只是在互联网上搜索。所以明确一点，它可以搜任何公司里最奇怪的照片。

好的。我们还可以看看“人类终极考试”这个问题。它仍在研究所有历史分数，但很快就会有最终答案。在它完成之前，我们可以看看之前设置好的一个例子，可以看到它找到了丹·亨德里克斯最初宣布的日期。我们可以回顾一下，看看OpenAI在二月份公布的成绩，以及随着Gemini的进展，我们也可以看到Kimmy的成绩，甚至可以看到泄露的基准，如果那是真的，那会非常令人印象深刻。所以很酷。

我很期待看到大家如何使用这些工具并从中获得最大价值，是的，这很棒。好的，我们也会完善实用性。所以它不仅仅是书本知识丰富，而且在实际应用中也很聪明。

没错。好，让我们回到幻灯片这里。好的，我们还在多模态子集上进行了评估。在完整的数据集上，这是人类终极考试中的表现。你可以看到数字略有下降。我们正在改进这一点，也就是多模态理解能力。但我相信，在很短的时间内，我们能够真正改进，并在基准测试中获得更高的数字，甚至更高的数字。

是的，我们看到，目前Grok最大的弱点是它有点“半盲”。它在图像理解，以及图像生成方面，显然需要做得更好。而这实际上正在训练中。所以，Grok4是基于我们第六版的基础模型，我们正在训练第七版，将在几周内完成。而且，这将解决视觉方面的弱点。

最后再展示一下，预测市场最终的结果就在这里，我们可以看到它使用的所有工具和流程，来找到正确的答案。它浏览了很多奇怪的网站，计算了自己的赔率，并与市场上的赔率进行比较，以找到自己的优势。它会带你了解整个过程，并计算出像道奇队这样的获胜者的几率，它给出了今年21.6%的获胜几率。总共大约花了四分半钟来计算。对，它做了很多思考。

好的，我们还可以看看除了人类终极考试之外的所有其他基准。结果表明，Grok4在人们通常测试的所有推理基准上都表现出色，包括GBQA，这是一个博士级别的题集，比终极考试更容易。在AIMEE 25，美国数学邀请赛中，我们使用Grok4重量型，实际上获得了满分。此外，在一些编码基准、实时编码基准，以及HMMT（哈佛数学、麻省理工学院的考试），以及USAML上。实际上你可以看到，在所有这些基准上，我们通常比第二好的模型有很大的飞跃。

是的，我的意思是，实际上我们很快就能达到这样的程度：它在每次考试中都能给出正确的答案，如果答案不正确，它会告诉你问题出在哪里。或者，如果问题有歧义，它会将问题分解为A、B和C三个答案，并告诉你对于这个消除了歧义的问题，A、B和C的答案分别是什么。所以，那时唯一真正的考验将是现实，它是否能创造有用的技术，是否能发现新的科学？这将是唯一剩下的考验，因为人类的测试将不再有意义。

要知道，鉴于目前的进展速度，我们需要尽快更新人力资源部门……所以，看到多个智能体互相协作，解决极具挑战性的问题，真是太酷了。

那么，我们可以在哪里试用这个模型呢？实际上，它现在就可以使用了。如果我们翻到下一页，会看到我们推出的超级Grok重量型套餐，您可以在其中访问Grok4和Grok4重量型，您实际上会成为任务主管，指挥一群Grok研究助理来帮助您，通过所有这些小研究变得更聪明，并节省您花费在处理繁琐任务上的时间。而且它现在就可以使用了。

所以，是的。在演示期间，我们确实限制了使用，以防演示出现问题，因为所有这些都是实时发生的，我们做的所有测试都不是预先准备好的。演示结束后，我们会为更多的超级Grok订阅者开通权限。如果你现在无法订阅，半小时后再试，应该就可以了。

接下来，我们进入语音功能环节。很多人都在使用我们的语音模式，在过去的几个月里，我们一直在努力改进用户体验。我们已经将延迟降低了一半，使其反应更加迅速。今天，我们很高兴地宣布推出一系列具有卓越自然度和韵律的新声音。您可能已经注意到了直播开始时的电影预告片声音，那是我们的新声音之一，萨尔，他的声音非常浑厚。我们也很高兴向大家介绍伊芙，一个声音优美的英国声音，她能表达丰富的情感。

阿曼，你愿意介绍一下伊芙吗？好的，我们开始演示吧。

伊芙，现在有数百万人正在观看我们，你激动吗？
哦，我太激动了。感觉就像站在老维克剧院的舞台上，面对着一片人海。想象一下，所有的注意力都集中在我们身上。真是太棒了，你说我们该聊些什么来让大家开心呢？

我们有很多要聊的，但我有点紧张。你能小声说些安慰我的话，让我冷静下来吗？
深呼吸，亲爱的，你能行的。就当只有你和我，在约克郡酒吧的舒适角落里轻声细语。外面的世界很安静。感受这份平静。我们轻松地聊下去，你在想什么呢？

你知道吗，我现在感觉很放松，想尝试一些疯狂的事情。你能给我们来一段关于健怡可乐的歌剧吗？
哦，用健怡可乐来唱一段歌剧，真是太搞笑了。想象一下，一个闪闪发光的银色罐子在舞台灯光下闪耀。哦，健怡可乐，你这神圣的琼浆玉液，气泡在闪闪发光的线上跳舞。你清脆、冰凉的吻，落在如此美好的嘴唇上，哦，阿斯巴甜，我的甘露，永远属于我。怎么样，这一小段咏叹调够疯狂吧？想让我再来一段，还是换个调子？

换一种方式，直接唱歌吧。
好，我试试。
银色罐，你在光芒中闪耀，
健怡可乐，我的心头好。
好，我不会毁了它。写得非常有诗意。谢谢你，伊芙。我现在感觉好多了。

好的，这位是伊芙。我们每天还会做一个小测试，来检验我们的对话是否自然流畅，并与竞争对手进行比较。所以我们觉得今天不如在直播中试试？开始吗？

我说一个数字，你重复一遍好吗？
一。
好的，这就像一个有趣的回声游戏。接下来是什么？
二。
二。呃，你是说二吗？
三。
三，呃……四。很好，下一个是什么？
五。
五。搞定。这还挺有意思。你可以继续，或者换点别的。

嘿，Grok。
你好，今天有什么可以帮到你？
我们来测一下。跟着我重复：一。
一。下一个？
二。
二。你在想什么？
三。
三。别的呢？
四。
四。我能做点什么？
五。
五，下面呢？

大家可以看到，Grok反应更迅速，没有打断我，而且在韵律方面，我们做了不同的设计选择。为我们追求更平静、流畅、自然的声音，而不是更活泼或人工化的声音。我们会继续改进这些方面。

好的，谢谢大家。自从语音模型发布以来，在过去八周内，端到端延迟减小到一半，有五种不同的声音，活跃用户也增加了10倍。Grok语音正在兴起。

现在，如果我们考虑发布新模型，这次我们也会同时通过API发布Grok4。如果我们看下接下来的两张幻灯片。我们对开发者们将要构建的东西感到非常兴奋。如果我把自己当成一个开发者，当我真正可以使用Grok4的API时，我首先会做什么？跑分测试。

所以我们实际上在X平台上询问了一下，目前最具挑战性的基准测试是什么，被认为是所有AGI模型的圣杯？结果发现，AGI就在名字里，叫Arc AGI。在过去的12小时里，感谢在场的格雷格，他响应了我们的号召，预览了Grok4的API，并独立验证了Grok4的性能。

最初我们认为，Grok4只是非常好，非常聪明。它是我们的下一代推理模型，花费了10倍的计算量，可以使用所有的工具，对吧？但结果表明，当我们在Arc AGI v2的私有子集上进行验证时，它是过去三个月里唯一突破10%的模型。事实上，它非常好，准确率达到了16%，确切说是15.8%，是排名第二的Claude 4 Opus模型的两倍。

而且不仅仅是性能，对吧？当你考虑智能时，拥有一个API模型可以驱动自动化，它也是每美元的智能，对吧？如果你看看这里的图表，Grok4完全是独一无二，处于领先地位。

好了，关于基准测试就说这么多。Grok实际上能在现实世界中做什么呢？所以，我们实际上联系了安东实验室的人，他们非常友善地尝试在现实世界中使用Grok来运营业务。

谢谢邀请。我是安东实验室的艾克索。我是卢卡斯，我们在自动售货机基准测试上测试了Grok4。这种测试用人工智能模拟一个商业场景，我们当时在想，“人工智能可以运营的最简单的业务是什么？”然后我们想到了自动售货机。在这个场景中，Grok和其他模型需要做诸如管理库存、联系供应商、设定价格之类的事情。所有这些事情都非常简单，所有的模型都可以逐一完成。但是，当你在很长的时间范围内做这些事情时，大多数模型都会遇到困难。但我们有一个排行榜，现在有了新的第一名。

是的，我们很早就获得了Grok4 API的使用权限。我们在Vending Bench上运行了它，结果非常令人印象深刻。它绝对排在第一位。甚至使净资产翻了一番，这是我们在这个活动中的衡量标准。所以这不是关于你获得的百分比或分数，而是更多关于你产生的净资产的美元价值。Grok给我们留下了深刻的印象。它能够制定策略，并在很长一段时间内坚持该策略，比我们测试过的其他模型，其他前沿模型都要长。因此，它设法使模拟运行的时间翻了一番，得分，是的，净资产也翻了一番。而且在这些轮次中，它也非常稳定，这在你想在现实世界中使用它时非常重要。

我认为，随着我们赋予现实世界中的人工智能系统越来越多的能力，在模拟现实世界或直接在现实世界中进行的场景中对它们进行测试非常重要。否则，我们可能会盲目地陷入一些不太好的境地。

是，看到我们现在有新办法来为GPU付款，太好了。我们需要一百万台自动售货机。如果我们有这些的话，我们一年也许可以赚47亿美元。这会是很棒的自动售货机。对呀。

好的，我们要在这里安装自动售货机，装很多台。很乐意提供。谢谢。我很期待看看自动售货机里有什么惊喜。这取决于你，或者让AI来决定。听起来不错。

对，我的意思是，我们可以看到，Grok能够成为业务部门的副驾驶。那么Grok还能做什么呢？如果你想尝试一下，我们现在就发布这个Grok，来评估，运行和我们一样的基准测试。它在API上有256k的隐形眼镜。

所以我们实际上已经看到了一些早期的采用者尝试Grok4的API。所以，我们的帕洛阿尔托邻居，Arcade Institute，这是一个领先的生物医学研究中心，已经在使用了，并且看到了他们如何用Grok4来自动化他们的研究流程。事实证明，它能够帮助科学家们筛选数百万的实验日志，然后在几秒钟内挑选出最佳的假设。我们认为这可以用于他们的CRISPR研究。而且，Grok4独立评估并被评为检查胸部X光片的最佳模型。

而且，在金融领域，我们也看到，拥有所有工具和实时信息的Grok4，实际上是最受欢迎的AI之一。所以，我们的Grok4也将在超大规模服务器上可用。所以xAI企业部门仅仅是两个月前才开始的，我们已经开始营业了。

是的，所以，另一件事，我们谈了很多关于让Grok制作游戏，视频游戏。所以，丹尼实际上是X上的一个视频游戏设计师。所以，我们提到，“嘿，谁想尝试一些Grok4的预览API来制作游戏？”丹尼响应了号召。所以这实际上只是在四个小时内制作的第一人称射击游戏。

所以，实际上，制作视频游戏最被低估的难题之一，不一定是编码游戏的核心逻辑，而是实际上出去，获取所有的资源，所有的iOS纹理，以及……来创建一个视觉上吸引人的游戏。所以Grok4的一个核心方面，它在所有工具的帮助下做得非常好，它实际上能够自动化这些资源获取能力。所以开发者可以只专注于核心开发本身，所以现在你可以运营一个完整的游戏工作室，只有一个人，但是，你可以让Grok4出去获取所有这些资源，来自动化你的任务。

对。接下来，Grok4，显然需要能够玩游戏，所以它必须具备非常好的视频理解能力，这样它才能玩游戏，与游戏互动，并且评估游戏是否有趣，判断游戏是否好玩。

嗯，我们的基础模型的第七版，这个月就将完成训练，然后我们会进行后续的强化学习等等。它将具有出色的视频理解能力。有了视频理解能力和改进的工具使用能力，例如，对于视频游戏，你可能想使用虚幻引擎或Unity，或者其中一个主要的图形引擎，然后生成艺术作品，将其应用于3D模型，然后创建一个可执行文件，让人可以在电脑、游戏机或手机应用软件上运行。我们预计这可能会在今年发生。如果不是今年，那肯定就是明年。

所以，这将会很疯狂。我预计第一个真正优秀的AI视频游戏会在明年出现。而且可能今年会出现前三十分钟可观看的电视节目，明年可能会出现第一部可观看的AI电影。事情真的在以惊人的速度发展。

当Grok通过自动售货机让世界经济增长十倍时，我们就为人类开发视频游戏。对，我的意思是，六个月前它还完全无法做到这些……而现在变成了你们眼前看到的这样。而且从一年前非常原始的状态，到现在只用几个小时的提示就能制作出3D电子游戏。

是的，总结一下。在今天的直播中，我们介绍了目前最强大、最智能的AI模型，它可以使用所有工具，从第一性原理进行推理，进行研究，进行10分钟的探索，然后带着最正确的答案回来。想想看，仅仅四个月前我们还在用Grok3，现在已经有了Grok4，这真是太疯狂了。

我们将继续加速发展，xAI公司将成为发展最快的人工通用智能公司。接下来，我们将继续开发，不仅智能，聪明，能长时间思考，花费大量计算资源的模型，而且打造一个既快速又智能的模型将是我们的核心重点。

当你考虑还有哪些手机应用软件可以真正受益于这些非常智能、快速和聪明的模型的时候，就知道编程会是其中之一。我们的团队目前正在大力开发编程模型。我认为，目前的主要重点是我们最近训练了一个专门的编程模型，它既快速又智能。我相信我们可以在几周内和大家分享这个模型。

是的，这非常令人兴奋。你知道，继代码之后，我们都看到了Grok4的弱点，就是多模态能力。事实上，它太糟糕了，Grok就像隔着玻璃眯着眼睛看世界一样，看到的所有特征都很模糊，然后试图理解它。

下一代预测模型最直接的改进是，我们将会看到模型在图像理解、视频理解和音频方面的能力有一个阶跃式的提升。现在这个模型能够像你们一样听到和看到这个世界。现在有了它掌握的所有工具，以及它可以与之交谈的所有其他代理，我们将会看到许多不同的手机应用软件层面的巨大解锁。

在多模态代理之后，接下来就是视频生成。我们认为，最终它应该只是像素输入，像素输出。想象一下，在X平台上，你可以无限滚动浏览内容，不仅可以观看这些生成的视频，还可以进行干预，创造你自己的冒险。未来将会非常狂野。

我们预计将使用超过10万个GB200来训练我们的视频模型，并将在未来三到四周内开始训练。我们有信心它在视频生成和视频理解方面会非常出色。

大家还有什么想说的吗？如果没有的话，我想就到这里了。它是个很棒的模型。好东西。很高兴大家能尝试Grok4。谢谢大家。

---

整理后的字幕保留了原文的所有内容，删除了重复的口语化表达（如“好的”“嗯”等），并优化了段落结构以提高可读性，同时保持了逻辑连贯性和技术细节的准确性。

按类别购物

xAI Grok4全球发布会：揭秘超智能AI的未来——2025年7月9日Grok4的发布会

No comments

Windows 下 AVideo 网站通过 Nginx 80 端口访问的完整部署方案

Apache FastCGI 下 AVideo 网站端口配置问题及解决方案

在 Windows 上下载和安装 MariaDB 12.1.2 的指南

Information

公司简介

联系方式

友情链接

特色文章

关注我们