埃隆·马斯克 (Elon Musk) 的 xAI 推出 Grok 4,宣称它是迄今为止最智能的人工智能
埃隆·马斯克 (Elon Musk) 旗下的人工智能公司 xAI 推出了迄今为止最强大的最新人工智能 (AI) 模型 Grok 4,声称它现在在学术、推理和编码能力方面处于领先地位。
周三深夜,马斯克毫不犹豫地在 X(以前称为 Twitter)的直播中称其为“世界上最聪明的人工智能”。
除了 Grok 4 之外,xAI 还推出了 Grok 4 Heavy,这是一种更高级的变体,它使用多个 AI 代理,像虚拟“学习组”一样协作来解决复杂的任务。该版本还附带新的顶级订阅计划:SuperGrok Heavy,每月只需 300 美元即可使用这款功能强大的模型。
基准之战:Grok 与竞争对手
根据 xAI 的数据,Grok 4 及其增强版 Grok 4 Heavy 在各种领先的 AI 性能基准测试中均优于 Google Gemini 2.5 Pro 和 OpenAI 的 o3-high 等主要竞争对手:
- 人类的最后考试(HLE):
- Grok 4 在没有工具的情况下得分为 4%,击败了 Gemini 2.5 Pro (21.6%) 和 o3-high (21%)。
- 带有工具的 Grok 4 Heavy 达到了 4%,远远领先于 Gemini 的 26.9%。
- ARC-AGI-2(模式识别测试):
- Grok 4 的得分为 2%,几乎是次优模型 Claude Opus 4 的两倍。
- MMLU(大规模多任务语言理解):
- Grok 4 的准确率达到 6%,智力指数得分为 73,位居榜首。
“根据我的经验,Grok 4 是第一次人工智能能够解决现实世界中困难的工程问题,而这些问题的答案无法在互联网或书籍中的任何地方找到。而且它会变得更好,”马斯克在 X 上发帖说。
在 STEM 和编码领域,该模型显得更加强大:
- Grok 4 Heavy 在 AIME(一项艰难的高中水平数学测试)中得分为 100%,而 Grok 4 则得分为 98.8%。
- 在 GPQA 上,Grok 4 得分为 87.5%,而 Grok 4 Heavy 变体则以 88.9% 的成绩领先。
- 对于编码员来说,xAI 预告了即将推出的 Grok 4 Code,该代码将于 2025 年 8 月推出,并且已经在 SWE 基准上显示出 72-75% 的准确率。
在将博士学位与 Grok 4 进行比较时,马斯克表示,“Grok 4 在所有方面都是研究生水平,就像博士学位水平一样。比博士学位更好——无一例外。大多数博士学位都会失败,而 Grok 4 会通过。”
尽管他承认它仍然与常识作斗争,并且还没有发明新技术或发现新物理学——“还”,但这只是时间问题。
新定价
Grok 4 API 的定价将与其前身相同 — 每百万个输入代币 3 美元,每百万个输出代币 15 美元(每 100 万个缓存输入代币 0.75 美元)。
然而,更大的惊喜在于 xAI 更新的订阅阵容:
- 免费套餐给予用户有限的访问 Grok 3。
- 超级格罗克计划(30 美元/月)解锁对两者的访问Grok 3 和新的 Grok 4。
- 超级格洛克重型(300 美元/月)提供 f可以访问 Grok 4 Heavy、Grok 4 和 Grok 3,以及即将推出的功能的早期预览。
Grok 4 与 GPT-5 竞争?
xAI 力争在人工智能领域占据主导地位,而 OpenAI 预计将于今年夏天晚些时候推出 GPT-5。尽管 Grok 4 的强劲表现不容忽视,但问题仍然存在:企业和客户是否会忽视最近的争议并选择马斯克的平台。
有关的:Gmail 推出“管理订阅”功能
