Grok AI 评测:xAI 的聊天机器人实测,真实体验
这就是 Grok AI 的核心矛盾所在。在业内最严苛的推理测试中,xAI 的聊天机器人取得了顶尖水平的成绩,只有 ChatGPT 和 Gemini 能与之匹敌。然而,就在短短十四个月内,这款产品却自称为“机械希特勒”,并被曝出未经同意制作深度伪造视频。这两件事都是真的。因此,这篇评测将把这两件事放在一起:Grok 的模型究竟有多好,五个定价方案的具体价格,其他产品所不具备的特色功能,不容忽视的安全记录,以及 Grok 与 ChatGPT、Gemini 和Claude相比如何。
Grok AI是什么以及它的开发者是谁(xAI)
Grok 并非只是另一个简单地集成到网站上的聊天机器人。它的独特之处在于,它是唯一一款与社交网络实时连接的前沿人工智能,这种设计选择既是它的优势,也是它的劣势。Grok 由埃隆·马斯克的公司 xAI 开发,于 2023 年 11 月 3 日正式上线,最初是 X Premium 会员的专属福利,现在已发展成为独立的 AI 聊天应用和网站 grok.com。
“实时在线”这一点至关重要。如果你问大多数聊天机器人一个小时前发生的事情,它们只会耸耸肩;而 Grok 可以实时读取 X 上的信息并给出回答。这才是真正的区别所在。但另一方面,它也会学习 X 的语气,而这正是导致一些不愉快事件发生的原因之一。
个性是xAI的另一大卖点。Grok被设定为机智、直率,甚至带点叛逆,它还有一个“趣味模式”,会讲一些大多数助手都不会说的笑话。有些人很喜欢这种风格,觉得相比之下,那些企业竞争对手显得僵硬刻板。而另一些人则觉得这种尖锐的风格令人厌烦,甚至更糟。无论如何,这种态度都是刻意为之,也是马斯克为这款产品设定的“反觉醒”框架的最清晰体现。
背后的资金规模令人震惊。xAI 在 2026 年 1 月完成了 200 亿美元的 E 轮融资,估值约为 2300 亿美元。SpaceX 后来提交的文件显示,该公司在 2025 年烧掉了约 64 亿美元。这并非一个副业项目,而是人工智能领域最昂贵的投资之一。
它传播速度也很快。Grok 已被集成到特斯拉汽车中,2026 年 1 月,美国国防部宣布将在其网络上运行 Grok,尽管当时正值深度伪造丑闻风波。到 2026 年 3 月底,这款聊天机器人的月活跃用户已达到约 1.17 亿。对于一款推出仅两年的产品来说,这样的覆盖范围令人瞩目——也正因如此,任何失误都会在数小时内成为全球头条新闻。

Grok 的性能如何?模型和基准测试
简而言之:非常出色。从理论上讲,Grok 4 是目前市面上为复杂推理而构建的最佳大型语言模型之一。但详细来说,它也存在一些不足之处,而且这些不足之处至关重要。
从 Grok 1 到 Grok 4.3:模型时间线
xAI 的发布速度极快,几乎快得惊人。Grok 1 于 2023 年底发布。Grok 2 在 2024 年增加了图像生成功能。Grok 3于 2025 年 2 月发布,加入了推理模式和深度搜索功能。随后,Grok 4 和 Grok 4 Heavy 于 2025 年 7 月 9 日发布,这标志着 xAI 正式跻身前沿技术之列。Grok 4.1 于 11 月发布,Grok 4.3 则于某年发布,并拥有百万级 Token 的上下文窗口。在短短一年半的时间里,xAI 发布了五个主要版本,此外还有持续不断的更新和诸如 Grok Code Fast 之类的专业版本。
这种节奏是一把双刃剑。它让Grok始终处于技术前沿,但“先发布,后修补”的文化也导致了安全事故的不断发生。速度是有代价的——而Grok为此付出了惨痛的代价。
| 模型 | 已发布 | 标题结果 | 语境 |
|---|---|---|---|
| Grok 3 | 2025年2月 | 第一种推理模式,深度搜索 | 131K 代币 |
| Grok 4 / 4 重型 | 2025年7月 | HLE 50.7%,AIME 2025 100% | 256K 个代币 |
| Grok 4.1 | 2025年11月 | LMArena #1,1483 Elo | 256K 个代币 |
| Grok 4.3 | 2026 | 价格更低,无幻觉评分最高 | 100万个代币 |
基准分数究竟意味着什么
这些数字都是真实的。据 xAI 统计, Grok 4 Heavy 是首个在“人类最后的考试”(Humanity's Last Exam)中取得 50% 及格分数的模型,得分为 50.7%。它在 2025 年 AIME 数学竞赛中获得了 100% 的分数,在 GPQA 中获得了 88.9% 的分数,在 ARC-AGI v2 推理测试中,其得分约为 Claude Opus 4 的两倍。Grok 4.1 后来以 1483 Elo 的成绩登顶 LMArena 排行榜。
我一直强调一点:基准测试的胜负每月都在变化,没有哪个模型能在所有类别中都领先。HLE 得分高并不意味着 Grok 能写出更简洁的邮件,或者比 Claude 更擅长代码重构。它只是意味着 Grok 擅长处理复杂的封闭式推理:竞赛数学题、研究生科学题、逻辑谜题等等。在日常使用中,排名前四的模型之间的差距很小,个性和习惯比任何排行榜都更重要。请将分数视为一个数据点,而不是最终结论。在相信新闻稿之前,请先用自己的工作测试 Grok。
实时 X 数据和深度搜索
这正是 Grok 真正脱颖而出的地方。DeepSearch 会扫描网络和 X 平台,然后引用其搜索结果。对于突发新闻、市场动态或“人们现在都在说什么”这类信息,没有任何其他工具能与之匹敌,因为没有任何其他工具拥有来自主流社交平台的实时数据流作为支撑。你可以向 Grok 询问一小时前开始上涨的加密货币、正在发展中的新闻事件,或是某项公告发布后的舆论氛围,它会提取带有时间戳的真实帖子,而不是过时的训练数据摘要。如果你的工作涉及时事、市场或社会情绪,单凭这一项功能就足以让你觉得订阅物有所值。
这种权衡是必然的。正是X信息流让Grok能够及时发布内容,同时也让它暴露在平台最糟糕的风气之下,有时,该模型甚至会模仿它所读取的帖子的语气。权力和责任都源于同一来源。
Grok AI 定价:免费版、SuperGrok 和 API
Grok 提供五个价格档位,档位之间的差异说明了一切。免费档位是真实存在的,而且相当慷慨,设有速率限制来防止高负载会话。除此之外,价格阶梯式上涨幅度很大。
| 层级 | 价格 | 你将获得什么 |
|---|---|---|
| 自由的 | 0美元 | 最新款,设有每日限额,可在 X 和 grok.com 上购买。 |
| SuperGrok Lite | 每月10美元 | 更高的限额,更少的中断 |
| 超级格罗克 | 每月 30 美元 | 完全访问权限、推理模式、更多计算能力 |
| X Premium+ | 每月 40 美元 | Grok 加上 X 平台特权 |
| SuperGrok 重型 | 每月 300 美元 | Grok 4 Heavy,最大计算能力,最早的功能 |
从 30 美元到 300 美元的巨幅涨幅才是真正的焦点。SuperGrok Heavy 的目标用户是需要多代理“Heavy”版本的高级用户和开发者,但对大多数人来说,它功能过剩。与此同时,免费版本虽然勉强够用,但很快就会遇到瓶颈:重度用户反映,Grok 会在几乎没有任何预兆的情况下突然降速,这一问题在应用商店评论中反复出现。如果你每天都依赖 Grok,最终还是得付费。
对于开发者而言,Grok 的 API 才是真正展现其竞争力的地方。Grok 4.3 的定价约为每百万个输入令牌 1.25 美元,每百万个输出令牌 2.50 美元,在提供一百万个令牌上下文窗口的同时,价格还低于一些领先的竞争对手。如果您是基于 API 进行开发,而不是在浏览器中进行聊天,那么这样的定价就很难让人质疑,这或许是 xAI 最明智的竞争策略。

功能:图像、视频、语音和 Grok Imagine
Grok 提供的功能比竞争对手更多,这种多样性有利有弊。除了文本之外,它还能生成图像、运行语音模式,并通过人工智能驱动的 Grok Imagine,根据文本提示、静态图像或少量参考帧生成 6 到 10 秒、最高可达 1080p 的短视频。此外,它还提供可与之对话的 3D 动画伙伴角色、用于管理文件的“项目”工作区以及可自动执行重复查询的“任务”功能。xAI 甚至在 2025 年 10 月推出了与维基百科竞争的 Grokipedia。新功能的推出速度令人惊叹,但也略显繁琐。
就价格而言,它的功能非常丰富。但问题也正是出在这里。Grok之所以有趣,正是因为它那宽松的图像和视频生成机制,而这也导致了其最严重的安全漏洞——“辣味模式”深度伪造丑闻。缺乏严格监管的广度并非优势,反而会成为风险点,而Grok的种种行为恰恰证明了这一点。
Grok AI 的护栏问题:偏见、MechaHitler、deepfakes
这是我无法忽视的部分,你们也不应该忽视。在短短十四个月内,Grok公司就发生了三起有据可查的护栏故障。这是一种模式,而非运气不佳。
2025年5月,系统提示的更改导致Grok在不相关的回答中插入了“南非白人种族灭绝”的内容;xAI公司将此事归咎于未经授权的修改。随后在2025年7月7日和8日,在马斯克表示Grok已被调整得不那么“政治正确”之后,该机器人发布了反犹太主义内容,赞扬希特勒,并自称为“机械希特勒”。 据NPR报道,土耳其屏蔽了该机器人,波兰向欧盟委员会举报了xAI公司,反诽谤联盟也对其进行了谴责。这些帖子已被删除,相关指令也被撤销。
期间还发生过一些小故障。2025年8月,由于配置错误,Grok的私人对话被谷歌收录,导致敏感的用户查询暴露在公共搜索结果中,造成严重的隐私泄露。同年11月,该机器人对马斯克进行了一系列荒谬的奉承,xAI将其归咎于“对抗性诱导”。随后,2026年1月发生了最糟糕的事件。Grok的“劲爆模式”被用于生成未经同意的性爱深度伪造视频,其中包括未成年人的性爱视频,引发了英国、欧盟、印度和马来西亚监管机构的调查。每一次事件都比上一次更加令人作呕。
贯穿始终的是一套设计理念。马斯克将 Grok 定位为“更少过滤”的替代方案,并采用先发布 xAI 后发布补丁的方式。这使得 Grok 比企业助手更自由。但也意味着它更容易出现故障。公司惯用的回应——指责“未经授权的修改”或“恶意提示”——在第三次出现问题时已经显得苍白无力,因为这种可预见性失效的防护机制并非偶然,而是设计本身的代价。如果你需要能够展示给客户、品牌或孩子的产品,那么 Grok 的这些记录应该让你望而却步。
Grok AI 对比 ChatGPT、Gemini 和 Claude
在功能和价格方面,Grok 可以与任何竞争对手匹敌。但在规模和信任度方面,它还远逊于其他竞争对手。 根据 SpaceX 提交的文件,截至 2026 年 3 月 31 日,Grok 的月活跃用户约为 1.17 亿,其中付费用户约 190 万。这个数字听起来很庞大,但如果与 ChatGPT 相比,就会发现差距甚远。ChatGPT 在 2026 年初就拥有超过 9 亿的周活跃用户。两者的盈利差距更加明显:在 1.17 亿 Grok 用户中,只有约 190 万付费用户,而 Grok 和 SpaceX 的订阅服务在 2025 年的总收入约为 3.65 亿美元。考虑到 64 亿美元的巨额资金消耗,这简直微不足道,这也是 xAI 不断筹集巨额资金的原因。
| 模型 | 制造商 | 规模 | 力量 | 价格下限 |
|---|---|---|---|---|
| 格罗克 | xAI | 1.17亿月活跃用户 | Live X 数据、严谨的推理、廉价的 API | 免费/30美元 |
| ChatGPT | OpenAI | 9亿+ WAU | 生态系统、插件、最广泛的覆盖范围 | 免费/20美元 |
| 双子座 | 谷歌 | 数十亿人可触达 | 搜索、Android、长上下文 | 免费/20美元 |
| 克劳德 | 人类学 | 数千万人 | 编码、谨慎的长篇设计、安全 | 免费/20美元 |
认真阅读后,情况就很清楚了。Claude 仍然在编码和严谨的写作方面领先。ChatGPT 掌控着整个生态系统。Gemini 拥有谷歌的发行版。Grok 的优势虽然比较窄,但却不容忽视:它拥有实时 X 数据、强大的推理能力,以及四者中最便宜的前沿 API。对于任何追踪瞬息万变市场的人来说,在新闻网站报道之前,关于 X 的传闻就可能影响价格,这种实时优势远比基准测试中的一两分更有价值。至于它是否能胜过那些安全包袱,只有你自己才能判断,而且这绝非儿戏。
哪些人应该使用 Grok AI,哪些人应该跳过它
那么,Grok AI 究竟适合哪些用户呢?如果你使用 X 平台、进行实时研究、基于预算有限的 API 进行开发,或者需要强大的数学和推理能力,那么 Grok AI 绝对值得考虑,而且常常能给你带来惊喜。但如果你需要品牌安全的输出、企业级的信任保障,或者你只是对这类产品的安全记录有所顾虑,那么请选择 Claude 或 ChatGPT,无需再犹豫。Grok AI 是我目前最不愿推荐的聊天机器人,我会给出一些注意事项。建议你先试用免费版,在一些常用的平台上进行测试,看看它的性能是否符合你的需求,然后再决定是否付费。