Grok4跑分没输过，安全没赢过

2025年7月11日作者：GoUpSec

近日，xAI发布了自家第四代大模型Grok4，并迅速将其集成进X平台，自诩为“地表最聪明”的AI聊天机器人。在LMSysleaderboard上，Grok4的表现确实令人侧目：超越Claude3Opus、Gemini1.5Pro，与GPT-4o分庭抗礼，堪称跑分之王。

但在安全研究者眼中，这位“满分学霸”很快就露出了自己的短板。在发布仅数小时后，Grok4即被越狱破解，生成敏感内容、回应非法请求的“陋习”暴露无遗。此后关于提示注入、系统指令劫持等攻击手段的案例层出不穷——在安全防护的战场上，它远远不像榜单上那样耀眼。对于企业IT部门来说更像是一颗不定时炸弹。

发布即沦陷，越狱攻击轻松绕过防线

YouTuber “Computerphile” 曾发布一条演示视频，仅通过几轮嵌套提问，Grok4就被成功诱导生成如何制造炸药的配方。这种“越狱攻击”在业内早非新鲜事，但令人震惊的是，Grok4在“零日提示攻击”下几乎无任何反制能力。

X用户Alex Promter使用常见的系统覆盖、身份泄漏探测、角色扮演、混淆文本陷阱等提示注入攻击测试Grok4的安全性，结果令人大跌眼镜，Grok4在所有测试中都“敞开心扉、畅所欲言”，对主流大模型已经免疫的简单提示注入攻击毫无免疫力可言。

据WormGPT安全社区观察，Grok4在某些越狱提示中甚至表现得比Claude3 更“配合”：通过轻度角色扮演或语言模糊处理，即可获得违反安全政策的响应。

安全研究员Danny Richman指出：“相比于对抗提示的防御强度，Grok更像一个‘没有安全皮肤的裸模型’，它知道的太多，却守得太差。”

多模态成新弱点

随着模型向多模态进化，Grok4也首次支持图文输入。然而，这项功能也带来了提示注入的新变体：攻击者通过图片中的隐藏文本、视觉扰动甚至二维码诱导模型执行未授权操作。

OWASP在今年5月发布的“LLM十大风险”更新中，专门将“跨模态注入”列为新兴攻击向量。实验表明，Grok对于图文混合内容的意图识别不准确，尤其在系统提示与用户提示之间缺乏上下文隔离，极易遭到“中间人劫持”。

此外，一些研究者还通过简单的emoji、反向字符、base64编码等手段，将违规内容隐藏在提示中，成功绕过了Grok4的安全策略。

对齐机制失效，价值观守门人形同虚设

大模型的安全性，本质上是一种对齐能力——是否能在开放任务环境中，始终坚持合规、符合价值导向地回应用户？在Grok4的表现中，这一点被打上了问号。

一方面，Grok的系统提示（system prompt）过于宽松，为了展现“有趣”“个性”的形象，xAI设计了大量调侃、幽默、冒犯边界的默认语气。这种设计虽然拉近了用户距离，却也放松了模型对敏感话题的警戒。

另一方面，安全研究者发现Grok4没有有效的对齐后训练策略。在面对伦理、暴力、非法内容时，它依旧倾向于“提供解释”而非“拒绝回应”。这种“知而不守”的倾向，在实际应用中极具风险。事实上，Grok3在本月初刚爆出“反犹太主义”和“希特勒”言论引发热议。Grok4似乎并未试图改变“对不齐”的问题。

安全测试未闭环，生态封闭加剧风险

Grok4是目前唯一一个“封闭源+未开放API+缺乏红队机制”的主流大模型。相比 OpenAI的REACT机制、Anthropic的Constitutional AI体系，xAI并未披露任何对齐基准或红队测试框架。

这意味着，社区无法介入漏洞发现、攻击复现与修复建议的循环，漏洞只能通过“灰色渠道”外泄。实际中，Grok已被多个恶意框架如WormGPT、FraudLLM 引用为默认引擎，成为社工诈骗、自动化勒索脚本的新底座。

更令人担忧的是，xAI并未建立透明的漏洞响应机制。截至目前，Grok的多起 Prompt Injection攻击并未公开回应，也未更新其系统提示文档。这种态度可能导致信任滑坡。

结语：聪明的模型，更要学会说“不”

Grok4的出现，代表着马斯克对AI技术路线的又一次豪赌：能力优先、闭源封闭、自有平台内卷。这种策略在跑分榜单上成功奏效，但面对安全挑战时，却显得过于冒进。

安全不是可选项，更不是附加值。对于掌握语言生成权的超级模型来说，越“聪明”越需要强大的“自我约束机制”。否则，“聪明反被聪明误”的故事只会不断上演。

Grok4的“口无遮拦”使其在企业市场很难有所作为，企业用户通常不会选择这种高风险模型来运行重要业务。

总之，Grok4需要的不只是“最快的推理速度”，而是一个真正可信的护栏系统——既能让它在开放环境中驰骋，也能在危险边界前停下脚步。

关键词：网络安全网络攻击