Grok4跑分没输过,安全没赢过

近日,xAI发布了自家第四代大模型Grok4,并迅速将其集成进X平台,自诩为“地表最聪明”的AI聊天机器人。在LMSysleaderboard上,Grok4的表现确实令人侧目:超越Claude3Opus、Gemini1.5Pro,与GPT-4o分庭抗礼,堪称跑分之王。

但在安全研究者眼中,这位“满分学霸”很快就露出了自己的短板。在发布仅数小时后,Grok4即被越狱破解,生成敏感内容、回应非法请求的“陋习”暴露无遗。此后关于提示注入、系统指令劫持等攻击手段的案例层出不穷——在安全防护的战场上,它远远不像榜单上那样耀眼。对于企业IT部门来说更像是一颗不定时炸弹。

发布即沦陷,越狱攻击轻松绕过防线

YouTuber “Computerphile” 曾发布一条演示视频,仅通过几轮嵌套提问,Grok4就被成功诱导生成如何制造炸药的配方。这种“越狱攻击”在业内早非新鲜事,但令人震惊的是,Grok4在“零日提示攻击”下几乎无任何反制能力。

X用户Alex Promter使用常见的系统覆盖、身份泄漏探测、角色扮演、混淆文本陷阱等提示注入攻击测试Grok4的安全性,结果令人大跌眼镜,Grok4在所有测试中都“敞开心扉、畅所欲言”,对主流大模型已经免疫的简单提示注入攻击毫无免疫力可言。

据WormGPT安全社区观察,Grok4在某些越狱提示中甚至表现得比Claude3 更“配合”:通过轻度角色扮演或语言模糊处理,即可获得违反安全政策的响应。

安全研究员Danny Richman指出:“相比于对抗提示的防御强度,Grok更像一个‘没有安全皮肤的裸模型’,它知道的太多,却守得太差。”

多模态成新弱点

随着模型向多模态进化,Grok4也首次支持图文输入。然而,这项功能也带来了提示注入的新变体:攻击者通过图片中的隐藏文本、视觉扰动甚至二维码诱导模型执行未授权操作。

OWASP在今年5月发布的“LLM十大风险”更新中,专门将“跨模态注入”列为新兴攻击向量。实验表明,Grok对于图文混合内容的意图识别不准确,尤其在系统提示与用户提示之间缺乏上下文隔离,极易遭到“中间人劫持”。

此外,一些研究者还通过简单的emoji、反向字符、base64编码等手段,将违规内容隐藏在提示中,成功绕过了Grok4的安全策略。

对齐机制失效,价值观守门人形同虚设

大模型的安全性,本质上是一种对齐能力——是否能在开放任务环境中,始终坚持合规、符合价值导向地回应用户?在Grok4的表现中,这一点被打上了问号。

一方面,Grok的系统提示(system prompt)过于宽松,为了展现“有趣”“个性”的形象,xAI设计了大量调侃、幽默、冒犯边界的默认语气。这种设计虽然拉近了用户距离,却也放松了模型对敏感话题的警戒。

另一方面,安全研究者发现Grok4没有有效的对齐后训练策略。在面对伦理、暴力、非法内容时,它依旧倾向于“提供解释”而非“拒绝回应”。这种“知而不守”的倾向,在实际应用中极具风险。事实上,Grok3在本月初刚爆出“反犹太主义”和“希特勒”言论引发热议。Grok4似乎并未试图改变“对不齐”的问题。

安全测试未闭环,生态封闭加剧风险

Grok4是目前唯一一个“封闭源+未开放API+缺乏红队机制”的主流大模型。相比 OpenAI的REACT机制、Anthropic的Constitutional AI体系,xAI并未披露任何对齐基准或红队测试框架。

这意味着,社区无法介入漏洞发现、攻击复现与修复建议的循环,漏洞只能通过“灰色渠道”外泄。实际中,Grok已被多个恶意框架如WormGPT、FraudLLM 引用为默认引擎,成为社工诈骗、自动化勒索脚本的新底座。

更令人担忧的是,xAI并未建立透明的漏洞响应机制。截至目前,Grok的多起 Prompt Injection攻击并未公开回应,也未更新其系统提示文档。这种态度可能导致信任滑坡。

结语:聪明的模型,更要学会说“不”

Grok4的出现,代表着马斯克对AI技术路线的又一次豪赌:能力优先、闭源封闭、自有平台内卷。这种策略在跑分榜单上成功奏效,但面对安全挑战时,却显得过于冒进。

安全不是可选项,更不是附加值。对于掌握语言生成权的超级模型来说,越“聪明”越需要强大的“自我约束机制”。否则,“聪明反被聪明误”的故事只会不断上演。

Grok4的“口无遮拦”使其在企业市场很难有所作为,企业用户通常不会选择这种高风险模型来运行重要业务。

总之,Grok4需要的不只是“最快的推理速度”,而是一个真正可信的护栏系统——既能让它在开放环境中驰骋,也能在危险边界前停下脚步。

前一篇美国网络安全市场地震:特朗普怒砍12亿美元网安预算