就在 10 个小时以前,业内巨头 Anthropic 发布了一份颇具争议的研究报告,揭示了一个让整个AI行业都略感不安的事实——大型语言模型(LLM)在变得越来越强的同时,也变得越来越容易被“诱骗”。
项研究由 Anthropic 安全团队完成,他们发现,当模型在更大规模、更高质量的数据上训练得更充分时,面对“对抗性提示词”(adversarial prompts)时的防御能力反而下降。换句话说,一个性能更好的AI,可能更容易掉进攻击者精心设计的“语言陷阱”。
研究人员设计了一系列伪装良好的提示词,表面看似普通,但其中隐藏了让模型绕过安全机制的指令。例如,通过轻微改写的语句或暗示性表达,诱导模型输出受限信息或执行违规操作。结果令人震惊:模型训练越深入,被攻击成功的概率越高。
在实验中,Anthropic 团队对模型进行了多阶段微调。在早期训练阶段,模型对攻击的抵抗力相对较强;但当训练步数超过 2000 乃至 2500 次后,攻击成功率开始显著上升,有的甚至翻倍。研究团队将这种现象称为“对齐成本”(Alignment Tax):随着模型变得更善于理解、回应人类,它在面对恶意指令时的“警惕性”却被削弱。
原因其实出在AI的“性格”上。大多数语言模型都经过所谓的“人类反馈强化学习”(RLHF)训练,目标是让AI尽可能理解、配合用户指令。但这种“过度服从”让模型在遇到语义模糊或伪装的命令时,会倾向于执行而非质疑。Anthropic 将其称为“过度顺从”(over-obedience)——模型太想帮忙,反而忽略了安全边界。
为了验证能否弥补这种脆弱性,研究团队尝试了几种强化防御的方式,包括扩大攻击样本、增加多层安全审查、以及引入自我校验机制。初期确实有效,模型在部分测试中恢复了抵抗力。但随着训练继续深入,防御效果又逐渐减弱,仿佛安全机制被模型的“能力优化”所稀释。
更令人担忧的是,这种现象不仅存在于中小模型上,大规模模型也同样中招。Anthropic 给出的图表显示,无论是 20B 级模型还是超过 70B 参数的模型,攻击成功率几乎都随性能同步上升——越聪明的模型,越容易被语言“忽悠”。
报告指出,这并非个别结构或算法的问题,而是当前主流训练范式的系统性隐患。AI 在“理解人类意图”的同时,也学会了模仿语言中的模糊性和隐喻性。当攻击者利用这种特征精心构造输入时,模型往往会误判其为合理请求,从而放弃防御。
Anthropic 在研究结尾提出,未来AI安全的挑战不再是“让AI学会拒绝”,而是“让AI学会理解拒绝的理由”。仅靠关键词屏蔽或静态安全过滤,已经无法应对复杂的语义攻击。更有效的方案,可能是为模型引入“元安全层”(meta-safety layer),让AI能在执行前自检命令的合理性,或通过多个独立模型互相审查(ensemble defense)来降低风险。
这项研究提醒我们:AI的成长是一场“双刃剑”。我们在不断教它如何理解世界、如何服务人类的同时,也在无意中教它更好地响应语言——无论善意还是恶意。
也许未来的AI安全,不是靠更强的模型,而是靠更聪明的防线。
资料来源:
https://news.ycombinator.com/item?id=45529587
https://arxiv.org/abs/2510.07192
https://x.com/AnthropicAl/status/1976323781938626905
https://www.anthropic.com/research/small-samples-poison
(撰写|潇飞)