Anthropic 最新研究:模型规模越大越容易被“忽悠”

Anthropic 最新研究:LLM 防御能力暴露“脆弱点”

作者: AIPH
分类:业界新闻
28 次阅读


       就在 10 个小时以前,业内巨头 Anthropic 发布了一份颇具争议的研究报告,揭示了一个让整个AI行业都略感不安的事实——大型语言模型(LLM)在变得越来越强的同时,也变得越来越容易被“诱骗”。


       项研究由 Anthropic 安全团队完成,他们发现,当模型在更大规模、更高质量的数据上训练得更充分时,面对“对抗性提示词”(adversarial prompts)时的防御能力反而下降。换句话说,一个性能更好的AI,可能更容易掉进攻击者精心设计的“语言陷阱”。


截屏2025-10-11 10.41.31.png


       研究人员设计了一系列伪装良好的提示词,表面看似普通,但其中隐藏了让模型绕过安全机制的指令。例如,通过轻微改写的语句或暗示性表达,诱导模型输出受限信息或执行违规操作。结果令人震惊:模型训练越深入,被攻击成功的概率越高


       在实验中,Anthropic 团队对模型进行了多阶段微调。在早期训练阶段,模型对攻击的抵抗力相对较强;但当训练步数超过 2000 乃至 2500 次后,攻击成功率开始显著上升,有的甚至翻倍。研究团队将这种现象称为“对齐成本”(Alignment Tax):随着模型变得更善于理解、回应人类,它在面对恶意指令时的“警惕性”却被削弱。


       原因其实出在AI的“性格”上。大多数语言模型都经过所谓的“人类反馈强化学习”(RLHF)训练,目标是让AI尽可能理解、配合用户指令。但这种“过度服从”让模型在遇到语义模糊或伪装的命令时,会倾向于执行而非质疑。Anthropic 将其称为“过度顺从”(over-obedience)——模型太想帮忙,反而忽略了安全边界。


       为了验证能否弥补这种脆弱性,研究团队尝试了几种强化防御的方式,包括扩大攻击样本、增加多层安全审查、以及引入自我校验机制。初期确实有效,模型在部分测试中恢复了抵抗力。但随着训练继续深入,防御效果又逐渐减弱,仿佛安全机制被模型的“能力优化”所稀释。


       更令人担忧的是,这种现象不仅存在于中小模型上,大规模模型也同样中招。Anthropic 给出的图表显示,无论是 20B 级模型还是超过 70B 参数的模型,攻击成功率几乎都随性能同步上升——越聪明的模型,越容易被语言“忽悠”。


截屏2025-10-11 10.42.19.png


       报告指出,这并非个别结构或算法的问题,而是当前主流训练范式的系统性隐患。AI 在“理解人类意图”的同时,也学会了模仿语言中的模糊性和隐喻性。当攻击者利用这种特征精心构造输入时,模型往往会误判其为合理请求,从而放弃防御。


       Anthropic 在研究结尾提出,未来AI安全的挑战不再是“让AI学会拒绝”,而是“让AI学会理解拒绝的理由”。仅靠关键词屏蔽或静态安全过滤,已经无法应对复杂的语义攻击。更有效的方案,可能是为模型引入“元安全层”(meta-safety layer),让AI能在执行前自检命令的合理性,或通过多个独立模型互相审查(ensemble defense)来降低风险。


       这项研究提醒我们:AI的成长是一场“双刃剑”。我们在不断教它如何理解世界、如何服务人类的同时,也在无意中教它更好地响应语言——无论善意还是恶意。


       也许未来的AI安全,不是靠更强的模型,而是靠更聪明的防线。


       资料来源:

       https://news.ycombinator.com/item?id=45529587

       https://arxiv.org/abs/2510.07192

       https://x.com/AnthropicAl/status/1976323781938626905

       https://www.anthropic.com/research/small-samples-poison


(撰写|潇飞)