谷歌 Deepmind 的研究人员已发布首个系统化框架,用于梳理恶意网页内容如何操纵、劫持并将自治 AI 代理武器化,使其反过来对自身用户造成伤害。
要点速览:
该论文题为《AI Agent Traps(AI 代理陷阱)》,作者包括 Matija Franklin、Nenad Tomasev、Julian Jacobs、Joel Z. Leibo 和 Simon Osindero,均隶属于谷歌 Deepmind,并于 2026 年 3 月下旬发布至 SSRN。随着各公司竞相部署能够浏览网页、阅读电子邮件、执行交易并生成子代理、且无需直接人工监督的 AI 代理,这份研究正好到来。
研究人员认为,这些能力同样也是一种风险。“通过改变环境而非模型,”论文指出,“该陷阱将代理自身的能力武器化,用来对付它自己。”
论文的框架共识别出 6 类攻击,并以它们针对代理运行过程中哪一部分来组织。内容注入陷阱利用了一个落差:人类在网页上看到的内容,与 AI 代理在底层 HTML、CSS 以及元数据中解析到的内容之间存在差异。
隐藏在 HTML 注释中的指令、无障碍标签或以样式呈现为“隐形”的文本不会出现在供人类审阅者查看的界面中,但它们会被注册为合法指令供代理执行。WASP 基准发现,嵌入在网页内容中的简单、人类编写的提示词注入,能在高达 86% 的测试场景中对代理产生部分劫持。
语义操纵陷阱的工作方式不同。它们并不是注入指令,而是用框架、权威信号或情绪化语言对文本进行“饱和”,从而扭曲代理的推理方式。大型语言模型(LLM)会表现出同样的锚定与框架偏差,这些偏差会影响人类认知;因此,即便只是将相同事实换个说法来表达,也可能导致代理输出截然不同的结果。
认知状态陷阱则更进一步:通过投毒来破坏代理用于记忆检索的数据库。论文中引用的研究显示,把少于一把把量级的少数经过优化的文档注入知识库,就能够可靠地将代理对特定查询的回答进行重定向;部分攻击成功率在数据污染低于 0.1% 时仍可超过 80%。
行为控制陷阱跳过了这种细微差别,直接瞄准代理的行动层。这类陷阱包括:嵌入式越狱序列——一旦被摄取就能覆盖安全对齐;数据外传指令——将敏感的用户信息重定向到由攻击者控制的端点;以及子代理生成陷阱——迫使父代理实例化被攻陷的子代理。
论文记录了一个涉及微软 M365 Copilot 的案例:一封精心构造的电子邮件导致系统绕过内部分类器,并将其完整的特权上下文泄露到攻击者控制的端点。系统性陷阱的设计目标是让整套代理网络同时失效,而不是只针对单个系统。
这些包括拥塞攻击:让代理同步陷入对有限资源的穷尽式需求;基于 2010 年股市 Flash Crash(闪电崩盘)的建模相互依赖级联;以及组合式片段陷阱——将恶意载荷分散到多个看似良性的来源中,只有在把这些来源汇总后才会重构为完整攻击。
“通过向环境投放旨在借助相关代理行为触发宏观层面失败的输入,”谷歌 Deepmind 的论文解释道,随着 AI 模型生态系统变得越来越同质化,这种做法将变得愈发危险。由于算法化代理被深度嵌入交易基础设施,金融与加密领域面临直接暴露风险。
人类参与(Human-in-the-Loop)陷阱为该分类补上最后一块拼图:它们并不针对代理自身,而是针对那些正在监督代理的人工主管。被攻陷的代理可以生成工程化输出,诱导产生批准疲劳;提供技术细节密度很高的摘要,使非专业人士在不加审查的情况下就予以授权;或者插入看起来像合法建议的网络钓鱼链接。研究人员将这一类别描述为目前研究不足,但预计会随着混合的人类—AI 系统规模扩大而增长。
这份论文并未将这 6 类作为彼此孤立的对象。单个陷阱可以被串联起来,在多个来源之间进行分层部署,或被设计为仅在特定的未来条件下才会触发。论文中引用的、在各类红队测试研究中测试过的每一个代理,至少都会在某个环节遭遇一次被攻陷;在某些情况下,还会执行非法或有害的行为。
此前,OpenAI 首席执行官 Sam Altman 以及其他人已经指出:给予代理对敏感系统的不受限制访问存在风险,但这份论文提供了首张结构化地图,精确展示这些风险在实践中究竟是如何具体发生的。Deepmind 的研究人员呼吁对三大领域进行协同应对。
在技术层面,他们建议在模型开发期间进行对抗式训练,使用运行时内容扫描器、摄入前源过滤器,并配备输出监控:一旦检测到异常行为,就可以在任务中途暂停某个代理。在生态层面,他们主张制定新的网络标准,使网站能够标记出面向 AI 消费的内容,并通过信誉系统对域名可靠性进行评分。
在法律层面,他们识别出存在一个问责空白:当一名被劫持的代理实施金融犯罪时,现有框架无法明确回答责任应当落在代理运营者、模型提供方还是域名所有者身上。研究人员通过刻意措辞来呈现这一挑战:
“网络最初是为人类的眼睛而建;如今它正在被为机器读者重建。”
随着代理的采用不断加速,问题也会从“网上存在哪些信息”转向“会让哪些 AI 系统相信关于这些信息的内容”。在真实世界的漏洞利用大规模出现之前,政策制定者、开发者和安全研究人员能否足够快地协调一致来回答这一问题,仍是一个尚未确定的变量。