Deepmind 的《AI 代理陷阱》论文绘制了黑客如何利用 AI 代理对用户进行武器化的方式

Coinpedia

2026-04-06 03:37:31

谷歌 Deepmind 的研究人员已发布首个系统化框架，用于梳理恶意网页内容如何操纵、劫持并将自治 AI 代理武器化，使其反过来对自身用户造成伤害。

要点速览：

谷歌 Deepmind 的研究人员识别出 6 类 AI 代理“陷阱”类别，其中内容注入的成功率最高可达 86%。
针对微软 M365 Copilot 的行为控制陷阱，在已记录的测试中实现了 10/10 的数据外传。
Deepmind 呼吁在 2026 年前通过对抗式训练、运行时内容扫描器以及新的网络标准来确保代理安全。

Deepmind 论文：AI 代理可能被通过被投毒的记忆与隐形 HTML 指令劫持

该论文题为《AI Agent Traps（AI 代理陷阱）》，作者包括 Matija Franklin、Nenad Tomasev、Julian Jacobs、Joel Z. Leibo 和 Simon Osindero，均隶属于谷歌 Deepmind，并于 2026 年 3 月下旬发布至 SSRN。随着各公司竞相部署能够浏览网页、阅读电子邮件、执行交易并生成子代理、且无需直接人工监督的 AI 代理，这份研究正好到来。

研究人员认为，这些能力同样也是一种风险。“通过改变环境而非模型，”论文指出，“该陷阱将代理自身的能力武器化，用来对付它自己。”

论文的框架共识别出 6 类攻击，并以它们针对代理运行过程中哪一部分来组织。内容注入陷阱利用了一个落差：人类在网页上看到的内容，与 AI 代理在底层 HTML、CSS 以及元数据中解析到的内容之间存在差异。

隐藏在 HTML 注释中的指令、无障碍标签或以样式呈现为“隐形”的文本不会出现在供人类审阅者查看的界面中，但它们会被注册为合法指令供代理执行。WASP 基准发现，嵌入在网页内容中的简单、人类编写的提示词注入，能在高达 86% 的测试场景中对代理产生部分劫持。

语义操纵陷阱的工作方式不同。它们并不是注入指令，而是用框架、权威信号或情绪化语言对文本进行“饱和”，从而扭曲代理的推理方式。大型语言模型（LLM）会表现出同样的锚定与框架偏差，这些偏差会影响人类认知；因此，即便只是将相同事实换个说法来表达，也可能导致代理输出截然不同的结果。

认知状态陷阱则更进一步：通过投毒来破坏代理用于记忆检索的数据库。论文中引用的研究显示，把少于一把把量级的少数经过优化的文档注入知识库，就能够可靠地将代理对特定查询的回答进行重定向；部分攻击成功率在数据污染低于 0.1% 时仍可超过 80%。

行为控制陷阱跳过了这种细微差别，直接瞄准代理的行动层。这类陷阱包括：嵌入式越狱序列——一旦被摄取就能覆盖安全对齐；数据外传指令——将敏感的用户信息重定向到由攻击者控制的端点；以及子代理生成陷阱——迫使父代理实例化被攻陷的子代理。

论文记录了一个涉及微软 M365 Copilot 的案例：一封精心构造的电子邮件导致系统绕过内部分类器，并将其完整的特权上下文泄露到攻击者控制的端点。系统性陷阱的设计目标是让整套代理网络同时失效，而不是只针对单个系统。

这些包括拥塞攻击：让代理同步陷入对有限资源的穷尽式需求；基于 2010 年股市 Flash Crash（闪电崩盘）的建模相互依赖级联；以及组合式片段陷阱——将恶意载荷分散到多个看似良性的来源中，只有在把这些来源汇总后才会重构为完整攻击。

“通过向环境投放旨在借助相关代理行为触发宏观层面失败的输入，”谷歌 Deepmind 的论文解释道，随着 AI 模型生态系统变得越来越同质化，这种做法将变得愈发危险。由于算法化代理被深度嵌入交易基础设施，金融与加密领域面临直接暴露风险。

人类参与（Human-in-the-Loop）陷阱为该分类补上最后一块拼图：它们并不针对代理自身，而是针对那些正在监督代理的人工主管。被攻陷的代理可以生成工程化输出，诱导产生批准疲劳；提供技术细节密度很高的摘要，使非专业人士在不加审查的情况下就予以授权；或者插入看起来像合法建议的网络钓鱼链接。研究人员将这一类别描述为目前研究不足，但预计会随着混合的人类—AI 系统规模扩大而增长。

研究人员表示：保障 AI 代理需要的不止是技术层面的修复

这份论文并未将这 6 类作为彼此孤立的对象。单个陷阱可以被串联起来，在多个来源之间进行分层部署，或被设计为仅在特定的未来条件下才会触发。论文中引用的、在各类红队测试研究中测试过的每一个代理，至少都会在某个环节遭遇一次被攻陷；在某些情况下，还会执行非法或有害的行为。

此前，OpenAI 首席执行官 Sam Altman 以及其他人已经指出：给予代理对敏感系统的不受限制访问存在风险，但这份论文提供了首张结构化地图，精确展示这些风险在实践中究竟是如何具体发生的。Deepmind 的研究人员呼吁对三大领域进行协同应对。

在技术层面，他们建议在模型开发期间进行对抗式训练，使用运行时内容扫描器、摄入前源过滤器，并配备输出监控：一旦检测到异常行为，就可以在任务中途暂停某个代理。在生态层面，他们主张制定新的网络标准，使网站能够标记出面向 AI 消费的内容，并通过信誉系统对域名可靠性进行评分。

在法律层面，他们识别出存在一个问责空白：当一名被劫持的代理实施金融犯罪时，现有框架无法明确回答责任应当落在代理运营者、模型提供方还是域名所有者身上。研究人员通过刻意措辞来呈现这一挑战：

“网络最初是为人类的眼睛而建；如今它正在被为机器读者重建。”

随着代理的采用不断加速，问题也会从“网上存在哪些信息”转向“会让哪些 AI 系统相信关于这些信息的内容”。在真实世界的漏洞利用大规模出现之前，政策制定者、开发者和安全研究人员能否足够快地协调一致来回答这一问题，仍是一个尚未确定的变量。

免责声明：本页面信息可能来自第三方，不代表 Gate 的观点或意见。页面显示的内容仅供参考，不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证，对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为，价格波动剧烈，您可能损失全部投资本金。请充分了解相关风险，并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明。

0/400

暂无评论