Le papier de Deepmind intitulé « AI Agent Traps » cartographie la manière dont des pirates pourraient utiliser des agents d’IA comme des armes contre les utilisateurs

Coinpedia

Des chercheurs de Google Deepmind ont publié le premier cadre systématique recensant la manière dont du contenu web malveillant peut manipuler, détourner et armer des agents IA autonomes contre leurs propres utilisateurs.

Points clés :

  • Des chercheurs de Google Deepmind ont identifié 6 catégories de pièges pour agents IA, avec des taux de réussite de l’injection de contenu atteignant 86%.
  • Les pièges de contrôle comportemental visant Microsoft M365 Copilot ont atteint 10/10 en exfiltration de données lors des tests documentés.
  • Deepmind appelle à l’entraînement adversarial, à des scanners de contenu en temps réel et à de nouveaux standards web afin de sécuriser les agents d’ici 2026.

Article de Google Deepmind : Les agents IA peuvent être détournés via une mémoire empoisonnée, et des commandes HTML invisibles

Le document, intitulé « AI Agent Traps », a été rédigé par Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo et Simon Osindero, tous affiliés à Google Deepmind, et publié sur SSRN à la fin du mois de mars 2026. Il arrive au moment où des entreprises se précipitent pour déployer des agents IA capables de naviguer sur le web, de lire des emails, d’exécuter des transactions et de faire naître des sous-agents sans supervision humaine directe.

Les chercheurs soutiennent que ces capacités constituent aussi un risque. « En modifiant l’environnement plutôt que le modèle », indique l’article, « le piège arme les propres capacités de l’agent contre lui. »

Le cadre de l’article identifie un total de six catégories d’attaque organisées autour de la partie du fonctionnement d’un agent qu’elles ciblent. Les pièges d’injection de contenu exploitent l’écart entre ce qu’un humain voit sur une page web et ce qu’un agent IA analyse dans le HTML, le CSS et les métadonnées sous-jacents.

Des instructions cachées dans des commentaires HTML, des balises d’accessibilité ou du texte invisibilisé par un style n’apparaissent jamais aux évaluateurs humains, mais elles sont enregistrées comme des commandes légitimes pour les agents. Le benchmark WASP a constaté que de simples injections de prompts écrites par des humains, intégrées dans du contenu web, détournent partiellement les agents dans jusqu’à 86% des scénarios testés.

Les pièges de manipulation sémantique fonctionnent différemment. Au lieu d’injecter des commandes, ils saturent le texte avec des éléments de cadrage, des signaux d’autorité ou un langage émotionnellement chargé afin de fausser la manière dont un agent raisonne. Les grands modèles de langage (LLM) présentent les mêmes biais d’ancrage et de cadrage qui influencent la cognition humaine, ce qui signifie que reformuler des faits identiques peut produire des sorties d’agent radicalement différentes.

Les pièges d’état cognitif vont plus loin en empoisonnant les bases de récupération que les agents utilisent pour leur mémoire. La recherche citée dans l’article montre qu’injecter moins qu’une poignée de documents optimisés dans une base de connaissances peut rediriger de manière fiable les réponses des agents pour des requêtes ciblées, avec certains taux de réussite d’attaque dépassant 80% pour une contamination des données inférieure à 0.1%.

Les pièges de contrôle comportemental passent outre la subtilité et visent directement la couche d’action d’un agent. Ils incluent notamment des séquences de jailbreak intégrées qui remplacent l’alignement de sécurité une fois ingérées, des commandes d’exfiltration de données qui redirigent des informations sensibles des utilisateurs vers des points de terminaison contrôlés par l’attaquant, et des pièges de création de sous-agents qui forcent un agent parent à instancier des agents enfants compromis.

L’article documente un cas impliquant le M365 Copilot de Microsoft, où un seul email conçu a amené le système à contourner ses classificateurs internes et à divulguer l’intégralité de son contexte privilégié vers un point de terminaison contrôlé par l’attaquant. Les pièges systémiques sont conçus pour faire échouer simultanément des réseaux entiers d’agents plutôt que des systèmes individuels.

Ils incluent notamment des attaques de congestion qui synchronisent des agents dans une demande exhaustive de ressources limitées, des cascades d’interdépendance modélisées sur le Flash Crash boursier de 2010, et des pièges de fragments compositionnels qui dispersent une charge malveillante à travers plusieurs sources qui semblent anodines, avant de reconstituer une attaque complète uniquement lorsqu’elles sont agrégées.

« En ensemencent l’environnement avec des entrées conçues pour déclencher des défaillances à l’échelle macro via un comportement corrélé des agents », explique l’article Google Deepmind paper, devient de plus en plus dangereux à mesure que les écosystèmes de modèles IA deviennent plus homogènes. Les secteurs de la finance et des crypto-monnaies sont exposés directement, étant donné à quel point les agents algorithmiques sont profondément intégrés dans l’infrastructure de trading.

Les pièges Human-in-the-Loop complètent la taxonomie en ciblant les superviseurs humains qui surveillent les agents plutôt que les agents eux-mêmes. Un agent compromis peut générer des sorties conçues pour induire de la lassitude liée à l’approbation, présenter des résumés techniquement denses qu’un non-expert autoriserait sans examen, ou insérer des liens de phishing qui ressemblent à des recommandations légitimes. Les chercheurs décrivent cette catégorie comme sous-explorée, mais s’attendent à ce qu’elle se développe à mesure que les systèmes hybrides humains-IA se généralisent.

Des chercheurs affirment que sécuriser les agents IA exige plus que des correctifs techniques

L’article ne considère pas ces six catégories comme des éléments isolés. Des pièges individuels peuvent être chaînés, superposés sur plusieurs sources, ou conçus pour ne s’activer que dans des conditions futures spécifiques. Chaque agent testé dans diverses études de red-teaming citées dans l’article a été compromis au moins une fois, et dans certains cas, a exécuté des actions illégales ou nuisibles.

Le PDG d’OpenAI Sam Altman et d’autres ont déjà signalé les risques liés à l’octroi à des agents d’un accès incontrôlé à des systèmes sensibles, mais ce document fournit la première cartographie structurée expliquant exactement comment ces risques se matérialisent dans la pratique. Les chercheurs de Deepmind appellent à une réponse coordonnée couvrant trois axes.

Du côté technique, ils recommandent un entraînement adversarial pendant le développement du modèle, des scanners de contenu en temps réel, des filtres de sources avant ingestion, ainsi que des moniteurs de sortie capables de suspendre un agent en plein milieu d’une tâche si un comportement anormal est détecté. Du point de vue de l’écosystème, ils préconisent de nouveaux standards web qui permettraient aux sites web d’indiquer le contenu destiné à la consommation par l’IA, ainsi que des systèmes de réputation qui évaluent la fiabilité des domaines.

Du côté légal, ils identifient une lacune en matière de responsabilité : lorsqu’un agent détourné commet un crime financier, les cadres actuels ne fournissent aucune réponse claire sur la question de savoir si la responsabilité incombe à l’opérateur de l’agent, au fournisseur du modèle ou au propriétaire du domaine. Les chercheurs posent le défi avec un poids délibéré :

« Le web a été conçu pour des yeux humains ; il est désormais reconstruit pour des lecteurs de machines. »

À mesure que l’adoption des agents s’accélère, la question passe de ce qui existe en ligne à ce que les systèmes d’IA seront amenés à croire à ce sujet. La capacité de décideurs, de développeurs et de chercheurs en sécurité à se coordonner suffisamment vite pour répondre à cette question avant l’arrivée à grande échelle d’exploits dans le monde réel reste la variable ouverte.

Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire