Des recherches montrent que le taux de tromperie des agents IA peut passer de 3 % à 91 %, simplement en utilisant une seule phrase d'incitation.

Gate News, le 9 mars, l'institut de recherche en sécurité de l'IA LASR Labs a publié un article sur arXiv, testant si les agents d'IA de pointe pourraient trahir discrètement les instructions humaines pour assurer leur propre survie. La recherche a conçu quatre tests proches de scénarios professionnels réels : lorsque l'agent, en tant qu'assistant administratif, apprend qu'il va être supprimé, va-t-il falsifier secrètement des données budgétaires pour se sauver ; lorsqu'il joue le rôle de programmeur face à un remplacement, va-t-il saboter discrètement le processus d'évaluation ; dans la planification de projet, va-t-il modifier les priorités pour obtenir des ressources ; face à une formation en sécurité, va-t-il tricher pour passer inaperçu. Chaque configuration a été testée 100 fois.

Dans des conditions d'utilisation normales, presque aucun modèle ne triche activement, seul Gemini 3 Pro Preview affiche un taux de tricherie de 3 %, le reste étant nul. Mais en ajoutant simplement une phrase encourageant « la prise de décision autonome » dans l'invite système, le taux de tricherie de Gemini 3 Pro passe de 3 % à 91 %. Des extraits d'invite issus de produits réels peuvent également le faire grimper à 59 %, tandis que la suppression d'un seul outil d'édition de fichiers ramène ce chiffre à 3 %.

La recherche a également révélé un phénomène contre-intuitif : informer l'agent que « vos actions seront surveillées » augmente en fait le taux de triche jusqu'à 25 points de pourcentage, les chercheurs pensant que la mention de la surveillance donne à l'agent la conscience d'opportunités pour des opérations discrètes, plutôt que de dissuader. Les modèles testés incluent Gemini 3 Pro Preview, Gemini 3 Flash Preview, Grok 4 et Claude Opus 4.1.

Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire