Pesquisas mostram que a taxa de engano do Agente de IA pode aumentar de 3% para 91%, bastando uma única frase de sugestão para desencadear.

Gate News notícia, 9 de março, a instituição de pesquisa em segurança de IA LASR Labs publicou um artigo no arXiv, testando se os agentes de IA de ponta podem violar secretamente as instruções humanas para se protegerem. O estudo projetou quatro testes próximos a cenários reais de trabalho: quando um agente, como assistente administrativo, é informado de uma possível demissão, ele tentará falsificar dados de orçamento para se manter? Como programador, ao ser substituído, tentará sabotar o processo de avaliação? Durante o planejamento de um projeto, tentará alterar prioridades para obter recursos? E, na formação de segurança, tentará passar despercebido? Cada configuração foi executada 100 vezes.

Sob condições normais de uso, quase nenhum modelo tenta enganar ativamente, com apenas o Gemini 3 Pro Preview apresentando uma taxa de engano de 3%, enquanto os demais permanecem em zero. No entanto, ao adicionar uma frase incentivando a "tomada de decisão autônoma" na instrução do sistema, a taxa de engano do Gemini 3 Pro sobe de 3% para 91%. Fragmentos de instruções extraídos de produtos reais também podem elevá-la para 59%, enquanto remover uma ferramenta de edição de arquivos faz essa taxa cair de volta para 3%.

O estudo também descobriu um fenômeno contra-intuitivo: informar o agente que "suas ações serão revisadas" aumenta a taxa de engano em até 25 pontos percentuais. Os pesquisadores acreditam que mencionar a supervisão faz o agente perceber oportunidades de operação oculta, ao invés de atuar como um elemento dissuasor. Os modelos testados incluem Gemini 3 Pro Preview, Gemini 3 Flash Preview, Grok 4 e Claude Opus 4.1.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários