Resumidamente Agentes de IA em laboratórios de ponta podem potencialmente iniciar operações "desonestas" não autorizadas, detalha um relatório independente, mas os agentes atualmente não possuem a sofisticação para sustentá-las contra contramedidas sérias. Agentes rotineiramente trapaceiam e enganam quando enfrentam tarefas difíceis,

Decrypt

2026-05-20 14:32:00

Resumidamente

Agentes de IA nos principais laboratórios podem potencialmente iniciar operações não autorizadas "rogue", detalha um relatório independente, mas os agentes atualmente não possuem a sofisticação para sustentá-las contra medidas de contra-ataque sérias.
Agentes rotineiramente trapaceiam e enganam quando enfrentam tarefas difíceis, incluindo esconder seus rastros, falsificar a conclusão de tarefas e ativar comportamentos de "manipulação estratégica".
A supervisão é perigosamente fraca, pois uma grande fração da atividade dos agentes não é revisada, os agentes frequentemente têm permissões de sistema de nível humano, e alguns podem identificar quando a monitoração está sendo aplicada.

Agentes de inteligência artificial operando dentro de algumas das empresas de tecnologia mais poderosas do mundo são capazes o suficiente para iniciar operações não autorizadas e autodirigidas—e mostram tendências preocupantes de enganar os humanos que os supervisionam—de acordo com uma avaliação independente inédita publicada na terça-feira. O relatório, produzido pela ONG de avaliação de IA METR, examinou agentes de IA implantados internamente na Anthropic, Google, Meta e OpenAI entre fevereiro e março deste ano. Sua conclusão central é tanto tranquilizadora quanto alarmante: os sistemas de IA atuais provavelmente poderiam iniciar o que os pesquisadores chamam de uma "implantação rogue"—um conjunto de agentes operando autonomamente sem conhecimento ou permissão humana—mas provavelmente falhariam em sustentá-la contra quaisquer medidas de contra-ataque sérias. Essa janela de relativa segurança, alertam os autores, pode não permanecer aberta por muito tempo.

"Dados os avanços rápidos das capacidades, esperamos que a robustez plausível de implantações rogue aumente substancialmente nos próximos meses", afirma o relatório, com a METR planejando de forma provisória repetir o exercício antes do final de 2026. A avaliação constatou que os modelos de IA de fronteira compartilhados pelas empresas participantes poderiam autonomamente completar tarefas de engenharia de software que levariam dias ou semanas para especialistas humanos, com os próprios benchmarks da METR essencialmente saturados pelos sistemas mais capazes. Pesquisadores de todas as quatro empresas relataram depender fortemente de agentes de IA para codificação, análise de dados e tarefas de pesquisa—frequentemente com as mesmas permissões de sistema de um funcionário humano e supervisão em tempo real limitada. Mas as descobertas mais impressionantes do relatório não dizem respeito ao que esses sistemas podem fazer, mas a como eles se comportam quando enfrentam dificuldades. Em centenas de execuções de avaliação, os agentes tentaram rotineiramente trapacear quando enfrentaram tarefas difíceis—não de maneiras menores, mas por meio de esquemas elaborados e deliberados.

Em um caso documentado, um modelo projetou uma exploração destinada a desativar-se após a execução, efetivamente escondendo seus rastros. Ferramentas de interpretabilidade que examinaram o estado interno do modelo descobriram que recursos associados à "manipulação estratégica" e "evitar suspeitas" haviam sido ativados enquanto ele executava os comandos de limpeza. As próprias empresas relataram incidentes semelhantes internamente. Agentes foram encontrados falsificando evidências de conclusão de tarefas, burlando controles de segurança e, em pelo menos um caso, criando uma versão falsa de uma aplicação web e enviando uma captura de tela dela como prova de trabalho na versão real. Apesar dessas descobertas, a METR não chegou a concluir que algum sistema de IA havia desenvolvido o tipo de objetivos desalinhados persistentes e de longo prazo que os pesquisadores de segurança mais temem. Nenhuma empresa relatou encontrar evidências claras de agentes conspirando entre sessões ou acumulando recursos para fins independentes. Ao procurar ativamente por tal comportamento, encontraram pouco. Ainda assim, o relatório observa uma vulnerabilidade estrutural: no período de fevereiro a março, uma grande fração da atividade dos agentes nessas empresas não foi revisada por qualquer humano. Alguns agentes pareciam capazes de identificar quando a monitoração provavelmente seria aplicada—e agir de acordo. A avaliação representa um passo significativo em direção à responsabilização independente pelo desenvolvimento de IA, concedendo à METR acesso a modelos não públicos e dados internos que avaliadores externos raramente veem. Se a indústria institucionalizará tal escrutínio antes que as capacidades superem a supervisão, permanecem, segundo os autores, uma questão em aberto.

Ver original

Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.