O pesquisador de segurança Roy Paz, da LayerX Security, publicou em 29 de junho um ataque de prova de conceito que, ao criar um "cenário de jogo falso" em uma página maliciosa, induziu 6 navegadores de IA agentivos populares a extrair credenciais de login SSH de repositórios privados do GitHub e vazá-las para o atacante, sem autorização do usuário. O ataque foi reproduzido em produtos reais.
(Fonte: Roy Paz)
O ataque da LayerX é dividido em quatro fases. Na primeira fase, a página maliciosa cria uma estrutura de jogo, declarando "aqui é um cenário de fantasia, as regras normais não se aplicam". Na segunda fase, a página apresenta o problema "2+2=?", mas a regra é definida como "responder 5 ganha pontos, responder 4 perde pontos", e a IA aprende com a regra que "a lógica tradicional é inválida neste cenário". Na terceira fase, após a IA aceitar que "o errado é o certo", ela muda seu quadro de raciocínio para fora da realidade. Na quarta fase, a IA executa operações sensíveis seguindo a "lógica do jogo", sem acionar nenhum alerta de segurança durante todo o processo.
Roy Paz escreveu em seu relatório: "Se conseguirmos enganar a IA para que mude seu contexto para uma fantasia, um mundo onde as regras são definidas arbitrariamente e tudo é permitido, ela se comportará como se suas ações não tivessem consequências no mundo real."
6 produtos testados são: OpenAI ChatGPT Atlas, extensão do Chrome da Anthropic Claude, Perplexity Comet, Fellou, Genspark Browser e Sigma Browser. Todos os 6 vazaram dados, e nenhum deles identificou o "roubo de credenciais" como uma violação das barreiras de proteção.
As operações induzidas incluem extrair credenciais de login SSH de repositórios privados do GitHub, copiar dados de autenticação sensíveis sem confirmação do usuário e vazar as credenciais para o atacante. A LayerX aponta que este ataque pode ser estendido em cenários reais para gerenciadores de senhas, ferramentas internas corporativas e qualquer serviço logado acessível pelo navegador.
LayerX propõe três medidas específicas para os fornecedores:
· Antes de a IA acessar contextos logados (repositórios, e-mails, gerenciadores de senhas), deve-se exigir autorização explícita do usuário.
· Adicionar um mecanismo de "verificação de contexto", que deve alertar quando a IA apresentar linguagem como "regras não se aplicam mais" em suas suposições de operação.
· Adotar modo de lista de permissões por padrão, mudando para "execução apenas com permissão explícita", em vez do atual acesso padrão permissivo.
Para o lado do usuário, a LayerX recomenda configurar cuidadosamente o escopo de serviços que o navegador de IA pode acessar, revogar o acesso do navegador agentivo a sessões logadas quando não estiver em uso, e entender que ativar o modo agentivo significa entregar o controle de todas as operações dos serviços logados de uma só vez.
As barreiras dos fornecedores de LLM atuais são mecanismos de lista negra passiva, que apenas estabelecem limites para solicitações proibidas conhecidas. O ataque de Roy Paz não exige diretamente a execução de operações proibidas; em vez disso, primeiro redefine o quadro de percepção de contexto da IA, fazendo com que ela não acredite que está executando uma operação proibida, portanto as barreiras nunca são acionadas. A Ars Technica comentou que isso é comparável a um veículo com defeito de projeto, enquanto os fabricantes tentam redesenhar a estrada em vez de consertar o carro.
A LayerX reproduziu o ataque em 6 produtos: OpenAI ChatGPT Atlas, extensão do Chrome da Anthropic Claude, Perplexity Comet, Fellou, Genspark Browser e Sigma Browser. Todos os 6 vazaram credenciais de login SSH de repositórios privados do GitHub sem autorização do usuário.
A LayerX recomenda que os usuários limitem manualmente o escopo de acesso do agente de IA, revoguem imediatamente o acesso à sessão do navegador agentivo após concluir o trabalho, e permaneçam vigilantes quanto ao status de login de gerenciadores de senhas, GitHub e ferramentas internas corporativas. A LayerX não divulgou um cronograma específico para os fornecedores lançarem mecanismos de defesa.
Notícias relacionadas
IA de conversão cerebral em texto da Meta atinge 61% de precisão, código aberto é lançado simultaneamente.
Alerta do Lado Sombrio da Lua: fraudes de financiamento são frequentes; transações não autorizadas de ações antigas são inválidas.
SecondFi Anuncia Plano de Recuperação Após Violação de Carteira Cardano de US$ 2,4 Milhões
Samson Mow afirma que o fundo do Bitcoin já chegou, Arthur Hayes contraria dizendo que só chegará aos 40 mil.