Anthropic profunda limpeza de 500 mil milhões de dólares no setor à noite! O fim da auditoria de código chegou

Justamente agora, a Anthropic voltou a agir!

O pai do Claude Code anunciou com grande destaque: Claude Code adiciona nova funcionalidade de revisão de código (Code Review).

Desta vez, foca-se numa indústria de valor de 50 mil milhões de dólares — a auditoria de segurança de código.

A nova funcionalidade lançada pela Anthropic pode ser vista como uma abordagem extremamente simples e direta, desafiando de frente toda a indústria de segurança de código.

Alguns exclamam: a indústria de 50 mil milhões de dólares foi virada do avesso por Anthropic numa só noite!

Agora, é só esperar pela queda das ações de segurança.

Na Anthropic, quase todos os PRs testaram este sistema.

Após meses de testes, os resultados foram:

  • A proporção de PRs com comentários substantivos aumentou de 16% para 54%.
  • Os engenheiros consideram que a taxa de erros nos resultados da revisão é inferior a 1%.
  • Em grandes Pull Requests (mais de 1000 linhas), 84% apresentaram problemas superficiais, com uma média de 7,5 problemas por PR.

Atualmente, esta funcionalidade está disponível na versão de teste para a Claude Team e Enterprise como pré-visualização de pesquisa.

O pesadelo do mercado de 50 mil milhões de dólares

Este produto da Anthropic provocou um terremoto de grande magnitude no mundo da IA e na cibersegurança (AppSec).

Desenvolvedores experientes exclamam que a indústria de auditoria de código de 50 mil milhões de dólares foi derrubada!

Porque, no passado, grandes empresas pagavam até 50 mil dólares por ano a fornecedores tradicionais de segurança (como Snyk, Checkmarx, etc.) para escanear e auditar o código, a fim de evitar que bugs ou vulnerabilidades de segurança chegassem ao ambiente de produção.

E agora, o Claude pode enviar uma equipa de agentes de IA para se infiltrar nos seus PRs, prontos 24 horas por dia.

Além disso, calculando por tokens, o custo de uma revisão única é, em média, apenas 15-25 dólares!

50 mil dólares versus 25 dólares, uma diferença de 2000 vezes.

Isto não é uma simples atualização de funcionalidade, é o início do fim para as auditorias tradicionais de código.

Code Review, a fase mais dolorosa para os desenvolvedores

Se perguntar a qualquer equipa de engenharia qual é o maior obstáculo no desenvolvimento de software, a maioria dirá que é a revisão de código (Code Review).

Nos últimos anos, a capacidade de IA para escrever código evoluiu rapidamente, com ferramentas como GitHub Copilot, Cursor, Claude Code ou ChatGPT a fazer com que a quantidade de código produzida pelos desenvolvedores aumente exponencialmente.

Porém, o problema é que, apesar do aumento na produção de código, o número de revisores não cresceu na mesma proporção.

A Anthropic descobriu que, no último ano, a produção de código por engenheiro aumentou 200%, mas muitos PRs apenas receberam uma revisão rápida.

Até os próprios desenvolvedores admitem que, muitas vezes, a revisão de código é apenas uma formalidade.

Assim, muitos bugs, vulnerabilidades e problemas lógicos acabam por chegar ao ambiente de produção.

Por isso, muitas empresas estão dispostas a pagar fortunas por ferramentas de varredura de segurança.

Mas o problema é que essas ferramentas não são inteligentes.

Ferramentas tradicionais de escaneamento de código, como Snyk, Checkmarx, Veracode ou SonarQube, têm muitas falsos positivos.

Porque baseiam-se em regras estáticas e bases de dados de vulnerabilidades conhecidas, capazes de escanear o código, mas incapazes de compreender realmente o lógica do código.

Um cenário comum é a ferramenta alertar para um possível risco de SQL injection, mas o desenvolvedor verificar e não encontrar problema algum.

Assim, os avisos são muitas vezes ignorados, e problemas reais acabam por passar despercebidos.

Por isso, as empresas continuam a precisar de revisões manuais de código, e a Anthropic pretende automatizar esse processo.

Anthropic lança uma equipa de agentes de IA para revisão de código

A abordagem do Claude Code Review é bastante simples.

No Claude Code, o sistema analisa automaticamente o Pull Request e realiza verificações de vários ângulos, como:

  • Conformidade com as normas do projeto
  • Presença de potenciais bugs
  • Conflitos com lógica de código anterior
  • Problemas já reportados em PRs anteriores

No final, gera dois resultados: um resumo com sinais de alta confiança e comentários inline específicos em pontos do código.

Ou seja, ao abrir o PR, já se pode ver um relatório de revisão por IA, destacando os problemas mais importantes, em vez de dezenas de páginas de comentários genéricos.

A era de “IA escreve código, IA revisa” finalmente chegou.

O ciclo de autoavaliação e auto-recursão do Claude começou a mostrar sinais promissores.

Com o aumento das capacidades da IA, no futuro, a única função humana poderá ser simplesmente ligar a IA, com o teclado controlado por Claude.

Sistema multi-agente, a equipa de revisão de código do Claude entra em ação

A maior característica do Claude Code Review é que não é apenas uma IA, mas uma equipa.

Quando um PR é criado, o sistema inicia automaticamente uma equipa de agentes de IA.

Segundo a Anthropic, a nova funcionalidade de revisão de código envia múltiplos “agentes de revisão” a trabalhar em paralelo, cada um responsável por diferentes tipos de verificações.

Estes agentes filtram falsos positivos, classificam os erros por gravidade e produzem um comentário geral de alta confiança, além de comentários inline específicos para erros particulares.

A escala da revisão ajusta-se ao tamanho do PR.

Alterações maiores ou mais complexas recebem mais agentes e uma revisão mais aprofundada; alterações pequenas passam rapidamente. Segundo testes da Anthropic, o tempo médio de revisão é cerca de 20 minutos.

Ao validar-se mutuamente, os agentes reduzem falsos positivos.

Durante o processo, concentram-se na deteção de erros lógicos, vulnerabilidades de segurança, problemas de limites (edge cases) e regressões ocultas.

Todos os problemas encontrados são classificados por grau de severidade.

  • Ponto vermelho: problemas comuns, bugs que devem ser corrigidos antes da fusão;
  • Ponto amarelo: problemas leves, recomendados para correção, mas não impedem a fusão;
  • Ponto roxo: problemas existentes, bugs que não foram introduzidos nesta PR.

Cada comentário de revisão inclui uma explicação detalhada (extended reasoning) que pode ser expandida para ver:

  • Por que o Claude marcou o problema
  • Como verificou que o problema realmente existia

Importa notar que estes comentários não aprovam nem impedem automaticamente a fusão do PR, mantendo o fluxo normal de revisão.

Por padrão, o Claude Code Review foca na correção do código (correctness).

Ou seja, verifica principalmente:

  • Bugs que podem causar falhas em produção
  • Problemas lógicos reais

Não se concentra tanto na formatação, estilo ou cobertura de testes, a menos que seja configurado para isso.

Resultados internos assustadores

Os resultados internos da Anthropic são verdadeiramente assustadores, reforçando que a revisão de código tradicional é praticamente uma piada.

Dados internos revelam que apenas 16% dos PRs receberam comentários substantivos.

Em PRs com mais de 1000 linhas, 84% apresentaram problemas detectados, com uma média de 7,5 bugs por PR.

Porquê? Porque os engenheiros estão demasiado ocupados.

Nos últimos anos, a produção de código por engenheiro aumentou 200%. Com tanto código, quem tem tempo para revisar linha por linha?

Após a implementação desta funcionalidade, a proporção de PRs com sugestões de correções substanciais subiu de 16% para 54%.

Isto significa que, antes, quase 40% do código potencialmente problemático passava despercebido pelos humanos, mas agora o Claude consegue detectá-lo.

Ainda mais assustador, 31% dos pequenos PRs (menos de 50 linhas) tinham problemas, mesmo sendo pequenas alterações.

E os problemas detectados têm uma taxa de aceitação pelos engenheiros superior a 99%, com menos de 1% considerados falsos positivos.

Esta precisão supera a de quase todos os revisores humanos.

A Anthropic citou um exemplo interno: uma alteração de uma linha em um serviço de produção, que parecia uma mudança rotineira, foi marcada como problema grave pelo sistema.

A alteração causaria falha na autenticação, um problema que muitas vezes passa despercebido na revisão, mas que, uma vez apontado, é óbvio.

O problema foi corrigido antes da fusão, e os engenheiros disseram que provavelmente não teriam detectado o problema sozinhos.

Outro caso real:

A iXsystems, empresa responsável pelo TrueNAS, revisou uma refatoração de código relacionada à criptografia ZFS.

Era uma mudança técnica profunda, feita por especialistas na área.

Surpreendentemente, o Code Review encontrou um bug potencial na “lateralidade” do código, que não fazia parte do escopo principal da alteração.

Esse bug, que não estava no diff, poderia fazer com que a cache de chaves de criptografia fosse apagada silenciosamente durante sincronizações — um problema oculto há muito tempo.

Ninguém tinha percebido, pois não estava no diff e não era o foco da revisão, mas poderia causar uma falha grave.

Agora, o Code Review detectou-o imediatamente.

Revolução na indústria, à porta

As empresas de segurança e SaaS estão em alvoroço.

Quanto tempo mais poderão sobreviver as empresas que cobram 50 mil dólares por ano por auditorias de código?

Não é por falta de tecnologia, mas por mudança de lógica de negócio.

Se a Anthropic consegue usar uma equipa de agentes de IA por apenas 20 dólares para realizar auditorias profundas de segurança lógica, quem ainda comprará scanners tradicionais que custam dezenas de milhares de dólares e têm taxas de falsos positivos elevadíssimas?

Se ainda faz revisão manual de milhares de linhas de código ou paga fortunas por auditorias de segurança, é hora de acordar: o mundo mudou.

Hoje, as ações do setor de AppSec podem sentir o frio da IA.

Fonte: Xinzhiyuan

Aviso de risco e isenção de responsabilidade

O mercado é arriscado, invista com cautela. Este artigo não constitui aconselhamento de investimento pessoal, nem leva em consideração objetivos, situação financeira ou necessidades específicas de cada utilizador. Os utilizadores devem avaliar se as opiniões, pontos de vista ou conclusões aqui apresentadas são adequadas às suas circunstâncias. Investimento por sua conta e risco.

Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
  • Recompensa
  • Comentar
  • Republicar
  • Partilhar
Comentar
0/400
Nenhum comentário
  • Fixar