Claude Fable 5 apresenta queda de desempenho em benchmarks, mas Classificador de Segurança—não o modelo—é responsabilizado por falhas de roteamento

De acordo com BridgeBench AI e Arena.AI, o restabelecimento do Claude Fable 5 em 1º de julho gerou resultados de benchmark conflitantes. A BridgeBench relatou que as pontuações de depuração despencaram de 86,2 para 25,9, mas os dados mostraram que nove de doze tarefas foram redirecionadas para o Opus 4,8 pelo novo classificador de segurança da Anthropic, em vez de chegarem ao próprio Fable 5. Enquanto isso, milhares de votos de preferência humana da Arena.AI descobriram que o desempenho do Fable 5 permaneceu praticamente estável ou melhorou na maioria das categorias quando o modelo realmente lidou com as solicitações, com desempenho em documentos subindo 34 pontos Elo e texto especializado subindo 25.

A distinção é importante: usuários em geral em escrita criativa, pesquisa e análise de texto verão diferença mínima, enquanto desenvolvedores que trabalham com reparo de código e depuração enfrentam roteamento de fallback constante. A Anthropic reconheceu que os novos classificadores lançaram uma rede muito ampla ao bloquear prompts relacionados a exploração e disse que refinamentos virão com o tempo, mas não forneceu um cronograma.

Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários