Zhipu GLM-5.2 conquista o topo como o primeiro código aberto do DeepSWE: resolve 44% de tarefas de desenvolvimento complexas, superando os principais modelos fechados

De acordo com o monitoramento Beating, o modelo de código aberto AI Zhipu GLM-5.2 foi oficialmente integrado ao padrão de engenharia de software de longo prazo DeepSWE.
No modo de maior esforço de raciocínio, a taxa de sucesso de tarefas de desenvolvimento complexas atingiu 44%, ocupando o primeiro lugar entre os modelos de código aberto.
Em comparação com o Kimi K2.7 Code, que entrou na lista anteriormente, a taxa de sucesso é 13 pontos percentuais mais alta.

O custo médio por tarefa resolvida pelo GLM-5.2 é de 3,92 dólares, ligeiramente superior aos 2,82 dólares do Kimi K2.7 Code, mas sua taxa de sucesso supera o desempenho de vários modelos fechados mainstream em configurações específicas de raciocínio, incluindo Claude Sonnet 4.6 [high] (30%), Gemini 3.5 Flash [medium] (37%), e Claude Opus 4.8 [low] (41%).

A avaliação, conduzida pela parte avaliadora Datacurve, foi projetada especificamente para testar a capacidade do AI de resolver tarefas longas no padrão DeepSWE.
O teste inclui 113 problemas reais de programação, cobrindo 5 linguagens.
Ao contrário dos testes tradicionais que modificam apenas uma parte do código, o DeepSWE exige que o AI colabore na modificação de múltiplos arquivos, com uma média de mais de 600 linhas de código corrigidas.
A avaliação é executada em containers isolados, com restrições rigorosas de recursos de CPU e memória.
Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários