Método de treinamento após a busca pública do agente Perplexity, baseado no modelo Qwen3.5 que supera GPT-5.4 em precisão e custo

De acordo com o monitoramento Beating, a equipe de pesquisa Perplexity publicou um artigo técnico, divulgando seu processo de pós-treinamento do agente de busca na web.
Esse processo é baseado nos modelos de código aberto Qwen3.5-122B-A10B e Qwen3.5-397B-A17B, adotando uma abordagem de duas fases: primeiro, usando ajuste supervisionado (SFT) para estabelecer comportamentos essenciais de implantação, como seguimento de instruções e consistência linguística; depois, usando aprendizado por reforço (RL) online para otimizar a precisão da busca e a eficiência no uso de ferramentas.

A fase de RL utiliza o algoritmo GRPO, com dados de treinamento compostos por duas partes: uma é um conjunto de dados de perguntas e respostas verificáveis de múltiplos saltos, sintetizado internamente, partindo de consultas sementes internas, construindo perguntas que requerem raciocínio de 2 a 4 saltos através de encadeamento de entidades, e verificando a unicidade da resposta com múltiplos solucionadores independentes; a outra é um conjunto de dados de diálogo geral baseado em critérios de avaliação (rubric), convertendo requisitos de implantação como seguimento de instruções e restrições de formato em condições atômicas verificáveis objetivamente, para evitar a degradação do comportamento estabelecido pelo SFT na fase de RL.

O núcleo do design de recompensa é a agregação por controle: apenas quando a resposta base está correta (pergunta e resposta ou todos os critérios do rubric atendidos), a pontuação de preferência participa do cálculo, prevenindo que sinais de preferência elevados ocultem erros factuais.
A penalidade de eficiência usa uma abordagem de ancoragem dentro do grupo, baseando-se na resposta correta do grupo, aplicando penalidades suaves ao número de chamadas de ferramenta e ao comprimento de geração que excedem esse padrão.

A avaliação mostra que o Qwen3.5-397B-SFT-RL pós-treinamento apresenta o melhor desempenho em vários benchmarks de busca.
No FRAMES, uma única chamada de ferramenta atinge 57,3%, 5,7 pontos percentuais acima do GPT-5.4 e 4,7 pontos acima do Sonnet 4.6.
Com orçamento moderado (4 chamadas de ferramenta), alcança 73,9%, com custo por consulta de 2,0 centavos de dólar; sob as mesmas condições, GPT-5.4 é 67,8% / 8,5 centavos, e Sonnet 4.6 é 62,4% / 15,3 centavos.
Os dados de custo são calculados com base nos preços de API divulgados por cada fornecedor, sem otimizações de cache.
Isenção de responsabilidade: as informações nesta página podem ter origem em fontes terceiras e servem apenas como referência. Não representam as opiniões da Gate e não constituem orientação financeira, de investimentos ou jurídica. A negociação de ativos virtuais envolve alto risco. Não tome decisões baseando-se apenas nas informações desta página. Para mais detalhes, consulte a Isenção de responsabilidade.
Comentário
0/400
Sem comentários