RL fine-tuning faz o modelo 4B superar o 235B em perguntas financeiras: Ambiente de treino FinQA de código aberto da Snorkel AI

De acordo com a monitorização da 1M AI News, a Snorkel AI lançou o FinQA, um ambiente de treino para aprendizagem por reforço construído a partir de documentos financeiros reais da SEC 10-K, e já foi disponibilizado em código aberto na plataforma OpenEnv, conjuntamente mantida pela Meta, PyTorch e Hugging Face. O FinQA abrange 290 perguntas e respostas financeiras com anotações de especialistas de 22 empresas cotadas (incluindo Alphabet, Amazon, Apple, Bank of America, Boeing), fornecendo ao Agent 4 ferramentas MCP: listar as tabelas financeiras disponíveis, obter a estrutura das tabelas, executar consultas SQL e submeter respostas. A SQL exige obrigatoriamente filtros e proíbe o SELECT *, obrigando o Agent a recolher apenas os dados necessários, em vez de despejar a tabela inteira.

A Snorkel AI, em colaboração com a equipa rLLM da Universidade da Califórnia, Berkeley, usou o FinQA para fazer afinação por aprendizagem por reforço do Qwen3-4B. Os resultados, no benchmark de perguntas e respostas financeiras SnorkelFinance, atingiram 59,7%, superando o Qwen3-235B da mesma série (51,37%). Com um número de parâmetros de cerca de 1/60 do de este, o custo de inferência desceu cerca de 90%. Principais conclusões: os grandes modelos conseguem raciocinar, mas geram nomes de colunas alucinados e ignoram as restrições SQL; em contrapartida, o modelo pequeno após treino por RL consegue, de forma mais precisa, invocar as ferramentas, e «a disciplina das ferramentas» — mais do que a escala — é o verdadeiro gargalo.

O FinQA é o primeiro ambiente de código aberto publicado pela Snorkel AI na OpenEnv; no futuro serão lançados ambientes empresariais de múltiplas rondas que abrangerão setores como saúde, seguros e direito.
Aviso legal: As informações contidas nesta página podem provir de fontes externas e têm caráter meramente informativo. Não refletem os pontos de vista nem as opiniões da Gate e não constituem qualquer tipo de aconselhamento financeiro, de investimento ou jurídico. A negociação de ativos virtuais envolve um risco elevado. Não se baseie exclusivamente nas informações contidas nesta página ao tomar decisões. Para mais detalhes, consulte o Aviso legal.
Comentar
0/400
Nenhum comentário