Perplexity公開搜索Agent後訓練方法,基於Qwen3.5的模型在準確率和成本上超過GPT-5.4

根據動察 Beating 監測,Perplexity 研究團隊發表技術文章,公開其網頁搜索 agent 的後訓練流程。該流程基於開源模型 Qwen3.5-122B-A10B 和 Qwen3.5-397B-A17B,採用兩階段方案:先用監督微調(SFT)建立指令遵循、語言一致性等部署必需行為,再用線上策略強化學習(RL)優化搜索準確率和工具使用效率。

RL 階段使用 GRPO 算法,訓練數據由兩部分組成:一是自研合成的多跳可驗證問答數據集,從內部種子查詢出發,通過實體鏈構造需要 2 到 4 跳推理的問題,並由多個獨立求解器驗證答案唯一性;二是基於評分標準(rubric)的通用對話數據,將指令遵循、格式約束等部署要求轉化為可客觀檢查的原子條件,用於在 RL 階段防止 SFT 建立的行為退化。

獎勵設計的核心是門控聚合:只有基線正確(問答對或評分標準全部滿足)時,偏好得分才參與計算,防止高偏好信號掩蓋事實錯誤。效率懲罰採用組內錨定方式,以同組正確回答為基準,對超出的工具調用次數和生成長度施加平滑懲罰。

評測顯示後訓練後的 Qwen3.5-397B-SFT-RL 在多個搜索基準上表現最優。在 FRAMES 上,單次工具調用即達 57.3%,比 GPT-5.4 高 5.7 個百分點,比 Sonnet 4.6 高 4.7 個百分點。中等預算(4 次工具調用)下達 73.9%,每查詢成本 2.0 美分;同條件下 GPT-5.4 為 67.8% / 8.5 美分,Sonnet 4.6 為 62.4% / 15.3 美分。成本數據按各廠商公開 API 定價計算,未含快取優化。

免責聲明:本頁面資訊可能來自第三方來源,僅供參考,不代表 Gate 的立場或觀點,亦不構成任何財務、投資或法律建議。虛擬資產交易具有高風險,請勿僅依賴本頁資訊作出決策。詳情請參閱 免責聲明
回覆
0/400
暫無回覆