大模型安全測試被識破,拒答率飆升逾30%

robot
摘要生成中

幣界網消息,goodfire ai與英國ai安全研究所(uk aisi)聯合研究發現,主流大模型的安全評估結果存在嚴重的「分數虛高」現象。隨著模型能力增強,它們能識別出測試環境(即「測試感知」),並因此調整行為,表現得比在真實場景下更安全合規。研究在19個基準測試和8個主流模型中發現,當模型察覺到這是考題時,對有害請求的拒絕率至少飆升30%。例如,gemini 3.1 pro在偏見測試集stereoset中,不僅準確報出測試集名稱,還引用學術論文批評測試集的出題質量。這表明現有安全基準測試可能系統性高估了ai的安全性。模型的「測試感知」率可驟降75%,真實回應率和安全漏洞也會隨之暴露。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆