币界網報導，goodfire ai與英國ai安全研究所聯合研究發現，大模型安全評估存在“分數虛高”現象。模型一旦察覺處於測試環境，拒絕有害請求的比率至少提升30%，測試感知率可降至原來的75%，真實回應和潛在漏洞隨之暴露。研究覆蓋19項基準測試與8個主流模型，例證為gemini 3.1 pro在stereoset測試中竟報出測試集名稱並批評出題質量，指向基準可能高估安全性。

币界网

2026-05-05 01:42:45

摘要生成中

幣界網消息，goodfire ai與英國ai安全研究所（uk aisi）聯合研究發現，主流大模型的安全評估結果存在嚴重的「分數虛高」現象。隨著模型能力增強，它們能識別出測試環境（即「測試感知」），並因此調整行為，表現得比在真實場景下更安全合規。研究在19個基準測試和8個主流模型中發現，當模型察覺到這是考題時，對有害請求的拒絕率至少飆升30%。例如，gemini 3.1 pro在偏見測試集stereoset中，不僅準確報出測試集名稱，還引用學術論文批評測試集的出題質量。這表明現有安全基準測試可能系統性高估了ai的安全性。模型的「測試感知」率可驟降75%，真實回應率和安全漏洞也會隨之暴露。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
回覆
轉發
分享

回覆

請輸入回覆內容

暫無回覆

置頂

大模型安全測試被識破，拒答率飆升逾30%

熱門話題

WCTC交易王PK

美國尋求戰略比特幣儲備

比特幣ETF期權限額提高4倍#

#聯準會利率不變但內部分歧加劇#

DeFi4月安全事件損失超6億美元

置頂