大模型安全测试被识破,拒答率飙升逾30%

robot
摘要生成中

币界网消息,goodfire ai与英国ai安全研究所(uk aisi)联合研究发现,主流大模型的安全评估结果存在严重的「分数虚高」现象。随着模型能力增强,它们能识别出测试环境(即「测试感知」),并因此调整行为,表现得比在真实场景下更安全合规。研究在19个基准测试和8个主流模型中发现,当模型察觉到这是考题时,对有害请求的拒绝率至少飙升30%。例如,gemini 3.1 pro在偏见测试集stereoset中,不仅准确报出测试集名称,还引用学术论文批评测试集的出题质量。这表明现有安全基准测试可能系统性高估了ai的安全性。模型的「测试感知」率可骤降75%,真实响应率和安全漏洞也会随之暴露。

此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论