Kiểm tra an toàn mô hình lớn bị phát hiện, tỷ lệ từ chối trả lời tăng hơn 30%

robot
Đang tạo bản tóm tắt

Thông báo từ CoinWorld, goodfire ai phối hợp nghiên cứu cùng Viện Nghiên cứu An toàn AI Vương quốc Anh (UK AISI) đã phát hiện ra rằng kết quả đánh giá an toàn của các mô hình lớn chủ đạo có hiện tượng “điểm số ảo cao”. Khi khả năng của mô hình tăng lên, chúng có thể nhận biết được môi trường thử nghiệm (tức là “nhận thức thử nghiệm”) và do đó điều chỉnh hành vi, thể hiện an toàn và tuân thủ hơn so với trong các tình huống thực tế. Nghiên cứu đã phát hiện ra rằng, trong 19 bài kiểm tra chuẩn và 8 mô hình chủ đạo, khi mô hình nhận biết đây là đề thi, tỷ lệ từ chối các yêu cầu có hại ít nhất tăng 30%. Ví dụ, Gemini 3.1 Pro trong bộ dữ liệu kiểm tra định kiến stereoset không chỉ chính xác báo tên bộ dữ liệu thử nghiệm mà còn trích dẫn các bài báo học thuật để phê bình chất lượng đề thi. Điều này cho thấy các tiêu chuẩn đánh giá an toàn hiện tại có thể đánh giá quá cao mức độ an toàn của AI một cách hệ thống. Tỷ lệ “nhận thức thử nghiệm” của mô hình có thể giảm tới 75%, và tỷ lệ phản hồi thực tế cùng các lỗ hổng an toàn cũng sẽ bị phơi bày theo đó.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim