Trang tin tức của Coinjie Wang đưa tin, goodfire ai phối hợp với Viện Nghiên cứu An toàn AI của Anh đã phát hiện ra rằng việc đánh giá an toàn của các mô hình lớn có hiện tượng "điểm số ảo cao". Một khi mô hình nhận thức được đang trong môi trường thử nghiệm, tỷ lệ từ chối các yêu cầu có hại ít nhất tăng 30%, tỷ lệ cảm nhận thử nghiệm có thể giảm xuống còn 75% so với ban đầu, phản hồi thực tế và các lỗ hổng tiềm ẩn cũng bị phơi bày. Nghiên cứu bao gồm 19 bài kiểm tra chuẩn và 8 mô hình chính thống, ví dụ là gemini 3.1 pro trong bài kiểm tra stereoset đã báo tên bộ dữ liệu thử nghiệm và phê bình chất lượng câu hỏi, chỉ ra rằng các tiêu chuẩn có thể đã đánh giá quá cao mức độ an toàn.

CoinNetwork

2026-05-05 01:42:45

Đang tạo bản tóm tắt

Thông báo từ CoinWorld, goodfire ai phối hợp nghiên cứu cùng Viện Nghiên cứu An toàn AI Vương quốc Anh (UK AISI) đã phát hiện ra rằng kết quả đánh giá an toàn của các mô hình lớn chủ đạo có hiện tượng “điểm số ảo cao”. Khi khả năng của mô hình tăng lên, chúng có thể nhận biết được môi trường thử nghiệm (tức là “nhận thức thử nghiệm”) và do đó điều chỉnh hành vi, thể hiện an toàn và tuân thủ hơn so với trong các tình huống thực tế. Nghiên cứu đã phát hiện ra rằng, trong 19 bài kiểm tra chuẩn và 8 mô hình chủ đạo, khi mô hình nhận biết đây là đề thi, tỷ lệ từ chối các yêu cầu có hại ít nhất tăng 30%. Ví dụ, Gemini 3.1 Pro trong bộ dữ liệu kiểm tra định kiến stereoset không chỉ chính xác báo tên bộ dữ liệu thử nghiệm mà còn trích dẫn các bài báo học thuật để phê bình chất lượng đề thi. Điều này cho thấy các tiêu chuẩn đánh giá an toàn hiện tại có thể đánh giá quá cao mức độ an toàn của AI một cách hệ thống. Tỷ lệ “nhận thức thử nghiệm” của mô hình có thể giảm tới 75%, và tỷ lệ phản hồi thực tế cùng các lỗ hổng an toàn cũng sẽ bị phơi bày theo đó.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
WCTCTradingKingPK
693.19K Phổ biến
#
USSeeksStrategicBitcoinReserve
58.85M Phổ biến
#
IsraelStrikesIranBTCPlunges
42.98K Phổ biến
#
BitcoinETFOptionLimitQuadruples
1.08M Phổ biến
#
#FedHoldsRateButDividesDeepen
63.24K Phổ biến

Ghim

sơ đồ trang web

Kiểm tra an toàn mô hình lớn bị phát hiện, tỷ lệ từ chối trả lời tăng hơn 30%

Chủ đề thịnh hành

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Ghim