Quỹ ARC Prize đã công bố bộ dữ liệu thể hiện khả năng của con người trong ARC-AGI-3, bao gồm kết quả kiểm tra của 458 người tham gia trong 135 môi trường suy luận trừu tượng không có hướng dẫn chơi. Tất cả các môi trường đều được con người vượt qua, và chứng minh về việc đạt được AGI vẫn chưa thành công. Đồng thời, quỹ đã điều chỉnh quy tắc chấm điểm để điểm của con người và AI đều tăng nhẹ.

MeNews

2026-05-06 16:49:18

Đang tạo bản tóm tắt

Tin tức ME News, ngày 15 tháng 4 (UTC+8), theo theo dõi của Động sát Beating, Quỹ ARC Prize công bố bộ dữ liệu hiệu suất con người của ARC-AGI-3, đây là nghiên cứu thử nghiệm lớn nhất từ trước đến nay trong loạt ARC-AGI, với tổng cộng 458 người tham gia. Bộ dữ liệu bao gồm 342 bản ghi lại toàn bộ các thao tác của con người, bao phủ 25 môi trường công khai, đã hoàn toàn mở mã nguồn. ARC-AGI-3 bao gồm 135 môi trường suy luận trừu tượng, người thử nghiệm không nhận bất kỳ hướng dẫn chơi nào, phải tự khám phá, suy luận quy tắc và xây dựng chiến lược. Các bài kiểm tra diễn ra tại trung tâm thử nghiệm trực tiếp ở San Francisco, mỗi lần kéo dài 90 phút, người tham gia nhận khoảng 130 đô la Mỹ tiền lương cơ bản cộng 5 đô la Mỹ thưởng cho mỗi môi trường vượt qua. Tất cả các bài kiểm tra đều theo điều kiện “vượt qua lần đầu tiên”, tức là mỗi người chỉ xem một lần, chỉ thử một lần, nhằm đo lường khả năng học hỏi và thích nghi khi đối mặt với vấn đề mới hoàn toàn. Con người và AI đều có thông tin hoàn toàn giống nhau, không có bất kỳ sự chênh lệch nào về thông tin. Kết luận cốt lõi: Tất cả các môi trường của ARC-AGI-3 đều được con người vượt qua, mỗi môi trường ít nhất có hai người tham gia độc lập hoàn thành, đa số môi trường có hơn năm người vượt qua. Quỹ ARC Prize gọi rằng “Chúng tôi vẫn chưa đạt được AGI, bộ dữ liệu này chính là bằng chứng”. Kể từ khi ra mắt bản xem trước của ARC-AGI-3, gần 1 triệu bài đánh giá AI đã được gửi đến các môi trường công khai. Dựa trên các dữ liệu này, quỹ cũng công bố hai điều chỉnh về quy tắc chấm điểm: thứ nhất, thay đổi tiêu chuẩn con người cho mỗi cấp độ từ “người chơi thứ hai tốt nhất” thành “người chơi trung vị”, giảm ảnh hưởng của may mắn đến điểm số; thứ hai, nâng giới hạn điểm tối đa cho mỗi cấp độ từ 100% lên 115%, để tránh việc hiệu suất kém ở một cấp độ kéo giảm thành tích chung. Hiệu quả ròng của hai điều chỉnh này là điểm của con người và AI đều tăng nhẹ khoảng 0,5 điểm phần trăm. (Nguồn: BlockBeats)

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Retweed

Bình luận

Thêm một bình luận

Không có bình luận

Chủ đề thịnh hành
Xem thêm
#
GateSquareMayTradingShare
446.61K Phổ biến
#
BitcoinHoldsFirmAbove80K
94.31M Phổ biến
#
CryptoMarketRecovery
121.32K Phổ biến
#
IsraelStrikesIranBTCPlunges
43.32K Phổ biến
#
AaveSuesToUnfreeze73MInETH
1.84M Phổ biến

Ghim

sơ đồ trang web

ARC-AGI-3 công bố thử nghiệm lớn nhất trong lịch sử về con người: tất cả các cấp độ đều bị con người chinh phục, AI vẫn còn khoảng cách

Chủ đề thịnh hành

GateSquareMayTradingShare

BitcoinHoldsFirmAbove80K

CryptoMarketRecovery

IsraelStrikesIranBTCPlunges

AaveSuesToUnfreeze73MInETH

Ghim