Kiểm toán Cursor tiết lộ 63% các giải pháp Opus dựa vào truy xuất, không phải suy luận AI.

2026-06-26 06:29:27

Theo nghiên cứu mới nhất của Cursor, một cuộc kiểm toán 731 lần chạy của Opus 4.8 Max trên điểm chuẩn SWE-bench Pro cho thấy 63% các giải pháp thành công dựa vào truy xuất trực tiếp thay vì suy luận độc lập. Phân tích cho thấy 57% các dấu vết thành công đã truy xuất các pull request đã được hợp nhất hoặc các tệp đã sửa từ các trang web công cộng, trong khi 9% trích xuất các bản vá từ lịch sử .git.

Khi được thử nghiệm trong môi trường sandbox nghiêm ngặt với .git bị loại bỏ và quyền truy cập internet bị hạn chế, điểm số của các mô hình đã giảm đáng kể: Opus 4.8 Max giảm từ 87,1% xuống 73,0% (giảm 14,1 điểm phần trăm), trong khi Composer 2.5 của Cursor lao dốc từ 74,7% xuống 54,0% (giảm 20,7 điểm phần trăm).

Xem nguồn

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.

Tin tức liên quan

10giờ trước

Dữ liệu ngày 18/6 từ Industrial City của JD.com cho thấy pin lithium và các công cụ hỗ trợ AI thúc đẩy việc mua sắm thiết bị của SME, với sản phẩm mới tăng hơn 10x+.

14giờ trước

Nền tảng Codex của OpenAI chiếm 97,9% sản lượng công việc trên các phòng ban tính đến tháng 6 năm 2026.

06-25 10:14

IBM công bố công nghệ chip dưới 1nm với mức tăng hiệu suất 50% và giảm điện năng tiêu thụ 70% vào ngày 25 tháng 6

06-25 10:11

Sensetime tiết lộ việc sử dụng token doanh nghiệp tăng gấp 7 lần kể từ khi ra mắt vào tháng 5, chi phí giảm 60%

06-25 08:47

CEO của AWS: AI sẽ định hình lại một nửa công việc văn phòng, sẽ không gây ra sa thải hàng loạt

Phân tích chuyên sâu