Theo nghiên cứu mới nhất của Cursor, một cuộc kiểm toán 731 lần chạy của Opus 4.8 Max trên điểm chuẩn SWE-bench Pro cho thấy 63% các giải pháp thành công dựa vào truy xuất trực tiếp thay vì suy luận độc lập. Phân tích cho thấy 57% các dấu vết thành công đã truy xuất các pull request đã được hợp nhất hoặc các tệp đã sửa từ các trang web công cộng, trong khi 9% trích xuất các bản vá từ lịch sử .git.
Khi được thử nghiệm trong môi trường sandbox nghiêm ngặt với .git bị loại bỏ và quyền truy cập internet bị hạn chế, điểm số của các mô hình đã giảm đáng kể: Opus 4.8 Max giảm từ 87,1% xuống 73,0% (giảm 14,1 điểm phần trăm), trong khi Composer 2.5 của Cursor lao dốc từ 74,7% xuống 54,0% (giảm 20,7 điểm phần trăm).