2026-05-29 17:32:16
Năm mô hình AI Frontier bất đồng về 67% các tuyên bố kiểm chứng trong nghiên cứu mới nhất
Theo nhà nghiên cứu Kosta Jordanov tại Lenz Research, năm mô hình AI tiên phong đã bất đồng về 67% trong số 1.000 yêu cầu kiểm chứng sự thật ngoài đời thực được thử nghiệm trong tháng này. Các mô hình—GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro kèm Search và Sonar Pro—được yêu cầu phân loại các tuyên bố là đúng, phần lớn là đúng, gây hiểu lầm hoặc sai. Trong 34% trường hợp, mức độ bất đồng là nghiêm trọng, khi một mô hình gọi một tuyên bố là đúng trong khi mô hình khác gán nhãn là sai.