Claude Opus 4.5 ra mắt! Tỷ lệ chính xác vượt trội hơn GPT-5.1 và Gemini 3, Rakuten: Tự tiến hóa mạnh mẽ

ChainNewsAbmedia

2025-11-25 08:54:29

Ngay sau một tuần Google ra mắt Gemini 3, Anthropic cũng đã công bố ra mắt mô hình flagship mới nhất Claude Opus 4.5 vào ngày 11/25. Họ còn cho biết phiên bản này đã được nâng cấp đáng kể trong việc lập trình, điều khiển AI và sử dụng ứng dụng máy tính, cũng như có khả năng xử lý nội dung đối thoại dài hơn. Giám đốc quan hệ phát triển của Anthropic, Alex Albert, thậm chí đã phát biểu trong một cuộc phỏng vấn rằng: “Đây chính là mô hình thông minh nhất thế giới.”

Claude Opus 4.5 điểm nổi bật mạnh mẽ nhất một lần xem

Điểm nổi bật một: Hiệu suất vượt trội hơn GPT-5.1 và Gemini 3, tăng cường ứng dụng đại diện.

Chính thức định vị Opus 4.5 là “một trong những mô hình mạnh nhất thế giới”, và từ hôm nay sẽ được mở trên App, API và ba nền tảng đám mây (AWS, GCP, Azure). Từ biểu đồ so sánh hiệu năng của mô hình AI do Anthropic cung cấp có thể thấy:

“Opus 4.5 có độ chính xác lên đến 80.9 %, vượt trội hơn Gemini 3 Pro và GPT-5.1.”

Chính thức cho biết, lần này Opus 4.5 nổi bật đặc biệt trong lập trình, AI Agents, suy luận đa bước và thao tác công cụ máy tính, như các công việc thông thường như nghiên cứu dài hạn, PowerPoint, Excel v.v… cũng được cải thiện rõ rệt.

Giá mới là 5 đô la cho mỗi triệu token đầu vào và 25 đô la cho mỗi triệu token đầu ra, thân thiện hơn so với thế hệ trước Opus 4.1, giúp nhiều doanh nghiệp và đội nhóm có thể áp dụng các chức năng cấp Opus.

Điểm nổi bật thứ hai: Thử nghiệm nội bộ nhận được đánh giá tích cực, có khả năng hiểu và giải quyết vấn đề.

Anthropic tiết lộ, sau khi phát hành bản thử nghiệm, các thành viên trong nhóm đã đưa ra phản hồi nhất quán. Đặc biệt là:

“Opus 4.5 có thể xử lý một số vấn đề mơ hồ, cân nhắc suy luận, và sẽ tự khám phá giải pháp khi gặp lỗi phức tạp trong nhiều hệ thống.”

Nhiệm vụ mà Sonnet 4.5 gần như không thể thực hiện được, giờ đây Opus 4.5 có thể hoàn thành. Các người thử nghiệm đều cho rằng Opus 4.5 rất hiểu “ý nghĩa của người dùng”, và chính thức cũng cho rằng điều này mang lại sự khác biệt rõ rệt trong trải nghiệm.

Windsurf, GitHub và các giám đốc điều hành khác đều được Opus 4.5 chứng thực. Điểm nổi bật thứ ba: Kỷ lục đổi mới trong kiểm tra chương trình, hiệu suất bài thi hai giờ vượt qua con người.

Anthropic chỉ ra rằng công ty sử dụng một bài kiểm tra thực hành có độ khó tương đối cao khi tuyển dụng kỹ sư. Trong cùng khoảng thời gian hai giờ làm bài, hiệu suất của Claude Opus 4.5 đã vượt qua tất cả các ứng viên nhân loại trong những năm qua, thiết lập kỷ lục mới.

Thông báo chính thức, bài kiểm tra này chủ yếu đánh giá khả năng kỹ thuật và khả năng phán đoán dưới áp lực, không liên quan đến các kỹ năng mềm như hợp tác, giao tiếp. Tuy nhiên, từ kết quả lần này có thể thấy, AI đang tiến bộ với tốc độ rất nhanh trong lĩnh vực kỹ thuật.

Điểm nổi bật thứ tư: Tăng cường an ninh, khó bị lừa hơn trước các cuộc tấn công tiêm nhiễm.

Anthropic nhấn mạnh, Opus 4.5 là phiên bản mô hình “có độ đồng bộ cao nhất và an toàn nhất” cho đến nay.

Lần nâng cấp an toàn này tập trung vào việc cải thiện khả năng chống lại các cuộc tấn công tiêm gợi ý, khiến cho các lệnh độc hại khó bị chèn vào mô hình hơn và cũng khó để đánh lừa hệ thống thực hiện hành vi sai trái. So với các mô hình tiên tiến khác, Opus 4.5 cũng đạt điểm số tốt nhất trong các bài kiểm tra an toàn liên quan. Từ hình dưới đây có thể thấy:

“Opus 4.5 và các mô hình nổi tiếng khác dưới cùng điều kiện kiểm tra, là mô hình khó bị lừa nhất, khó bị tấn công bằng cách tiêm gợi ý thành công, thể hiện khả năng phòng thủ xuất sắc.”

Điểm nổi bật năm: Cuộc đối thoại dài không bị gián đoạn, Chrome và Ứng dụng nâng cao trải nghiệm toàn diện

Anthropic cũng đồng thời cập nhật nhiều sản phẩm. Đầu tiên, chế độ Plan của Claude Code đã được nâng cấp thêm, sẽ tự động tạo ra plan.md có thể chỉnh sửa sau khi làm rõ vấn đề, sau đó tiến hành thực thi chương trình. Phiên bản desktop cũng đã thêm nhiều Session, cho phép nhiều tác nhân thực hiện các nhiệm vụ khác nhau cùng một lúc.

Ứng dụng Claude mà người dùng thường sử dụng cũng được cải tiến, các cuộc trò chuyện dài sẽ không còn bị kẹt do ngữ cảnh quá dài, hệ thống sẽ tự động tổ chức lại nội dung trước đó để cuộc trò chuyện không bị gián đoạn. Claude for Chrome thì hoàn toàn mở cửa cho người dùng Max, có thể xử lý các thao tác phức tạp trên nhiều tab.

Claude for Excel trước đây chỉ giới hạn cho người dùng Beta, nhưng giờ đây đã mở rộng đến người dùng Max, Team và Enterprise, kết hợp với Opus 4.5 để tăng cường khả năng xử lý bảng và dữ liệu. Cuối cùng, Anthropic cũng đã điều chỉnh giới hạn sử dụng tổng thể, bỏ giới hạn riêng cho Opus, cho phép người dùng Max và Team Premium sử dụng Opus 4.5 ở mức “khối lượng công việc hàng ngày”, và nếu có mô hình mạnh hơn được phát hành trong tương lai, lượng sử dụng liên quan cũng sẽ được điều chỉnh.

( chú thích:

plan.md

Không phải là tệp bên ngoài, mà là một “tài liệu kế hoạch nhiệm vụ” được tự động tạo ra bởi Claude Code trước khi thực hiện nhiệm vụ, định dạng sử dụng Markdown phổ biến. )

Hai điểm sáu: Lotte chỉ ra rằng Opus 4.5 có khả năng tự tiến hóa.

Trong đó có một điểm sáng đặc biệt, Rakuten ( của Nhật Bản chỉ ra rằng Claude Opus 4.5 đã thể hiện sự đột phá rõ rệt trong các đại lý AI tự tiến hóa.

Trong ứng dụng thực tế của tự động hóa văn phòng, các chương trình đại lý liên quan có thể tự tối ưu hóa khả năng, chỉ cần bốn lần lặp là có thể đạt được hiệu suất tốt nhất, trong khi các mô hình khác ngay cả khi chạy đến mười lần cũng không theo kịp chất lượng tương đương.

Lotte nhấn mạnh, sự khác biệt này khiến Opus 4.5 thể hiện hiệu suất cao hơn trong các ứng dụng cấp doanh nghiệp.

Bài viết này Claude Opus 4.5 ra mắt! Độ chính xác vượt trội so với GPT-5.1 và Gemini 3, Rakuten: tự tiến hóa mạnh mẽ Xuất hiện lần đầu tiên trên Chain News ABMedia.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.