Các nhà nghiên cứu áp dụng thuật toán MCTS của AlphaGo để tạo video, vượt Sora 18% về độ dài

Theo Beating, các nhà nghiên cứu từ Đại học Waterloo và Đại học Brown đã giới thiệu Planning at Inference, một khung mở rộng theo thời điểm thử nghiệm mới, trong một bài báo nộp cho ICLR 2026. Khung này áp dụng thuật toán Monte Carlo Tree Search (MCTS) của AlphaGo cho tạo video dạng dài lần đầu tiên, giải quyết các vấn đề trôi ngữ nghĩa và tích lũy lỗi mà các phương pháp tạo tuần tự truyền thống gặp phải.

Trong các thí nghiệm sử dụng mô hình Cosmos-Predict2 mã nguồn mở của Nvidia, Planning at Inference tạo ra các video mạch lạc vượt quá 20 giây. Hệ thống vượt trội so với các phương pháp nền tảng như Greedy Search và Beam Search về độ bền của đối tượng, tính nhất quán theo thời gian và khả năng khớp giữa văn bản–video. So với các mô hình đóng mã nguồn hàng đầu trong ngành, video tạo ra theo phương pháp này dài hơn 18% so với Sora và dài hơn 47% so với Kling, với độ trung thực hình ảnh tương đương. Là một tối ưu hóa suy luận dạng cắm vào–sử dụng được, khung này không yêu cầu huấn luyện lại mô hình nền tảng.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ các nguồn bên thứ ba và chỉ mang tính chất tham khảo. Thông tin này không phản ánh quan điểm hoặc ý kiến của Gate và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Giao dịch tài sản ảo tiềm ẩn rủi ro cao. Vui lòng không chỉ dựa vào thông tin trên trang này khi đưa ra quyết định. Để biết thêm chi tiết, vui lòng xem Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận