Theo Beating, các nhà nghiên cứu từ Đại học Waterloo và Đại học Brown đã giới thiệu Planning at Inference, một khung mở rộng theo thời điểm thử nghiệm mới, trong một bài báo nộp cho ICLR 2026. Khung này áp dụng thuật toán Monte Carlo Tree Search (MCTS) của AlphaGo cho tạo video dạng dài lần đầu tiên, giải quyết các vấn đề trôi ngữ nghĩa và tích lũy lỗi mà các phương pháp tạo tuần tự truyền thống gặp phải.
Trong các thí nghiệm sử dụng mô hình Cosmos-Predict2 mã nguồn mở của Nvidia, Planning at Inference tạo ra các video mạch lạc vượt quá 20 giây. Hệ thống vượt trội so với các phương pháp nền tảng như Greedy Search và Beam Search về độ bền của đối tượng, tính nhất quán theo thời gian và khả năng khớp giữa văn bản–video. So với các mô hình đóng mã nguồn hàng đầu trong ngành, video tạo ra theo phương pháp này dài hơn 18% so với Sora và dài hơn 47% so với Kling, với độ trung thực hình ảnh tương đương. Là một tối ưu hóa suy luận dạng cắm vào–sử dụng được, khung này không yêu cầu huấn luyện lại mô hình nền tảng.