Theo Beating, NVIDIA đã phát hành các trọng số cho Cosmos-Reason2-32B, phiên bản chủ lực của mô hình vật lý AI suy luận tầm nhìn-ngôn ngữ (VLM) nhằm giúp robot và hệ thống lái tự động hiểu các nguyên lý không gian, thời gian và vật lý. Mô hình 32 tỷ tham số, dựa trên Qwen3-VL-32B-Instruct, có sẵn theo NVIDIA Open Model License để sử dụng thương mại.
Mô hình có thể phân tích các luồng video để đánh giá an toàn khi lái xe, phát hiện vật thể trong ảnh với tọa độ 2D/3D và đóng vai trò như động cơ lập kế hoạch cho robot hình người và xe tự hành. So với thế hệ trước, Cosmos-Reason2 bổ sung khả năng phát hiện đối tượng với định vị thời gian chính xác và mở rộng cửa sổ ngữ cảnh lên 256K token.