Beating : NVIDIA a publié les poids de Cosmos-Reason2-32B, la version phare de sa vision-langage d’IA physique (VLM) axée sur le raisonnement, conçue pour aider les robots et les systèmes de conduite autonome à comprendre des principes spatiaux, temporels et physiques. Le modèle de 32 milliards de paramètres, basé sur Qwen3-VL-32B-Instruct, est disponible sous la NVIDIA Open Model License pour un usage commercial.
Le modèle peut analyser des flux vidéo pour évaluer la sécurité routière, détecter des objets sur des images avec des coordonnées 2D/3D, et servir de moteur de planification pour les robots humanoïdes et les véhicules autonomes. Par rapport à la génération précédente, Cosmos-Reason2 ajoute la détection d’objets avec une localisation temporelle précise et étend la fenêtre de contexte à 256K tokens.