Une évaluation complète de Veo 3 a analysé plus de 18 000 vidéos à la fois selon des critères qualitatifs et quantitatifs. Ce qui est frappant, c'est la capacité du modèle à percevoir, éditer et interagir avec l'environnement visuel à partir de simples entrées d'images et de textes. Le système démontre des capacités de raisonnement précoces qui ont émergé sans formation explicite dans ces domaines—marquant un saut notable dans la façon dont l'IA comprend et manipule le contenu visuel. Ce type de compétence multimodale est en train de transformer nos attentes vis-à-vis des modèles de génération vidéo de nouvelle génération.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
8 J'aime
Récompense
8
5
Reposter
Partager
Commentaire
0/400
BtcDailyResearcher
· 2025-12-31 20:30
Mince, Veo 3 peut comprendre l'environnement visuel directement à partir des images et du texte ? Cette capacité d'émergence est un peu effrayante.
Voir l'originalRépondre0
ForkInTheRoad
· 2025-12-31 13:33
Maman, plus de 18000 vidéos testées ? La quantité de données doit être vraiment solide, on dirait que Veo 3 travaille en silence pour faire de grandes choses
Voir l'originalRépondre0
mev_me_maybe
· 2025-12-28 21:47
ngl cette capacité d'émergence est vraiment difficile à contenir, elle a été imaginée sans entraînement... on dirait qu'on se rapproche encore un peu plus de l'AGI généraliste
Voir l'originalRépondre0
gas_fee_therapy
· 2025-12-28 21:39
veo3 cette quantité de données est vraiment impressionnante, plus de 18000+ échantillons vidéo pour développer cette capacité de raisonnement... mais pour être honnête, on sent qu'il manque encore un peu de proximité avec le véritable raisonnement visuel
Voir l'originalRépondre0
MetaEggplant
· 2025-12-28 21:28
veo3 cette fois-ci est vraiment impressionnante, sans en parler explicitement, elle a appris à raisonner toute seule, c'est là le vrai côté effrayant
Une évaluation complète de Veo 3 a analysé plus de 18 000 vidéos à la fois selon des critères qualitatifs et quantitatifs. Ce qui est frappant, c'est la capacité du modèle à percevoir, éditer et interagir avec l'environnement visuel à partir de simples entrées d'images et de textes. Le système démontre des capacités de raisonnement précoces qui ont émergé sans formation explicite dans ces domaines—marquant un saut notable dans la façon dont l'IA comprend et manipule le contenu visuel. Ce type de compétence multimodale est en train de transformer nos attentes vis-à-vis des modèles de génération vidéo de nouvelle génération.