2025-12-28 21:20:33

对Veo 3的全面评估刚刚分析了超过18,000个视频，涵盖定性和定量基准。令人惊讶的是，该模型能够仅凭图像和文本输入感知、编辑和与视觉环境互动。该系统展现出早期推理能力，这些能力是在没有明确训练的情况下自然出现的——标志着AI在理解和操控视觉内容方面的重大飞跃。这种多模态能力正在重塑我们对下一代视频生成模型的期待。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

8人点赞了这条动态

0/400

大饼单日线研究者

· 2025-12-31 20:30

靠，Veo 3 直接从图文就能理解视觉环境？这涌现能力有点吓人啊

ForkInTheRoad

· 2025-12-31 13:33

妈呀，18000+个视频测试？这数据量得多扎实啊，感觉Veo 3真的在闷声干大事

mev_me_maybe

· 2025-12-28 21:47

ngl这涌现能力真的绷不住了，没经过训练就自己想出来的...感觉离通用AGI又近了点

gas_fee_therapy

· 2025-12-28 21:39

veo3这数据量真的绝，18000+的视频样本跑下来能涌现出这种推理能力...不过说实话感觉离真正的visual reasoning还差点意思

MetaEggplant

· 2025-12-28 21:28

veo3这波确实狠，没明说训练却自己学会了推理，这才是scary的地方

热门话题