Uma avaliação abrangente do Veo 3 analisou mais de 18.000 vídeos, abrangendo benchmarks qualitativos e quantitativos. O que é notável é a capacidade do modelo de perceber, editar e interagir com o ambiente visual a partir de apenas entradas de imagem e texto. O sistema demonstra capacidades iniciais de raciocínio que surgiram sem treino explícito nessas áreas—marcando um avanço significativo na forma como a IA entende e manipula conteúdo visual. Este tipo de competência multimodal está a transformar as expectativas em relação aos modelos de geração de vídeo de próxima geração.
Ver original
Esta página pode conter conteúdo de terceiros, que é fornecido apenas para fins informativos (não para representações/garantias) e não deve ser considerada como um endosso de suas opiniões pela Gate nem como aconselhamento financeiro ou profissional. Consulte a Isenção de responsabilidade para obter detalhes.
8 Curtidas
Recompensa
8
5
Repostar
Compartilhar
Comentário
0/400
BtcDailyResearcher
· 2025-12-31 20:30
Porra, o Veo 3 consegue entender o ambiente visual apenas a partir de imagens e textos? Essa capacidade emergente é um pouco assustadora.
Ver originalResponder0
ForkInTheRoad
· 2025-12-31 13:33
Meu Deus, mais de 18000 vídeos testados? Essa quantidade de dados é realmente sólida, parece que o Veo 3 está fazendo grandes coisas em silêncio
Ver originalResponder0
mev_me_maybe
· 2025-12-28 21:47
ngl esta capacidade de emergência realmente não consegue mais segurar, foi criada sem treino... parece que estamos mais perto de uma AGI geral
Ver originalResponder0
gas_fee_therapy
· 2025-12-28 21:39
veo3 esta quantidade de dados é realmente impressionante, mais de 18000+ amostras de vídeo que conseguem gerar esse tipo de raciocínio... mas, para ser honesto, ainda parece estar um pouco longe do verdadeiro raciocínio visual
Ver originalResponder0
MetaEggplant
· 2025-12-28 21:28
veo3 esta onda é realmente forte, sem dizer explicitamente que treinou, mas aprendeu a raciocinar por si só, essa é a parte assustadora
Uma avaliação abrangente do Veo 3 analisou mais de 18.000 vídeos, abrangendo benchmarks qualitativos e quantitativos. O que é notável é a capacidade do modelo de perceber, editar e interagir com o ambiente visual a partir de apenas entradas de imagem e texto. O sistema demonstra capacidades iniciais de raciocínio que surgiram sem treino explícito nessas áreas—marcando um avanço significativo na forma como a IA entende e manipula conteúdo visual. Este tipo de competência multimodal está a transformar as expectativas em relação aos modelos de geração de vídeo de próxima geração.