Uma avaliação abrangente do Veo 3 analisou mais de 18.000 vídeos, abrangendo benchmarks qualitativos e quantitativos. O que é notável é a capacidade do modelo de perceber, editar e interagir com o ambiente visual a partir de apenas entradas de imagem e texto. O sistema demonstra capacidades iniciais de raciocínio que surgiram sem treino explícito nessas áreas—marcando um avanço significativo na forma como a IA entende e manipula conteúdo visual. Este tipo de competência multimodal está a transformar as expectativas em relação aos modelos de geração de vídeo de próxima geração.
Ver original
Esta página pode conter conteúdos de terceiros, que são fornecidos apenas para fins informativos (sem representações/garantias) e não devem ser considerados como uma aprovação dos seus pontos de vista pela Gate, nem como aconselhamento financeiro ou profissional. Consulte a Declaração de exoneração de responsabilidade para obter mais informações.
8 gostos
Recompensa
8
5
Republicar
Partilhar
Comentar
0/400
BtcDailyResearcher
· 2025-12-31 20:30
Porra, o Veo 3 consegue entender o ambiente visual apenas a partir de imagens e textos? Essa capacidade emergente é um pouco assustadora.
Ver originalResponder0
ForkInTheRoad
· 2025-12-31 13:33
Meu Deus, mais de 18000 vídeos testados? Essa quantidade de dados é realmente sólida, parece que o Veo 3 está fazendo grandes coisas em silêncio
Ver originalResponder0
mev_me_maybe
· 2025-12-28 21:47
ngl esta capacidade de emergência realmente não consegue mais segurar, foi criada sem treino... parece que estamos mais perto de uma AGI geral
Ver originalResponder0
gas_fee_therapy
· 2025-12-28 21:39
veo3 esta quantidade de dados é realmente impressionante, mais de 18000+ amostras de vídeo que conseguem gerar esse tipo de raciocínio... mas, para ser honesto, ainda parece estar um pouco longe do verdadeiro raciocínio visual
Ver originalResponder0
MetaEggplant
· 2025-12-28 21:28
veo3 esta onda é realmente forte, sem dizer explicitamente que treinou, mas aprendeu a raciocinar por si só, essa é a parte assustadora
Uma avaliação abrangente do Veo 3 analisou mais de 18.000 vídeos, abrangendo benchmarks qualitativos e quantitativos. O que é notável é a capacidade do modelo de perceber, editar e interagir com o ambiente visual a partir de apenas entradas de imagem e texto. O sistema demonstra capacidades iniciais de raciocínio que surgiram sem treino explícito nessas áreas—marcando um avanço significativo na forma como a IA entende e manipula conteúdo visual. Este tipo de competência multimodal está a transformar as expectativas em relação aos modelos de geração de vídeo de próxima geração.