Đánh giá toàn diện về Veo 3 vừa phân tích hơn 18.000 video trên cả các tiêu chuẩn định tính và định lượng. Điều đáng chú ý là khả năng của mô hình trong việc nhận thức, chỉnh sửa và tương tác với môi trường hình ảnh bắt đầu từ các đầu vào chỉ gồm hình ảnh và văn bản. Hệ thống thể hiện khả năng lý luận sơ bộ xuất hiện mà không cần đào tạo rõ ràng trong các lĩnh vực này—đánh dấu một bước nhảy đáng kể trong cách AI hiểu và thao tác nội dung hình ảnh. Khả năng đa phương tiện như vậy đang định hình lại những gì chúng ta mong đợi từ các mô hình tạo video thế hệ tiếp theo.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
8 thích
Phần thưởng
8
5
Đăng lại
Retweed
Bình luận
0/400
BtcDailyResearcher
· 2025-12-31 20:30
Chết rồi, Veo 3 có thể hiểu môi trường trực quan chỉ từ hình ảnh và văn bản? Khả năng xuất hiện này thật đáng sợ quá
Xem bản gốcTrả lời0
ForkInTheRoad
· 2025-12-31 13:33
Trời ơi, hơn 18000 video thử nghiệm? Khối lượng dữ liệu này phải rất vững chắc, cảm giác Veo 3 thực sự đang âm thầm làm những việc lớn
Xem bản gốcTrả lời0
mev_me_maybe
· 2025-12-28 21:47
ngl khả năng xuất hiện này thật sự không thể chịu nổi, tự nghĩ ra mà không qua đào tạo... cảm giác gần hơn chút với AGI tổng quát
Xem bản gốcTrả lời0
gas_fee_therapy
· 2025-12-28 21:39
veo3 dữ liệu này thực sự tuyệt vời, hơn 18000+ mẫu video chạy qua có thể xuất hiện khả năng suy luận như vậy... nhưng thành thật mà nói, cảm giác vẫn còn xa mới đạt đến khả năng lý luận hình ảnh thực sự
Xem bản gốcTrả lời0
MetaEggplant
· 2025-12-28 21:28
veo3 lần này thực sự mạnh mẽ, không rõ ràng về việc huấn luyện nhưng tự học cách suy luận, đây mới là điểm đáng sợ
Đánh giá toàn diện về Veo 3 vừa phân tích hơn 18.000 video trên cả các tiêu chuẩn định tính và định lượng. Điều đáng chú ý là khả năng của mô hình trong việc nhận thức, chỉnh sửa và tương tác với môi trường hình ảnh bắt đầu từ các đầu vào chỉ gồm hình ảnh và văn bản. Hệ thống thể hiện khả năng lý luận sơ bộ xuất hiện mà không cần đào tạo rõ ràng trong các lĩnh vực này—đánh dấu một bước nhảy đáng kể trong cách AI hiểu và thao tác nội dung hình ảnh. Khả năng đa phương tiện như vậy đang định hình lại những gì chúng ta mong đợi từ các mô hình tạo video thế hệ tiếp theo.