Vì sao mô hình AI tạo video của ByteDance có thể đánh bại Veo 3 của Google?

06/07/2025 06:15

Trong khi thế giới công nghệ đang phấn khích với sự ra mắt của Veo 3, ByteDance âm thầm phát hành một sản phẩm tạo video còn tốt hơn với tên gọi là Seedance 1.0

Ra mắt ngày 18/6, Seedance 1.0 được một số chuyên gia đánh giá là AI tạo video từ văn bản và hình ảnh mạnh mẽ nhất hiện nay.

Google Veo 3 là một mô hình tạo video ấn tượng mới được Google công bố gần đây, gây sự chú ý rộng rãi. Khả năng của nó khiến nhiều người kinh ngạc, thậm chí có người nói “đáng sợ vì quá tốt”. Mô hình này có tính năng tổng hợp âm thanh và các công cụ điện ảnh, thiết lập một chuẩn mực mới trong việc tạo video bằng AI. (tham khảo video do VietTimes thực hiện bằng Veo 3).

Trong khi thế giới công nghệ đang ăn mừng sự ra mắt của Veo 3, ByteDance âm thầm phát hành một sản phẩm có thể còn tốt hơn. Công ty mẹ của TikTok gần đây đã công bố bài viết về Seedance 1.0, mô hình tạo video song ngữ, hiện dẫn đầu bảng xếp hạng độc lập cho cả hai tác vụ tạo video từ văn bản và tạo video từ hình ảnh.

ByteDance không tổ chức sự kiện ra mắt hay trình diễn. Thay vào đó, các chỉ số kỹ thuật của họ đã giúp công ty thu hút sự chú ý mà không cần chiến dịch marketing rầm rộ. Mô hình này được xây dựng để hỗ trợ tạo video đa cảnh với độ phân giải cao, đồng thời duy trì tốc độ suy luận nhanh và tuân thủ chặt chẽ các chỉ dẫn.

Cách Seedance 1.0 đánh bại Veo 3

Giải thích công nghệ áp dụng trong Seedance 1.0, ByteDance cho biết: “Chúng tôi tách biệt các lớp không gian và thời gian bằng một mã hóa vị trí đa phương thức xen kẽ. Điều này cho phép mô hình của chúng tôi học đồng thời cả hai tác vụ tạo video từ văn bản và từ hình ảnh trong cùng một mô hình, đồng thời hỗ trợ việc tạo video đa cảnh”.

Cách tiếp cận này giúp mô hình AI hỗ trợ các chuyển cảnh phức tạp và kể chuyện đa cảnh với sự nhất quán về đối tượng.

Một video ngắn tạo bằng Seedance 1.0

Một phần quan trọng trong hiệu suất của mô hình đến từ quy trình xử lý dữ liệu của ByteDance. Nhóm phát triển đã tuyển chọn một bộ dữ liệu lớn, đa nguồn với chú thích song ngữ chi tiết và đánh dấu dày đặc các đặc điểm chuyển động và tĩnh. Độ chính xác của chú thích được ưu tiên để cải thiện việc tuân thủ các yêu cầu đầu vào khi tạo video. Điều này được kết hợp với thiết lập học tăng cường mới sử dụng ba mô hình phần thưởng, tập trung vào sự liên kết cơ bản, chất lượng chuyển động và tính thẩm mỹ.

Trong quá trình đánh giá, Seedance 1.0 đã vượt trội hơn Veo 3 trên nhiều chiều. Trên chuẩn SeedVideoBench, được thiết kế với sự hợp tác của các đạo diễn phim, mô hình này đã chứng minh được điểm số cao hơn về khả năng đáp ứng câu lệnh (prompt) và tính chân thực của chuyển động.

So sánh chất lượng video, khả năng làm theo prompt và tính thẩm mỹ của Seedance 1.0 với các mô hình tạo video khác. Nguồn: ByteDance

Đáng chú ý, trong các tác vụ tạo video từ hình ảnh, Seedance giữ được sự nhất quán hình ảnh từ khung hình đầu vào tốt hơn, trong khi Veo 3 đôi khi thay đổi ánh sáng và kết cấu, theo bài chia sẻ của ByteDance.

So sánh Seedance với từng ứng dụng tạo video.

Hiệu suất suy luận cũng là điểm đáng chú ý. Về tốc độ, Seedance 1.0 bỏ xa các đối thủ. Công ty cho biết mô hình tạo một video dài 5 giây ở độ phân giải 1080p chỉ trong 41,4 giây trên một GPU NVIDIA L20, nhanh hơn một bậc so với các đối thủ như Sora, Runway Gen-4 và tất nhiên là Veo 3.

ByteDance cũng tiết lộ họ đã giảm đáng kể chi phí và độ trễ, mở đường cho việc ứng dụng tạo video gần như thời gian thực. Hơn nữa, mô hình AI này đã đứng đầu bảng xếp hạng trên Artificial Analysis cho cả hai tác vụ tạo video từ văn bản và từ hình ảnh.

Đánh giá Veo 3 để so sánh

Veo 3 vẫn là một hệ thống có tham vọng kỹ thuật cao. Nó giới thiệu tổng hợp video nhận biết âm thanh và cho phép người dùng kiểm soát chuyển động camera và bố cục cảnh quay qua công cụ Flow. Phản hồi ban đầu của người dùng nhấn mạnh sự mới mẻ của việc đồng bộ thoại và môi trường động, đưa Veo 3 lên hàng đầu trong lĩnh vực tạo video âm thanh-hình ảnh.

Tuy nhiên, trong so sánh trực tiếp, Veo 3 có vẻ kém hơn về sự phù hợp hình ảnh và tính nhất quán khung hình. Bài nghiên cứu về Seedance 1.0 chỉ ra rằng kết quả tạo video từ hình ảnh của Veo đôi khi làm thay đổi diện mạo đối tượng hoặc ánh sáng cảnh, ảnh hưởng đến hiệu quả tổng thể. Mặc dù Veo mở rộng phạm vi tạo video đa phương thức, hiệu suất của nó trên các chuẩn đánh giá truyền thống vẫn thua kém.

Ngược lại, Seedance 1.0 tập trung vào sự nhất quán hình ảnh và tính hợp lý chuyển động, với học tăng cường có cấu trúc và dữ liệu tinh chỉnh được tuyển chọn đóng vai trò then chốt. Điểm mạnh của nó là độ tin cậy và khả năng kiểm soát, đặc biệt trong các chuỗi đa cảnh hoặc dài, những tình huống quan trọng cho việc tạo nội dung chuyên nghiệp hoặc bán tự động.

Seedance 1.0 dự kiến sẽ được tích hợp vào các nền tảng như Doubao và Jimeng, trở thành công cụ quan trọng nhằm cải thiện đáng kể quy trình làm việc chuyên nghiệp và các nhiệm vụ sáng tạo hàng ngày.

Trong khi Veo 3 được chú ý vì là mô hình đầu tiên kết hợp video thực tế với âm thanh nền và thoại, Seedance 1.0 đạt được độ trung thực hình ảnh, ổn định chuyển động và sự mạch lạc trong kể chuyện tốt hơn, nhưng chưa có khả năng xử lý âm thanh. Có lẽ phiên bản Seedance nâng cấp sẽ cải thiện điều này.

Vì sao mô hình AI tạo video của ByteDance có thể đánh bại Veo 3 của Google?

Cách Seedance 1.0 đánh bại Veo 3

Đánh giá Veo 3 để so sánh

Hướng dẫn sử dụng VEO 3 để tạo video theo ý muốn

Từ khoá:

Có thể bạn quan tâm

Tin nóng công nghệ 6/7: AI giúp người vô sinh 18 năm có con

Chuyên gia: Việt Nam có thể trở thành trung tâm tài sản mã hóa hàng đầu khu vực

Bộ Công an cảnh báo chiêu lừa đảo cài ứng dụng VNeID giả mạo

Hồng Kông đẩy mạnh hệ sinh thái AI, hơn 90% siêu máy tính đã được sử dụng

Robot hình người của Trung Quốc làm bít tết, rắc muối nhờ công nghệ thực tế ảo

Tin nóng công nghệ 5/7: Môn thể thao giúp kéo dài tuổi thọ hơn chạy bộ, bơi lội

Chuyên gia an ninh mạng khuyến cáo cảnh giác với lừa đảo sau sắp xếp, sáp nhập

Ứng dụng 3 nền tảng số, Bộ Ngoại giao hiện thực hóa chiến lược chuyển đổi số toàn diện

Năng lực sản xuất chip của Trung Quốc đại lục sẽ vượt Đài Loan vào năm 2030

Cung cấp dịch vụ công cho người dân, doanh nghiệp không phụ thuộc địa giới hành chính

Mã vùng điện thoại cố định sau sáp nhập tỉnh thay đổi thế nào?

Tin nóng công nghệ 4/7: iPhone 17 Pro Max có pin 5.000 mAh, NVIDIA lên đỉnh chưa từng có

6 kết quả nổi bật sau nửa năm thực hiện Nghị quyết số 57

Ông Vũ Ngọc Sơn nói về lý do doanh nghiệp sẽ bỏ tiền mua hệ sinh thái sản phẩm an ninh mạng NCS

Dubai thử nghiệm taxi bay thuần điện để giải quyết nạn tắc đường

Viettel, Vingroup, FPT tạo ra thiết bị 5G, chip bán dẫn, giải pháp AI... được quốc tế công nhận

Người Việt sang Singapore quét QR thanh toán, không cần đổi tiền

Vì sao mục tiêu 50% dân số trưởng thành có chữ ký số cuối 2025 là thách thức

AI bắt đầu phản ứng dữ dội khi bị con người đe dọa

Tin nóng công nghệ 3/7: Nghi ngờ lỗ hổng nghiêm trọng trong hệ thống an ninh biên giới EU