|
Ra mắt ngày 18/6, Seedance 1.0 được một số chuyên gia đánh giá là AI tạo video từ văn bản và hình ảnh mạnh mẽ nhất hiện nay. |
Google Veo 3 là một mô hình tạo video ấn tượng mới được Google công bố gần đây, gây sự chú ý rộng rãi. Khả năng của nó khiến nhiều người kinh ngạc, thậm chí có người nói “đáng sợ vì quá tốt”. Mô hình này có tính năng tổng hợp âm thanh và các công cụ điện ảnh, thiết lập một chuẩn mực mới trong việc tạo video bằng AI. (tham khảo video do VietTimes thực hiện bằng Veo 3).
Trong khi thế giới công nghệ đang ăn mừng sự ra mắt của Veo 3, ByteDance âm thầm phát hành một sản phẩm có thể còn tốt hơn. Công ty mẹ của TikTok gần đây đã công bố bài viết về Seedance 1.0, mô hình tạo video song ngữ, hiện dẫn đầu bảng xếp hạng độc lập cho cả hai tác vụ tạo video từ văn bản và tạo video từ hình ảnh.
ByteDance không tổ chức sự kiện ra mắt hay trình diễn. Thay vào đó, các chỉ số kỹ thuật của họ đã giúp công ty thu hút sự chú ý mà không cần chiến dịch marketing rầm rộ. Mô hình này được xây dựng để hỗ trợ tạo video đa cảnh với độ phân giải cao, đồng thời duy trì tốc độ suy luận nhanh và tuân thủ chặt chẽ các chỉ dẫn.
Cách Seedance 1.0 đánh bại Veo 3
Giải thích công nghệ áp dụng trong Seedance 1.0, ByteDance cho biết: “Chúng tôi tách biệt các lớp không gian và thời gian bằng một mã hóa vị trí đa phương thức xen kẽ. Điều này cho phép mô hình của chúng tôi học đồng thời cả hai tác vụ tạo video từ văn bản và từ hình ảnh trong cùng một mô hình, đồng thời hỗ trợ việc tạo video đa cảnh”.
Cách tiếp cận này giúp mô hình AI hỗ trợ các chuyển cảnh phức tạp và kể chuyện đa cảnh với sự nhất quán về đối tượng.
Một phần quan trọng trong hiệu suất của mô hình đến từ quy trình xử lý dữ liệu của ByteDance. Nhóm phát triển đã tuyển chọn một bộ dữ liệu lớn, đa nguồn với chú thích song ngữ chi tiết và đánh dấu dày đặc các đặc điểm chuyển động và tĩnh. Độ chính xác của chú thích được ưu tiên để cải thiện việc tuân thủ các yêu cầu đầu vào khi tạo video. Điều này được kết hợp với thiết lập học tăng cường mới sử dụng ba mô hình phần thưởng, tập trung vào sự liên kết cơ bản, chất lượng chuyển động và tính thẩm mỹ.
Trong quá trình đánh giá, Seedance 1.0 đã vượt trội hơn Veo 3 trên nhiều chiều. Trên chuẩn SeedVideoBench, được thiết kế với sự hợp tác của các đạo diễn phim, mô hình này đã chứng minh được điểm số cao hơn về khả năng đáp ứng câu lệnh (prompt) và tính chân thực của chuyển động.
Đáng chú ý, trong các tác vụ tạo video từ hình ảnh, Seedance giữ được sự nhất quán hình ảnh từ khung hình đầu vào tốt hơn, trong khi Veo 3 đôi khi thay đổi ánh sáng và kết cấu, theo bài chia sẻ của ByteDance.
Hiệu suất suy luận cũng là điểm đáng chú ý. Về tốc độ, Seedance 1.0 bỏ xa các đối thủ. Công ty cho biết mô hình tạo một video dài 5 giây ở độ phân giải 1080p chỉ trong 41,4 giây trên một GPU NVIDIA L20, nhanh hơn một bậc so với các đối thủ như Sora, Runway Gen-4 và tất nhiên là Veo 3.
ByteDance cũng tiết lộ họ đã giảm đáng kể chi phí và độ trễ, mở đường cho việc ứng dụng tạo video gần như thời gian thực. Hơn nữa, mô hình AI này đã đứng đầu bảng xếp hạng trên Artificial Analysis cho cả hai tác vụ tạo video từ văn bản và từ hình ảnh.
Đánh giá Veo 3 để so sánh
Veo 3 vẫn là một hệ thống có tham vọng kỹ thuật cao. Nó giới thiệu tổng hợp video nhận biết âm thanh và cho phép người dùng kiểm soát chuyển động camera và bố cục cảnh quay qua công cụ Flow. Phản hồi ban đầu của người dùng nhấn mạnh sự mới mẻ của việc đồng bộ thoại và môi trường động, đưa Veo 3 lên hàng đầu trong lĩnh vực tạo video âm thanh-hình ảnh.
Tuy nhiên, trong so sánh trực tiếp, Veo 3 có vẻ kém hơn về sự phù hợp hình ảnh và tính nhất quán khung hình. Bài nghiên cứu về Seedance 1.0 chỉ ra rằng kết quả tạo video từ hình ảnh của Veo đôi khi làm thay đổi diện mạo đối tượng hoặc ánh sáng cảnh, ảnh hưởng đến hiệu quả tổng thể. Mặc dù Veo mở rộng phạm vi tạo video đa phương thức, hiệu suất của nó trên các chuẩn đánh giá truyền thống vẫn thua kém.
Ngược lại, Seedance 1.0 tập trung vào sự nhất quán hình ảnh và tính hợp lý chuyển động, với học tăng cường có cấu trúc và dữ liệu tinh chỉnh được tuyển chọn đóng vai trò then chốt. Điểm mạnh của nó là độ tin cậy và khả năng kiểm soát, đặc biệt trong các chuỗi đa cảnh hoặc dài, những tình huống quan trọng cho việc tạo nội dung chuyên nghiệp hoặc bán tự động.
Seedance 1.0 dự kiến sẽ được tích hợp vào các nền tảng như Doubao và Jimeng, trở thành công cụ quan trọng nhằm cải thiện đáng kể quy trình làm việc chuyên nghiệp và các nhiệm vụ sáng tạo hàng ngày.
Trong khi Veo 3 được chú ý vì là mô hình đầu tiên kết hợp video thực tế với âm thanh nền và thoại, Seedance 1.0 đạt được độ trung thực hình ảnh, ổn định chuyển động và sự mạch lạc trong kể chuyện tốt hơn, nhưng chưa có khả năng xử lý âm thanh. Có lẽ phiên bản Seedance nâng cấp sẽ cải thiện điều này.