AI tạo Video: ByteDance ra mắt 2 mô hình mới, cạnh tranh với Sora của OpenAI

Tiến Dũng

26/09/2024 08:05

0:00 / 0:00

0:00

Nam miền Bắc
Nữ miền Bắc
Nữ miền Nam
Nam miền Nam

(VietTimes) – Doubao-PixelDance được thiết kế để xử lý các chuyển động phức tạp, với khả năng tạo ra các video ngắn kéo dài khoảng 10 giây. Trong khi đó, Doubao-Seaweed có thể tạo ra các video dài hơn, lên đến 30 giây.

Các mô hình tạo video mới của ByteDance phản ánh cách các công ty công nghệ Trung Quốc đang có những động thái mạnh mẽ vào phân khúc thị trường AI mới nổi này (Ảnh: SCMP)

ByteDance, công ty mẹ của TikTok, vừa công bố hai mô hình ngôn ngữ lớn (LLM) mới, Doubao-PixelDance và Doubao-Seaweed. Đây là các mô hình hỗ trợ trí tuệ nhân tạo tạo sinh (Generative AI) với khả năng tạo ra video dựa trên các truy vấn bằng văn bản và hình ảnh. Việc ra mắt này thể hiện nỗ lực của ByteDance trong cuộc đua công nghệ, nhằm bắt kịp những tiến bộ vượt bậc của các đối thủ, đặc biệt là OpenAI với Sora.

Sự ra đời của Doubao-PixelDance và Doubao-Seaweed

Theo Tan Dai, chủ tịch đơn vị đám mây Volcano Engine của ByteDance, hai mô hình mới là một phần của dòng sản phẩm AI Doubao, cùng tên với chatbot Doubao mà công ty đã giới thiệu vào năm ngoái. Dự kiến, hai mô hình này sẽ chính thức được ra mắt vào đầu tháng 10.

Theo trang web của Volcano Engine, Doubao-PixelDance được thiết kế để xử lý các chuyển động phức tạp, với khả năng tạo ra các video ngắn kéo dài khoảng 10 giây. Trong khi đó, Doubao-Seaweed có thể tạo ra các video dài hơn, lên đến 30 giây. Điều này đánh dấu sự cải tiến lớn trong việc tạo ra các nội dung video ngắn mà ByteDance kỳ vọng sẽ phát triển mạnh mẽ trong tương lai gần.

Trong sự kiện ra mắt tại Thâm Quyến, Tan Dai đã thực hiện buổi trình diễn trực tiếp về khả năng của hai mô hình mới. Những video được tạo ra mô phỏng các cảnh thực tế và hư cấu, từ góc nhìn thứ nhất của người lái xe cho đến cảnh một con ếch có cánh bay qua hòn đảo. Sự ổn định trong việc chuyển đổi giữa các cảnh quay và phong cách khác nhau là điểm nhấn lớn nhất, giúp ByteDance vượt qua những thách thức mà nhiều hệ thống LLM tạo video khác vẫn đang phải đối mặt.

Ảnh chụp màn hình 2024-09-25 092417.png — Tan Dai, chủ tịch của đơn vị đám mây ByteDance Volcano Engine, trình bày hai mô hình trí tuệ nhân tạo tạo video mới tại một sự kiện ở Thâm Quyến (Ảnh: SCMP)

Tan Dai cũng chỉ ra rằng các mô hình mới đã được phát triển dựa trên khả năng phân tích video của Douyin (phiên bản TikTok ở Trung Quốc) và Jianying (ứng dụng chỉnh sửa video phổ biến của ByteDance). Đây là những nền tảng đã tích lũy được nhiều kinh nghiệm từ hàng năm trời hoạt động, đóng góp lớn vào sự phát triển và cải tiến của các mô hình AI mới.

Cạnh tranh với OpenAI và những gã khổng lồ công nghệ khác

ByteDance ra mắt các mô hình LLM mới đến sau khi OpenAI lần đầu tiên công bố Sora - mô hình tạo video AI vào tháng 2 năm nay. Tuy nhiên, Sora vẫn chưa được phát hành rộng rãi cho công chúng, tạo ra một cơ hội lớn cho các công ty Trung Quốc, trong đó có ByteDance, bước vào thị trường này.

Trong bối cảnh OpenAI bắt đầu hạn chế quyền truy cập vào các sản phẩm của mình tại Trung Quốc đại lục, Hồng Kông và Ma Cao từ ngày 9 tháng 7, các công ty công nghệ Trung Quốc như ByteDance đã nhìn thấy nhiều cơ hội hơn để phát triển các dịch vụ AI tạo sinh của riêng mình.

Theo công ty nghiên cứu LeadLeo, thị trường công cụ tạo video AI tại Trung Quốc dự kiến sẽ đạt 9,3 tỉ NDT (1,3 tỉ USD) vào năm 2026, tăng mạnh từ mức 8 triệu NDT (1,14 triệu USD) vào năm 2021. Điều này cho thấy tốc độ tăng trưởng bùng nổ của thị trường này và sức hút lớn đối với các công ty công nghệ trong nước.

Các bước tiến khác của Doubao và ByteDance

Cùng với việc ra mắt Doubao-PixelDance và Doubao-Seaweed, ByteDance cũng giới thiệu hai sản phẩm mới thuộc dòng Doubao. Đó là một công cụ tạo nhạc và một công cụ phiên dịch thời gian thực, mở rộng khả năng ứng dụng của dòng mô hình AI này ra ngoài lĩnh vực video.

Doubao Pro, phiên bản hiện tại của dòng LLM Doubao, cũng sẽ được nâng cấp để xử lý các truy vấn dài, lên tới 256.000 từ. Tan Dai cho biết số lượng từ mà các mô hình này xử lý mỗi ngày đã vượt qua 1,3 nghìn tỉ vào tháng này, tăng mạnh từ 120 tỉ vào tháng 5 khi dòng Doubao LLM chính thức được thương mại hóa.

Cuộc cạnh tranh khốc liệt trong lĩnh vực tạo video AI

Ảnh chụp màn hình 2024-09-25 092548.png — ByteDance và các công ty công nghệ Trung Quốc khác đang tìm cách bắt kịp những tiến bộ đối với ứng dụng tạo video bằng trí tuệ nhân tạo của Sora thuộc OpenAI (Ảnh: SCMP)

Ngoài ByteDance, nhiều công ty công nghệ lớn khác tại Trung Quốc cũng đang đẩy mạnh phát triển các công cụ tạo video AI. Ví dụ, MiniMax đã ra mắt mô hình Video-01 vào đầu tháng này, trong khi Shengshu AI tung ra công cụ chuyển văn bản thành video Vidu vào tháng 7. Công ty Zhipu AI cũng giới thiệu mô hình Ying của riêng mình, còn Kuaishou Technology, nhà điều hành ứng dụng video ngắn, đã ra mắt dịch vụ chuyển văn bản thành video Kling vào tháng 6.

Không dừng lại ở đó, Alibaba Group Holding cũng đang phát triển một công cụ tạo video dựa trên nền tảng OpenSora có tên là Tora. Qua đó, có thể nhận thấy hàng loạt gã khổng lồ công nghệ Trung Quốc đang tham gia vào lĩnh vực này.

Tương lai của công nghệ AI tạo Video

Sự phát triển nhanh chóng của công nghệ trí tuệ nhân tạo tạo sinh, đặc biệt là trong lĩnh vực tạo video, đang mở ra nhiều cơ hội mới cho cả người dùng cá nhân lẫn doanh nghiệp. Các công cụ này không chỉ giúp giảm thiểu thời gian và chi phí sản xuất nội dung mà còn mang lại sự sáng tạo và linh hoạt trong việc tạo ra các video độc đáo, đáp ứng nhu cầu ngày càng cao của người tiêu dùng.

Với sự gia tăng đầu tư và phát triển công nghệ mạnh mẽ từ các công ty lớn như ByteDance, MiniMax và Alibaba, có thể thấy rằng cuộc đua công nghệ trong lĩnh vực AI tạo video sẽ ngày càng trở nên khốc liệt hơn trong tương lai. Điều này không chỉ tạo ra những sản phẩm công nghệ tiên tiến mà còn thúc đẩy sự đổi mới trong cách chúng ta tạo ra và tiêu thụ nội dung video hàng ngày.

Theo SCMP