ByteDance chính thức bước vào cuộc đua video AI với hai mô hình trí tuệ nhân tạo là PixelDance và Seaweed được ra mắt dưới tên thương hiệu Doubao trong Volcano Engine AI Innovation Tour tại Thâm Quyến ngày 24/9. Cả hai mô hình đều nhắm vào thị trường doanh nghiệp và hiện tại vẫn đang trong giai đoạn thử nghiệm với số lượng người được mời tham gia hạn chế.
Việc ra mắt diễn ra mà không có bất kỳ thông báo trước nào. Mặc dù triển khai lặng lẽ, nhưng sự mong đợi trong ngành vẫn tăng nhờ vào những tiến bộ trước đó từ các đối thủ cạnh tranh như Open AI và Kuaishou.
Sora của OpenAI là một mô hình cho phép người dùng tạo video từ lời nhắc văn bản, đã đặt ra một tiêu chuẩn cao cho AI đa phương thức. Trong khi đó, Kling AI của Kuaishou đã trở nên phổ biến vào tháng 6/2024, làm tăng thêm kỳ vọng về động thái của ByteDance vào không gian này.
ByteDance vốn nổi tiếng với sự “thống trị” thể loại video ngắn thông qua TikTok và Douyin, từ lâu đã được coi là ứng cử viên sáng giá trong sản xuất video do AI tạo. Công ty có vị thế tốt với nguồn lực dồi dào, khả năng chip tiên tiến và nhóm nhân tài có trình độ cao để định hình tương lai của thế hệ video.
Cả ByteDance và Kuaishou đều có bộ dữ liệu lớn và nhiều trường hợp sử dụng có thể áp dụng giúp họ có vị thế tốt trong lĩnh vực này. Tuy nhiên, trong khi Kuaishou ra mắt Kling AI và đạt được thành công lớn, thu hút hơn 2,6 triệu người dùng, tạo ra 27 triệu video và 53 triệu hình ảnh thì ByteDance vẫn im lặng. Lúc này đây, bằng sự ra mắt PixelDance và Seaweed thì liệu ByteDance có thể giành lại lợi thế trong cuộc đua tạo video AI không?
ĐÂU LÀ ĐIỂM NỔI BẬT CỦA PIXELDANCE VÀ SEAWEED
Theo KrAsia, kết quả đang cho thấy cả hai mô hình đều rất đáng để chờ mong. PixelDance và Seaweed có những cải tiến đáng kể trong việc duy trì tính nhất quán và đa dạng của nhân vật trong các cảnh, vượt qua thách thức đã từng gây khó khăn cho các mô hình tạo video trước đây.
Các mô hình cũ gặp khó khăn với các lệnh phức tạp, thường dẫn đến hiện tượng méo hình hoặc trục trặc khi các nhân vật thực hiện nhiều hành động hơn là hành động cơ bản. Tuy nhiên, các mô hình AI của Doubao gần như đã giải quyết được hết những vấn đề này. Các hành động như chạy, đi bộ và nhìn lên giờ đây được thể hiện một cách trôi chảy, tạo ra chuyển động tự nhiên và giống thật hơn.
Dù mới đang trong giai đoạn thử nghiệm nhưng PixelDance và Seaweed đều nhận được nhiều lời khen ngợi trong các cuộc thử nghiệm nội bộ về chất lượng video và công nghệ quay phim.
Các mô hình AI của Doubao được xây dựng trên kiến trúc chuyển đổi hình ảnh tài liệu (DiT) do ByteDance tự phát triển, được cho là có điểm tương đồng với Sora của OpenAI, một công nghệ tạo video AI hàng đầu. Tuy nhiên, các mô hình tạo video vẫn còn chậm so với các đối tác văn bản và hình ảnh của chúng về mặt phát triển. Phần lớn công nghệ nền tảng là nguồn đóng và dữ liệu khan hiếm, nghĩa là các công ty tập trung vào tối ưu hóa kỹ thuật hơn là đổi mới.
Với việc phát hành PixelDance và Seaweed, ByteDance đã củng cố vị thế của mình trên thị trường tạo video AI, hoàn thành mảnh ghép cuối cùng trong câu đố sáng tạo nội dung AI. Động thái này, cùng với những tiến bộ gần đây của OpenAI về khả năng giọng nói, báo hiệu một cuộc chạy đua giữa những người chơi lớn trong không gian AI, chỉ còn thừa một không gian nhỏ cho các công ty khởi nghiệp nhỏ cạnh tranh.
CUỘC CHIẾN LÂU DÀI GIỮA BYTEDANCE VÀ KUAISHOU
Không gì mới lạ khi ByteDance mong muốn mình có thể chiếm phần lớn quyền kiểm soát thị trường AI. Từ ứng dụng chỉnh sửa video hàng đầu của công ty, CapCut đến công cụ video AI, Jimeng AI, được giám sát bởi Kelly Zhang, cựu CEO của đơn vị kinh doanh Douyin, cho thấy sự cấp bách của công ty trong việc đẩy nhanh việc ra mắt các mô hình video AI mới. Một trong những nguyên nhân dẫn tới sự cấp bách này là tới từ đối thủ cũ, Kuaishou.
Vào tháng 6/2024, Kuaishou đã tích hợp công cụ tạo video của mình, Kling AI vào ứng dụng chỉnh sửa video Kwaiying. Việc ra mắt diễn ra khi ngành công nghiệp đang háo hức chờ đợi một đối tác Trung Quốc của Sora của OpenAI và sự đón nhận Kling AI vô cùng tích cực.
Thành công của Kuaishou với Kling AI một phần cũng nhờ vào khối lượng dữ liệu video khổng lồ của mình. Trong khi đó, ByteDance có bộ dữ liệu khổng lồ từ TikTok và Douyin được coi là đối thủ cạnh tranh đáng gờm nhất.
Chỉ một tháng trước khi Kling AI ra mắt, ByteDance đã triển khai Jimeng AI trên CapCut nhưng kết quả khi ấy lại không mấy ấn tượng. Phản hồi của người dùng khá hời hợt, một số người còn chỉ trích hiệu suất và giá của Jimeng AI.
Áp lực lên ByteDance đang gia tăng. Hầu hết các công ty video AI có xu hướng giới thiệu những sản phẩm tốt nhất của họ, thường được tạo ra sau nhiều lần thử nghiệm nhanh chóng. Bài kiểm tra thực sự đối với các mô hình của Doubao sẽ đến khi chúng được triển khai đầy đủ và đưa vào sử dụng thực tế. Các chỉ số hiệu suất chính như khả năng tạo ra các cảnh quay dài, duy trì tính nhất quán về không gian và thời gian và xử lý độ phân giải tăng lên sẽ rất quan trọng đối với thành công của nó.
Đối với CapCut, ứng dụng tự hào có hơn 300 triệu người dùng hoạt động hàng tháng, chi phí tích hợp công nghệ video AI tiên tiến là một thách thức đáng kể. Việc đạt được sự cân bằng phù hợp giữa việc quản lý các chi phí này và mang lại kết quả chất lượng cao sẽ chỉ trở nên khó khăn hơn khi sự cạnh tranh trong không gian tạo video AI ngày càng tăng.
Có lợi thế đi đầu là rất quan trọng. Kling AI và Vidu AI giờ đã có chỗ đứng vững chắc trên thị trường nên ByteDance, với tư cách là người đến sau, phải đối mặt với một cuộc chiến khó khăn. Cuộc cạnh tranh sẽ ngày càng khốc liệt khi có nhiều công ty hơn tham gia vào, giành quyền thống trị trong thị trường tạo video AI mới bắt đầu.