Theo Financial Times, các nhà đầu tư đang đổ tiền vào một loạt startup mới nổi, hỗ trợ các ngành công nghiệp sáng tạo bán nội dung cho các tập đoàn trí tuệ nhân tạo (AI), trong bối cảnh OpenAI, Meta và Google đang bị giám sát chặt chẽ vì sử dụng tài liệu có bản quyền để huấn luyện các mô hình AI.
THỊ TRƯỜNG CẤP PHÉP DỮ LIỆU AI SẼ TĂNG TỪ 10 TỶ USD NĂM 2025 LÊN 67,5 TỶ USD NĂM 2030
Những công ty khởi nghiệp như Pip Labs, Vermillio, Created by Humans, ProRata, Narrativ và Human Native đang phát triển các công cụ và nền tảng chợ trực tuyến, nơi các nhà văn, nhà xuất bản, hãng thu âm và nhà sản xuất phim có thể được trả tiền khi cho phép nội dung của họ được sử dụng để huấn luyện AI.
Những startup chuyên về cấp phép nội dung và thị trường dữ liệu này đã huy động được 215 triệu USD kể từ năm 2022, theo dữ liệu từ Dealroom.co. Trong khoảng thời gian này, các công ty AI đã tích cực tìm kiếm các thỏa thuận với các tổ chức truyền thông để có được dữ liệu huấn luyện chất lượng cao, đồng thời tránh các vụ kiện tụng liên quan đến bản quyền hoặc sự giám sát từ các cơ quan quản lý.
Ông Dan Neely, Giám đốc điều hành và đồng sáng lập Vermillio – công ty hợp tác với các hãng lớn như Sony Pictures và Sony Music – nhận định: “Việc cấp phép nội dung không có sẵn trên internet công khai sẽ trở thành một lĩnh vực kinh doanh lớn”.
Vermillio không chỉ cấp phép nội dung mà còn phát hiện liệu các đầu ra của AI có chứa nội dung có bản quyền hay không. Công ty dự đoán thị trường cấp phép AI sẽ tăng trưởng từ khoảng 10 tỷ USD vào năm 2025 lên 67,5 tỷ USD vào năm 2030. Vào tháng 3, Sony Music và DNS Capital đã dẫn đầu vòng gọi vốn mới nhất của Vermillio với số tiền 16 triệu USD.
Số lượng thỏa thuận cấp phép AI đã tăng đáng kể trong năm qua, với 16 thỏa thuận được ký kết vào tháng 12 năm 2024 – con số kỷ lục, theo dữ liệu từ Trung tâm Quản lý Kinh tế Sáng tạo thuộc Đại học Glasgow. OpenAI – nhà phát triển ChatGPT – và công cụ tìm kiếm AI Perplexity đã thực hiện hơn 20 thỏa thuận với các tổ chức truyền thông, đặc biệt là các cơ quan báo chí, kể từ năm 2023.
GIỜ LÀ LÚC CÁC CÔNG TY AI CHI TIỀN CHO DỮ LIỆU
Ông James Smith, Giám đốc điều hành và đồng sáng lập Human Native có trụ sở tại Anh, cho biết: “Để xây dựng các mô hình AI, bạn cần ba thứ: nhân tài, năng lực tính toán và dữ liệu. Các công ty AI đã chi hàng triệu USD cho hai thứ đầu tiên, và giờ họ mới bắt đầu chi mạnh cho dữ liệu”.
Vào tháng 8, Andreessen Horowitz đã đầu tư 80 triệu USD vào Pip Labs. Đến tháng 11, ProRata được định giá 130 triệu USD sau khi ký các thỏa thuận cấp phép với các nhà xuất bản lớn của Anh như The Guardian và DMG Media – đơn vị sở hữu Daily Mail.
Những thương vụ đầu tư này diễn ra trong bối cảnh toàn cầu đang tăng cường giám sát dữ liệu được sử dụng để huấn luyện các mô hình AI. Vương quốc Anh đang cân nhắc nới lỏng các quy định bản quyền liên quan đến việc huấn luyện AI, trong khi các công ty công nghệ như OpenAI và Google phải đối mặt với các vụ kiện tại Mỹ và các quy định mới tại Liên minh châu Âu (EU) nhằm buộc họ trả nhiều tiền hơn cho nội dung giá trị. Đầu tháng này, Meta đã phải đối mặt với các tác giả tại một tòa án ở Mỹ trong một trong những vụ kiện lớn đầu tiên về việc liệu các công ty AI có nên trả tiền cho dữ liệu huấn luyện có bản quyền bị thu thập từ internet hay không.
OpenAI, dù đã ký nhiều thỏa thuận chia sẻ dữ liệu, bao gồm với Financial Times, vẫn đang đối mặt với các vụ kiện bản quyền từ một số tổ chức truyền thông, như The New York Times. Ông Jason Zhao, đồng sáng lập Pip Labs – công ty sử dụng công nghệ blockchain để theo dõi và cấp phép quyền sở hữu trí tuệ – cho biết: “Thay vì cố gắng thay đổi luật pháp, chúng tôi đang nỗ lực chứng minh rằng đây là một giải pháp tốt hơn, được cả các công ty AI và chủ sở hữu trí tuệ ưa chuộng.”
Stability AI, công ty cũng đang bị các nghệ sĩ kiện vì sử dụng tài sản trí tuệ của họ để huấn luyện mô hình, đang xem xét xây dựng một thị trường cấp phép riêng. Ông Prem Akkaraju, Giám đốc điều hành Stability AI, chia sẻ: “Chúng tôi đang phát triển một nền tảng nơi các nghệ sĩ có thể cho phép huấn luyện trên nội dung của họ. Tôi nghĩ đó là một ý tưởng rất thông minh.”
THÁCH THỨC CỦA THỊ TRƯỜNG DỮ LIỆU HUẤN LUYỆN AI
Tuy nhiên, thị trường dữ liệu huấn luyện AI mới hình thành đang đối mặt với nhiều thách thức. Các startup cần tìm đủ nhà cung cấp dữ liệu để xây dựng một mô hình kinh doanh khả thi. Dữ liệu phải có chất lượng cao, dễ tiếp cận và sẵn sàng nhanh chóng. Nhiều bộ dữ liệu trực tuyến chứa nội dung không mong muốn, như tài liệu lạm dụng tình dục trẻ em hoặc các nội dung độc hại khác, có thể khiến các công ty đối mặt với rủi ro về danh tiếng hoặc pháp lý.
Một thách thức khác là thuyết phục các nghệ sĩ và nhà sáng tạo rằng việc bán nội dung của họ để huấn luyện AI sẽ mang lại lợi ích. Giáo sư Gina Neff từ Đại học Queen Mary ở London nhận xét: “Nhiều công ty và nhà sáng tạo mà chúng tôi tiếp xúc vẫn chưa tin tưởng vào các giải pháp kỹ thuật hiện có hoặc đang được phát triển. Đối với họ, đây là một sự đánh đổi không hấp dẫn.”
Tuy nhiên, ông James Smith của Human Native nhấn mạnh: “Chúng ta không thể để xảy ra tình trạng phá hủy các ngành công nghiệp mà chúng ta trân trọng, như báo chí hay âm nhạc. Chúng ta phải tìm cách để mọi thứ hoạt động hiệu quả”.
Với sự hỗ trợ từ các nhà đầu tư và nhu cầu ngày càng tăng về dữ liệu chất lượng cao, các startup này đang nỗ lực định hình một thị trường nơi AI và ngành công nghiệp sáng tạo có thể cùng tồn tại và phát triển, đảm bảo rằng các nhà sáng tạo được đền bù xứng đáng trong kỷ nguyên công nghệ mới.