
Các vụ kiện bản quyền mới chống lại các công ty AI có thể thay đổi cục diện và giúp các nền tảng nội dung lớn tự huấn luyện mô hình của họ
Một yếu tố tưởng chừng như nhàm chán nhưng lại vô cùng quan trọng trong câu chuyện về cách AI có thể thay đổi lĩnh vực Marketing: bản quyền.
Các vụ kiện bản quyền có thể quyết định liệu các nền tảng nội dung lớn như Quora, Yelp hay IMDB có thể hưởng lợi từ AI tạo sinh hay sẽ bị nó đe dọa.
Gần đây, một số công ty phát triển AI tạo sinh đã bị kiện vì vi phạm bản quyền. Nguyên đơn cho rằng các mô hình AI đã được huấn luyện trên tác phẩm của họ mà không có bất kỳ sự đền bù hay cấp phép nào trong ba vụ kiện lớn:
- Vào tháng 1, một nhóm họa sĩ đã kiện Stability AI, Midjourney và DeviantArt.
- Cùng các luật sư đó đã đệ đơn kiện tập thể chống lại GitHub vào tháng 11, cáo buộc công ty này đã lấy mã nguồn có bản quyền để huấn luyện AI.
- Getty Images đã đệ đơn kiện tập thể riêng chống lại Stability AI, cáo buộc những người tạo ra Stable Diffusion đã sử dụng 5 tỷ hình ảnh từ các trang web như Getty, Shopify, Tumblr và Flickr mà không có giấy phép.
Một số hình ảnh từ Stable Diffusion còn có cả watermark của Getty Images, cho thấy mô hình có thể đã được huấn luyện trên các hình ảnh có bản quyền. Dù chưa rõ điều này có thực sự xảy ra hay không, nhưng nhiều kết quả cho thấy khoảng 1% dữ liệu của Stable Diffusion có thể đến từ các bức ảnh có watermark.
Cho đến nay, chúng ta vẫn cho rằng các công ty như OpenAI, Stability AI và các công ty phát triển AI tạo sinh khác có thể đánh bại các nền tảng nội dung lớn. Tuy nhiên, nếu các vụ kiện bản quyền kết luận rằng các công ty AI tạo sinh cần phải trả tiền cho dữ liệu huấn luyện, quyền lực sẽ dịch chuyển về phía các nền tảng nội dung. Các đơn vị tổng hợp nội dung như Google sẽ mất đi quyền lực, vì các nền tảng nội dung sẽ có thể tự huấn luyện các mô hình AI trên dữ liệu của mình và cung cấp trải nghiệm AI vượt trội.
Ai là người sở hữu dữ liệu huấn luyện của AI?
Quyền sở hữu nội dung là một vấn đề phức tạp. Google kiếm tiền từ nội dung trên các website nhưng không sở hữu chúng, và các webmaster có thể lựa chọn không hiển thị nội dung của họ trong kết quả tìm kiếm. Các nền tảng UGC (nội dung do người dùng tạo) như Facebook, Yelp hay IMDB về mặt kỹ thuật không sở hữu các đánh giá, nhưng có quyền sử dụng chúng theo các điều khoản dịch vụ của họ. Bởi nội dung UGC có sẵn công khai và có thể tìm thấy thông qua việc thu thập dữ liệu từ web, nên câu hỏi liệu các công ty AI có nên được phép sử dụng chúng để huấn luyện hay không vẫn còn nhiều tranh cãi.
Hiện chưa rõ chính xác dữ liệu mà DALL-E 2 đã được huấn luyện, nhưng chúng ta biết rằng GPT-3 và Stable Diffusion phần lớn được huấn luyện trên dữ liệu từ Common Crawl – một tổ chức phi lợi nhuận thu thập hàng tỷ trang web và cung cấp chúng miễn phí. Trong số 45 terabyte văn bản mà GPT-3 được huấn luyện, 60% đến từ Common Crawl, 22% từ WebText2 (huấn luyện từ các liên kết ra ngoài của Reddit), 8% từ sách và 3% từ Wikipedia. Nói cách khác, phần lớn dữ liệu đầu vào của GPT-3 và các AI tạo sinh khác đến từ web công khai.
Về mặt kỹ thuật, các webmaster có thể chặn bot của Common Crawl trong file robots.txt để ngăn chặn việc sử dụng nội dung của họ để huấn luyện AI, nhưng một crawler phi lợi nhuận khác có thể sẽ xuất hiện ngay sau đó. Việc theo dõi và quản lý quá trình từ chối này là rất phức tạp và tốn thời gian.
Kết quả là, nếu các vụ kiện không thành công, mọi thứ sẽ vẫn diễn ra như hiện tại. Người tạo nội dung có thể sẽ được quyền từ chối cho AI huấn luyện, nhưng hầu hết các mô hình vẫn sẽ được cải tiến. Tuy nhiên, nếu nguyên đơn thắng kiện, các công ty AI sẽ phải sử dụng nội dung không có bản quyền (phần lớn là nội dung cũ) để huấn luyện các mô hình của họ hoặc phải trả phí.
Dữ liệu huấn luyện trả phí có ý nghĩa gì đối với các nền tảng lớn?
Việc bắt buộc phải trả phí cho dữ liệu huấn luyện sẽ mang đến những hệ quả lớn đối với sự phát triển của các mô hình AI và các nền tảng lớn.
Thứ nhất, việc trả phí cho dữ liệu huấn luyện có thể làm chậm đáng kể sự phát triển của AI tạo sinh. Các quỹ đầu tư mới có thể phải được huy động, các quan hệ đối tác cần được thiết lập và chiến lược kinh doanh phải được điều chỉnh. Một sự thay đổi về tốc độ không hẳn là điều xấu vì nó sẽ giúp chúng ta có thêm thời gian để điều chỉnh luật pháp và các quy định.
Thứ hai, việc trả phí sẽ khiến việc huấn luyện mô hình AI trở nên đắt đỏ hơn. Hiện tại, chi phí ước tính để huấn luyện GPT-3 dao động từ 4-12 triệu USD, trong khi một số người cho rằng có thể thực hiện được chỉ với 500.000 USD. Chi phí huấn luyện Stable Diffusion là khoảng 600.000 USD, và chi phí này dường như sẽ tiếp tục giảm khi có thêm nhiều GPU chuyên dụng hơn và chi phí năng lượng cũng giảm dần. Nhưng hiện tại chúng ta vẫn chưa đạt đến mức đó, và việc huấn luyện cũng như duy trì mô hình AI vẫn rất tốn kém.
Thứ ba, các công ty đã sở hữu nhiều nội dung có thể sẽ lựa chọn huấn luyện AI trên chính dữ liệu của họ để giành được lợi thế cạnh tranh. Việc trả phí cho dữ liệu huấn luyện có thể dẫn đến việc dịch chuyển quyền lực từ các nhà sản xuất AI sang các chủ sở hữu dữ liệu.
Shutterstock gần đây đã ra mắt một tính năng tạo hình ảnh mới. Trong khi đối thủ cạnh tranh Getty Images cấm hình ảnh tạo ra từ AI và kiện các công ty AI, Shutterstock lại chấp nhận sự thay đổi này và hợp tác. Shutterstock đã thông báo sẽ trả phí cho những người sáng tạo nội dung khi sử dụng tác phẩm của họ để huấn luyện mô hình OpenAI, nhưng mô hình kiếm tiền này vẫn còn chưa rõ ràng.
Buzzfeed cũng đã thông báo rằng họ sẽ tạo nội dung với sự hỗ trợ của AI. Trong một thông báo, nhà sáng lập kiêm CEO Jonah Peretti đã viết:
“Nếu 15 năm qua của internet được định hình bởi các thuật toán giúp sắp xếp và đề xuất nội dung, thì 15 năm tới sẽ được định nghĩa bởi AI và dữ liệu hỗ trợ tạo ra, cá nhân hóa và làm sống động nội dung đó. AI mở ra một kỷ nguyên sáng tạo mới, nơi những con người sáng tạo như chúng ta sẽ đóng vai trò chính trong việc cung cấp ý tưởng, dòng chảy văn hóa, gợi ý sáng tạo và các hình thức IP để biến chúng thành hiện thực với sự hỗ trợ của các công nghệ mới nhất.”
Tuy nhiên, Buzzfeed không phải là một nền tảng. Họ là một đơn vị tích hợp tự tạo nội dung, không giống như các đơn vị tổng hợp nội dung như Shutterstock, Yelp, IMDB hay G2, những đơn vị thu thập nội dung từ người dùng. Khi nói đến dữ liệu huấn luyện, các đơn vị tổng hợp có lợi thế lớn hơn vì họ có nhiều dữ liệu đồng nhất hơn để sử dụng cho việc huấn luyện mô hình. Các đơn vị tích hợp như Buzzfeed có thể sẽ khó cạnh tranh hơn và không đủ dữ liệu để tự huấn luyện mô hình AI riêng.
Ảnh hưởng của việc dữ liệu huấn luyện trả phí đối với Marketing
Nếu các nền tảng nội dung lớn tự huấn luyện các mô hình AI trên dữ liệu của mình, mỗi nền tảng có thể tung ra một giao diện tương tự Chat GPT để cạnh tranh với OpenAI, Stability AI, Jasper và các công ty khác.
Ví dụ:
- Các trang web ảnh stock sẽ cạnh tranh với DALL-E 2, Stable Diffusion và các nhà cung cấp AI tạo hình ảnh khác.
- Wikipedia, Quora và các nền tảng tương tự sẽ cạnh tranh với Chat GPT và các chatbot AI khác.
- GitHub có thể vẫn là điểm đến cho mã hóa hỗ trợ AI, nhưng sẽ gặp phải sự cạnh tranh từ Stack Overflow, BitBucket, GitLab và các nền tảng dành cho lập trình viên khác.
- Spotify, Apple Music và các nền tảng âm nhạc khác có thể huấn luyện mô hình trên dữ liệu của mình và cung cấp các đề xuất âm nhạc dựa trên sở thích cá nhân hóa.
- IMDB có thể huấn luyện mô hình trên các đánh giá phim và cung cấp các đề xuất hoàn hảo dựa trên tâm trạng của người dùng.
- Yelp, Tripadvisor và Google có thể huấn luyện mô hình dựa trên đánh giá địa phương và