UGC chuyển thành UDC như thế nào?
Chiến lược đằng sau tính năng mới Pages của Perplexity đã tạo ra một “rạn nứt sâu” với các nhà xuất bản, nhưng phản ứng dường như quá mức cần thiết. Thực ra, đây là một trường hợp nghiên cứu thú vị về nội dung AI do người dùng định hướng (UDC thay vì UGC).
Pages cho phép người dùng “tạo ra những bài viết đẹp mắt, toàn diện về bất kỳ chủ đề nào.” Bạn có thể biến một chuỗi lệnh nhắc thành một trang về một chủ đề cụ thể. Là một độc giả thường xuyên của Growth Memo, bạn sẽ nhanh chóng nhận ra rằng đây là một chiến lược tăng trưởng, nơi lý tưởng là người dùng tạo ra nội dung AI để xếp hạng trong tìm kiếm tự nhiên và đưa khách truy cập đến perplexity.ai, sau đó chuyển đổi thành người dùng trả phí.
Chiến lược tăng trưởng này phù hợp với những gì CEO Srinivas giải thích là “một bộ tổng hợp thông tin” [1], nắm giữ sức mạnh bằng cách cung cấp trải nghiệm người dùng vượt trội, cho phép họ điều hướng nhu cầu và biến nguồn cung thành hàng hóa.
Muối bỏ bể
Khi chúng ta nhìn vào dữ liệu thực tế, có thể thấy rằng phản ứng của truyền thông bị thổi phồng. Không phải trong việc phê phán, mà là về tác động. Yêu cầu Perplexity điều chỉnh việc ghi nguồn, tuân thủ các tiêu chuẩn web như robots.txt và sử dụng IP chính thức như các công cụ tìm kiếm khác là điều hợp lý.
Theo nhà phát triển Ryan Knight, Perplexity quét web bằng một trình duyệt không đầu và che giấu chuỗi IP của mình [2]. CEO Srinivas nói rằng Perplexity tuân thủ robots.txt, và việc che giấu IP đến từ một dịch vụ bên thứ ba. Nhưng ông cũng đề cập rằng:
“the emergence of AI requires a new kind of working relationship between content creators, or publishers, and sites like his.”[3]
Tạm dịch:
“Sự xuất hiện của AI đòi hỏi một loại mối quan hệ làm việc mới giữa những người tạo nội dung, hoặc nhà xuất bản, và các trang web như của ông”.
Nhưng xét về lợi ích dành cho Perplexity thì Pages chỉ như muối bỏ bể .

Các trang hầu như không đóng góp vào tổng lưu lượng truy cập tự nhiên của Perplexity
91% lưu lượng tự nhiên đến perplexity.ai đến từ các từ khóa thương hiệu như “perplexity”. Chỉ có 47.000 trong số 217.000 (21,6%) lượt truy cập hàng tháng đến Pages là từ từ khóa không có thương hiệu trên toàn cầu. Tại Mỹ, con số này là 55% (20.000/36.000). Tuy nhiên, so với hàng trăm ngàn lượt truy cập hàng tháng từ các từ khóa thương hiệu, Pages không tạo ra ảnh hưởng đáng kể nào đến lưu lượng tự nhiên của Perplexity.

Hầu hết lưu lượng truy cập tự nhiên của Perplexity đều là từ khóa thương hiệu
Thực tế, phần lớn lưu lượng đến Perplexity là thông qua thương hiệu và truyền miệng. Sự đưa tin gần đây của truyền thông có thể đã giúp Perplexity hơn là gây hại. Trang web đã đạt mức lưu lượng cao nhất mọi thời đại mỗi ngày kể từ tháng 1/2024, theo Similarweb.
Toàn bộ tên miền của Perplexity chỉ có 950 trang, trong đó Pages chiếm gần 600. So với các trang web khác—như 6,8 triệu bài viết của Wikipedia chỉ riêng phiên bản tiếng Anh—thì con số này không đáng kể. Hiệu ứng quy mô mạnh hơn sẽ xuất hiện khi Pages thu hút được nhiều sự chú ý hơn. Hiện tại, Pages chỉ là một tính năng beta mới ra đời.
Xem xét kỹ hơn về hiệu suất của nó, từ khóa được tìm kiếm nhiều nhất mà Pages xếp hạng trong top 3 là “was candy montgomery guilty” (600 lượt tìm kiếm hàng tháng). Từ khóa khó nhất mà nó xếp hạng ở vị trí số một là “when was the first bitcoin purchase” (Độ khó: 76, Lượt tìm kiếm hàng tháng: 30). Nói cách khác, Pages vẫn còn một chặng đường dài phải đi.
Một so sánh tương đồng văn bản n=1 (!) với GoTranscript giữa trang của Perplexity về “bitcoin pizza day” và bốn nguồn được liên kết cho thấy ít bằng chứng về việc đạo văn:
- nationaltoday.com/bitcoin-pizza-day/ (15% tương đồng)
- www.uledger.io/post/bitcoin-pizza-day-history (27% tương đồng)
- coinedition.com/bitcoin-pizza-day-a-700-million-reminder-of-cryptocurrencys-rise/ (15% tương đồng)
- www.investopedia.com/news/bitcoin-pizza-day-celebrating-20-million-pizza-order/ (9% tương đồng)
Vấn đề “thiếu” ghi nguồn dường như đã được khắc phục, như ví dụ dưới đây cho thấy.
“Kết quả cho thấy chatbot đôi khi diễn giải lại các bài viết của WIRED một cách sát nghĩa, và đôi khi tóm tắt các bài viết không chính xác và với ít sự ghi nguồn.”
Tôi không thể xác nhận hoặc phủ nhận các trường hợp “ảo giác” (hallucination), nhưng tôi mong đợi các mô hình tốt hơn sẽ đạt đến mức có thể tóm tắt nội dung hiện có một cách hoàn hảo. Thực tế là, chúng ta chưa đạt được điều đó. AI Overviews của Google cũng đã được chứng minh là bao gồm thông tin sai hoặc tự “bịa ra”. Google dường như đã cải thiện vấn đề nhanh chóng, đó là lý do tại sao tôi mong đợi mức độ “ảo giác” sẽ giảm.
Một vấn đề cơ bản của việc phê phán đạo văn là khi tìm kiếm tiêu đề chính xác của một bài báo sẽ trả về bài báo đó. Tất nhiên, Perplexity nên trả về một bản tóm tắt của bài báo khi người dùng yêu cầu. Perplexity nên hiển thị gì khác? Lập luận tương tự đã xuất hiện trong vụ kiện giữa OpenAI và New York Times.
Đụng chạm
Bên cạnh vấn đề quét web mà Perplexity cần khắc phục, phản ứng của truyền thông dường như bị “kích động” bởi vị trí của Perplexity. Một câu trong thông báo của Perplexity về Pages đi thẳng vào vấn đề cơ bản: “with Pages, you don’t have to be an expert writer to create high quality content “[4]
Tạm dịch:
với Pages, bạn không cần phải là một nhà văn chuyên nghiệp để tạo ra nội dung chất lượng cao.
Trang web cũng đề cập:
”Crafting content that resonates can be difficult. Pages is built for clarity, breaking down complex subjects into digestible pieces and serving everyone from educators to executives”. [5]
Tạm dịch:
“Việc tạo ra nội dung gây tiếng vang có thể khó khăn. Pages được xây dựng để tạo sự rõ ràng, phá vỡ các chủ đề phức tạp thành những phần dễ hiểu và phục vụ mọi người từ giáo viên đến giám đốc điều hành.”
Tất cả các ví dụ về Pages được liệt kê trong thông báo đều về các chủ đề “cách làm” hoặc “là gì”:
- “Hướng dẫn cho người mới bắt đầu về trống”
- “Cách sử dụng AeroPress”
- “Viết Kubernetes CronJobs”
- “Steve Jobs: CEO tầm nhìn”
- Vân vân.
Đó chính xác là thách thức mà AI đặt ra cho các nhà văn: AI có thể ngày càng bao phủ các định dạng nội dung được xác định rõ như hướng dẫn hoặc bài học. Tôi có thể hiểu tại sao điều này khiến các nhà báo “nóng mặt”.
User-directed content (nội dung do người dùng định hướng)
Hãy chú ý rằng Perplexity không tự tạo ra toàn bộ nội dung cho Pages mà nhận hướng dẫn từ con người thông qua lệnh nhắc (UDC). Thay vì viết cả một bài viết, con người ghép các mảnh ghép lại và đặt “dấu ấn” của mình lên Pages. Tôi kỳ vọng điều tương tự sẽ xảy ra với các loại nội dung khác như đánh giá và các nền tảng như Google, Tripadvisor, Yelp, G2 & Co. sẽ cung cấp các công cụ tương ứng để làm cho việc tạo nội dung dễ dàng hơn. Thách thức lớn nhất sẽ là giữ chất lượng cao và giảm thiểu thông tin vô ích.
Câu hỏi lớn là liệu một sản phẩm như Pages có thể cạnh tranh với một trang web viết hoàn toàn bởi con người như Wikipedia, hiện có 116.000 người đóng góp tích cực hay không [6].
Chiến lược “tăng trưởng” lớn hơn đằng sau Pages, theo ý kiến của tôi, là cách Perplexity tạo ra các podcast AI (video) từ các bài viết tóm tắt mà xếp hạng cao hơn kết quả gốc.
“Perplexity then sent this knockoff story to its subscribers via a mobile push notification. It created an AI-generated podcast using the same (Forbes) reporting — without any credit to Forbes, and that became a YouTube video that outranks all Forbes content on this topic within Google search.” [7]
Tạm dịch:
“Perplexity sau đó gửi câu chuyện “nhái” này đến người đăng ký thông qua thông báo đẩy trên di động. Nó tạo ra một podcast do AI tạo ra sử dụng cùng báo cáo (của Forbes) mà không ghi nhận Forbes, và điều đó trở thành một video YouTube xếp hạng cao hơn tất cả nội dung của Forbes về chủ đề này trong tìm kiếm của Google.”

Nội dung AI được tạo bởi Perplexity chuyển định dạng sang podcast video tóm tắt các bài viết có thứ hạng cao hơn
Google sẽ phải tìm cách ngăn LLM tái sử dụng nội dung của các nhà xuất bản.
Sau khi xem xét các sự thật, chúng ta nhận ra sự khó khăn trong việc cân bằng giữa việc đưa ra câu trả lời AI và gửi lưu lượng đến nguồn. Tại sao người dùng phải nhấp vào khi hầu hết câu hỏi của họ đã được trả lời? Ở phía ngược lại, chính các nhà xuất bản có thể cung cấp bản tóm tắt cho bài viết của họ. Do đó, thách thức then chốt cho Perplexity—và bất kỳ ai muốn tạo nội dung AI quy mô lớn cho Tìm kiếm—là thêm giá trị độc đáo lên trên các bản tóm tắt AI.
Cá nhân hóa với AI
Con đường đến giá trị độc đáo từ các bản tóm tắt AI và nội dung AI khác là cá nhân hóa. Một hệ thống có thể nhận ra mức độ hiểu biết của bạn về một chủ đề có thể làm cho các bản tóm tắt AI hữu ích hơn. Perplexity là một lớp bao bọc quanh các LLM khác nhau, nhưng nếu nó thu thập thông tin đáng kể về người dùng và cá nhân hóa đầu ra, nó có thể thêm giá trị vượt ra ngoài câu trả lời nhanh.
Các nhà sản xuất hệ điều hành thiết bị như Alphabet và Apple có lợi thế lớn nhất về dữ liệu người dùng vì họ ngồi trên đỉnh chuỗi thức ăn. Một ví dụ mạnh mẽ là Apple Intelligence, có thể trả lời các câu hỏi hiện được cung cấp bởi hướng dẫn và bài học trên Google hoặc Perplexity. Apple Intelligence (viết tắt là “AI”—một bước đi thông minh của Apple!) có ngữ cảnh đầy đủ thông qua vị trí (Apple Maps), sử dụng ứng dụng bên thứ ba, lệnh nhắc Siri, email (Apple Mail) và các nguồn khác, tạo ra một cơ sở tốt để cá nhân hóa kết quả. Web chỉ là một nguồn kiến thức, với một nguồn hấp dẫn hơn đang chờ đợi trong Dropbox, hộp thư Gmail và ảnh iPhone của chúng ta.
Hiện nay, câu trả lời cá nhân hóa là tầm nhìn và bản demo. Nhưng vào một thời điểm nào đó trong tương lai, cá nhân hóa sẽ tạo ra câu trả lời tốt hơn bất kỳ bản tóm tắt LLM chung chung nào và chắc chắn hơn bất kỳ hướng dẫn viết bởi con người nào. Giá trị của kiến thức được xác định và chung chung đang trên đường va chạm với “máy bay ném bom” LLM. Đồng thời, giá trị của kiến thức cá nhân hóa, kinh nghiệm con người và chuyên môn đáng tin cậy đang tăng vọt.
Tham khảo:
1. https://apnews.com/article/perplexity-ai-search-engine-forbes-f307cb607f0db871b05f843a3f744340 Aggregators
2. https://rknight.me/blog/perplexity-ai-is-lying-about-its-user-agent/
3. https://www.fastcompany.com/91144894/perplexity-ai-ceo-aravind-srinivas-on-plagiarism-accusations
4. https://www.perplexity.ai/hub/faq/what-is-perplexity-pages
5. https://www.perplexity.ai/hub/blog/perplexity-pages
6. https://en.wikipedia.org/wiki/Wikipedia:About
7. https://www.forbes.com/sites/randalllane/2024/06/11/why-perplexitys-cynical-theft-represents-everything-that-could-go-wrong-with-ai/