
Web đang đối mặt với sự gián đoạn lớn từ AI. Trong một thế giới mà ai cũng có thể tạo nội dung bằng AI, câu hỏi lớn đặt ra là điều gì khiến nội dung còn giá trị.
Nếu bạn không có nhiều thời gian, hãy cuộn xuống phần “Kết nối mọi thứ lại với nhau” ở cuối. Nếu bạn tò mò về chi tiết, tôi đã phân tích từng bài viết và bình luận về chúng.
SGE chưa sẵn sàng để ra mắt
Avram Piltch, tổng biên tập của Tom’s Hardware, đưa ra một số điểm hay (và một vài điểm chưa tốt) về tác động tiềm năng của SGE (tôi nhấn mạnh):
“Nếu Google triển khai trải nghiệm SGE ra khỏi beta và biến nó thành mặc định, họ sẽ kích nổ một quả bom 50 megaton lên web tự do và mở. Nhiều nhà xuất bản, những người dựa vào lượng truy cập từ Google cho phần lớn lượt ghé thăm, sẽ sụp đổ trong vài tháng. Những người khác sẽ cắt giảm nguồn lực và ẩn sau các bức tường phí. Các doanh nghiệp nhỏ dựa vào xếp hạng tìm kiếm hữu cơ để bán sản phẩm và dịch vụ sẽ phải trả tiền cho quảng cáo hoặc, nếu không đủ khả năng, đóng cửa.”
Hãy nhớ câu cuối cùng này vì chúng ta sẽ quay lại nó trong bài viết tiếp theo.
Tôi đồng ý rằng tác động của SGE lên hệ sinh thái web có thể tàn phá. Các công ty có thể, lần đầu tiên, xem xét việc gỡ bỏ trang web của họ khỏi Google. Vì sao còn ở trên Google khi bạn không nhận được traffic vì Google sử dụng nội dung của bạn để trả lời trực tiếp?
Vấn đề cốt lõi là các trang web không còn là trung tâm trong SGE nữa – câu trả lời mới là trung tâm:
“Bằng cách ‘đặt các trang web lên hàng đầu’, Google đang đề cập đến khối ba hình thu nhỏ liên kết liên quan đôi khi (nhưng không phải luôn luôn) xuất hiện bên phải câu trả lời SGE của nó. Đây là một tấm lá chắn cho các nhà xuất bản, nhưng chúng không phải luôn là nguồn tốt nhất (chúng không khớp với kết quả hữu cơ hàng đầu) và ít người sẽ nhấp vào chúng sau khi đã nhận được ‘câu trả lời’ trong văn bản SGE.”
Chất lượng của các trang web liên kết trong băng chuyền SGE không tốt. Đây là một lĩnh vực mà Google cần siết chặt.
Một số thông tin sai lệch về mặt thực tế, điều này rất rủi ro cho các truy vấn y tế, pháp lý hoặc tài chính:
“Tôi đã tô màu xanh cho đoạn văn vì nó nguy hiểm sai lầm. Bot của Google nói rằng ‘Hiệp hội Ung thư Hoa Kỳ khuyến nghị nam và nữ nên tầm soát ung thư đại trực tràng bắt đầu từ 50 tuổi.’ Tuy nhiên, trang web của Hiệp hội Ung thư Hoa Kỳ cho biết rằng tầm soát nên bắt đầu từ 45 tuổi, vì vậy ‘sự thật’ sai lệch này có lẽ đến từ nơi khác.”
Việc đưa ra lời khuyên y tế mà không có giấy phép là bất hợp pháp, và rõ ràng Google đang đưa ra lời khuyên y tế ở đây. Tôi mong đợi Google sẽ tránh các chủ đề YMYL (Your Money or Your Life) được quy định chặt chẽ trong lần ra mắt chính thức.
Một ví dụ khác là trải nghiệm kém của Piltch khi tìm kiếm “best GPU” trong SGE, kết quả trả về là một mớ thông tin sai và không liên quan.
Khi tôi lặp lại tìm kiếm “best GPU” mà Piltch phê phán là có kết quả thấp về uy tín trong băng chuyền AI, tôi thực sự thấy Tom’s Hardware đứng thứ 2 trong băng chuyền, nhưng đó là bài đánh giá về Gigabyte RTX 4090 thay vì bài viết về GPU tốt nhất.
Việc chọn kết quả kém dẫn đến câu trả lời AI kém dựa trên cách SGE hoạt động. Tôi vẫn chưa chắc tại sao điều đó xảy ra. Mặc định, Google nên chọn kết quả chất lượng cao để tạo câu trả lời AI, nhưng đó không phải là những gì đang xảy ra.
Khi tôi tìm kiếm “best GPU” trên Bing chat, tôi nhận được tham chiếu tốt đến Tom’s Hardware và câu trả lời tốt hơn nhiều. Nó đi thẳng vào vấn đề, liệt kê các GPU thực tế và có tham chiếu đến các trang web trong câu trả lời.
SGE cũng có xu hướng trả về câu trả lời giống hệt từ các kết quả được xác minh, tức là từ các trang web:
“Tệ hơn nữa, các câu trả lời trong các hộp SGE của Google thường bị đạo văn, thường là từng chữ, từ các liên kết liên quan. Tùy thuộc vào những gì bạn tìm kiếm, bạn có thể thấy một đoạn văn lấy từ chỉ một nguồn hoặc nhận được một loạt câu và thông tin từ các bài viết khác nhau trộn lẫn thành một ‘nồi lẩu đạo văn’.”
Đây là một vấn đề nan giải. Đạo văn bắt đầu từ đâu và kết thúc ở đâu? Các mô tả meta và Đoạn trích nổi bật, ví dụ, cũng được sao chép từng chữ từ trang web. Nhưng rõ ràng là chúng đến từ trang nào vì liên kết nằm ngay trên hoặc dưới.
Và điều này dẫn đến một trong những vấn đề lớn nhất mà bản beta SGE hiện có: các kết quả được xác minh là không đủ để trích dẫn. Google cần chấp nhận cách mà Neeva, You hoặc Bing hay Bard đang làm: đặt trích dẫn ngay trong câu trả lời. Nhân tiện, Bard vẫn chưa bao gồm trích dẫn.
Giá trị gia tăng ở đâu trong SGE? AI cung cấp gì mà người dùng không thể có trên trang web?
Thay vì lấy nội dung từ trang web và hiển thị cho người dùng, Google có thể đơn giản gửi người dùng đến đoạn phù hợp trên trang có câu trả lời họ tìm kiếm – như họ đã làm với Đoạn trích nổi bật.
Theo tôi, Google muốn tổng hợp thông tin từ nhiều trang để tạo ra một câu trả lời tốt nhất. Nhưng, một lần nữa, nếu một trang đã cung cấp tất cả thông tin, giá trị gia tăng duy nhất là tiết kiệm một lần nhấp cho người dùng, điều này không nhỏ (giảm ma sát) nhưng phải trả giá bằng việc tổn hại doanh thu quảng cáo của nhà xuất bản. Rất có thể Google bị đe dọa bởi ChatGPT và Bing mới và không thấy cách nào khác ngoài việc đưa ra câu trả lời trực tiếp.
Piltch cũng đưa ra những giả định sai về mức độ tốt của LLM và khó khăn trong việc xác định thẩm quyền:
“Dù LLM có tiến bộ đến đâu, chúng sẽ không bao giờ là nguồn chính của sự thật hay lời khuyên và chỉ có thể tái sử dụng những gì con người đã làm.”
Đây là một hiểu lầm phổ biến về LLM và AI tạo sinh. Lập luận cơ bản là LLM chỉ nhai lại những gì con người đã viết và trình bày lại theo cách khác. Nhưng nếu vậy, tại sao LLM lại “ảo giác”? LLM học và tái hiện thông tin theo cách tương tự con người. Chúng ta học, kết nối và áp dụng kiến thức.
Piltch đúng ở chỗ AI tạo sinh không thể ra ngoài và lái thử một chiếc xe (chưa) hoặc lắp GPU vào máy tính và đánh giá hiệu năng (chưa). Nhưng bạn có thể tin rằng AI tạo sinh có thể giỏi hơn nhiều trong việc báo cáo xu hướng thị trường chứng khoán, diễn giải dữ liệu hoặc nhận ra mô hình trong hành vi con người, những thứ là sự thật cấp một.
“Việc ai đó đã đánh giá CPU trong 15 năm trên một trang web chuyên về CPU nên có bài đánh giá AMD Ryzen của họ xếp hạng cao hơn so với ai đó không có thẩm quyền về chủ đề này là hoàn toàn hợp lý.”
Điều này chỉ ra ngay vấn đề: thẩm quyền là gì? Có phải là thâm niên hay thời gian làm việc? Chẳng phải nên đơn giản là sự kỹ lưỡng của bài đánh giá và chất lượng lập luận? Tôi hiểu rằng kinh nghiệm nhiều năm có thể quan trọng, nhưng nó có nên là tất cả?
Lập luận của Piltch cho thấy khó khăn trong việc đo lường khái niệm mơ hồ về thẩm quyền.
Nhưng một tuyên bố mà ông đưa ra ở đầu bài viết đã nắm bắt được tâm trạng của Tìm kiếm và nội dung trên web:
“Ví dụ, khi tôi tìm kiếm ‘best bicycle’, câu trả lời SGE của Google, kết hợp với các liên kết mua sắm và những thứ linh tinh khác, chiếm tới 1.360 pixel dọc đầu tiên của màn hình trước khi tôi có thể thấy kết quả tìm kiếm thực sự đầu tiên.”
Piltch phàn nàn về quảng cáo và “rác rưởi” trên Google, nhưng Tom’s Hardware cũng làm điều tương tự. Trang web quá tải với quảng cáo đến mức tôi không thể đọc bài viết trên điện thoại thông minh của mình. Trang web bị treo trước khi tôi có thể đọc hết vì một quảng cáo lớn với đủ loại liên kết đến các bài viết đáng ngờ bật lên trên màn hình.
Khi tôi dùng laptop để đọc bài, tôi bị hỏi có muốn bật thông báo trình duyệt không (không) và ngay lập tức, một popup lớn hỏi tôi có muốn đăng ký nhận bản tin email không. Tôi có thể chỉ đọc nội dung được không?
Tom’s Hardware không phải là duy nhất. Các nhà xuất bản chia sẻ cùng một vấn đề với Google: để phát triển, họ phải hiển thị nhiều quảng cáo hơn theo thời gian. Kết quả là, trải nghiệm người dùng bị ảnh hưởng.
Nhưng về phía nhà xuất bản, chỉ một vài người lớn mới có thể làm được điều này, như New York Times hay Wall Street Journal. Phân khúc dài của các nhà xuất bản gặp khó khăn trong việc thu phí nội dung. Các nhà báo đổ xô sang Substack vì động lực nào để họ viết cho tờ báo khi họ có thể tính phí trực tiếp từ độc giả?
Neeva đã thử thu phí người tìm kiếm nhưng phải đóng cửa vì người dùng đã quen tìm kiếm trên Google, và Google có lợi thế phân phối lớn như thỏa thuận với Apple, sở hữu Chrome, Gmail hay YouTube.
Google có thể làm gì trước làn sóng nội dung AI kém chất lượng?
Mia Sato đã xuất bản một bài viết trên The Verge về các công ty hưởng lợi từ traffic Google nhưng cần tối ưu hóa cho nó (tôi chọn không bình luận về một số nội dung một chiều về SEO).
Nhiều doanh nghiệp nhỏ (và lớn) phụ thuộc vào traffic SEO vì quảng cáo không mang lại lợi nhuận cho họ (tôi nhấn mạnh):
“Tìm kiếm quan trọng hơn bao giờ hết đối với Get Bullish. Facebook từng chiếm một phần đáng kể lợi nhuận của Get Bullish, nhưng sau khi Apple giới thiệu tùy chọn ‘Yêu cầu Ứng dụng Không Theo Dõi’ vào năm 2021, quảng cáo trên nền tảng truyền thông xã hội này không còn có lợi nhuận. Dziura vẫn chạy quảng cáo Facebook, nhưng họ hòa vốn là tốt nhất, cô nói. Ứng dụng Get Bullish cũng có sẵn cho người mua sắm, nhưng Google Search là thiết yếu cho doanh nghiệp.”
Nếu traffic tìm kiếm biến mất vì SGE, nó có thể thực sự có hậu quả nghiêm trọng cho web, như Piltch đã viết trong bài trước, vì không có lựa chọn thay thế.
Chủ sở hữu trang web tối ưu hóa trang web của họ vì nó hiệu quả:
“Công việc SEO tự làm của Dziura đang hoạt động tốt cho cô ấy ở một số khía cạnh. Một tìm kiếm Google cho ‘feminist gifts’ (quà tặng nữ quyền) đưa Get Bullish lên nửa dưới trang đầu tiên của kết quả, dưới Amazon và các danh sách ‘mồi SEO’ của Cosmopolitan và Town & Country Magazine nhưng trên các doanh nghiệp nhỏ cạnh tranh. Những người tìm kiếm các loại mặt hàng như ‘khăn bếp hài hước’ và ‘tất vớ không phù hợp’ tìm đến Get Bullish, bên cạnh những người mua sắm tìm kiếm cửa hàng theo tên.”
Một phần lớn của tối ưu hóa trang web xoay quanh nội dung. Tuy nhiên, điều gì xảy ra khi ai cũng có thể tạo nội dung tốt bằng công cụ AI?
“Người mua sắm trực tuyến sẽ ngày càng gặp phải văn bản và hình ảnh do máy tính tạo ra, có khả năng mà không có bất kỳ chỉ dẫn nào về công cụ AI.”
Đây chính xác là những gì sẽ xảy ra và đã bắt đầu xảy ra: ai cũng sẽ sử dụng nó. Kết quả là, Google sẽ khó khăn hơn trong việc xếp hạng kết quả tìm kiếm vì quá nhiều trang web có nội dung tốt. Ai cũng sẽ ‘chọc trời’ lẫn nhau. Mọi lúc.
Reddit và giá trị của câu trả lời con người trong tìm kiếm
8.000 Subreddit đã “tắt đèn” để phản đối việc tăng giá API và thời hạn chặt chẽ, và điều này có thể thấy trong Google Search:
“Hơn 8.000 subreddit đã tắt đèn để phản đối các thay đổi API sắp tới của Reddit, và điều này cho tôi thấy tôi dựa vào Reddit nhiều như thế nào để tìm thông tin hữu ích, nghe giống con người trong kết quả tìm kiếm Google của mình.”
Đây là xu hướng đã biết rằng mọi người tìm kiếm trên Google để tìm câu trả lời trên Reddit. Rất nhiều người dùng thêm “reddit” vào truy vấn của họ đến mức Google nhúng các câu trả lời từ Reddit cho một số truy vấn ngay trong kết quả tìm kiếm:
“Với kết quả tìm kiếm thường kém của Google hiện nay, thêm ‘reddit’ đã lâu trở thành cách mặc định tôi tìm kiếm hầu như bất cứ thứ gì (và không, tôi cũng chưa sẵn sàng lấy thông tin từ chatbot AI). Nhưng với số lượng lớn subreddit hiện không có sẵn – bao gồm một số subreddit có nhiều người đăng ký nhất – nhấp qua nhiều liên kết Reddit trong kết quả tìm kiếm đưa tôi đến thông báo rằng subreddit là riêng tư.”
“Và ngay cả khi bạn không dựa vào mẹo Reddit như tôi, các liên kết Reddit thường xuất hiện ở đầu kết quả tìm kiếm, nghĩa là nhiều người không thường xuyên sử dụng nền tảng có lẽ đã tìm thấy một số thông tin hữu ích trên trang.”
Lý do không chỉ là Google Search đã bị thương mại hóa quá mức mà còn là kết quả tìm kiếm được sắp xếp bằng thuật toán, không phải con người. Trên Reddit, bạn có các diễn đàn con (Subreddit) được quản lý tốt, nơi nội dung có giá trị được đưa lên và thảo luận. Reddit là đối tác định tính của kết quả định lượng của Google.
Việc cộng đồng kiểm duyệt và xác minh là điều mà SGE hay ChatGPT không thể cung cấp từ đầu:
“Chắc chắn, Google có thể cung cấp cho tôi câu trả lời cho bất kỳ nhu cầu nào trong số đó. Các trang web khác có hướng dẫn tuyệt vời cho ‘Tears of the Kingdom’. Google đã hiển thị một số video có thể hữu ích cho vấn đề cửa túi của tôi (tất nhiên trên YouTube). Và tìm kiếm ‘best new music’ đưa ra nhiều danh sách tôi có thể xem qua.”
“Nhưng không ai trong số đó có các yếu tố hội thoại và cộng đồng khiến Reddit hữu ích đến vậy. Tôi thích xem qua các bình luận dưới một bài đăng để xem các đề xuất khác, quan điểm khác và các liên kết khác đến các nguồn liên quan, và sau đó thấy người khác thảo luận về giá trị của những bổ sung đó vào chủ đề.”
Cùng với việc xác minh người dùng, mà tất cả các nền tảng hiện đang đầu tư vào, các nền tảng UGC (nội dung do người dùng tạo) có lợi thế hơn Google Search, vốn phụ thuộc nhiều hơn vào nội dung trang web.
Kết nối mọi thứ lại với nhau
Lý do Reddit tăng giá API mạnh mẽ là AI. Là diễn đàn gốc trên web, Reddit chưa bao giờ có thể kiếm tiền từ kho báu nội dung có giá trị của mình. Nhưng bây giờ, hầu hết các LLM lớn sử dụng nội dung của Reddit để huấn luyện mô hình của họ, và Reddit muốn nắm bắt một phần giá trị đó.
Trong những năm qua – và bây giờ chúng ta đang thoát khỏi nền kinh tế lãi suất bằng không – nhiều công ty gặp phải vấn đề có nội dung tốt nhưng cũng khó khăn trong việc kiếm tiền từ nó, ví dụ như Twitter và nhiều nhà xuất bản lớn. Thêm vào đó là dữ liệu của họ được sử dụng để huấn luyện LLM.
Như tôi đã viết trong “Bản quyền AI có thể dẫn đến cơ hội Marketing mới“:
“Trong số 45 terabyte văn bản mà GPT-3 được huấn luyện, 60% đến từ Common Crawl, 22% từ WebText 2 (được huấn luyện trên các liên kết ra ngoài từ Reddit), 8% trên sách và 3% trên Wikipedia. Nói cách khác, phần lớn đầu vào cho GPT-3 và các AI tạo sinh khác đến từ web mở.”*
Bây giờ, khi Google có thể sử dụng nội dung của họ từng chữ một, các nền tảng lớn và nhà xuất bản không thấy mô hình kinh doanh của họ bị đe dọa.
Mô hình kinh doanh của nội dung ngày càng khó kiếm tiền. Tom’s Hardware và hầu hết các nhà xuất bản khác hiện nay đều đầy quảng cáo vì ngày càng khó tăng doanh thu theo thời gian. Chỉ một vài nhà xuất bản lớn, như New York Times hay Wall Street Journal, mới quản lý được việc thu phí trực tiếp từ người tiêu dùng.
Hiện tại, Google nắm bắt phần lớn giá trị với quảng cáo hoặc chỉ là thói quen. Vào tháng 9 năm 2022, họ thậm chí đã ra mắt tính năng gọi là “Thảo luận và diễn đàn”, hiển thị câu trả lời từ Reddit (và những người khác) ở định dạng nổi bật cho một số truy vấn.
Nhiều công ty – SMB, công ty DTC hoặc nhà xuất bản – sẽ không có lợi nhuận nếu không có traffic SEO, như Mia Sato chỉ ra trong bài viết về nội dung rác. Nhưng SGE là một cấp độ khác của việc nắm bắt giá trị cho Google có thể để lại quá ít cho hệ sinh thái web.
Mặt khác, Google đang đối mặt với cạnh tranh từ Bing/ChatGPT và AI tạo ra nội dung tốt và làm loãng nó như một tín hiệu xếp hạng. Nếu Google không tìm ra cách cung cấp câu trả lời AI tốt trong khi vẫn gửi traffic đến web, mô hình kinh doanh của họ cũng có thể gặp nguy hiểm. Một khởi đầu tốt để cải thiện phiên bản hiện tại là thêm tham chiếu, giảm đạo văn và câu trả lời băng chuyền AI tốt hơn.
Nhưng web mở cũng cần a) một cách để từ chối việc dữ liệu của bạn được sử dụng để huấn luyện, b) một thẻ meta để bị loại trừ trong SGE, và c) nhiều minh bạch hơn từ các nhà phát triển LLM lớn về nguồn dữ liệu để chủ trang web có thể chọn không cung cấp dữ liệu của họ miễn phí.