Trong an ninh mạng, “Piggybacking” (đi nhờ) là một cuộc tấn công vào hệ thống khi một người dùng không được phép lợi dụng quyền truy cập của người dùng hợp pháp. Trong lĩnh vực tăng trưởng, “Piggybacking” là việc tận dụng cơ sở người dùng của một nền tảng để nuôi dưỡng nền tảng của riêng mình.
- Airbnb đã đăng danh sách chỗ ở lên Craigslist cho đến khi họ đạt được lượng người dùng đủ lớn.
- PayPal ban đầu chỉ tập trung vào các giao dịch trên eBay rồi sau đó mở rộng.
- YouTube tạo ra các video có thể nhúng để người dùng đăng lên Myspace.
Giờ đây, Perplexity dường như đang thử làm điều tương tự với Google bằng cách cho phép công cụ tìm kiếm này lập chỉ mục các trang tìm kiếm (hiện đã có 3.400 trang) chứa câu trả lời cho các yêu cầu của người dùng.

Perplexity có thể tạo ra vô số câu trả lời cho các câu hỏi “dài đuôi” và tràn ngập Google với những câu trả lời đó. Khi người dùng tìm thấy những câu trả lời này trên Google, họ có thể thử dùng Perplexity và cuối cùng “chuyển nhà” từ Google sang.
Sự suy giảm lưu lượng truy cập của Google
Piggybacking là triệu chứng của “thành trì” của Gooogle đang bị tàn phá. EBay đã trở thành thị trường trực tuyến lớn nhất của bên thứ 3 nhưng không tìm ra hệ thống thanh toán trực tuyến gốc. Craigslist đã bị tách ra. Myspace bị kẹt trong thời gian. Có vẻ như Google đã nhận thức được rủi ro.
Một tài liệu được tiết lộ trong vụ kiện của Google cho thấy Eric Lehman, cựu kỹ sư xếp hạng web của Google, đã bày tỏ lo ngại sâu sắc về việc một hệ thống Deep LM có thể vượt mặt Google vào năm 2018.1
Ông lý giải rằng: trong vòng 5 năm, một hệ thống học máy được phát triển bên ngoài Google có thể vượt trội hơn Google trong việc đánh giá mức độ liên quan (tức là mức độ phù hợp của tài liệu với truy vấn tìm kiếm). Thời điểm dự đoán của ông gần như hoàn hảo.
Lehman nhấn mạnh rằng BERT là một bước đột phá trong mức độ liên quan, “đột ngột vượt qua hầu hết mọi công việc trước đó.” Dịch thuật là một trong những trường hợp đầu tiên mà một công ty khác, DeepML, nhanh chóng bắt kịp Google, và điều đó đã khiến Google bất ngờ:
“Đối với nhóm câu trả lời web, làn sóng Deep ML ập đến trong vài tuần qua là một cú sốc hoàn toàn. Với cảnh báo này, chúng ta không nên để bị bất ngờ lần nữa; thay vào đó, chúng ta nên bắt đầu suy nghĩ về những tác động ngay từ bây giờ.”
Trước đó, Google thực sự không hiểu nội dung của các tài liệu (“Chúng ta không hiểu tài liệu. Chúng ta chỉ giả vờ thôi.”), nhưng họ bù đắp bằng tín hiệu người dùng từ hàng trăm tỷ lượt tìm kiếm.
Từ bài viết “SEO bằng traffic user? Bí mật xếp hạng mà Google che dấu“, nơi tôi đã nói về những tiết lộ “sốc tận óc” từ vụ kiện của Google:
“Google nhóm người dùng dựa trên hành vi trước đây của họ để dự đoán họ muốn gì. Hãy nghĩ về ‘người mua cũng mua’ của Amazon. Nhân với hàng trăm tỷ lượt tìm kiếm, những mô hình mạnh mẽ sẽ xuất hiện.”
AI đã đe dọa lợi thế của cách tiếp cận này.
Lehman tiếp tục:
“Lượng phản hồi người dùng khổng lồ có thể được thay thế phần lớn bằng học không giám sát từ văn bản thô.”
Liệu Google phát triển BERT vì lý do đó hay không thì không rõ, nhưng nó ra mắt một năm sau:
“Hôm nay, BERT đóng vai trò quan trọng trong gần như mọi truy vấn tiếng Anh. Điều này là do hệ thống BERT của chúng tôi xuất sắc trong hai nhiệm vụ quan trọng nhất để cung cấp kết quả liên quan — xếp hạng và truy xuất. Dựa trên hiểu biết ngôn ngữ phức tạp của mình, BERT có thể nhanh chóng xếp hạng các tài liệu về mức độ liên quan. Chúng tôi cũng đã cải thiện các hệ thống cũ bằng việc huấn luyện BERT, giúp chúng hiệu quả hơn trong việc truy xuất các tài liệu liên quan để xếp hạng.”2
Việc khớp mức độ liên quan là một ví dụ tuyệt vời về “thành trì” bị xói mòn do tiến bộ công nghệ. “thành trì” lưu lượng truy cập của Google không phải vô dụng. Hàng trăm tỷ lượt tìm kiếm vẫn mang lại lợi thế lớn trong việc hiểu xu hướng, huấn luyện mạng nơ-ron và nhóm người dùng (ví dụ như API Chủ đề của Google thay thế cookie bên thứ ba). Nhưng các mô hình ngôn ngữ lớn (LLMs) đang làm xói mòn “thành trì” đó ở một số khía cạnh.
Nếu LLMs khiến việc khớp mức độ liên quan trở nên dễ dàng hơn, thì giá trị của việc chi hơn 50 tỷ đô la (Chi phí Tiếp cận Lưu lượng truy cập – TAC) mỗi năm để trở thành công cụ tìm kiếm mặc định là gì?
Từ “SEO bằng traffic user? Bí mật xếp hạng mà Google che dấu” một lần nữa:
“Thêm vào đó là thỏa thuận 18 tỷ đô la với Apple để trở thành tìm kiếm mặc định, cộng với chia sẻ doanh thu 36% cho Safari, cộng thêm vài tỷ cho Mozilla và Samsung, và bạn sẽ thấy Google đã xây dựng nhiều ‘thành trì’ lưu lượng truy cập quanh ‘lâu đài’ của mình, mang lại lợi thế cạnh tranh độc đáo về hiểu biết người dùng. Google biết bạn muốn gì, hồ sơ của bạn giống với hàng ngàn hay triệu người dùng khác như thế nào, và sử dụng thông tin đó để huấn luyện các thuật toán dự đoán cho những người tìm kiếm sau bạn.”
Trong cuốn sách huyền thoại “7 Powers”, Hamilton Helmer liệt kê 7 “thành trì” kinh doanh:
-
Kinh tế theo quy mô: Tăng cường hiệu quả bằng cách làm một việc gì đó nhiều hơn, thường xuyên hơn, từ đó giảm chi phí trên mỗi đơn vị sản phẩm hoặc dịch vụ, tạo lợi thế cạnh tranh khó bắt kịp.
-
Hiệu ứng mạng lưới: Xây dựng giá trị tăng theo cấp số nhân khi càng nhiều người tham gia sử dụng sản phẩm hoặc dịch vụ, khiến nó trở nên hấp dẫn hơn với mỗi người dùng mới.
-
Định vị ngược lại: Tạo sự khác biệt bằng cách chọn một hướng đi trái ngược với đối thủ, nhắm đến những khoảng trống thị trường mà người khác bỏ qua.
-
Chi phí chuyển đổi: Thiết lập rào cản khiến khách hàng khó rời bỏ sản phẩm hoặc dịch vụ của bạn, do những bất tiện hoặc chi phí phát sinh khi chuyển sang đối thủ.
-
Thương hiệu: Xây dựng danh tiếng và sự nhận diện mạnh mẽ, khiến khách hàng tin tưởng và sẵn sàng trả giá cao hơn chỉ vì cái tên của bạn.
-
Tài nguyên độc quyền: Sở hữu hoặc kiểm soát một nguồn lực đặc biệt mà đối thủ không thể tiếp cận, tạo lợi thế độc nhất trên thị trường.
-
Sức mạnh của quy trình: Hoàn thiện cách thức hoạt động để thực hiện mọi thứ nhanh hơn, hiệu quả hơn, hoặc chất lượng cao hơn so với đối thủ.
TAC của Google nuôi dưỡng một số “thành trì” này:
- Nhận thức thương hiệu: mọi người dùng “google” như một động từ thay cho “tìm kiếm”.
- Tài nguyên độc quyền: không ai khác có quyền truy cập vào lưu lượng truy cập đó.
- Hiệu ứng mạng: Google sử dụng lưu lượng truy cập để huấn luyện nhiều hệ thống tìm kiếm của mình.
Xếp hạng web không chỉ là thứ tự của các kết quả truyền thống mà còn là tất cả các yếu tố trong trang kết quả tìm kiếm (SERP). Như Pandu Nayak đã làm chứng tại tòa, Google sử dụng hệ thống NavBoost để đo lường tương tác của người dùng với kết quả web và Glue cho các tính năng SERP như PAA, bản đồ hay carousel hình ảnh.3 Đã từ năm 2019, Gary Illyes xác nhận rằng Google sử dụng nhấp chuột như một tín hiệu để hiển thị các tính năng SERP. Vì vậy, Google sử dụng lưu lượng truy cập không chỉ cho xếp hạng kết quả truyền thống mà còn cho bố cục của tất cả các yếu tố trong SERP. Hãy nhớ rằng ~15% truy vấn Google nhận được mỗi ngày là mới và Google cần nhanh chóng hiểu bố cục SERP tối ưu.
Cơ hội cho Perplexity là họ có thể bắt kịp Google, ít nhất trong việc khớp mức độ liên quan, mà không cần nhiều người dùng. Perplexity có hai lợi thế:
- Đo lường phản hồi với một câu trả lời duy nhất dễ hơn so với nhiều kết quả web.
- Người dùng hỏi chatbot AI những câu dài hơn, giúp làm rõ họ muốn gì.
Thậm chí, những người đánh giá chất lượng dường như cũng có thể bị thay thế bởi LLMs. Google có hơn 16.000 người đánh giá chất lượng bên ngoài trong mạng lưới của mình. Một startup sẽ phải huy động hàng trăm triệu đô la để thuê được một nửa số đó, và đó chỉ là một phần của tìm kiếm. Nhưng LLMs có thể giảm chi phí đó gần như bằng 0 – một “thành trì” khác bị xói mòn.4
Meta vs. Google – Hiệp 2
Trong bài “Google+ sinh ra để chết”, tôi đã mô tả cuộc cạnh tranh gay gắt giữa Google và Facebook:
“Vào tháng 9 năm 2012, họ thông báo dịch vụ có 400 triệu người dùng đăng ký và 100 triệu người dùng hoạt động. Facebook thậm chí chưa đạt một tỷ người dùng, và họ mất bốn năm để đạt cột mốc – 100 triệu người dùng – mà Google đạt được trong một năm.
Cuộc thi này đã làm Google lo lắng đến mức họ từ bỏ sự khách quan thường thấy trong kỹ thuật như dữ liệu và bắt đầu giả mạo số liệu sử dụng để gây ấn tượng với thế giới bên ngoài, và (chắc chắn) đe dọa Facebook.”
Thời điểm đó, Facebook nhanh chóng tăng trưởng cơ sở người dùng. Như chúng ta biết bây giờ, lưu lượng truy cập là thành phần chính trong “món súp bí mật” của Google. Không ngạc nhiên khi Google hoảng sợ và tạo ra Google+.
Năm 2018, cuộc cạnh tranh dần lắng xuống vì Google nhận ra rằng Facebook không nhằm thay thế mình. Cả hai đều cạnh tranh về doanh thu quảng cáo, nhưng cơ chế nhắm mục tiêu (dựa trên ý định vs. hành vi) cơ bản là khác nhau. Hơn nữa, Facebook bị vướng vào vụ bê bối Cambridge Analytica. Vì vậy, Google đã khai tử Google+.
Nhảy đến năm 2024: khái niệm tổng hợp web để đưa ra kết quả tìm kiếm tốt nhất dường như không hấp dẫn bằng việc học từ web để đưa ra một câu trả lời duy nhất. Meta và Google lại cạnh tranh sát sao.
Meta mở mã nguồn LLMs của mình để nghiêng cán cân hệ sinh thái theo hướng có lợi cho họ. Nhưng nếu ai đó – thậm chí là chính Meta – phát triển một đối thủ của Google bằng LLMs của Meta, thì chỉ có Google bị tổn thương. Meta có thể dễ dàng “thả bom” vào “sân sau” của Google vì họ không có “con ngựa” trong cuộc đua tìm kiếm.
Và đó chính là điều đang xảy ra: Mô hình PPLX của Perplexity được xây dựng (một phần) trên mô hình LLaMA 2-70b của Meta. Meta cũng tuyên bố có dữ liệu tốt hơn so với web mở, một “thành trì” cũ. Google đã lo ngại dữ liệu mạng xã hội sẽ là mô hình quảng cáo tốt hơn, nhưng năm 2023, tổng doanh thu của Meta (134 tỷ đô la) là 56% doanh thu quảng cáo của Google (237 tỷ đô la). Hóa ra, mối nguy thực sự trong dữ liệu của Meta nằm ở việc huấn luyện mô hình.
Từ “Báo cáo thu nhập Q4 2023”:
“Khi mọi người nghĩ về dữ liệu, họ thường nghĩ về tập dữ liệu bạn có thể sử dụng để huấn luyện mô hình ban đầu. Trên Facebook và Instagram, có hàng trăm tỷ hình ảnh được chia sẻ công khai và hàng chục tỷ video công khai, mà chúng tôi ước tính lớn hơn tập dữ liệu common crawl. Mọi người cũng chia sẻ số lượng lớn các bài đăng văn bản và bình luận công khai trên dịch vụ của chúng tôi.”
Sự lắng đọng
Trong địa chất, đối lập với Xói mòn là Lắng đọng. Những tài nguyên như phấn hay than đá là kết quả của sự lắng đọng vật liệu hữu cơ như sinh vật phù du dưới áp lực.
Công nghệ mới làm cho những thứ cũ trở nên dễ dàng và những thứ mới trở nên khó khăn. LLMs làm xói mòn lợi thế của số lượng và tạo áp lực để tạo ra nội dung có giá trị cao. Bí quyết cho SEO là tìm ra loại nội dung mà LLMs không thể tạo ra.
Bất kỳ nội dung nào có cấu trúc rõ ràng không chỉ dễ dàng cho máy móc tạo ra mà còn có khả năng được bot trả lời trong tương lai. Nhưng nội dung không có cấu trúc, không có dàn ý rõ ràng, thì LLMs không thể tạo ra. Hãy nghĩ về cách những người kể chuyện giỏi dẫn dắt bạn nghĩ rằng câu chuyện về một chủ đề, nhưng cuối cùng lại nói về một điều hoàn toàn khác.
Đó là loại trải nghiệm bất ngờ, thú vị mà thuật toán không thể tạo ra. Bạn “đi nhờ” sự chú ý của khán giả để đưa họ từ nơi họ nghĩ họ muốn đến nơi bạn muốn họ đến. Tương lai của tiếp thị nội dung là kể chuyện, không phải là những hướng dẫn “tất tần tật. Sự gần gũi hơn là độ dài.
Là những người làm tiếp thị, chúng ta có thể trò chuyện với khán giả và tìm kiếm câu trả lời cho những câu hỏi như:
- Khán giả mục tiêu của tôi đang cố gắng đạt được điều gì mà họ chưa biết cách thực hiện?
- Sự hiểu biết của khán giả về vấn đề khác biệt như thế nào so với thực tế?
- Điều gì đáng ngạc nhiên về cách sản phẩm của tôi giải quyết vấn đề?
- Khoảng cách giữa vấn đề thực sự và những gì khán giả nghĩ là vấn đề ở đâu?
- Làm thế nào tôi có thể đưa khán giả từ việc hiểu vấn đề đến giải quyết nó trong một nội dung duy nhất?
- Làm sao để nội dung của tôi trở nên gần gũi hơn?
Tham khảo:



