Hơn một nửa lưu lượng web hiện nay đến từ bot:
- Imperva’s Bad Bot Report 2024 cho biết: gần 50% tổng lưu lượng internet năm 2024 không đến từ con người. Xu hướng: đang giảm nhẹ. (1)
- Cloudflare Radar cho thấy khoảng 70% lưu lượng là người dùng thật, 30% là bot. (2)
- Akamai báo cáo 42% lưu lượng web đến từ bot. (3)
Cho đến giờ, bot chủ yếu thu thập dữ liệu để giúp các ứng dụng phục vụ con người tốt hơn. Nhưng một thế hệ bot “có tính hành động” (agentic bots) đang tăng trưởng mạnh. Hai thập kỷ qua, chúng ta tối ưu website để làm hài lòng GoogleBot. Sắp tới, chúng ta có thể còn phải tối ưu cho các AI helper – loại bot làm trung gian giữa người dùng và open web.
Thực ra, chúng ta vốn đã tối ưu cho “BotNet” qua Schema hay feed sản phẩm trong Google Merchant Center. Sitemap XML là “bài học vỡ lòng” suốt nhiều năm. Tới giai đoạn tiếp theo, có thể doanh nghiệp sẽ tạo phiên bản web riêng hoặc API dành cho bot có khả năng “hành động,” mở ra một “sân chơi” marketing hoàn toàn mới.
Web cho bot (Agentic web)
Khi ta tới sát ngưỡng lưu lượng bot vượt lưu lượng người trên open web, cần nhớ rằng khoảng 65% bot bị xem là độc hại. Loại “bot tốt” gồm công cụ quét (scraper) từ công cụ tìm kiếm, SEO tool, giải pháp phòng thủ an ninh mạng, hay AI crawler. Cả “bot tốt” và “bot xấu” đều đang tăng, nhưng chỉ “bot tốt” mới đem lại giá trị thực sự.
So sánh 6 tháng gần nhất với 6 tháng trước đó:
- Crawler AI tăng 18%, trong khi công cụ tìm kiếm truyền thống giảm 10%.
- GoogleBot giảm -1,6% nhưng “Google’s AI crawler” tăng 1,4%.
- GPT Bot là AI crawler “hăng hái” nhất, chiếm 3,8% tổng lượt request, tăng 12%.
- Google’s AI crawler tăng tới 62%, chiếm 3,7% tổng bot request. Với tốc độ này, nó sớm thành “quái vật” crawler lớn nhất web. (4)
Hiện tại, mục tiêu chính của AI bot gồm:
- Thu thập dữ liệu huấn luyện (training data)
- Xây dựng chỉ mục tìm kiếm (Search Index) hỗ trợ LLM (RAG – Retrieval-Augmented Generation)
- Thu thập dữ liệu thời gian thực (realtime) cho những prompt cần tính cập nhật
Nhưng sắp tới, các “ông lớn” AI đều đang làm việc trên “agent” có thể duyệt web và hành động thay người dùng:
- Claude đi tiên phong với tính năng “Computer Use”: “Lập trình viên có thể chỉ đạo Claude dùng máy tính y như con người – nhìn màn hình, di chuyển chuột, bấm nút, gõ phím.” (5)
- Google’s Jarvis – “trợ lý lướt web cho bạn” – từng xuất hiện chớp nhoáng trên Chrome Store. (6)
- OpenAI đang phát triển “Operator,” một agent giúp thực hiện công việc thay bạn. (7)
Theo tôi, ba kịch bản có thể xảy ra:
- Agent khiến lưu lượng bot tăng vọt vì liên tục duyệt/crawl website
- Agent chỉ dùng API để lấy thông tin
- Agent chỉ hoạt động trên nền tảng riêng (ví dụ Operator chỉ xài data từ Chat GPT)
Khả năng cao là sự pha trộn cả ba. Kết quả: bot traffic tiếp tục leo thang. Khi đó, doanh nghiệp ngày càng phải xây bản web riêng cho bot, siêu nhẹ và có dữ liệu có cấu trúc. “Chỉ tập trung người dùng” có thể sẽ biến thành “chỉ tập trung cho agent”.
Ở một mức nào đó, Chat GPT Search đã là agent “duyệt và biên tập” web cho con người. Nhưng CEO OpenAI, Sam Altman, gần đây chia sẻ trên Reddit AMA rằng: “Bước đột phá khổng lồ tiếp theo sẽ đến từ agents.”
Vậy con người sẽ làm gì khi bot “xâm chiếm” web?
Internet adoption (mức độ tiếp cận internet)
Khó mà tưởng tượng con người sẽ hoàn toàn thôi dùng web. Ngay cả khi AI cung cấp câu trả lời trực tiếp, người dùng vẫn muốn kiểm chứng, khám phá ngẫu nhiên hoặc trao đổi với “con người thật” (vd: Reddit). Nhưng việc “duyệt web chỉ để tìm kiếm” có thể mờ nhạt dần nếu bot đủ giỏi.
Con số thống kê vẫn cho thấy khả năng con người “tăng”: năm 2023, khoảng 70% dân số thế giới có internet. Với tốc độ tăng 7%/năm, toàn cầu có thể phổ cập internet vào 2030. Tuy nhiên, bất chấp mức thâm nhập internet cao hơn, lưu lượng truy cập của con người không tăng trong 3 năm qua (theo Cloudflare). Trái lại, AI crawler tăng 18%, và “agent” có thể đẩy nhanh đà đó nữa.
Ví dụ, lượt truy cập Wikipedia – trang web lớn nhất thế giới tính theo khối nội dung – chững lại từ năm 2019. (8)
Lý do? Con người chuyển dần sang mạng xã hội và các nền tảng đóng. Thế hệ trẻ không “lang thang” web như trước. Khi “open web” thành “sân chơi” của bot, con người rút vào không gian tương tác (engagement) ở mạng xã hội.
Tác động đến Marketing
Trong tương lai, khi “bot tốt” có thể được xem như “công dân bình đẳng” trên open web, và con người dành thời gian nhiều hơn cho “nền tảng đóng” (hoặc mạng xã hội), còn “agentic LLM” gia tăng “dân số bot,” thì chuyện gì xảy ra với Marketing, đặc biệt là SEO?
Hãy tưởng tượng bạn muốn đặt vé du lịch. Thay vì lên Google hay Booking, bạn chỉ cần bảo agent: “Tôi muốn đi đâu đó, khoảng thời gian này,” agent sẽ tự lọc ra 3 tùy chọn chuyến bay và khách sạn dựa trên sở thích của bạn (có thể lấy dữ liệu từ nền tảng mà agent “hợp tác”). Bạn chọn một chuyến bay, agent tự thêm vào lịch, vé gửi vào hộp thư, thậm chí bạn không cần “thanh toán” thủ công. Tương tự với mua sắm hay dùng phần mềm. Vì các “đại gia” như Google đã có đủ hạ tầng để làm điều này ngay hôm nay, ta nên suy nghĩ: điều gì sẽ vẫn bất biến, điều gì sẽ thay đổi, và cái gì sẽ tăng/giảm quan trọng?
Những điều không thay đổi
- Bot chẳng cần CSS hay banner hoành tráng. Bạn có thể “cloaking” (tạo phiên bản tối giản) cho LLM crawler mà chẳng gặp rủi ro.
- Các kỹ năng Technical SEO như khả năng crawl, tốc độ (server speed), liên kết nội bộ, dữ liệu có cấu trúc… vẫn quan trọng.
Thay đổi
- “Agentic web” có thể giúp quảng cáo (ad targeting) chính xác hơn, vì agent biết chủ nhân của nó “tường tận.” Quá trình ra quyết định mua của con người nhanh hơn nhiều do agent hiểu sở thích.
- Chi phí quảng cáo giảm mạnh, hiệu quả thậm chí tăng do nhắm chọn (targeting) tốt hơn.
- Localize hay bán hàng quốc tế không còn rào cản ngôn ngữ, vì bot dịch mọi thứ “nháy mắt.” Con người có thể mua sắm khắp nơi, chỉ còn lo khâu vận chuyển và tồn kho.
- Nếu làm đúng, agent chính là “vệ sĩ” quyền riêng tư: chúng nắm dữ liệu của bạn nhưng chỉ chia sẻ khi bạn cho phép. Sự tin tưởng ấy khiến ta sẵn sàng giao thêm dữ liệu, tạo “vòng xoáy giá trị” (data → understanding → results → data → …).
- Mặt trái: sẽ phải có công cụ phòng thủ chống bot xấu, có thể là một dạng robots.txt 2.0 quy định bot nào được phép làm gì. Bảo mật mạng (cybersecurity) càng quan trọng và phức tạp, vì bot xấu có thể “đóng giả” bot tốt tinh vi hơn.
- Cần quan tâm tác động môi trường do tiêu thụ năng lượng tăng. Mong rằng bot hành động hiệu quả hơn, cắt giảm lưu lượng web do con người tạo ra, bù lại “cơn khát” năng lượng từ LLM.
Điểm mấu chốt
- Định dạng dễ “ăn” bot nhất là dữ liệu thô và có cấu trúc: XML, RSS, API feed. Chúng ta đã gửi feed sản phẩm và sitemap XML lên Google, nhưng agentic bot còn đòi hỏi nhiều hơn. Web design cho người xem có thể bớt quan trọng, bởi hầu hết trang web cũng khá giống nhau.
- “Feed design” (thiết kế luồng dữ liệu) sẽ nổi lên: gồm thông tin gì, tần suất cập nhật, phản hồi ra sao…
- Marketer sẽ dành nhiều thời gian “mổ xẻ” cách bot đàm thoại với người dùng. Bot có thể trở thành “hộp đen” như thuật toán Google, nhưng quảng cáo sẽ hé lộ phần nào những gì mọi người hỏi nhiều nhất.
Quan hệ và lòng trung thành
Trong viễn cảnh “agentic,” rất khó để khách hàng “chuyển brand” một khi họ đã quen dùng một thương hiệu và thấy hài lòng (trừ phi có trải nghiệm tồi). Vì thế, một chiến thuật marketing quan trọng là kéo khách hàng dùng thử bằng khuyến mãi, ưu đãi độc quyền… Một khi bạn chứng minh được sản phẩm tốt hơn, nhiệm vụ tiếp theo là thuyết phục người dùng thử. Điều này hiện giờ cũng đúng, nhưng khi agent “tự động” mua sắm giúp, marketer càng cần xây dựng mối quan hệ, nâng cao nhận thức thương hiệu và tập trung vào các yếu tố “marketing kiểu cũ” như giá cả, phân phối (shipping), và khác biệt (USP).
Tóm tắt lại
- Bot “thân thiện” có thể trở thành “công dân” của open web, khi con người rút dần sang các mạng xã hội hoặc nền tảng đóng.
- AI (đặc biệt là agentic LLM) đang thúc đẩy “dân số bot” tăng phi mã, đe dọa vượt xa lượng truy cập từ con người.
- Với marketer, đặc biệt là dân SEO, đây vừa là thách thức vừa là cơ hội. Chúng ta phải nghĩ đến việc tối ưu cho bot, xây dựng dữ liệu dạng feed, duy trì tính “kỹ thuật” (Technical SEO) vững vàng, và tìm cách “chen chân” vào những quyết định mà agent tạo ra cho người dùng.
Một kỷ nguyên mới của internet đang định hình, nơi bot trở thành “người duyệt web” chủ đạo, còn con người tập trung vào tương tác, trải nghiệm và sáng tạo ở không gian “đóng” hơn. Câu hỏi đặt ra: Bạn sẽ thích nghi với cuộc chơi mới này nhanh đến mức nào?
Tài liệu tham khảo
(1) Imperva Bad Bot Report 2024
(2) Cloudflare Radar
(3) Akamai Press Release
(4) Cloudflare Radar Explorer: verified_bots
(5) Anthropic: “3.5 Models & Computer Use”
(6) AndroidPolice: Google Jarvis AI Extension Leak
(7) Bloomberg: OpenAI “Operator” agents
(8) Wikipedia Pageviews