
Sau lần phân tích đầu tiên về hơn 546.000 AI Overviews, tôi tiếp tục tìm hiểu sâu 3 câu hỏi:
- Dữ liệu Common Crawl và AI Overviews liên quan như thế nào?
- Ý định người dùng (user intent) thay đổi AI Overviews ra sao?
- Sự phân bố của các kết quả top 20 ảnh hưởng thế nào đến các tên miền vừa có thứ hạng tự nhiên vừa được trích dẫn trong AIO?
1/ Dữ liệu Common Crawl và AI Overviews liên quan thế nào?
Việc được Common Crawl thu thập dữ liệu không ảnh hưởng nhiều đến khả năng hiển thị trong AIO bằng chính lưu lượng tự nhiên (organic traffic).
Common Crawl là tổ chức phi lợi nhuận quét dữ liệu web và cung cấp miễn phí. Đây cũng là nguồn dữ liệu lớn dùng để huấn luyện AI tạo sinh (Generative AI). Một số trang như Blogspot đóng góp rất nhiều trang, khiến ta tự hỏi liệu điều đó có giúp họ “chiếm lợi thế” trong câu trả lời LLM (mô hình ngôn ngữ lớn) hay không.
Kết quả: Tôi tự hỏi liệu các trang đóng góp nhiều trang hơn có được xuất hiện nhiều trong AIO hay không. Cuối cùng, điều này không đúng. Khi so sánh top 500 tên miền đóng góp nhiều trang nhất cho Common Crawl với top 30.000 tên miền trong bộ dữ liệu của tôi, tôi thấy hệ số tương quan chỉ 0,179 – khá yếu. Lý do có thể là Google không dựa vào Common Crawl để huấn luyện và cung cấp thông tin cho AIO, mà là dựa trên chính chỉ mục (index) của họ.
Tiếp đó, tôi phân tích mối liên hệ giữa top 3.000 tên miền có lượng truy cập tự nhiên cao nhất (theo Semrush) với top 30.000 tên miền trong dữ liệu của tôi, kết quả cho thấy hệ số tương quan mạnh tới 0,714! Nói cách khác, những tên miền có nhiều lưu lượng tự nhiên thường có xu hướng rất nổi bật trong AI Overviews. AIO càng lúc càng ưu ái các yếu tố hiệu quả trong tìm kiếm tự nhiên, nhưng vẫn có những “tiêu chí riêng” không hoàn toàn giống.
Cũng cần lưu ý rằng một vài trang web gây ra sự “lệch” trong kết quả. Khi loại bỏ Wikipedia và Youtube, hệ số tương quan giảm còn 0,485 – vẫn là mức khá cao, chỉ thấp hơn so với lúc tính chung hai “gã khổng lồ” kia. Thêm nữa, loại bỏ những trang lớn khác thì hệ số cũng không đổi nhiều, càng khẳng định quan điểm rằng việc làm tốt SEO tự nhiên có tác động lớn đến khả năng xuất hiện trong AIO.
Như tôi đã viết trong bài trước:
“Đứng top cao trong kết quả tìm kiếm tự nhiên chắc chắn tăng khả năng xuất hiện trong AIO, nhưng đó không phải yếu tố duy nhất.”
Nghĩa là, doanh nghiệp vẫn có thể chặn bot Common Crawl trong file robots.txt (nếu không muốn dữ liệu hiển thị trong các bộ dữ liệu công khai hay công cụ AI như ChatGPT) nhưng vẫn có khả năng hiện diện rất tốt trong AI Overviews của Google.
2/ Ý định người dùng (user intent) thay đổi AI Overviews ra sao?
Ý định người dùng quyết định cả hình thức lẫn nội dung của AIO.
Trong phân tích trước, tôi đã kết luận rằng khớp chính xác truy vấn không quan trọng nhiều:
“Dữ liệu cho thấy chỉ 6% AIO chứa từ khóa truy vấn.
Con số này trong SGE là 7%, còn ở các AIO live là 5,1%. Vì thế, việc đáp ứng ý định người dùng trong nội dung còn quan trọng hơn chúng ta tưởng. Đây không quá bất ngờ vì từ lâu, ý định người dùng luôn là yếu tố cốt lõi trong SEO, nhưng nhìn con số cụ thể cũng khiến ta kinh ngạc.”
Để tính được ý định người dùng (chính xác) cho toàn bộ 546.000 truy vấn thì rất tốn tài nguyên, nên tôi chỉ phân nhóm thành 3 loại cơ bản: informational (thông tin), local (địa phương), và transactional (giao dịch/mua hàng). Mặc dù khá tổng quát khi tối ưu nội dung, nhưng những nhóm này tạm đủ để xem bức tranh dữ liệu tổng thể.
Tôi đã gom nhóm như sau:
- Truy vấn informational: Chứa từ khóa “what”, “why”, “when”, v.v.
- Truy vấn transactional: Chứa từ khóa “buy”, “download”, “order”, v.v.
- Truy vấn local: Chứa “nearby”, “close” hoặc “near me”.
Kết quả: Sự khác biệt về ý định người dùng thể hiện ở cách thức và chức năng của AIO. Độ dài trung bình (tính theo số từ) giữa các loại ý định hầu như ngang nhau, ngoại trừ nhóm local thường ngắn hơn, điều này hợp lý vì người dùng cần danh sách địa điểm hơn là văn bản mô tả. Mặt khác, truy vấn mua hàng (transactional) thường hiển thị AIO dạng danh sách sản phẩm kèm chút mô tả, trừ khi có câu hỏi cụ thể về mua sắm.
Các truy vấn local có tỷ lệ trùng khớp từ khóa cao nhất giữa truy vấn và câu trả lời, trong khi các truy vấn informational lại thấp nhất. Việc hiểu và đáp ứng đúng ý định người dùng cho các câu hỏi dạng thông tin phức tạp đòi hỏi nhiều công sức hơn, nhưng đồng thời quan trọng hơn để được AIO trích dẫn (so với Featured Snippets).
3/ Sự phân bố của các kết quả top 20
Trong phân tích gần đây nhất của tôi, tôi thấy rằng gần 60% URL xuất hiện trong AIO và kết quả tìm kiếm tự nhiên xếp hạng ngoài 20 vị trí hàng đầu. Đối với Bản ghi nhớ này, tôi đã chia nhỏ 20 vị trí hàng đầu hơn nữa để hiểu liệu AIO có nhiều khả năng trích dẫn URL ở vị trí cao hơn hay không.
Kết quả: Hóa ra 40% URL trong AIO xếp hạng ở vị trí 11-20 và chỉ một nửa (21,9%) xếp hạng trong top 3. Phần lớn 60% URL được trích dẫn trong AIO vẫn xếp hạng trên trang đầu tiên của kết quả tự nhiên, củng cố quan điểm rằng thứ hạng tự nhiên cao hơn có xu hướng dẫn đến cơ hội được trích dẫn cao hơn trong AIO. Tuy nhiên, dữ liệu cũng cho thấy rằng rất khó có thể xuất hiện trong AIO với thứ hạng tự nhiên thấp hơn.
Các kịch bản
Tôi sẽ phối hợp với khách hàng của mình để đáp ứng đúng ý định người dùng trong AIO, cung cấp “insights” độc đáo và định dạng nội dung cho phù hợp.
Dưới đây là vài kịch bản có thể xảy ra trong tiến trình phát triển của AI Overview. Tôi sẽ theo dõi và đối chiếu với dữ liệu trong những tháng và năm tới.
Kịch bản 1: AIO dựa nhiều hơn vào các kết quả tự nhiên top đầu, phục vụ tốt ý định thông tin để người dùng không cần nhấp vào trang. Lúc này, đa số lượt nhấp đến trang web chỉ còn từ người dùng muốn xem xét mua hàng.
Kịch bản 2: AIO tiếp tục trả lời dựa trên các nguồn đa dạng, vẫn để một cơ hội nhỏ cho việc người dùng nhấp vào các kết quả top đầu, dù tần suất ít hơn nhiều.
Bạn đặt cược vào kịch bản nào?