
Phân tích +546.000 bản AI Overviews
AI Overviews (AIO) có thể là thay đổi lớn nhất của SEO kể từ thời di động, thậm chí có thể lớn hơn.
Cho đến nay, chúng ta vẫn thiếu một bộ dữ liệu đại diện để phân tích sâu cách AIO (AI Overviews) vận hành. Nhờ có dữ liệu độc quyền từ Surfer, tôi đã thực hiện một phân tích quy mô lớn nhất về AIO với hơn 546.000 hàng và dữ liệu dung lượng +44GB. Bộ dữ liệu này cho thấy rõ “ai”, “tại sao” và “làm thế nào” để xếp hạng trong AIO. Tuy nhiên, nó cũng mở ra nhiều câu hỏi mới mà chúng ta có thể tiếp tục khám phá để hiểu rõ hơn về cách thành công với AIO.
Tầm quan trọng là rất lớn: AIO có thể dẫn đến việc giảm lưu lượng truy cập đáng kể, khoảng -10% (theo phân tích ban đầu của tôi), tùy thuộc vào cách thiết kế trích dẫn (citation) và ý định người dùng. Và chúng ta không thể trốn tránh điều này. Sau lần “rút bớt” AIO hai tuần sau khi ra mắt cuối tháng Năm, tính năng này đã dần “tăng tốc” trở lại.
Dữ liệu phân tích
- Bộ dữ liệu gồm 546.513 hàng, dung lượng 44,4GB và trên 12 triệu tên miền.
- 85% truy vấn và kết quả bằng tiếng Anh.
- 253.710 kết quả ở dạng live (tức không thuộc SGE – môi trường beta của Google), 285 nghìn kết quả còn lại thuộc SGE.
- Có 8.297 truy vấn hiển thị AIO ở cả SGE và kết quả thông thường.
- Dữ liệu chứa truy vấn, kết quả tự nhiên (organic), tên miền được trích dẫn và nội dung câu trả lời của AIO.
- Bộ dữ liệu được lấy vào tháng 6.
Hạn chế:
- Có thể một số tính năng mới không được phản ánh vì AIO thay đổi liên tục.
- Bộ dữ liệu chưa bao gồm các ngôn ngữ như Bồ Đào Nha hoặc Tây Ban Nha (vừa được bổ sung gần đây).
- Tôi sẽ chia sẻ thêm thông tin trong các bản Memo tới, hãy đón đọc phần 2.
Kết quả phân tích
Trong lần khám phá đầu tiên này, tôi muốn trả lời 5 câu hỏi:
- Những tên miền nào xuất hiện nhiều nhất trong AIO?
- Liệu AIO nào cũng có trích dẫn không?
- Vị trí xếp hạng tự nhiên có quyết định khả năng hiện diện trong AIO không?
- Có bao nhiêu AIO chứa cụm từ truy vấn?
- AIO trong SGE và AIO bên ngoài SGE có khác nhau nhiều không?
1/ Những tên miền nào được trích dẫn nhiều nhất trong AIO?
Chúng ta có thể giả định rằng những tên miền được trích dẫn nhiều nhất sẽ nhận được nhiều lưu lượng nhất từ AIO. Trong các phân tích trước của tôi, Wikipedia và Reddit là nguồn trích dẫn nhiều nhất. Nhưng lần này, bức tranh lại khác biệt:
Top 10 tên miền được trích dẫn nhiều nhất trong AIO:
- youtube.com
- wikipedia.com
- linkedin.com
- NIH (National Library of Medicine)
- support.google.com
- healthline.com
- webmd.com
- support.microsoft.com
- mayoclinic.org
Top 10 tên miền xếp hạng cao nhất trong kết quả tự nhiên (classic search):
- www.google.com
- www.youtube.com
- www.reddit.com
- www.quora.com
- en.wikipedia.org
- www.linkedin.com
- support.google.com
- www.healthline.com
- www.ncbi.nlm.nih.gov
- www.webmd.com
Điểm khác biệt lớn nhất? Reddit, Quora và Google hầu như vắng mặt trong danh sách trích dẫn AIO. Điều này mâu thuẫn với xu hướng từng thấy. Tôi chỉ tìm được rất ít trích dẫn AIO dành cho ba tên miền này:
- Reddit: 130
- Quora: 398
- Google: 612
Phải chăng Google đã cố tình thay đổi?
Rõ ràng, AIO có thể hiển thị sự chênh lệch rất lớn giữa URL được trích dẫn và URL xếp hạng trong kết quả tìm kiếm cổ điển.
Việc hai mạng xã hội Youtube và Linkedin góp mặt trong top 3 tên miền được trích dẫn nhiều nhất gợi ý chúng ta có thể dùng nội dung trên Youtube và Linkedin để ảnh hưởng đến AIO thậm chí còn dễ hơn so với trang web của chính mình. Video đòi hỏi nhiều công sức sản xuất hơn so với một bài đăng trên Linkedin, nhưng nó cũng có thể mang tính phòng vệ tốt hơn trước “kẻ sao chép”. Vì vậy, chiến lược tối ưu AIO nên tính đến cả nội dung mạng xã hội và video.
2/ Liệu AIO nào cũng có trích dẫn nguồn?
Chúng ta thường cho rằng AIO nào cũng phải có trích dẫn. Nhưng không phải thế. Đối với một số truy vấn với ý định tìm kiếm rất đơn giản, ví dụ “Meta description cho một bài viết là gì?” hoặc “1.5 có phải là số nguyên không?”, Google không hề hiển thị trích dẫn nào. Tôi đếm được 4.691 truy vấn không có trích dẫn (chiếm 0,85% bộ dữ liệu) – chưa đến 1%.
Câu hỏi đặt ra là liệu lưu lượng truy cập với các truy vấn này ban đầu có thực sự giá trị hay không. Dù vậy, việc Google sẵn sàng hiển thị câu trả lời AI mà không kèm trích dẫn tạo ra nghi ngại: Liệu rồi Google có mở rộng kiểu “không trích dẫn” này sang các truy vấn phức tạp và có giá trị hơn? Nếu xảy ra, hậu quả sẽ rất lớn vì trích dẫn là cách duy nhất để các trang web nhận được nhấp chuột từ AIO.
3/ Vị trí xếp hạng tự nhiên có quyết định khả năng hiện diện trong AIO?
Gần đây, có thêm dữ liệu cho thấy sự trùng lặp cao giữa các trang được trích dẫn trong AIO và các trang xếp hạng cao cho cùng truy vấn. Nói cách khác, liệu chúng ta có cần chiến lược tối ưu riêng cho AIO khác với cách tối ưu để xếp hạng trong kết quả tìm kiếm thông thường?
Ở giai đoạn đầu, Google từng trích dẫn các URL không nằm trong top 10, thậm chí đến từ các tên miền bị phạt hoặc chưa được lập chỉ mục. Điều này gây lo lắng rằng hệ thống có thể chọn trích dẫn ở rất xa bảng xếp hạng, khiến việc tối ưu cho AIO trở nên khó khăn, đồng thời có nguy cơ đáp án thiếu chính xác. Trong 1-2 tháng trở lại đây, xu hướng đó có vẻ đã thay đổi, nhưng dữ liệu không cho thấy sự đảo ngược hoàn toàn.
Tôi tìm được:
- 9,2 triệu URL duy nhất nằm trong top 20 kết quả tự nhiên.
- 2,7 triệu URL trong trích dẫn AIO.
- 1,1 triệu URL vừa nằm trong top 20 vừa được trích dẫn trong AIO.
12,1% URL nằm trong top 20 cũng được trích dẫn trong AIO. Ngược lại, 59,6% URL được trích dẫn trong AIO không xuất hiện trong top 20! Kết quả này cũng khớp với một bằng sáng chế của Google về cách họ chọn liên kết sau khi tạo bản tóm tắt (summarization)¹, cùng với hệ số tương quan yếu giữa thứ hạng tự nhiên và trích dẫn AIO: -0,19 tổng thể và -0,21 đối với top 3.
Dĩ nhiên, đứng càng cao trong kết quả tìm kiếm thì cơ hội xuất hiện trong AIO càng lớn, nhưng đó không phải yếu tố duy nhất.
Google muốn đa dạng hóa nguồn trích dẫn trong AIO. Trong kết quả tự nhiên, trung bình mỗi URL xếp hạng cho khoảng 15,7 từ khóa (bất kể vị trí top 10 hay không). Còn với các URL trong AIO, con số trung bình là 8,7 từ khóa. Nhờ vậy, nhiều website hơn có thể hưởng lợi từ nhấp chuột vào AIO. Dù vậy, sự “đa dạng” này bị hạn chế bởi số URL được trích dẫn ít hơn, và số lượt nhấp ra ngoài cũng có thể giảm do nội dung trả lời AI chi tiết hơn. Khoảng hơn 12 triệu URL xuất hiện trong kết quả tự nhiên, nhưng chỉ 2,7 triệu xuất hiện trong AIO (23,1%).
4/ Có bao nhiêu AIO thực sự chứa cụm từ truy vấn?
Vẫn chưa rõ liệu các câu trả lời của AIO có bao gồm y nguyên “từ khóa truy vấn” hay không. Vì ý định người dùng thường được ngầm hiểu (implied) chứ không phải hiển thị (explicit), nên có thể AIO không sử dụng chính cụm từ đó. Nếu chúng ta quá bám vào việc nhồi nhét từ khóa mà quên đi ý định (intent), Google có thể không lấy nội dung làm nguồn trích dẫn.
Dữ liệu cho thấy chỉ 6% AIO có chứa cụm từ truy vấn.
Tỷ lệ này nhỉnh hơn 7% đối với SGE và thấp hơn 5,1% ở các kết quả AIO ngoài SGE. Điều này cho thấy việc đáp ứng ý định người dùng trong nội dung còn quan trọng hơn việc bám sát từ khóa. Thực ra, điều này không quá bất ngờ vì “user intent” luôn là yếu tố cốt lõi trong SEO suốt nhiều năm. Nhưng khi có số liệu cụ thể, chúng ta càng thấy rõ mức độ quan trọng của nó.
5/ AIO trong SGE và AIO ngoài SGE khác nhau thế nào?
SGE là môi trường thử nghiệm của Google cho các tính năng tìm kiếm mới, chứ không đồng nghĩa với AI Overviews. Do Google đang thử nghiệm những tính năng AI mới trong SGE, ta cần xem liệu AIO trong SGE có khác biệt lớn so với ngoài SGE không. Và nếu khác, liệu chúng ta có thể dự đoán tương lai từ những gì diễn ra ở SGE?
Tôi đã xem xét hơn 8.000 AIO vừa xuất hiện trong SGE vừa có phiên bản live, và thấy rằng 30% nội dung AIO có sự khác biệt rõ rệt giữa SGE và live. Do đó, kết quả SGE không hẳn là dấu hiệu chuẩn về những gì sẽ diễn ra, ít nhất là ở giai đoạn này.
Về độ dài, trung bình AIO trong SGE là 1.019 ký tự, còn live là 996 ký tự. Ví dụ, với truy vấn “Marketing manager”, AIO trong SGE có 347 ký tự so với 1.473 ký tự bản live. Nhưng cũng có truy vấn “P&L” lại cho AIO SGE là 1.188 ký tự và AIO live là 1.124 ký tự. Không thể rút ra kết luận AIO trong SGE dài hơn hay ngắn hơn “bản live”; mọi thứ còn rất linh hoạt. Tôi sẽ tiếp tục phân tích sâu thêm.
Ở cấp độ tên miền, 10 tên miền sau sẽ có mức tăng tương đối lớn nhất về độ hiển thị nếu SGE dự báo tương lai:
- byjus.com
- geeksforgeeks.org
- timesofindia.indiatimes.com
- amazon.com
- ahrefs.com
- github.com
- medium.com
- pcmag.com
- techtarget.com
- coursera.org
Còn top 10 tên miền chịu thiệt hại lớn nhất về độ hiển thị nếu điều đó đúng là:
- support.squarespace.com
- knowledge.hubspot.com
- quickbooks.intuit.com
- allrecipes.com
- bhg.com
- bankrate.com
- cnbc.com
- nerdwallet.com
- thespruce.com
- tiktok.com
Ý nghĩa
Tổng hợp lại, chúng ta có 3 điểm chính:
Tối ưu cho AIO giống tối ưu Featured Snippets, nhưng tập trung mạnh hơn vào ý định người dùng. Với Featured Snippet, chúng ta cần “match” rất cụ thể với câu hỏi và làm rõ “đây là câu trả lời”. AIO thì khác: câu chữ chính xác ít quan trọng bằng việc cung cấp thông tin “hữu ích” trong bối cảnh truy vấn.
3 thách thức nổi bật:
- Xác định và nhắm mục tiêu chính xác phần nội dung (dạng danh sách, so sánh, giải thích “What is…?”, “How to…?” v.v.) có khả năng lọt vào AIO.
- Theo dõi thường xuyên vì AIO thay đổi liên tục, dẫn đến phải điều chỉnh nội dung và kỳ vọng tác động. Gần đây, Google thử nghiệm thêm cột bên với liên kết thay vì carousel².
- Xếp hạng trong top 10, tốt nhất là top 3, không bắt buộc nhưng rõ ràng vẫn tăng khả năng được trích dẫn.
SGE hữu ích để theo dõi những thay đổi tiềm năng về thiết kế AIO, nhưng không thể dự đoán chắc chắn nội dung AIO sẽ thay đổi ra sao. Rủi ro lớn cần chú ý vẫn là những AIO không có trích dẫn.
“Social” có thể sẽ “tái xuất”. Vài năm trước, “tín hiệu mạng xã hội” từng được thổi phồng như yếu tố xếp hạng SEO. Hiện tại, chính việc YouTube và LinkedIn được trích dẫn nhiều là cơ hội để tác động đến AIO bằng nội dung xã hội và video.
Suy nghĩ về tương lai
AIO đang không “tạo ra sân chơi công bằng hơn” mà thậm chí thu hẹp cơ hội. Chỉ một số ít website có mặt trong trích dẫn sẽ được hưởng lợi, trong khi số còn lại bị đẩy ra xa hơn. AIO cũng giải đáp truy vấn chi tiết hơn Featured Snippets, khiến người dùng ít cần nhấp chuột ra ngoài.
Rủi ro trang web nhận được ít nhấp chuột hơn sẽ tăng cùng với mức độ “giỏi” của AIO – và điều đó cũng ảnh hưởng đến số nhấp chuột quảng cáo. Từ trước đến nay, kết quả trả phí (ads) và kết quả tự nhiên vẫn duy trì một sự cân bằng. Khi nội dung tự nhiên (organic) càng tốt, lượt nhấp quảng cáo có thể giảm, trừ khi Google chèn thêm các module quảng cáo mới (điều rất có thể sẽ xảy ra).
Đồng thời, Google đang chịu sức ép từ những đối thủ như OpenAI hay Perplexity – liên tục cải thiện mô hình AI, làm tăng khả năng người dùng “lánh xa” Google để tìm câu trả lời. Google sẽ phải tiếp tục đổi mới và thử nghiệm với AI trong kết quả tìm kiếm.
Nhiều khả năng sẽ có sự khác biệt về thiết kế AIO giữa EU và các nước ngoài EU. Quy định và tiền phạt mới có thể khiến các “ông lớn” công nghệ như Alphabet, Meta hay Apple e dè hơn khi ra mắt tính năng AI tại EU, dẫn đến kịch bản “hai Internet” tách biệt, cho phép chúng ta so sánh tác động và sự thay đổi AI ở Mỹ so với EU.
Hãy đón chờ phần 2!
¹ https://richsanger.com/google-ai-overview-study-link-selection-based-on-related-queries/
² https://blog.google/products/search/new-ways-to-connect-to-the-web-with-ai-overviews/