
Trong tương lai, các công cụ tìm kiếm có thể không còn chủ động thu thập nội dung nữa. Thay vào đó, các quản trị viên web sẽ gửi nội dung đến cho họ thông qua API Indexing.
Sự kết thúc của kỷ nguyên Crawling và khởi đầu của API Indexing
Google đã trở thành startup thành công nhất trong lịch sử nhờ vào việc thu thập (crawl) thông tin từ web, xây dựng một chỉ mục (index) các trang web và xếp hạng chúng dựa trên độ phổ biến. Nhưng tôi đang thấy những dấu hiệu của một sự thay đổi lớn từ việc thu thập dữ liệu sang việc sử dụng API Indexing. Trong tương lai, các công cụ tìm kiếm có thể sẽ không tự mình đi tìm nội dung nữa, mà các quản trị viên web sẽ mang nội dung đó đến cho họ.
Tóm tắt nhanh:
Sự phát triển bùng nổ của web, những vấn đề gần đây mà Google gặp phải với việc lập chỉ mục, và sự tiến triển của Bing và Google trong lĩnh vực này khiến tôi nghĩ rằng việc thu thập dữ liệu từ web có thể sẽ dần được thay thế bằng API Indexing.
Để chuẩn bị cho điều này, các quản trị viên web nên:
- Đăng ký sử dụng API Indexing của Bing.
- Thử gửi các trang thông thường thông qua API lập chỉ mục công việc (job indexing API) của Google.
- Dùng thử plugin WordPress của RankMath.
- Sử dụng mẫu Node JS của David Sottimano.
Mục tiêu của các công cụ tìm kiếm, ít nhất là với Google, là “tổ chức thông tin toàn cầu và làm cho thông tin đó trở nên dễ tiếp cận và hữu ích với mọi người”. Tuy nhiên, web đang ngày càng phát triển mạnh mẽ hơn. Google phát hiện ra hàng trăm tỷ trang web, phần lớn trong số đó là spam. Thêm vào đó, rất khó để Google có thể tương thích với tất cả các framework lập trình khác nhau hiện nay, và cuối cùng, việc thu thập dữ liệu từ web không hề rẻ.
Google cần phải giữ cho chỉ mục của mình nhỏ gọn nhất có thể, trong khi vẫn đảm bảo rằng chỉ bao gồm những kết quả tốt nhất. Hãy nghĩ mà xem, sở hữu một chỉ mục khổng lồ chỉ là một mục tiêu phô trương. Chất lượng của các kết quả đã được lập chỉ mục mới là điều quan trọng. Mọi thứ khác đều không hiệu quả.
Đó là lý do vì sao Google không muốn lãng phí thời gian để thu thập và xử lý các trang web có chất lượng thấp. Chúng chỉ làm đầy chỉ mục bằng rác thải mà thôi. Và đây chính là cơ sở cho ý tưởng về crawl budget (ngân sách thu thập dữ liệu).
Sự chuyển đổi từ việc thu thập dữ liệu web sang sử dụng API Indexing
Hiện tại, quy trình hoạt động cổ điển của các công cụ tìm kiếm vẫn bao gồm 4 bước: Crawl > Render > Index > Rank. Trong tương lai, tôi nghĩ rằng hai bước đầu tiên có thể được thực hiện chủ yếu thông qua việc sử dụng API Indexing. Và tôi có 4 lý do chính để đưa ra nhận định này:
4 lý do chính khiến API Indexing ưu việt hơn thu thập dữ liệu truyền thống
Việc thu thập dữ liệu là một phần cốt lõi của việc truy xuất thông tin và thành công của các công cụ tìm kiếm. Vậy tại sao họ lại muốn thay đổi cách thức này?
- Giảm lượng spam
Spam luôn là một vấn đề nhức nhối đối với các công cụ tìm kiếm ngay từ khi chúng mới ra đời. Như tôi đã đề cập trong bài viết về vấn đề spam và công cụ tìm kiếm, spam có thể trở thành mối đe dọa chết người với Google vì nó lãng phí rất nhiều tài nguyên thu thập, tạo ra trải nghiệm kém cho người dùng, và những kẻ spam ngày càng trở nên tinh vi hơn. Các thuật toán của Google phải liên tục cải thiện để đối phó với vấn đề này.
Việc sử dụng API Indexing có thể giúp giải quyết một phần lớn vấn đề spam vì chúng tạo ra một điểm nghẽn (bottleneck). Việc lập chỉ mục sẽ dễ kiểm soát hơn. Và ai lại ngu ngốc đến mức tự tay gửi spam trực tiếp cho Google? Đó chẳng khác nào kẻ trộm đi ăn cắp ngay trước mặt cảnh sát!
Các công cụ tìm kiếm có thể sử dụng một số tín hiệu để quyết định nội dung nào sẽ được chấp nhận và nguồn nào nên bị hạn chế để ngăn chặn việc spam API, chẳng hạn như:- Xác minh tuổi tài khoản.
- Số lượt hiển thị của trang.
- Chất lượng nội dung được gửi.
- Giảm thiểu vấn đề khi render
Một trong những “kẻ thù không đội trời chung” của các công cụ tìm kiếm là việc xử lý Javascript. Một thử nghiệm thú vị của Bartosz từ Onely cho thấy Google không thể render tất cả các framework một cách hoàn hảo, và nhiều trang web lớn vẫn gặp khó khăn trong việc này. Phải công nhận rằng Google đã tiến những bước lớn trong việc cải thiện khả năng render, nhưng vấn đề này vẫn chưa được giải quyết triệt để.
API Indexing có thể là một giải pháp bởi vì nó cho phép các quản trị viên web gửi bản HTML đã được render hoàn chỉnh. Công cụ tìm kiếm sẽ không phải lo lắng nhiều về việc render nữa. - Tiết kiệm tài nguyên
Có rất nhiều yếu tố quyết định tần suất và nội dung mà Google sẽ thu thập, ví dụ như mức độ phổ biến của URL và tần suất thay đổi của nó (nguồn: tài liệu của Google).
Khi web mở rộng ra hàng tỷ tài liệu và chỉ mục của công cụ tìm kiếm cũng phải mở rộng tương ứng, chi phí để thu thập lại mỗi tài liệu thường xuyên sẽ tăng cao theo cấp số nhân.
Sử dụng API Indexing sẽ giúp tiết kiệm tài nguyên hơn rất nhiều. Google sẽ không phải kiểm tra lại server, xác định trạng thái chính tắc (canonical state) của một URL hay tuân theo các chỉ thị của robots.txt nữa. Các bộ lập lịch sẽ không cần phải tính toán khi nào quay lại để thu thập URL đó. Thay vào đó, họ chỉ cần render, lập chỉ mục và xếp hạng nội dung mà các quản trị viên web muốn hiển thị. - Tăng hiệu quả chi phí
Chi phí của việc thu thập dữ liệu và lập chỉ mục là không hề nhỏ. Thay thế quy trình này bằng API Indexing sẽ giúp Google tiết kiệm được rất nhiều chi phí trong dài hạn, đặc biệt khi khối lượng dữ liệu trên web ngày càng tăng.
Các bước mà SEO có thể làm ngay từ bây giờ
Câu hỏi lớn ở đây là “Làm thế nào để chuẩn bị?” Tôi có 4 đề xuất cho bạn:
- Thử nghiệm API Indexing của Bing
- Dùng thử API Indexing (phiên bản giới hạn) của Google
- Sử dụng plugin WordPress của RankMath
- Dùng mẫu Node JS của David Sottimano
Kết luận: Crawling web không còn là giải pháp bền vững
XML sitemaps là bước đầu tiên hướng đến một quy trình lập chỉ mục ít phụ thuộc vào việc thu thập dữ liệu. API Indexing là bước tiếp theo. XML sitemaps chỉ báo cho công cụ tìm kiếm biết khi nào một URL có sự thay đổi, nhưng không nói rõ đó là thay đổi gì. API Indexing tiến xa hơn một bước bằng cách gửi toàn bộ nội dung trực tiếp đến công cụ tìm kiếm.
Tôi không nghĩ rằng các công cụ tìm kiếm sẽ ngừng hoàn toàn việc thu thập dữ liệu, nhưng họ sẽ giảm thiểu tối đa hoạt động này. Google đã và đang khuyến khích các quản trị viên web tuân theo những yêu cầu của họ bằng cách nắm giữ quyền kiểm soát lưu lượng truy cập.