
Spam là một trong những vấn đề lớn nhất mà Google và các công cụ tìm kiếm nói chung đang phải đối mặt. Khi các công cụ tìm kiếm quét qua hàng loạt trang web, chúng sẽ gặp phải rất nhiều nội dung spam. Theo báo cáo mới nhất của Google về spam, phần lớn các nội dung mà họ tìm thấy thực chất đều là spam.
Một mặt, việc tạo ra nội dung spam không tốn kém nhiều nhưng dường như vẫn mang lại lợi nhuận (nếu không thì tại sao mọi người lại tiếp tục tạo ra spam?).
Chỉ cần tìm kiếm một chút là bạn có thể thấy các nội dung spam ngay cả trong chính hệ thống của Google (xem ảnh minh họa dưới đây).
Tôi đã từng làm việc tại ba công ty phải đối phó với vấn đề này. Ở Dailymotion, chúng tôi đã bị tràn ngập bởi spam. Tại Atlassian, các nền tảng công khai như Jira, Confluence, Bitbucket và Trello đều chứa đầy nội dung spam. Chúng tôi không gặp tình trạng nghiêm trọng như vậy vì chúng tôi kiểm duyệt tất cả các bài đánh giá, nhưng vẫn có một số công ty cố tình lợi dụng hệ thống để trục lợi.
Kiểm soát nội dung do người dùng tạo ra (User-Generated Content – UGC) trên quy mô lớn thực sự là một thách thức nếu bạn không thể kiểm duyệt từng bài đăng hoặc từng mục nhập một.
Có một nguyên lý tồn tại trên Internet: nếu ai đó có thể kiếm lợi bằng cách spam một nền tảng trực tuyến, thì nền tảng đó sẽ bị spam.
Điều này dẫn đến hai câu hỏi:
- Bạn có thể làm gì để đối phó với spam?
- Nó gây hại cho doanh nghiệp của bạn đến mức nào?
Tại Dailymotion, spam đã ảnh hưởng nghiêm trọng đến hoạt động kinh doanh của chúng tôi từ góc độ SEO và trải nghiệm người dùng. Ở Atlassian, vấn đề này không thực sự gây hại (ngoại trừ với Trello) vì hầu hết các nền tảng công khai không thu hút nhiều lưu lượng truy cập chất lượng cao.
Đối với Google, đó là một mối đe dọa chết người.
Thứ nhất, spam tiêu tốn tài nguyên của Google. Mỗi trang được thu thập dữ liệu đều tiêu tốn chi phí. Nếu trang đó không cung cấp nội dung giá trị và không nằm trong kết quả tìm kiếm có ích cho người dùng, thì đó là một khoản lãng phí chi phí.
Thứ hai, những kết quả spam hiển nhiên là những kết quả kém chất lượng đối với người dùng. Đôi khi, chúng còn vi phạm bản quyền. Nếu Google trở thành một “vũng lầy” chứa đầy các phần mềm, phim ảnh và các tệp bất hợp pháp, họ có thể sẽ phải đối mặt với những vụ kiện tốn kém. Chưa kể, người dùng sẽ rời bỏ Google để tìm kiếm một công cụ tìm kiếm khác “sạch” hơn.
Thứ ba, những kẻ tạo ra spam ngày càng tinh vi hơn. Nỗi lo về việc spam được tạo ra bởi AI mà Google không thể phát hiện là hoàn toàn có cơ sở. Một trong những lý do Google muốn đi đầu trong lĩnh vực Machine Learning (học máy) là để xác định xem nội dung được tạo ra bởi máy móc hay con người. Không có gì lạ khi Google sở hữu một trong những đội ngũ nghiên cứu học máy hàng đầu thế giới.
Google cần phải tìm ra cách để giữ cho chỉ mục của mình sạch sẽ khỏi spam.
Báo cáo spam web của google
Theo Google:
“Với hàng trăm tỷ trang web trong chỉ mục của chúng tôi và phục vụ hàng tỷ truy vấn mỗi ngày, có lẽ không có gì ngạc nhiên khi vẫn còn nhiều kẻ xấu cố gắng thao túng thứ hạng tìm kiếm. Trên thực tế, chúng tôi nhận thấy hơn 25 tỷ trang mà chúng tôi phát hiện mỗi ngày là spam. Đó là một lượng spam khổng lồ và cho thấy quy mô, sự bền bỉ và những nỗ lực mà những kẻ spam sẵn sàng đầu tư. Chúng tôi rất nghiêm túc trong việc đảm bảo rằng khả năng bạn gặp phải các trang spam trong kết quả tìm kiếm là rất nhỏ. Nỗ lực của chúng tôi đã giúp đảm bảo rằng hơn 99% lượt truy cập từ kết quả tìm kiếm của chúng tôi dẫn đến trải nghiệm không có spam.”
25 tỷ trang spam mỗi ngày thực sự là một con số đáng kinh ngạc. Hãy cùng tính toán nhanh để xem Google phải đối mặt với lượng spam lớn đến mức nào.
25 tỷ trang spam mỗi ngày tạo ra 750 tỷ trang spam mỗi tháng (25 tỷ * 30).
Năm 2013, Google phát hiện ra 30 nghìn tỷ trang, và đến năm 2016 con số này đã tăng lên 130 nghìn tỷ. Điều đó có nghĩa là Google phát hiện hơn 30 nghìn tỷ trang mỗi năm (có lẽ con số này còn cao hơn, do công nghệ của họ ngày càng hiệu quả hơn) và tương đương với 2,5 nghìn tỷ trang mỗi tháng. Nếu chúng ta lấy 750 tỷ chia cho 2,5 nghìn tỷ thì kết quả là 0,3, nghĩa là 30% số trang Google phát hiện thực ra là spam. Mặc dù những con số này chưa hoàn toàn chính xác, nhưng chúng ta có thể thấy rõ spam đang phát triển nhanh hơn nội dung “tốt”. Điều này cũng hợp lý vì việc tạo ra nội dung tốt cần nhiều thời gian hơn so với việc tạo ra spam.
Vì vậy, Google đang phải đối mặt với một thách thức lớn trong việc lọc bỏ spam.
“Năm 2019, chúng tôi đã tạo ra hơn 90 triệu thông báo gửi đến các chủ sở hữu trang web để thông báo cho họ về các vấn đề, những vấn đề có thể ảnh hưởng đến sự xuất hiện của trang web trong kết quả tìm kiếm và những cải tiến tiềm năng mà họ có thể triển khai. Trong số tất cả các thông báo, khoảng 4,3 triệu liên quan đến các hành động thủ công, xuất phát từ việc vi phạm Nguyên tắc Quản trị Trang Web của chúng tôi.”
4,3 triệu hành động thủ công có vẻ nhỏ so với 25 tỷ trang, nhưng đó vẫn là một con số lớn nếu chúng ta hiểu rằng “thủ công” ở đây có nghĩa là phải có sự can thiệp của con người. Không có cách nào để một đội ngũ con người gửi đi nhiều thông báo như vậy, điều đó có nghĩa là Google chắc chắn phải sử dụng một số loại tự động hóa nhất định.
Thuật toán chưa đủ khả năng
Theo Google:
“Việc cải thiện khả năng hiểu ngôn ngữ và các hệ thống tìm kiếm khác chỉ là một phần lý do giúp Google duy trì sự hữu ích. Cũng quan trọng không kém là khả năng chống spam của chúng tôi. Nếu không có các hệ thống và đội ngũ chống spam, chất lượng của công cụ Tìm kiếm sẽ bị suy giảm – sẽ khó hơn nhiều để tìm kiếm thông tin hữu ích mà bạn có thể tin tưởng.”
Google thừa nhận rằng họ vẫn phải dựa vào con người để đối phó với một số loại spam nhất định. Máy móc vẫn có thể bị lừa và công nghệ học máy vẫn chưa đủ tốt để phát hiện mọi trường hợp.
Một trong những bằng chứng tốt nhất là phản hồi gần đây của John Muller trên Twitter:
“Nếu thời gian không đóng vai trò quan trọng đối với spam, tôi tự hỏi các thuật toán chống spam của Google thực sự tốt đến đâu. Chẳng phải chúng nên có khả năng ‘giảm giá trị’ của spam như cách Google tuyên bố sẽ làm với các liên kết kém chất lượng hay sao? Nếu đúng như vậy, tại sao các quản trị viên web phải hành động?”
Đối với các nhà tiếp thị, việc cần làm là tạo điều kiện thuận lợi nhất có thể cho Google để thu thập dữ liệu trang web của bạn. Khả năng cao là Google sẽ bắt kịp với các chiêu trò spam liên kết và các chiến thuật spam khác. Rất có thể họ sẽ không ngừng đầu tư vào các phương pháp chống spam, có nghĩa là họ sẽ trở nên thông minh hơn, và sẽ phát hiện ra các chiêu trò… vào một ngày nào đó. “Khi nào” thì đó lại là một câu hỏi khác.