为什么谷歌用约会关键词向我的 Wordpress 网站发送垃圾邮件?

为什么谷歌用约会关键词向我的 Wordpress 网站发送垃圾邮件?

我有一个 Wordpress 网站,每天收到超过 10 万个请求,请求内容如下。所有这些 GET 都来自同一 Google 网段 (66.249.xx) 内的大约 200 个不同 IP。/search/网站上没有路由,但 Wordpress (Relevanssi?) 中的某些程序必须处理此请求,因为数据库中存在 UTF-8 排序错误,可能是由于表情符号或西里尔字符造成的:

WordPress 数据库错误 对于查询的操作“like”,排序规则(utf8_general_ci,IMPLICIT)和(utf8mb4_unicode_ci,COERCIBLE)的混合非法 \n\t\t\tSELECT COUNT(DISTINCT(relevanssi.doc))\n\t\t\t\tFROM 49qi0c_relevanssi AS relevanssi\n\t\t\t\t WHERE (relevanssi.term LIKE 'berbat\xf0\x9f\xaa\x80\xe2\x9d\xa4\xef\xb8\x8f\xef\xb8\x8fwww%' OR relevanssi.term_reverse LIKE CONCAT(REVERSE('berbat\xf0\x9f\xaa\x80\xe2\x9d\xa4\xef\xb8\x8f\xef\xb8\x8fwww'), '%')) 由 require('wp-blog-header.php'), wp, WP->main, WP->query_posts, WP_Query->query, WP_Query->get_posts, apply_filters_ref_array('posts_pre_query'), WP_Hook->apply_filters, relevanssi_query, relevanssi_do_query, relevanssi_search, relevanssi_search, relevanssi_generate_df_counts, QM_DB->query 制作

我查看了 Relevanssi 论坛,发现有人发布了几乎相同的问题。据说这是“无害的”,似乎没有人关心,所以帖子被关闭了。但问题是,这些请求的绝对负载开始使网站滞后,生成的错误填满了分区下的日志/var/。我现在已阻止了来自 Google 的 /19,但这可能不是正确的答案,因为它是 Google(页面排名和所有这些)。有人以前见过来自 Google 的这种东西吗?

获取 /搜索/%F0%9F%AA%80BEST+DATING+SITE%E2%9D%A4%EF%B8%8F%EF%B8%8F%C4%B0ngiliz+kad%C4%B1n+i%C3%A7+%C3%A7ama%C5%9F%C4%B1r%C4%B1+gal+r%C3%B6ntgenci+%C3%B6n%C3%BCnde+berbat%F0%9F%AA%80%E2%9 D%A4%EF%B8%8F%EF%B8%8FWww.MtSp.XyZ%F0%9F%AA%80%E2%9D%A4%EF%B8%8F%EF%B8%8F%C4%B0ngiliz+kad%C4%B1n+i%C3%A7+%C3%A7ama%C5%9F%C4%B1r%C4%B1+gal+r%C3%B6ntgenci+%C3%B6n%C3%BCnde+berbat+%C4%B0 ngiliz+kad%C4%B1n+i%C3%A7+%C3%A7ama%C5%9F%C4%B1r%C4%B1+gal+r%C3%B6ntgenci+%C3%B6n%C3%BCnde+berbat+%C4%B0ngiliz+kad%C4%B1n+i%C3%A7+%C3%A7ama%C5%9F%C4%B1r%C4%B1+gal+r%C3%B6ntgenci+%C3%B 6n%C3%BCnde+berbat/feed/rss2/?page_number_9=1&page_number_15=7&page_number_14=3&page_number_16=3&page_number_10=1&page_number_12=33&page_number_17=3&page_number_13=3&page_number_11=17 HTTP/1.1" 200 718084 "-" "Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML,如 Gecko) Chrome/97.0.4692.71 Mobile Safari/537.36 (兼容; Googlebot/2.​​1; +http://www.google.com/bot.html)

答案1

我已经在 robot.txt 中屏蔽了他们

Disallow: /*?s=*

我收到了很多来自 googlebot 的类似以下的请求

https://example.com/es/?s=%20Levitra%2010mg%20filmtabletten%20rezeptfrei%20Viagra%20original%20bei%20pfizer%20100mg%20kaufen%20in%20deutschland%F0%9F%92%88%E2%9C%97%20www.MayoClinic.store%20%E2%9C%97%F0%9F%92%88%20Rezeptfrei%20viagra%20oder%20%C3%A4hnliche%20mittel%20Kamagra%20in%20pattaya%20kaufen%20Kamagra%20deutschland%20100mg%20online%20kaufen%20kaufen%20Cialis%20sicher%20kaufen%20forum

现在它们已经消失了,最后一个是在 2022 年 DIC 3

这些垃圾邮件请求对我来说有两个缺点:

  1. 这些垃圾邮件请求浪费了我的抓取预算。

  2. 我是 Ezoic 的合作伙伴,他们有一款应用来控制已发布的内容。这款应用名为“令人反感的内容”,您可以在这里看到可能包含令人反感的内容的页面列表。

就我而言,这些垃圾请求导致我收到一长串 404 错误页面。现在它们消失了,我的网站干净了。

相关内容