如何避免将电子邮件发送到 Google 的深层网络爬虫

如何避免将电子邮件发送到 Google 的深层网络爬虫

我的网站有一个区域,仅限使用有效电子邮件注册的用户使用。我收到了使用虚假电子邮件的请求,我想避免向不存在的地址发送电子邮件,以免增加退回率并损害我的发送声誉。

这些电子邮件是:

[email protected]
[email protected]
kWQcHVzn%40ypEcDvh.NwB

最后一个有%40,即的 HTML 实体@。电子邮件是相同字符序列的截断。

使用反向 DNS 检查请求的 IP 地址,所有三个请求都来自cache.google.com。如果请求来自 Google 的爬虫,我希望这些电子邮件地址能够被记录下来,但我找不到任何参考资料。

如果是 Google 爬虫,我希望它索引该网站,同时避免将电子邮件地址发送到虚假地址。我已经对地址实施了过滤,以查找该字符序列。

深层网络爬虫是否有一个用于访问和索引隐藏页面的虚假地址列表?

更新

按照答案和评论指向验证 Googlebot 是否为抓取工具,我确认不是:

$ host 212.113.167.197
197.167.113.212.in-addr.arpa domain name pointer cache.google.com.
$ host cache.google.com
Host cache.google.com not found: 3(NXDOMAIN)

因此,实际上,这似乎是一个恶意用户,这也解释了为什么该电子邮件地址没有记录为来自 Google。

答案1

使用反向 DNS 检查请求的 IP 地址,所有三个请求都来自cache.google.com

进行反向查找时,不要忘记检查主机名的正向查找是否指向您正在调查的 IP 地址。

> host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

> host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

当反向和正向 DNS 记录一致时,如本例所示,您就可以信任它。否则,您可能会遇到粗心的管理员或攻击者试图隐藏其来源的情况。

在调查滥用行为时,请使用 IP 地址上的 Whois 查询而不是反向 DNS 查找来确定所有者。

无论攻击者的 IP 地址的反向 DNS 记录解析成什么,都并不总是可靠的信息。

请注意,IP 地址范围的所有者可以在反向 DNS 记录上设置任何他们想要的值。没有限制他们只能使用他们拥有的主机名,也没有固有的技术限制,即反向 DNS 记录必须与正向 DNS 记录匹配。
(尽管大多数勤勉的提供商在允许其客户在他们使用的公共 IP 地址上设置自定义反向 DNS 记录时确实会尝试强制执行这一点。)

设置虚假的反向 DNS 记录是一些攻击者常用的伎俩,他们可以利用这些伎俩来隐藏自己的踪迹和/或在试图绕过访问控制时显得更加无害。

相关内容