这是一个普通的网络爬虫还是别的什么?

这是一个普通的网络爬虫还是别的什么?

我正在为我大学的一个部门运行一个小型 apache2 网络服务器,我注意到访问日志中充满了如下消息:

“GET /path/on/my/site/7z|aac|arc|arj|asf|asx|avi|bin|csv|doc|exe|flv|gif|gz|gzip|hqx|jar|jpe?g|js|mp(2|3|4|e?g)|mov(ie)?|msi|msp|pdf|phps|png|ppt|qtm?|ra(m|r)?|sea|sit|tar|tgz|torrent|txt|wav|wma|wmv|wpd|xls|xml|z|zip HTTP/1.0” 200 22932

这种情况似乎每过几秒钟就会发生一次,每次都会出现在我们网站上,路径都不同,而且都来自我所在大学的一个 IP 地址。有时只有路径,末尾没有“7z|aac|arc|arj...”。我是第一次运行网络服务器,所以专业人士可能很清楚这一点——我只是被抓取了,还是有什么险恶行为需要我阻止?

答案1

查看 HTTP 代理字符串。(这也应该在您的访问日志中)这可能有助于您弄清楚它来自哪里。

它看起来不像是一个普通的网络爬虫请求,而像是试图寻找可下载的材料。

查看执行此探测的主机的反向 DNS 查找。这也可能有帮助。

最后,每当您看到自己的网站流量不符合您的预期时,请随时阻止它。如果您没有看到来自此 IP 的任何合法请求,那么它实际上会用您不想要的垃圾信息超载您的日志。我的建议是阻止它。

答案2

那你为什么不在大学里问一问呢?大学里肯定有人分配了那个 IP,而且知道它属于谁或什么。

从你所说的情况来看,你正在使用大学网络,并且这些流量也正在使用。因此有两种选择:1. 学生在捣乱 - 不太可能,他们现在通常都有 IDS 之类的东西,可能已经关闭了 2. 这是大学进行的一些检查。

无论哪种情况。问问!阻止可能是一个非常糟糕的主意,因为如果它是合法的东西,他们会出于安全或其他原因运行它,而你阻止它 - 他们可能会对你做同样的事情。

相关内容