wget 手册页中提到的阻止“自动检索程序”的“2001 年文章”是什么?

wget 手册页中提到的阻止“自动检索程序”的“2001 年文章”是什么?

手册wget页在参数部分下说明了这一点--random-wait

    Some web sites may perform log analysis to identify retrieval
    programs such as Wget by looking for statistically significant
    similarities in the time between requests. [...]

    A 2001 article in a publication devoted to development on a popular
    consumer platform provided code to perform this analysis on the
    fly.  Its author suggested blocking at the class C address level to
    ensure automated retrieval programs were blocked despite changing
    DHCP-supplied addresses.

我想获得这篇文章的副本来阅读,并在互联网上进行了多次搜索以确定该文章。然而,通过这些搜索,我所能找到的只是wget不同网站上托管的手册页;以及其他一些与该主题完全无关的研究论文。

有谁知道引用了哪篇文章以及在哪里可以获得副本?

答案1

即使不是直接答案,git blamegit log透露这部分是在提交中引入的2c41d783由一位名为hniksicHrvoje Niksic 的提交者编写。他的电子邮件地址可以在 wget 的文件中找到ChangeLog(出于显而易见的原因,我不会在这里发布)。我建议直接问他,因为他可能是给出更充分答案的最佳人选。在此过程中,您可能会考虑询问他是否介意相应地更新联机帮助页。 ;)

答案2

我想可能是这篇文章:

使用基本 SAS 从 Web 日志创建有意义的数据

有一段讨论了 C 类范围的阻塞:

一旦 IP 地址被分成其组成部分,IP 地址范围的过滤就很简单。 B 类过滤器针对前两个八位位组进行,例如 168.126.xx.xx。这是上面代码示例中的变量 Onetwo。 C 类范围更常用,因为它们针对整个服务器并使用四个八位位组中的三个,例如 168.126.56.xx。在上面的代码示例中,鉴于 Usrhost 是 Web 日志的 TCP/IP 地址值,因此该字段为 3。

wget在基于用户代理字符串的阻止中提到:

我们用于用户代理字符串识别的首选方法利用索引模式匹配功能。例如:

if index(lowcase(agentstr), 'keynote') or
index(lowcase(agentstr), 'sureseeker') or
index(lowcase(agentstr), 'wget') or

这是第五个结果谷歌搜索 2001 年的“日志分析 wget”

相关内容