手册wget
页在参数部分下说明了这一点--random-wait
:
Some web sites may perform log analysis to identify retrieval
programs such as Wget by looking for statistically significant
similarities in the time between requests. [...]
A 2001 article in a publication devoted to development on a popular
consumer platform provided code to perform this analysis on the
fly. Its author suggested blocking at the class C address level to
ensure automated retrieval programs were blocked despite changing
DHCP-supplied addresses.
我想获得这篇文章的副本来阅读,并在互联网上进行了多次搜索以确定该文章。然而,通过这些搜索,我所能找到的只是wget
不同网站上托管的手册页;以及其他一些与该主题完全无关的研究论文。
有谁知道引用了哪篇文章以及在哪里可以获得副本?
答案1
即使不是直接答案,git blame
并git log
透露这部分是在提交中引入的2c41d783由一位名为hniksic
Hrvoje Niksic 的提交者编写。他的电子邮件地址可以在 wget 的文件中找到ChangeLog
(出于显而易见的原因,我不会在这里发布)。我建议直接问他,因为他可能是给出更充分答案的最佳人选。在此过程中,您可能会考虑询问他是否介意相应地更新联机帮助页。 ;)
答案2
我想可能是这篇文章:
有一段讨论了 C 类范围的阻塞:
一旦 IP 地址被分成其组成部分,IP 地址范围的过滤就很简单。 B 类过滤器针对前两个八位位组进行,例如 168.126.xx.xx。这是上面代码示例中的变量 Onetwo。 C 类范围更常用,因为它们针对整个服务器并使用四个八位位组中的三个,例如 168.126.56.xx。在上面的代码示例中,鉴于 Usrhost 是 Web 日志的 TCP/IP 地址值,因此该字段为 3。
wget
在基于用户代理字符串的阻止中提到:
我们用于用户代理字符串识别的首选方法利用索引模式匹配功能。例如:
if index(lowcase(agentstr), 'keynote') or index(lowcase(agentstr), 'sureseeker') or index(lowcase(agentstr), 'wget') or
这是第五个结果谷歌搜索 2001 年的“日志分析 wget”。