这是一个瞬息万变的事件,目前尚无答案。
请不要将您的发现或假设发布为答案;请保留答案字段以备您真正有答案时使用。
如果你有事新的要添加,请直接在问题中编辑它。
从今年年初开始,我通过用户代理收到了很多流量:
Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729).
我的访问日志显示 40% - 60% 来自该用户代理。这很奇怪,因为用户代理声明使用的是 Firefox 3.0.10 浏览器(2012 年还有人使用该浏览器吗?普通网站上的访问者绝对不会占到 40%-60%)。
此外,日志显示该用户代理仅请求 HTML 文档,没有引用图像、css、js 文件等资产。
我检查了这些请求的 IP(使用该 UA)。它来自世界各地。我意识到这些 IP 有时有移动用户代理。
所以我怀疑是某个移动应用程序发出了大量“蜘蛛请求”。了解该用户代理流量的根本原因会很有帮助。
有人能找出根本原因吗?
在过去几周里,我们发现来自该 UA 的流量下降,而其他流量增加。看起来该机器人/爬虫现在正在使用更常见的 UA,因此更难阻止。我看到其他人在回答这个问题时说过这句话,但当 serverfault 决定重新安排这个问题时,这句话被删除了。
旧答案作为参考
更新自迪伊
我运营着自己的访问量很大的网站,并且在过去一个月左右的时间里,我在我们的 Apache 日志中看到了完全相同的事情(我还没有机会进一步检查)。我看到的百分比是所有请求的 40%,这显然是疯狂的。
而且我还注意到请求似乎总是说请求浏览器不支持 gzip 压缩——导致所有网页请求都以未压缩的形式发送,并且我们的带宽使用量飙升!
但到目前为止我还无法确定到底发生了什么——我到目前为止怀疑的是它可能是某种代理服务器或类似设备的移动设备发送了虚假的用户代理字符串。
编辑添加:刚刚做了一些研究,看起来它可能是防病毒软件:http://www.webmasterworld.com/search_engine_spiders/4428772.htm
更新自贾穆尔21
是的,我们注意到多个站点的流量类似。
我们仍在寻找根本原因,但我们的一些发现包括:
如果它是蜘蛛程序,那么它的工作就相当糟糕。它似乎只会在一段时间内(可能几个小时)在每个域中抓取一两个 URL,直到它转到另一个 URL。不过,内容总是相对“最新”,这让 Google 新闻成为其中一个因素,正如 Dee 在其回答中发布的链接所假设的那样(我们所有的网站都是新闻网站)。
虽然 IP 在地理上分散,但对我们来说,它们中的大多数似乎位于原始站点附近(我们的大多数站点都是本地新闻媒体,因此它们不会获得大量全国性流量)。几乎没有任何请求来自美国以外。这再次证实了从 Google 新闻中窃取的 URL(我猜那些通过邮政编码本地化 Google 新闻的人会看到我们的内容)。
大多数情况下,这些请求都可以被视为背景噪音(尽管是特别嘈杂的噪音),但每天会出现几次峰值,仅此一个 UA 就会在约 15-30 分钟内产生 ~100mbps 的流量。
不幸的是,虽然 Google 新闻似乎是发现这些 URL 的可能途径,但我们所看到的一切都是间接证据,我们仍然没有任何确凿的证据证明这些 URL 是如何或为何受到攻击的。
更新自班诺湾
我们有一个大型新闻网站 - 我们的故事每周都会被 Google 新闻转载数次。自 11 月底以来,我们一直从这个来源获得流量 - 而且流量每周都在增长 - 2 月份的访问量可能达到 3000 万次。
出现在 Google 新闻美国版首页上是这种流量的触发因素——大约 75% 的流量声称来自美国 IP。但无论它是什么,它都在努力隐藏自己。这并不友好。
我们也没有找到确凿的证据——但一家大型安全供应商已同意代表我们进一步调查。
更新自阿尔乔姆·鲁萨科夫斯基
刚刚第一次在新闻网站 (AndroidPolice.com) 上发生了同样的事情。大约 10 分钟的随机请求使 QPS 飙升至平均值的 5000% 以上(5000qps,这是 Linode 的 NodeBalancer 的限制)。由于请求消耗了 I/O 和网络,CPU 开始空闲 - 这是真正的 DDOS。
我真的很想弄清楚这件事,但目前看来完全令人费解。
更新自标记
只需添加 +1。我们在我们的网站上看到了同样的行为。这里没有太多新信息可以添加,但以下是我们的流量的总体情况:
- 流量高度分散。流量来自超过 6 万个独立 IP。
- 绝大多数流量都点击单个 URL,通常是 Google 新闻中列出的最新 URL(尽管 Google 新闻并不总是作为载体)
- 正如本线程中所述,所有这些流量都来自相同的 Firefox/3.0.10 用户代理,尽管我们在这里和那里看到了一些古怪的移动代理。
- 来自该代理的所有流量均不包含引荐来源数据。
- 每周爆发一次或两次,持续 30-60 分钟,然后消失。
更新自唐·爱尔兰
最后一篇帖子是在 4 月 13 日,但流量肯定还没有结束。最奇怪的部分可能是,任何称职的恶意软件作者肯定(肯定会)使用现代浏览器中的用户代理字符串,使得阻止用户代理防御变得毫无价值。这一事实让人觉得好像“无害”的新闻聚合器或其他应用程序就是源头。不过,到目前为止,我还没有得出任何真正的结论,希望任何有信息的人都能在这里发布。
我们看到的是同样的模式,当一篇报道被 Google 新闻选中后,请求该报道的流量会激增(但不包括图片等附件文件)。出站响应流量会导致网络饱和(或者说,直到我们开始响应时才出现 503 错误)。这些攻击(我们还能叫它们什么呢?)平均持续约 30 分钟,但非常受欢迎的报道可能会有一个小时或更长时间的高流量(我说的是 Firefox 3.0.10 流量,当然正常流量也会在一段时间内保持高流量)。
在一个小时内(对于负载平衡组中的单个服务器),我们看到了 200,000 个请求,其中 97,000 个是 Firefox 3.0.10 请求,几乎占所有请求的 50%。而且,考虑到通常一个页面会为主文件和附件文件生成 10 个或更多请求,97,000 个请求就显得大得多。我注意到,在 97,000 个请求中,有 51,000 个唯一 IP 地址。我说的是单个小时(实际上接近 45 分钟)。无论是什么原因导致的,这种现象都非常普遍。
更新自用户119708
我们在一家大型法国高科技新闻网站上也遇到了同样的问题。
每当有新闻发布并在 Google 新闻上可见时,该新闻的流量就会大大增加,大约有 50 到 100 次访问是通过 IP 和用户代理“Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729)”进行的。
所有 IP 地址似乎都位于法国或法国国家,并且没有引荐来源。这似乎是一个机器人,但为什么一个远程地址在几分钟内必须在同一条新闻上返回 50 或 100 次?可能是受感染的计算机吗?为什么当新闻在谷歌新闻上可见时会出现这种现象?谷歌对这种奇怪的流量负责吗?
如果这个主题中的某人找到了解释,我认为它将帮助许多中型或大型网站控制他们的流量!
编辑: http://2bits.com/botnet/botnet-hammering-web-site-causing-outages.html 如果确实有计算机被感染,考虑到涉及的地址数量,这非常令人担忧。我们将为 Apache 实现此脚本以阻止所有流量:
# Referer is empty
RewriteCond %{HTTP_REFERER} ^$
# User agent is bogus old browser
RewriteCond %{HTTP_USER_AGENT} "Gecko/2009042316 Firefox/3.0.10"
# Forbid the request
RewriteRule ^(.*)$ - [F,L]
更新自埃内斯托
中型西班牙语综合新闻网站,几天以来注意到一些不相关的新闻的流量很高。
无论它是谁,它都会加载完整的 HTML,因为我们注意到,一旦页面加载,“页面浏览量”计数就会增加,我们会通过数据库更新来增加。
我们仅注意到每天有 1 到 2 个 URL 受到攻击。
几秒钟内,同一 URL 上出现了大量请求(7000-12000),这些请求来自不同的 IP,分布在一天内。第二天,其他 URL 成为攻击目标。
没有引荐来源。
所针对的文章出现在 Google 新闻中,但我们不能保证其相关。
Google Analytics 无法将其识别为合法流量。我们的文章点击量超过 8000 次,而 GA 仅报告了 25 篇左右(我假设 javascript 尚未对其进行解释)。
更新自老专业
为您添加一些数据点。
机器人与浏览器尚未将此 UA 视为机器人。
在我记录的流量最大的网站上,截至目前,2012 年 5 月的使用情况显示此 UA 流量不到 1%。相当一部分 UA 请求看起来是合法的(例如,加载所有预期资源)。这基本上与 2012 年 2 月的情况相同。
该网站的首页很少更新,所有动态内容都被 robots.txt 阻止。
这可能是 Genieo 的。他们已更新其应用程序以使用新的用户代理:Mozilla/5.0+(兼容;+Genieo/1.0+)http://www.genieo.com/webfilter.html)。它与原始用户代理具有相同的命中模式,但现在他们似乎表明了自己的身份。如果您查看其用户代理中的 URL,他们甚至承认他们可能已经或可能仍在为某些网站产生过多的流量。-缺陷
更新自麦克费根
数周以来,我们一直在与我们认为是 DDOS 攻击的攻击作斗争。我们刚刚开始发现 Genieo 是这些攻击的用户代理。之前我们看到的是“Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729)”和大量来自“Mozilla/5.0 (Windows NT 6.1; rv:11.0) Gecko/20100101 Firefox/11.0”的请求。10k+ 个不同的 IP,每天有超过 100 万个请求仅针对 3 或 4 个页面,其中同一个 IP 请求页面 100 多次,但没有提取任何额外的资产或广告。我发现这些 IP 实际上都没有访问我们网站上的任何其他页面。
我联系了 Genieo,这是他们的回复:
“感谢您与我们联系。
旧版本的 Genieo 可能导致了您所描述的流量负载。对于由此造成的任何不便,我们深表歉意。我们昨天发布并更新了解决方案,应用程序的数据负载应该会在接下来的 24 小时内消失。我们认为,通过向新用户介绍您的网站,我们为您的网站提供了良好的服务。我们没有正确评估,随着我们的安装基础不断增长,这可能会导致某些网站过载。
Genieo 是一份个人报纸或智能 RSS 阅读器。它是一款具有智能语义个性化过滤功能的客户端 RSS 阅读器。Genieo 应用程序跟踪来自用户喜爱站点的 RSS 数据,通过执行语义分析“阅读”文章,并根据用户感兴趣的领域进行过滤。如果文章符合用户兴趣,应用程序会在用户主页上显示文章的标题和摘录。点击标题将转到文章的站点 - 您的网站。Genieo 代理是自主的(出于隐私原因);它在最终用户的机器上运行,这就是您看到代理从许多不同的 IP 访问您的网站的原因。
Genieo 的大部分数据来自用户的常规 RSS 源,但 Genieo 还会添加一些来自用户之前未注册的新新闻网站的内容(为了增加趣味性和多样性)。Genieo 算法会查找“热门”文章、Twitter 热门文章、YouTube 观看次数最多的文章和 Google 新闻精选,并检查它们是否符合用户的兴趣
我们不知道这会导致某些网站的负载问题。一旦我们注意到这一点,我们就会向当前用户更新新版本,以防止负载激增。
此致,
—多坦
附言:我们过去确实使用过“Mozilla/5.0 (Windows NT 6.1; rv:11.0) Gecko/20100101 Firefox/11.0”(由于技术错误),但所有当前 Genieo 用户都应该使用 Genieo 用户代理(过去几周)”
答案1
我认为用户 dflaw 发现了它。这是 Genieo 的软件。我们做了一些测试并联系了他们。所有结果均已发布这里。