我们在电子商务平台上抓取数据时遇到了问题。
问题不在于抓取本身,无论谁在做这件事,都是在伪造一个陈旧的引荐来源,其中包含我们自定义的分析参数。这会对我们的内部分析包造成严重破坏。
所有 IP 均来自1e100.net
,即 Google IP 地址。
我想屏蔽所有这些地址,我担心我可能会无意中阻止 Google公司资源访问我们的网站。这些可能包括索引我们网站的资源,或 Adwords/Analytics 团队拥有的其他资源。
有什么办法可以区分 Google应用引擎流量(我怀疑这个流量就是这个),以及 Google公司交通。
答案1
Google 在 TXT 记录中维护着一个网络块列表,_netblocks.google.com
这些是 GAE 的网络块可能用于发出请求。当前答案如下:
gbeech@ny-man01:~$ dig -t TXT _netblocks.google.com @ns1.google.com
; <<>> DiG 9.7.0-P1 <<>> -t TXT _netblocks.google.com @ns1.google.com
;; global options: +cmd
;; Got answer:
;; ->>HEADER<<- opcode: QUERY, status: NOERROR, id: 64157
;; flags: qr aa rd; QUERY: 1, ANSWER: 1, AUTHORITY: 0, ADDITIONAL: 0
;; WARNING: recursion requested but not available
;; QUESTION SECTION:
;_netblocks.google.com. IN TXT
;; ANSWER SECTION:
_netblocks.google.com. 3600 IN TXT "v=spf1 ip4:216.239.32.0/19 ip4:64.233.160.0/19 ip4:66.249.80.0/20 ip4:72.14.192.0/18 ip4:209.85.128.0/17 ip4:66.102.0.0/20 ip4:74.125.0.0/16 ip4:64.18.0.0/20 ip4:207.126.144.0/20 ip4:173.194.0.0/16 ?all"
;; Query time: 33 msec
;; SERVER: 216.239.32.10#53(216.239.32.10)
;; WHEN: Wed May 9 22:41:45 2012
;; MSG SIZE rcvd: 254