识别 Google 公司资源与 App Engine 资源

识别 Google 公司资源与 App Engine 资源

我们在电子商务平台上抓取数据时遇到了问题。

问题不在于抓取本身,无论谁在做这件事,都是在伪造一个陈旧的引荐来源,其中包含我们自定义的分析参数。这会对我们的内部分析包造成严重破坏。

所有 IP 均来自1e100.net,即 Google IP 地址。

我想屏蔽所有这些地址,我担心我可能会无意中阻止 Google公司资源访问我们的网站。这些可能包括索引我们网站的资源,或 Adwords/Analytics 团队拥有的其他资源。

有什么办法可以区分 Google应用引擎流量(我怀疑这个流量就是这个),以及 Google公司交通。

答案1

Google 在 TXT 记录中维护着一个网络块列表,_netblocks.google.com这些是 GAE 的网络块可能用于发出请求。当前答案如下:

gbeech@ny-man01:~$ dig -t TXT _netblocks.google.com @ns1.google.com

; <<>> DiG 9.7.0-P1 <<>> -t TXT _netblocks.google.com @ns1.google.com
;; global options: +cmd
;; Got answer:
;; ->>HEADER<<- opcode: QUERY, status: NOERROR, id: 64157
;; flags: qr aa rd; QUERY: 1, ANSWER: 1, AUTHORITY: 0, ADDITIONAL: 0
;; WARNING: recursion requested but not available

;; QUESTION SECTION:
;_netblocks.google.com.         IN      TXT

;; ANSWER SECTION:
_netblocks.google.com.  3600    IN      TXT     "v=spf1 ip4:216.239.32.0/19 ip4:64.233.160.0/19 ip4:66.249.80.0/20 ip4:72.14.192.0/18 ip4:209.85.128.0/17 ip4:66.102.0.0/20 ip4:74.125.0.0/16 ip4:64.18.0.0/20 ip4:207.126.144.0/20 ip4:173.194.0.0/16 ?all"

;; Query time: 33 msec
;; SERVER: 216.239.32.10#53(216.239.32.10)
;; WHEN: Wed May  9 22:41:45 2012
;; MSG SIZE  rcvd: 254

相关内容