每天有大约 3000 个或更多来自 Facebook 爬虫的 404 命中。日志如下
X.X.X.X Y.Y.Y.Y - - [24/May/2017:03:43:35 +0000] "GET /health-and-medicine/trumps-2018-budget-cuts-funding-for-cancer-mental-health-and-hiv-research/ HTTP/1.1" 404 292 "http://m.facebook.com" "Mozilla/5.0 (iPhone; CPU iPhone OS 10_3_1 like Mac OS X) AppleWebKit/603.1.30 (KHTML, like Gecko) Mobile/14E304 [FBAN/FBIOS;FBAV/87.0.0.44.70;FBBV/54482584;FBDV/iPhone8,4;FBMD/iPhone;FBSN/iOS;FBSV/10.3.1;FBSS/2;FBCR/Sprint;FBID/phone;FBLC/en_US;FBOP/5;FBRV/55128799]"
X.X.X.X Y.Y.Y.Y - - [23/May/2017:03:19:40 +0000] "GET /environment/mount-everests-famous-hillary-step-destroyed-by-2015-nepal-earthquake/ HTTP/1.1" 404 280 "http://m.facebook.com/" "Mozilla/5.0 (Linux; Android 5.1.1; LGL82VL Build/LMY47V; wv) AppleWebKit/537.36 (KHTML, like Gecko) Version/4.0 Chrome/43.0.2357.121 Mobile Safari/537.36 [FB_IAB/FB4A;FBAV/111.0.0.18.69;]"
需要知道如何阻止这些命中吗?这些命中不是来自单个 IP、单个子网范围或单个路径。
此外,应用程序中也没有任何类型的 Facebook 集成。
编辑:我添加了一个日志示例,因为有些人可能会混淆它来自 ios
答案1
抱歉,你误会了。
这不是 Facebook 爬虫。相反,此日志是由 Facebook 移动应用程序(提供的日志表明 iOS 和 Android)生成的,它从您的服务器获取了一篇文章。