我将 Web 服务移至新服务器。我发现,在旧服务器中,以下内容给出的点击次数与以下内容大致相同awstats
(例如,对于给定的一天,以下内容给出 5537 次,而awstats
表示 5557 次点击):
grep -v bot myaccess.log| # file contains given vhost for given date range \
grep -v rss2email|\
grep -v Slurp|\
grep -v pider| # Ignore spiders \
egrep 'HTTP/.... (200|304) '| # Catch only 200 and 304 responses \
grep -v Wget|\
grep -v Bot|\
grep -v rawler| # Ignore crawlers \
grep -v favicon.ico|\
grep -v robots.txt|\
grep -v HTTrack|\
grep -v simplepie|\
grep -v BingPreview|\
wc -l
将以下内容添加到链的末尾,grep
可得到大约相同的页数(例如,某一天为 2916 页)和awstats
(3042 页):
egrep -v '(css)|(js)|(class)|(gif)|(jpg)|(jpeg)|(png)|(bmp)|(ico)|(swf) HTTP'
现在,我移动了服务器。很多事情都发生了变化:apache
变成了nginx
;日志格式发生了变化;awstats
配置已被重写;Debian squeeze 变成了 wheezy,awstats
6.9.5 变成了 7.0。
上面的大型管道仍然awstats
很好地近似了 的点击量(例如 5521 与 5541),但添加egrep
排除 的则NotPageList
不然:对于给定的一天,我得到 2948,而awstats
给出 1580。(排除列表是否包含rss
和xml
没有显着差异。)事实上,自服务移动以来,点击量大致保持不变,而页面和访问量大约减少了一半。我不明白为什么。
答案1
主要区别似乎是awstats
7.0 中的一项新功能:下载。它假定某些文件扩展名(pdf
、zip
、txt
、mp3
、doc
等ppt
)是“下载”。旧awstats
版本将这些视为“页面”。
我也明白,的每个新版本awstats
都有更完整的过滤列表(例如更完整的机器人列表),导致每个新版本报告的页面更少(高估总是存在,并且可能无法完全消除);但这肯定会产生较小的影响。