Apache 访问日志解析托管集群

Apache 访问日志解析托管集群

我们已经使用 awstats 一段时间了,将我们的 apache 服务器日志解析为适合计费部门的格式。

正在使用一组自定义的 Python 脚本根据从托管集群/场中的每个服务器传递的日志生成合并日志。

我目前面临的问题是,我们的某些项目的日志增长相当大,有些项目的未压缩日志每天生成约 30GB。awstats 不是内存效率最高的解析器,将使用超过 1GB 的内存来处理这些日志(相比之下,我的 python 脚本 + 正则表达式将占用 450kb 的内存)。

我需要的是一个 awstats 的替代品,它可以公平地处理大型日志文件并产生“计费友好”的输出。

统计数据应该包括带宽、独立访问者、每个独立页面的访问量等等...

理想情况下,这还应该允许我们导入历史 Awstats 数据(当前在文本文件中)。

总而言之,我的问题是,是否有可用的软件可以做到这一点?

答案1

由于这个问题一年多来一直没有得到答复,我想我应该发布一下我的计划的最新消息。

我将利用 python 多处理来提供日志的分布式处理,使用自定义 map + Reduce 方法。

如果您发现了这个问题,但又不想“自己动手”,那么有几个 Hadoop 项目可能会有所帮助(我建议看看 pig)。

相关内容