我正在使用 awk 分析一些访问日志文件。我目前正在使用以下内容:
awk '($9 ~ /404/)' access_log | awk '{print $9,$7}' | sort | uniq -c | sort > 404.txt
它返回我的访问日志中的所有 404 错误及其出现次数。但是,它返回了所有内容 — — 但我只对 html 页面感兴趣。
我如何修改它以仅返回以 .html 结尾的请求的值?
答案1
您可以添加另一个正则表达式:
awk '$7 ~ /\.html/ && $9 ~ /404/ {print $9,$7}' access_log | sort | uniq -c | sort > 404.txt