统计网站页面数量的最简单方法是什么?我并不想真正下载整个网站的本地副本,只想统计网站上的页面数量。是否有一个工具(或多个工具组合)可以抓取所有页面和链接并计算总数?
答案1
一种快捷而又简单的方法是去 Google 并进行如下搜索:
网站:mydomain.com
此示例显示 fronde.com 的 232 个已知页面: http://i47.tinypic.com/j0h003.jpg
这将返回 Google 知道的该网站的页面数量。您可能需要调整 Google 偏好设置以包含所有内容类型(关闭安全搜索),然后单击“某些结果被忽略”警告,然后它才会为您提供最准确的计数。
手动操作比较困难。为了发现特定网站上的所有页面,您必须下载登录页面,解析指向同一网络域的链接,然后反复下载这些 HTML 页面并扫描它们。这个过程反复进行,直到检查完所有链接。
这种方法需要时间(尽管使用像 HTTrack 这样的工具,您可以关闭非 HTML 内容下载以节省时间)。
此方法还会遗漏未从网站主页链接的孤立页面。
答案2
虽然有点老套,但还是有用。递归调用应该可以解决问题。 http://search.cpan.org/dist/HTML-Parser/lib/HTML/LinkExtor.pm