我正在寻找某个网站上招聘信息中写的链接(不是页面的 URL)。我想扫描该网站并复制所有页面(约 1000 个)上以 http 或 www 开头的所有字符串
我在 Windows 7 上。我不知道如何运行脚本。有人能建议一种有效的方法吗?
我是否必须先下载所有 html 页面?如果是这样,那么我应该使用什么软件来下载、扫描和复制字符串?
答案1
当我们意识到运行脚本不适合您时,您可以采取下载页面源代码的方法(右键单击 -> 下载源代码)。然后,您可以使用记事本等工具打开它,然后按 [Ctrl] + [F] 搜索内容。
另一种方法是使用 URLStringGrabber: http://www.nirsoft.net/utils/url_string_grabber.html
答案2
您可以在 Opera 中轻松实现这一点,只需打开左窗格 - 链接,然后就可以将它们全部复制到剪贴板
答案3
我发现 WinHTTrack 程序对此很有用。它有多种选项,允许您下载单个页面,但将 URL 更改为特定的绝对格式,以便您以后可以搜索原始 HTML 并确保几乎所有链接。
- 设置镜像名称并进入下一个屏幕后,将操作更改为“下载网站”。
- 将包含更多网页的页面的URL填入“Web地址:(URL)”框中。
- 选择选项 -> 仅限专家
- 将“重写链接:内部/外部”更改为“绝对 URI/绝对 URL”(或者,如果您仅使用该页面来抓取 URL,则更改为“绝对 URL/绝对 URL”)。
- 按“确定”,然后按“下一步”,然后照常浏览选项。
有关 HTTrack 的更多信息,请访问追踪标签。