如何搜索并复制某个特定网站(1000 页)上以(“http://www. )开头的所有字符串?

如何搜索并复制某个特定网站(1000 页)上以(“http://www. )开头的所有字符串?

我正在寻找某个网站上招聘信息中写的链接(不是页面的 URL)。我想扫描该网站并复制所有页面(约 1000 个)上以 http 或 www 开头的所有字符串

我在 Windows 7 上。我不知道如何运行脚本。有人能建议一种有效的方法吗?

我是否必须先下载所有 html 页面?如果是这样,那么我应该使用什么软件来下载、扫描和复制字符串?

答案1

当我们意识到运行脚本不适合您时,您可以采取下载页面源代码的方法(右键单击 -> 下载源代码)。然后,您可以使用记事本等工具打开它,然后按 [Ctrl] + [F] 搜索内容。

另一种方法是使用 URLStringGrabber: http://www.nirsoft.net/utils/url_string_grabber.html

答案2

您可以在 Opera 中轻松实现这一点,只需打开左窗格 - 链接,然后就可以将它们全部复制到剪贴板

答案3

我发现 WinHTTrack 程序对此很有用。它有多种选项,允许您下载单个页面,但将 URL 更改为特定的绝对格式,以便您以后可以搜索原始 HTML 并确保几乎所有链接。

  1. 设置镜像名称并进入下一个屏幕后,将操作更改为“下载网站”。
  2. 将包含更多网页的页面的URL填入“Web地址:(URL)”框中。
  3. 选择选项 -> 仅限专家
  4. 将“重写链接:内部/外部”更改为“绝对 URI/绝对 URL”(或者,如果您仅使用该页面来抓取 URL,则更改为“绝对 URL/绝对 URL”)。
  5. 按“确定”,然后按“下一步”,然后照常浏览选项。

有关 HTTrack 的更多信息,请访问标签。

相关内容