我有一个 Excel 电子表格,其中包含网页链接列表(所有链接都指向同一个网站,但页面不同)。所有这些页面都具有相同的布局/结构,我想从每个页面/链接中检索相同的信息(不同页面上的不同值)。
显然,我可以点击单元格中的每个链接,转到页面,然后手动记下信息。但是,有数百个链接,我认为这是可以自动化的。我该如何处理这个问题?
答案1
您可以将它们从 excel 复制/粘贴到记事本中,然后轻松保存为纯文本。如果每行有一个链接,则将该文件保存为 blah.a 并下载 wget,这样它就不再是 excel 的东西了。
现在假设您已经生成了一个链接文件,那么您可以使用一个名为 wget 的命令(您必须下载它,并且与 excel 无关)。假设文件的每一行都有一行,例如http://blah.com/abc.html 因此,您执行 wget -i blah.a,然后它将下载那里的每个链接。但您还应该包含一个延迟,这样它就不会使服务器陷入困境,wget -i blah.a
但可以使用类似 -t -T 和 -w.. eg -t 1 -T 5 -w 1
(分别为重试、超时和等待)的命令,因此设置诸如重试、超时和等待之类的内容。因此,wget -t 1 -T 5 -w 1 -i blah.a<ENTER>
显然这是在 wget --help 中。(在线 wget 手册中有更多详细信息)。您可以使用 cygwin 等获取 wget。