将数百个网页存档到 doc 或 pdf

将数百个网页存档到 doc 或 pdf

我在大学图书馆工作,必须归档我们的大学公报(规则、条例、部门、课程等)。我最近做了一次,但现在每年都要做,从 1997 年开始。2014-15 年有 3,100 页,花了大约 1.5 周的时间才最终整理好。我一次做一页,复制到 Word 中,稍微格式化一下,然后将所有 word 文档保存为 PDF。我需要让文档可搜索,并维护某种目录/书签,以便轻松导航。我找到了一种方法来下载每个部门页面的 HTML,方法是通过浏览器中的检查元素抓取链接,然后使用 HTTrack 下载它们。

但现在我面临的问题与访问每个网站并复制粘贴文本基本相同。没有好办法。我有 Acrobat X,但它不保留任何书签/标题,并且很难保持页面之间的相似外观。我还一直无法获取可以转换为 PDF/A 的“干净”文档。我想我只是想看看是否有人处理过类似的事情,或者能想到一些我可以解决的解决方案。如果有帮助,我可以上传 2014-15 文件。我甚至不知道这是否是最好的 Exchange。任何帮助都将不胜感激!

答案1

您可以使用 Acrobat Pro 的 WebCapture 功能,并进行适当的设置(停留在同一服务器上、停留在分支内等)。

相关内容