如何将网页转换为 PDF 并保留其外观(与网络浏览器上完全一样)和文本/链接?

如何将网页转换为 PDF 并保留其外观(与网络浏览器上完全一样)和文本/链接?

我正在寻找一种将网页转换为 PDF 的方法,但保留网页的外观。同时保留网页的文本(可选择)、可搜索 [为网页生成图像截图会使文本既不可选择也不可搜索]。

我希望将网页按原样打印为 PDF(如在网络浏览器上一样),而无需对样式或对齐进行任何处理,也不会丢失任何网页的静态组件。

这将有助于保存易于阅读、注释和搜索的网页离线副本。


您不需要阅读下面的任何内容(问题只是上面的部分)以便得到我的问题。以下部分只是以嵌套的方式列出了我通过研究或其他人答案得到的信息,以便找到问题的答案。

研究成果(未解决我的问题的建议)

到目前为止尝试寻找解决方案的结果(仍然无法解决这个问题)

我尝试过这些 PDF 网络打印引擎,但所有引擎都会篡改页面的外观,甚至造成损坏,使一些页面难以阅读:(示例页面屏幕截图包含在方括号中)

  • 铬合金 [原来的、打印样式(已禁用|未禁用)]
  • 火狐浏览器 [原来的、打印样式(已禁用p1p2| 未禁用p1p2)]
  • 可读性
    • 它简化了网页(这对于专注阅读来说是一件好事——然而,这不是我想要的)。我希望保留所有网页的位置/样式属性,就像在 Web 浏览器上看到的一样,以 PDF 格式显示,无需任何操作。
  • 福昕阅读器
  • NovaPDF
  • 可爱队长[原来的缩放系数:0.4:截图,输出PDF]
    • 我将在解决程序在 Windows 上的运行问题后添加链接”
  • 转PDF[原来的缩放系数:0.4截图输出的 PDF]
    • 它不支持CSS3。

所有网页截图插件(例如绑架很棒的截图火射Firefox 截图开发者工具全页屏幕截图第2张图片网络捕获,...)不要回答我的问题,因为他们没有保留文本和链接

可书写非常适合保存网页以供进一步注释和研究,但不幸的是仍然在线且无法转换为 PDF 格式。

社区中还有另外两个问题与我的问题类似,但是,这个问题略有不同,但具有以下重要区别:

更多类似问题保留文本和链接不是必需的(页面被捕获为图片截图大多):


笔记

操作系统:Windows 10

答案1

我们在一个大学项目中遇到了同样的问题,并使用以下方法解决了它

转PDF

我们非常喜欢这个工具在命令行上的功能。我们还使用 Python 代码来调用它,以呈现网页的当前状态。它有将网页作为 PDF 格式传送的选项,由于页面格式(例如 A4),通常无法完美保留网站视图,或者作为 png 格式传送(保留页面视图但不保留链接)

我们使用的 readability(适用于 Python:pypi.python.org/pypi/readability-lxml)项目可以很好地完成广告删除和内容检测(例如报纸文章等)。如果您只是想要浏览器的插件或扩展,以下 readability 实现可能会满足您的需求:

現在下線:https://www.readability.com/addons/

WaybackMachine 链接:https://web.archive.org/web/20160308192045/https://readability.com/addons

答案2

为可能的用户提供另一个答案。在 Firefox 中,曾经有一个插件“将页面打印为 PDF”。您可以搜索其最新版本 0.1.9.3(仅适用于 Quantum 之前的版本)。

目前,Chrome 和 Firefox 都有一个运行良好的插件: PDFMage

  • 保存页面所有图片
  • 生成文本为文本,而不是图像,您可以在生成的 PDF 中搜索文本。
  • 保护者超链接
  • 可以选择将长网页保存为单页 PDF(这样图像就不会分割到各个页面)

答案3

我真的很纠结这个问题,尝试了目前提到的大多数工具。我得到的最佳结果是使用 Chrome 的无头模式。MacOS 上的命令如下所示:

/Applications/Google\ Chrome.app/Contents/MacOS/Google\ Chrome --headless --print-to-pdf=test.pdf http://127.0.0.1:8080

我发现的最佳命令行选项列表是这里

但是这样做也存在一些问题。具体来说,我的页面包含大量的 JavaScript,我无法让打印函数等待它们执行完毕。所以我的输出中没有图像。

我找到的解决方案是一个 nodeJS 包:chrome-headless-render-pdf。它的文档很少这里。它可以工作,并且易于编写脚本。

答案4

如果你使用 Linux,可以尝试这个小型命令行工具可爱队长,它仅依赖于 Qt 和 QtWebkit,并导出为 PDF。

相关内容