将数千个下载的(使用 wget)HTML 文档批量转换为 DOCX

将数千个下载的(使用 wget)HTML 文档批量转换为 DOCX

我想处理并转换从 URL 中以 HTML 格式从 wget 下载的所有文件。

我想将完整的网页转换为 DOCX 格式。我们正在谈论从 URL 下载的 3000 个 HTML 文档。如果没有自动化,这个任务对于 Pandoc 来说会变得乏味。

它可以以某种方式自动完成吗?

答案1

1.下载后转换

在保存的 HTML 文件上使用 Pandoc 有什么问题?

假设您的 HTML 全部位于名为的目录中wget-html,您可以执行以下操作:

cd wget-html

 寻找 。 -名称“*.docx”\
   | xargs -0 \
   潘多克\
     --来自=html \
     --to=docx \
     --目录\
     --独立\
     --输出={}.pdf
     {} \;

这将为每个文件创建一个 PDF 文件“路径/到/some.html”命名的“路径/to/some.html.pdf”

2.边下载边转换

如果您想实现这一目标,请说出来。但首先请指出您正在使用哪个确切的 wget 命令。

相关内容