我想处理并转换从 URL 中以 HTML 格式从 wget 下载的所有文件。
我想将完整的网页转换为 DOCX 格式。我们正在谈论从 URL 下载的 3000 个 HTML 文档。如果没有自动化,这个任务对于 Pandoc 来说会变得乏味。
它可以以某种方式自动完成吗?
答案1
1.下载后转换
在保存的 HTML 文件上使用 Pandoc 有什么问题?
假设您的 HTML 全部位于名为的目录中wget-html,您可以执行以下操作:
cd wget-html 寻找 。 -名称“*.docx”\ | xargs -0 \ 潘多克\ --来自=html \ --to=docx \ --目录\ --独立\ --输出={}.pdf {} \;
这将为每个文件创建一个 PDF 文件“路径/到/some.html”命名的“路径/to/some.html.pdf”。
2.边下载边转换
如果您想实现这一目标,请说出来。但首先请指出您正在使用哪个确切的 wget 命令。