将数千个下载的（使用 wget）HTML 文档批量转换为 DOCX

Question

1.下载后转换

在保存的 HTML 文件上使用 Pandoc 有什么问题？

假设您的 HTML 全部位于名为的目录中wget-html，您可以执行以下操作：

cd wget-html

 寻找 。 -名称“*.docx”\
   | xargs -0 \
   潘多克\
     --来自=html \
     --to=docx \
     --目录\
     --独立\
     --输出={}.pdf
     {} \;

这将为每个文件创建一个 PDF 文件“路径/到/some.html”命名的“路径/to/some.html.pdf”。

如果您想实现这一目标，请说出来。但首先请指出您正在使用哪个确切的 wget 命令。

Answer 1

在保存的 HTML 文件上使用 Pandoc 有什么问题？

假设您的 HTML 全部位于名为的目录中wget-html，您可以执行以下操作：

cd wget-html

 寻找 。 -名称“*.docx”\
   | xargs -0 \
   潘多克\
     --来自=html \
     --to=docx \
     --目录\
     --独立\
     --输出={}.pdf
     {} \;

这将为每个文件创建一个 PDF 文件“路径/到/some.html”命名的“路径/to/some.html.pdf”。

如果您想实现这一目标，请说出来。但首先请指出您正在使用哪个确切的 wget 命令。