如何将 wget 命令后获得的所有 html 文件转换为文本文件？

Question 1

wget可能不是合适的工具。 Lynx 可以下载文件并将它们同时转换为纯文本，但可以通过将其输出重定向到文件来实现。因为它没有-output选项，所以在脚本中使用它有点尴尬，因为您必须分配输出名称。

但是假设您有一个充满.html文件的目录，那么您可以使用find遍历该目录并转换文件，例如，

#!/bin/sh
find . -type f -name '*.htm*' | while IFS= read path
do
    lynx -dump "$path" >"${path%%.htm*}.txt"
done

将“.txt”文件放在同一棵树中，或者

#!/bin/sh
find . -type f -name '*.htm*' | while IFS= read path
do
    target=${path/foobar/test}
    lynx -dump "$path" >"${target%%.htm*}.txt"
done

在文件夹“test”中（将“foobar”映射到“test”）。 “/”替换是 bash 特定的，不在 POSIX 中（但如果您选择使用 POSIX，则sed效果很好）。

进一步阅读：

Answer