为什么 html2text 无法本地 .html 文件。

为什么 html2text 无法本地 .html 文件。

虽然我看到了几个与我要问的问题类似的问题,例如如何将 wget 命令后获得的所有 html 文件转换为文本文件?

我还看到了一个博客文章它描述并已经看到它的工作原理。我什至在本地尝试过,发现即使这样也有效,但在本地文件中,即驻留在某些 /usr/share/doc/$PACKAGENAME/index.html 中的文件以及其中链接的页面数,应该有一种更简单的方法来获取至少是首页。

我尝试做类似的事情 -

html2text file:///usr/share/doc/$PACKAGENAME/html/index.html > packagename-doc.txt

但这没有用。

我得到输出 -

Cannot open input file "file:///usr/share/doc/$PACKAGENAME/html/index.html".

我没有给出任何包名称,因为它并不重要,而且现在有很多包在 html 页面而不是 man 或 info 中提供文档,但这完全超出了主题。

有人可以告诉为什么,或者通过 html2text 或其他一些以简单方式完成此操作的工具提供替代方法吗?

答案1

@Karkouch 有正确的想法- 您需要移除该file://部件。 Shell 工具通常不理解或不期望将 URL 作为参数。

实际上,file:///[…]/html/index.html是有效路径,但指向名为 的目录中的文件,等等,最后指向名为 的html目录中的文件。PWDfile:多个斜杠被简单地视为单个斜杠,并且每个可见字符(以及大多数不可见字符)在 *nix 路径中都是有效的。路径中唯一无效的字符是 NUL。

相关内容