Windows CMD - 有没有办法从已编译的 CHM 帮助文件和/或 PDF 中获取纯文本?

Windows CMD - 有没有办法从已编译的 CHM 帮助文件和/或 PDF 中获取纯文本?

我有一个基于 Windows 批处理和 Python 文件的构建链。作为构建的一部分,有一些变量被确定,然后通过命令行选项传达给应用程序 CHM 帮助编译器和 PDF 生成器,该选项指定一个包含变量名称-值对的文件。

如果未定义变量,帮助编译器只会将元字符串保留在其中,因此:

Build date: 15th December 2022

你得到:

Build date: <%BUILD-DATE%>

我想检查输出的 CHM 和 PDF 文件中是否存在这些未解析的引用并标记错误。我可以使用 轻松完成此操作grep,但我需要将文件转换为纯文本。我尝试过PDFtk(PDF Toolkit),但它对文本做了一些奇怪的事情,例如在每个 之后添加一个空格字符W!我猜这是因为它通过将 PDF 渲染为图像并对结果进行 OCR 来工作。

我不知道我可以对 CHM 文件进行什么尝试(我相信这些实际上是档案)。

有任何想法吗?

相关内容