我有一个基于 Windows 批处理和 Python 文件的构建链。作为构建的一部分,有一些变量被确定,然后通过命令行选项传达给应用程序 CHM 帮助编译器和 PDF 生成器,该选项指定一个包含变量名称-值对的文件。
如果未定义变量,帮助编译器只会将元字符串保留在其中,因此:
Build date: 15th December 2022
你得到:
Build date: <%BUILD-DATE%>
我想检查输出的 CHM 和 PDF 文件中是否存在这些未解析的引用并标记错误。我可以使用 轻松完成此操作grep
,但我需要将文件转换为纯文本。我尝试过PDFtk
(PDF Toolkit),但它对文本做了一些奇怪的事情,例如在每个 之后添加一个空格字符W
!我猜这是因为它通过将 PDF 渲染为图像并对结果进行 OCR 来工作。
我不知道我可以对 CHM 文件进行什么尝试(我相信这些实际上是档案)。
有任何想法吗?