如何在同一页面中找到包含多个关键字的 pdf 和 epub 文件?

如何在同一页面中找到包含多个关键字的 pdf 和 epub 文件?

我有一个很大的目录,里面有很多 pdf 和 epub 电子书文件。我想搜索同一页面上包含多个关键字的文件。

答案1

PDF

选择任何可以从单个页面提取文本的实用程序(例如pdftext),遍历所有页面并提取文本,将正则表达式应用于提取的文本。

或者,使用您选择的编程语言、您选择的 PDF 库并为其编写程序。

电子书

epub 只是一个 zip 文件。解压后,您会得到许多 html 文件。您可以扫描这些文件以查找正则表达式,或者先使用某些工具将它们转换为纯文本,而不必考虑格式。

请注意,epub 文件从根本上没有页面:分页将由渲染设备完成,并且对于每个渲染设备来说可能都不同。因此,必须以某种方式更改“在同一页面上查找多个关键字”以考虑到这一点,可能使用 html 结构。

相关内容