我的老板给了我一个pdf并要求创建按字母顺序排列的索引。
索引将只包含他感兴趣的单词。“有趣的单词”列表不可用,我应该创建一个并向他展示以供批准。
我想我可以找到一种方法来改变pdf到.doc并且 Libreoffice 可以创建一个字母索引,只要你给它一个.sdi包含“有趣的单词”的文件。
所以我现在最关心的是从 pdf 中提取所有独特的单词,过滤它们以消除太常见的单词并创建最重要的单词列表。有什么建议吗?我是否必须编写一些简单的应用程序来过滤单词,还是可以使用现有的软件?
谢谢 Filippo
答案1
是的,您可以提取文档来获取文本,然后使用软件进行分析并获取关键字(或者像您所说的那样 - 有趣的词)。
TexLexAn 是一个很好的开源选项: http://texlexan.sourceforge.net/