用于挖掘非结构化文本的 API /工具?

用于挖掘非结构化文本的 API /工具?

我希望从非结构化文本创建概念图。例如

Desired input: find "/" -name "*.txt"
Desired output: concepts-graph.dot

换句话说,我想挖掘我的文本文件并创建某种结构化的关键词/概念表示。大致就是一个穷人版的 Google 文本分析器。

是否有一个开源工具/API 可以查找纯文本文件中术语之间的关系?

答案1

你可以使用许多工具来构建:

就关键词而言,大多数编程语言中都有基本的工具,比如 Porter 词干提取器,还有更多针对特定语言的选项。

例如,NLTK(自然语言工具包)是一个 Python 文本分类系统,你可以使用它来进行词性标注等操作(http://nltk.org/

此外,您还可以在 R 中使用各种文本挖掘包:http://tm.r-forge.r-project.org/,例如(另请参阅以下幻灯片:http://www.zinkov.com/posts/2010-10-21-slides_from_larug/tm_slides.pdf)。

如果您可以更清楚地了解您所想的文本分析类型,那么建议可能相关的具体软件包是否会更容易?

相关内容