有没有可以对博客进行文本分析的软件?

有没有可以对博客进行文本分析的软件?

我的公司希望创建一个 PivotViewer 可视化工具,以显示客户过去 11 年的 Wordpress 2 博客文章。但是,要做到这一点,我们需要编辑那些有些杂乱无章、不完整且通常效果不佳的标签,以用作可排序的类别。我正在寻找一种可以分析他们的博客文章并进行字数统计的工具,以便让我们了解我们正在处理的内容。

理想情况下,它应该具备以下所有特征:

  1. 单词黑名单(忽略)
  2. 词干提取
  3. 自定义同义词合并
  4. 计算所有用途
  5. 计算某个单词出现的帖子数。

我原本以为这种文本分析会非常普遍,但我找不到任何可以对整个博客进行此类分析的软件。有软件可以做到这一点吗?

答案1

您正在寻找的软件可以有多种名称,例如“内容分析”“标签云”或“元标签”以及更多内容,例如“文本分析”和“文本挖掘”。

有许多可用于这些目的的软件工具,既有免费的,也有商业的。

我没有使用过这样的工具,但一个好的起点是文本分析工具其中列出了几十种这样的工具,既有免费的,也有商业的。

另一个这样的列表是文本分析、文本挖掘和信息检索软件

答案2

看一眼快速采矿机或者韦卡

鉴于这是客户博客,您可能有数据库访问权限。将所有文章下载为纯文本,并使用上述程序之一来处理自然语言处理问题(1、2、3 和 5)。

由于使用次数与使用上下文自动确定单词的含义有关,因此很难真正实现自动化。

答案3

最流行的内容分析软件之一是 Provalis Research 设计的 WordStat

WordStat 是 QDA Miner 或 SimStat 的文本分析模块。WordStat 结合了使用字典方法的内容分析方法和许多算法探索或各种文本挖掘方法。WordStat 可以将现有的分类字典应用于新的文本语料库。它还可用于开发和验证新的分类字典。与手动编码结合使用时,此模块可以帮助更系统地应用编码规则,帮助发现个人子群体之间词汇使用的差异,并协助使用 KWIC(上下文中的关键字)表修订现有编码。WordStat 专门用于研究文本信息,例如对开放式问题的回答、访谈、标题、期刊文章、公开演讲、电子通信等。

http://provalisresearch.com/products/content-analysis-software/

答案4

其中一些问题可以通过在您的博客上使用 Google 搜索来快速而简单地回答(如果它有自己的域名则最容易)。

相关内容