不重复源数据的监控解决方案?

不重复源数据的监控解决方案?

我需要分析存储在多个数据库中的数据。每个数据库都包含几 TB 的日志和传感器数据。

如果我使用 Splunk 或 ElasticSearch/Kibana,我会看到 2 个解决方案:

  1. 批量导入所有内容

  2. 编写一些脚本,根据需要仅导入我需要的数据

这不是最佳选择,因为 1. 我复制了 TB 的数据,而 2. 我需要一些不会与我的分析工具集成的自定义逻辑。

我的问题是:

  • 有没有办法进行分析到位使用 Splunk 或 Kibana,即跳过导入步骤并直接读取现有数据库中的所有内容?

  • 或者是否有一个工具可以自动获取相关数据并且仅获取相关数据?

答案1

为了能够快速搜索数据,我建议使用 Elasticsearch,根据相关数据背后的逻辑,您可以使用 ElasticSearch Rivers http://www.elasticsearch.org/guide/en/elasticsearch/rivers/current/

这允许 Elastic Search 提取所有(相关)数据。我的经验表明,您存储的 TB 数据在 ElasticSearch 中将减少到几 GB

相关内容