我需要分析存储在多个数据库中的数据。每个数据库都包含几 TB 的日志和传感器数据。
如果我使用 Splunk 或 ElasticSearch/Kibana,我会看到 2 个解决方案:
批量导入所有内容
编写一些脚本,根据需要仅导入我需要的数据
这不是最佳选择,因为 1. 我复制了 TB 的数据,而 2. 我需要一些不会与我的分析工具集成的自定义逻辑。
我的问题是:
有没有办法进行分析到位使用 Splunk 或 Kibana,即跳过导入步骤并直接读取现有数据库中的所有内容?
或者是否有一个工具可以自动获取相关数据并且仅获取相关数据?
答案1
为了能够快速搜索数据,我建议使用 Elasticsearch,根据相关数据背后的逻辑,您可以使用 ElasticSearch Rivers http://www.elasticsearch.org/guide/en/elasticsearch/rivers/current/
这允许 Elastic Search 提取所有(相关)数据。我的经验表明,您存储的 TB 数据在 ElasticSearch 中将减少到几 GB