CentOS 上的 ES 1.7.x
我们的生产 ES 集群严重瘫痪。我们丢失了整个索引。事实证明,这些内容已经在日志中存在一天或更长时间了:
New used memory from field ### would be larger than configured breaker
好的。
我可以点击 ES 上的哪个 URL 来查看是否发生了问题?(日志监控不是我们监控制度的一部分,但点击 ES URL 对我们来说很容易。)
我们现在使用集群健康 URL,因此我们看到集群变黄/红色,但是(到目前为止),我们还没有看到如何从外部看到问题的出现(因此我们受到了重创)。
答案1
好的,找到答案了。
坦率地说,这是一个非常无力的答案,它给我们带来了真正的负担。
如此处所述:
https://www.elastic.co/guide/en/elasticsearch/reference/1.4/cluster-nodes-stats.html
用这个:
curl -XGET 'http://localhost:9200/_nodes/stats?pretty=true'
然后你就可以看到断路器|跳闸元件。
那只是一个计数器,而不是速度。因此你必须:
- 编写自己的代码来读取值
- 等待N次
- 再读
- 做数学题
- 地面断路器跳闸次数/分钟
- 弄清楚你的问题阈值是多少
- 监控
如果 ES 可以计算出速度就太好了,这样我们就可以只关注最后两点。
但就目前我所见,这是最好的。