扩展 Logstash (使用 redis/elasticsearch)

Question

您的帖子没有描述太多规格（LS 索引器上的内存、日志卷或其他），但我会尽力回答您的问题。免责声明：我是 logstash 开发人员之一 -

Apache 崩溃可能是 logstash 进程出现故障的副作用。我暂时把这个放在一边。
使 ES f/b/s 成为现实的明智方法是添加更多 ES 节点。真的就是这么简单。它们甚至可以根据网络拓扑自动发现彼此。在这个行业工作了 17 年后，我从未见过像 ElasticSearch 一样易于水平扩展的东西。
要使用 Redis，请不要使用任何 redis 集群。较新版本的 Logstash 可以在内部进行 Redis 负载平衡。Redis 输出支持插件配置中的 Redis 主机列表，并且即将在输入端添加支持以匹配该列表。在此期间，您可以在索引器/消费者端使用多个 Redis 输入定义。
我无法回答这个问题，只能说这听起来像是你试图用一个（可能是动力不足的）主机做太多事情。

任何良好的扩展过程都始于将共置组件分解为不同的系统。除了 logstash 的“瓶颈”在过滤器中的位置外，我没有看到您的配置要点。根据您正在执行的转换次数，它可能会对 Logstash 进程的内存使用产生影响。

Logstash 的工作原理与乐高积木非常相似。您可以使用 2x4 积木，也可以使用两块 2x2 积木来完成相同的任务。但在 Logstash 中，使用较小的积木实际上比使用一块大积木更坚固。

我们通常给出的一些一般建议是：

尽快从边缘发送日志如果您可以使用纯网络传输而不是写入磁盘，这很好但不是必需的。Logstash 基于 JVM，这有好有坏。使用备用发送器。我写了一个基于 Python 的 (https://github.com/lusis/logstash-shipper）但我建议大家改用 Beaver（https://github.com/josegonzalez/beaver）。
以尽可能少需要过滤的格式生成日志（json 或最佳 json-event 格式）这并不总是可行的。我编写了一个 log4j 附加程序来执行此操作（https://github.com/lusis/zmq-appender）并最终将模式布局分解到自己的存储库中（https://github.com/lusis/log4j-jsonevent-layout）。这意味着我不必在 logstash 中对这些日志进行任何过滤。我只需将输入的类型设置为“json-event”

将事物分解为多个组件在我所做的关于 logstash 的每次演讲中，我都将其描述为类固醇上的 unix 管道。您可以根据需要将管道设置得长或短。您可以通过水平转移职责来扩展 logstash。这可能意味着使管道更长，但我们谈论的不是延迟开销方面的任何统计相关内容。如果您对网络有更好的控制（即不在 EC2 上），您可以使用标准流量隔离做一些很棒的事情。

还请注意，logstash 邮件列表非常活跃，因此您应该始终从那里开始。清理并概括您的配置，因为那是最好的起点。

有些公司（如 Sonian）将 ElasticSearch 扩展到 PB 级别，而有些公司（如 Mailchimp 和 Dreamhost）也将 Logstash 扩展到疯狂级别。这是可以做到的。

Answer 1