metrics

如何使用基于日志的指标针对同一事件发送警报
metrics

如何使用基于日志的指标针对同一事件发送警报

在 GCP 上,我们创建了各种基于日志的指标,我们基本上是在寻找带有一些关键字的日志条目,例如“错误”、“警告”等…… 我们还根据这些指标创建了警报。 大多数日志来自类似 cron 的应用程序。 但是,当 GCP 创建事件时,它不允许手动关闭它。根据文档,事件将在 7 天左右后自行关闭。GCP 仅在事件第一次发生时发送警报。因此,由 cron 生成的后续事件(例如每小时)将被视为现有事件,并且不会发送警报。 有没有办法配置 GCP 监控和警报,以便在每次发生同一事件时发送警报? ...

Admin

计算单个 HDD 的 IOPS - 我做错了什么?
metrics

计算单个 HDD 的 IOPS - 我做错了什么?

所以我知道没有标准化的方法来计算 HDD 的 IOPS,但从我读过的所有内容来看,最准确的公式之一如下: IOP/ms = + {旋转延迟} + ({块大小} / {数据传输速率}) 也就是每毫秒的 IO 数,或者我读的书上说的“磁盘服务时间”。旋转延迟也是按毫秒为单位计算的旋转次数的一半。 这是从 EMC 的书籍“信息存储和管理”中摘录的 - 可以说是一个相当可靠的来源,对吧? 将这个公式付诸实践,考虑一下希捷数据表。 我将计算块大小为 4kb 的 ST3000DM001 型号的 IOPS: 平均寻道(写入)= 9.5 - 我将测量写入的...

Admin

指标:无法访问的 Kubernetes API(无日志)
metrics

指标:无法访问的 Kubernetes API(无日志)

运行 rke 设置时我们遇到这个问题: reconcile] host [192.168.137.41] is a control plane node without reachable Kubernetes API endpoint in the cluster 在指标窗格中: │ E0415 14:51:31.215141 1 scraper.go:140] "Failed to scrape node" err="Get \"https://192.168.137.42:10250/metrics/resource\": dial tc...

Admin

观察 AWS App Runner 429s
metrics

观察 AWS App Runner 429s

在性能测试期间,我们看到 App Runner 出现 429 错误。响应正文将显示“已达到最大队列长度”。我知道这是一个已知问题,下面有详细描述:https://github.com/aws/apprunner-roadmap/issues/224 我的问题是,我如何才能更轻松地观察到这一点?我希望能够查看 AWS 中的指标,该指标将向我显示 App Runner 抛出的 429。我见过的最接近的是仪表板中标记为“4xx 错误”的指标,但这当然太宽泛了。 ...

Admin

过滤 opentelemetry-agent 发送到 Coralogix 的日志
metrics

过滤 opentelemetry-agent 发送到 Coralogix 的日志

我正在尝试弄清楚如何配置它过滤处理器过滤某些日志。 我在 minikube 中为自己创建了一个游乐场,其中的应用程序可以随机生成日志,并安装了 otel 集成到珊瑚虫。 日志示例: { "level": "error", "ts": 1709652353.609003, "caller": "logs-generator/logs-generator.go:60", "msg": "Each Set Am.", "error": "expected header is undefined", "stacktra...

Admin

Prometheus 无法抓取自定义指标
metrics

Prometheus 无法抓取自定义指标

我正在尝试设置 Prometheus,以便使用 Java 库 Prometheus Micrometer 抓取 Java 服务公开的一些自定义指标。除了proto: bad wiretype for field io_prometheus_client.MetricFamily.Metric: got wiretype 0, want 2此特定作业的 Prometheus URL http://localhost:9090/targets 之外,Prometheus 日志中没有任何错误。 我可以从与 Java 服务位于同一实例上的节点导出器抓取其他指标,因此...

Admin

Bind9 转发区域统计
metrics

Bind9 转发区域统计

是否可以获得与其他区域类型类似的转发区域的统计信息? 我有以下定义,named.conf.local并且能够成功地对两个区域进行查询。 zone "transfer-bindtest.com" { type secondary; file "db.transfer-bindtest.com"; masters { 10.20.10.5; }; # ns1 private IP zone-statistics yes; }; zone "bindtest.com" { type forward; forward...

Admin

Kubernetes 集群中的 Cadvisor container_network_receive_bytes_total 指标激增
metrics

Kubernetes 集群中的 Cadvisor container_network_receive_bytes_total 指标激增

概括: 我在多个 Kubernetes (k8s) 集群中使用 Cadvisor 和 Prometheus 来监控网络流量使用情况。我在查询中使用 container_network_receive_bytes_total 指标来计算总网络流量使用情况。但是,我在其中一个集群中遇到了一个不寻常的问题。 问题: 在我的一个集群中,我有一个非生产数据库,它已经顺利运行了 20 天。然而,从昨天开始,container_network_receive_bytes_total 指标显示使用量大幅增加,尽管我确信负载没有增加。这个问题并不是孤立的。我多次遇到过类似的情...

Admin

Zabbix:指标的历史记录并非在所有时间范围内显示
metrics

Zabbix:指标的历史记录并非在所有时间范围内显示

有一个指标(在本例中为路由器的温度)。在从几分钟到最近两天的时间范围内,所有内容均正确显示,所有数据均到位。 当我尝试查看过去 3 天、过去一周、过去一个月以及最多 3 个月的指标时,它显示“无数据”并且没有显示任何内容。 当我切换到 6 个月,然后切换到一年或更长时间时,所有内容也都正确显示。 我不明白问题出在哪里,怎么可能出现这种情况?在存储设置中,我已指定存储去年的指标 ...

Admin

使用来自 Kafka 的 Snowflake 数据源在单个 Grafana 面板上显示多个服务器的指标
metrics

使用来自 Kafka 的 Snowflake 数据源在单个 Grafana 面板上显示多个服务器的指标

我有一组服务器,它们将指标提交给单个 kafka 主题。此数据以以下格式存储在雪花数据库中的一行中: { "disk_util": 47.7, "location": "location1", "timestamp": "1683703169378" } 我正在使用这个雪花插件:https://github.com/michelin/snowflake-grafana-datasource 我想要做的是disk_util在单个 grafana 面板上表示这个指标。 我已经使用以下查询创建了一个变量locations: SELECT LOWER(...

Admin

如何使用 ansible 授予 postgres_exporter 用户权限?
metrics

如何使用 ansible 授予 postgres_exporter 用户权限?

我需要授予我的用户 postgres_exporter 一些权限,以便将指标从 postgres 抓取到 grafana 我可以在每台服务器上执行此操作 sudo -iu postgres psql -c 'GRANT pg_read_all_settings TO postgres_exporter;' sudo -iu postgres psql -c 'GRANT EXECUTE ON FUNCTION pg_ls_logdir() TO postgres_exporter;' sudo -iu postgres psql -c 'GRANT EX...

Admin

证明 aws cloudwatch get-metric-statistics 有效
metrics

证明 aws cloudwatch get-metric-statistics 有效

我正在学习使用aws cloudwatch get-metric-statisticsAWS 命令​​行工具中的子命令。为了向自己证明我正确使用了该工具,我想要一个简单的示例命令,该命令应始终返回一些数据。或者,至少,只要部署的 AWS 资源达到典型的最低限度,该命令应始终返回一些数据点。 到目前为止,我运行的每个命令都返回零个数据点。例如: aws cloudwatch get-metric-statistics --metric-name CPUUtilization --start-time $(gdate -u -d '-1 hour' +%FT%T...

Admin

Prometheus 能有效压缩一系列相同的样本吗?
metrics

Prometheus 能有效压缩一系列相同的样本吗?

Prometheus 能否有效地存储和删除指标中相同样本值的长期重复数据? 我正在使用一个系统,其中一些输入以低频率变化(例如每 30 分钟一次),但其他输入以高频率变化(例如每秒 1 次或连续变化)。我需要在高频样本上捕获高时间分辨率,我想知道 Prometheus 将如何处理低频样本。 假设我有一个系列以 30 分钟为间隔更改,另一个系列以 1/秒为间隔更改。Prometheus 以 1/秒的速度抓取数据。因此,对于每个更改的值,我都有 600 个相同的慢速系列样本。 Prometheus 会如何处理相同的样本?它是否只是盲目地存储所有 600 个样本及...

Admin

缩减 Ubuntu 服务器的内存足够吗?
metrics

缩减 Ubuntu 服务器的内存足够吗?

管理层决定缩减生产服务器的规模。 Current size: Standard B16ms (16 vcpus, 64 GiB memory) Desired size: Standard B8ms (8 vcpus, 32 GiB memory) CPU 大部分处于空闲状态(输出来自 sar -u) 10:20:01 CPU %user %nice %system %iowait %steal %idle 10:30:01 all 15.46 0.00 ...

Admin

尽管在日志资源管理器中记录了日志,“字段名称”下拉菜单未显示 GCP LBM 菜单“创建日志指标”中 log_struct() 记录的 jsonPayload
metrics

尽管在日志资源管理器中记录了日志,“字段名称”下拉菜单未显示 GCP LBM 菜单“创建日志指标”中 log_struct() 记录的 jsonPayload

我需要 Google Cloud Platform 上指标类型为“分布”的 LBM,以便一次性为多个标签制作具有计数或持续时间等值的时间序列图表。 示例:对于数据工作流中的 10 个不同步骤,将一天的计数和持续时间记录在字典中,并使用 gcloud logs 记录为 jsonPayload log_struct()。 虽然我在日志资源管理器中查看一个月时可以看到已记录的事件,但我无法从下拉菜单中选择任何 jsonPayload 项来从中创建所需的基于日志的指标 (LBM),以便我可以在 Graphana 中选择它们来显示图表。 在此下拉菜单中,我期望看到我...

Admin