在 Netapp 上显示 IO

在 Netapp 上显示 IO

我想我可能达到了 Netapp 所能提供的 IO 限制,因为我一直在向集群中添加更多服务器,并且每个服务器上的 iowait 都有所增加。

但是,我该如何量化这一点?如何使用 Netapp CLI 工具查看当前 IO 统计数据?我知道“stats show”,但没有看到“io”对象或类似的东西。我怎么知道 Netapp 应该能够提供什么?

如果有人比我更有使用 Netapp 的经验,我将非常感激他们的帮助。

谢谢!

答案1

有几种选项可以监控 NetApp 文件管理器的性能。这取决于 DataOntap 的版本。只需执行 sysconfig,您就会看到版本。您可以使用 OnCommand Performance 管理器作为集群 Ontap 的 GUI 工具。集群 Ontap 的另一个选项是使用 QoS 作为性能监视器。对于 7 模式,您可以使用 systat 或 statit 控制台命令。

答案2

这个答案仅适用于 7 模式 - 我没有使用集群模式的经验。

对于性能问题,根本没有简单的答案。

您有 iops 计数器,可以用 来显示sysstat -x

stats show system将会给你一些类似的信息 - NFS/FCP/CIFS 操作列表等等。

然而,就其本身而言,这些事情相当随意 - 你怎么知道多少 IOP 才算“太多”?

我发现最有用的指标是查看一致性点。再次回到sysstat -x。文件管理器写入 IO 的方式是填充 NVRAM 缓存。此缓存会定期刷新,数据会以突发方式写入磁盘。

什么类型出现一致点的次数可以很好地表明您的系统是否“正常运行”。 https://kb.netapp.com/support/index?page=content&id=3014024

T means your system is idle. (triggered by timer - not much happened for 10s, so it thought it better destage anyway)
S or Z is a 'forced' cp because of a snapshot/snapmirror op. (and usually isn't a problem)
F or H or L means your system is getting busy.  (F is nvram filling with write data, H/L represent high and low watermarks for memory)
B or b means your system is struggling. (Back to back CPs, which means your hitting the limits of your ability to write to disk.

不过,这几乎完全与写入 IO 有关。系统出现问题的另一个原因是读取 IO。写入可以轻松缓存;读取必须立即获取 - 并且只有在某些情况下才能缓存。

您的统计数据显示计数器将为您提供disk_data_readdisk_data_writtensysstat -x将为您提供相同的信息,以及磁盘利用率的概念。(但请注意 - 该利用率是“跨系统”的,因此如果您有一个真正热的聚合与一个“冷”聚合平均,则不会显示)。

您还可以运行stats show volume以获取每个卷的 IO 统计信息。这将让您了解读取/写入的总数以及它们将要写入哪个卷。它还区分了“读取”、“写入”和“其他”。“其他”可能非常重要,并且存在问题。

答案3

查看我的 AutoSupportNetapp 支持站点的一部分。它包含可供您分析的性能数据以及一些健康检查。

答案4

好吧,我猜你执行了 io-stats 并在服务器端看到了“iowait”,并得出了“Netapp 可能太慢”这个结论。如果你现在看看 Netapp,你会发现一切都无法证明你的理论。我向你保证。
不是因为 Netapp 存储中的信息不足。但如果你不知道自己在寻找什么,你就不会找到问题的症结(如果存在与存储相关的问题/性能问题)
因此我建议另一种方法:从服务器查看存储 - 遵循 I/O 流程首先,服务器是如何连接的?光纤通道 SAN?NFS/iSCSI(基于 IP)?
检查你在什么时候看到“iowait”,你是否看到“iowait”没有或很少 io-busy?并且 LUN 利用率低?--> 这可能与运行备份有关吗?
连接了哪些服务器?大多数 VMWare?
I/O 特性(读/写)比例如何?
未对齐的 I/O 是否存在问题?
服务器端的 I/O 队列是如何配置的?
您应该从服务器分析到存储,而不是相反。从清晰的配置/存储拓扑开始。这也有助于我们为您提供更多想法,以检查是否存在(存储)问题以及问题位于何处。

相关内容