NetApp 文件管理器 - 大量“低水位标记”CP 在空闲文件管理器上触发

Question 1

打开一张票——这表明有一个系统内存不足，如果几乎没有完成任何工作，但仍然有盒子没有响应，那么一定有什么问题。我之前曾与在线支持人员一起检查过内部内存使用情况，但这不是客户应该自己做的事情。您需要使用命令priv set并检查正在运行的进程。

Answer

打开一张票——这表明有一个系统内存不足，如果几乎没有完成任何工作，但仍然有盒子没有响应，那么一定有什么问题。我之前曾与在线支持人员一起检查过内部内存使用情况，但这不是客户应该自己做的事情。您需要使用命令priv set并检查正在运行的进程。

Question 2

与供应商就该问题展开了诉讼。

低水位标记 CP 是内存耗尽的结果：(供应商链接)

低水位标记导致的 CP；用于日常管理任务的内存量足够低，因此最好启动 CP 来释放更多内存

为了与供应商进行交互，我们运行了“perfstat”——一个 NetApp 可下载的工具，允许提交与 perf 相关的支持信息。这导致我们发现了 bugID 697790（需要支持登录），存在于我们使用的代码版本中，已在 ONTAP 8.2.3 中修复

具体来说，在 LDAP 身份验证失败的特定情况下会发生内存泄漏。由于所有 4 个主机都使用同一个帐户，并且由于在某个时刻锁定被触发，它们都异常频繁地失败。（而且首先是内存非常低的系统）。

我查看了存在此错误的其他系统，并且有一些发生此错误的迹象，但即使在正常运行时间超过 700 天的系统上，也只发生了微不足道的情况。

一般来说（但需要注意的是，“diag”命令的使用具有潜在危险，因此在使用时应极其小心，且不要与供应商沟通） - 我们可以通过查看mem_stat第二列“字节”并查找“sasl”来识别问题。

1306719 5268691008 maytag.ko::sasl_client_new+149

我不知道问题出现在什么级别——我正在等待系统再次崩溃以进行检查。但建议当内存使用率超过 5% 时您应该考虑采取行动。重新启动可以解决问题，代码更新也可以。

现在，我正在捕获 cp_types 和内存占用量，作为我监控机制的一部分，这样我就可以观察到它的发生。同时，我也会更积极主动地发现 LDAP 帐户锁定。

Answer