dentry 缓存使用率异常高

Question 1

我是否正确地认为 Slab 内存始终是物理 RAM，并且该数字已从 MemFree 值中减去？

是的。

dentry 条目数量如此之多正常吗？PHP 应用程序可以访问大约 1.5 M 个文件，但其中大多数都是档案，常规网络流量根本不会访问它们。

是的，如果系统没有内存压力的话。它必须使用内存来做某事，并且可能在您的特定使用模式中，这是使用该内存的最佳方式。

怎么解释缓存的 inode 数量比缓存的 dentry 数量低得多这一事实呢？它们之间难道不应该以某种方式关联吗？

大量的目录操作是最有可能的解释。

如果系统遇到内存问题，内核是否不应该自动释放一些目录项？没有发生这种情况的原因可能是什么？

应该可以，我想不出任何不可以的理由。我不确定这是否是真正出错的地方。我强烈建议升级内核或进一步增加 vfs_cache_pressure。

有没有办法“查看” dentry 缓存以查看所有这些内存（即正在缓存的路径是什么）？也许这表明存在某种内存泄漏、符号链接循环，或者确实表明 PHP 应用程序做错了什么。

我不相信有。我会寻找任何具有大量条目或被搜索或遍历的非常深的目录结构的目录。

PHP 应用程序代码以及所有资产文件都通过 GlusterFS 网络文件系统挂载，这与此有关系吗？

肯定是文件系统的问题。例如，文件系统错误导致 dentry 无法释放，这就是一种可能。

Answer

我是否正确地认为 Slab 内存始终是物理 RAM，并且该数字已从 MemFree 值中减去？

是的。

dentry 条目数量如此之多正常吗？PHP 应用程序可以访问大约 1.5 M 个文件，但其中大多数都是档案，常规网络流量根本不会访问它们。

是的，如果系统没有内存压力的话。它必须使用内存来做某事，并且可能在您的特定使用模式中，这是使用该内存的最佳方式。

怎么解释缓存的 inode 数量比缓存的 dentry 数量低得多这一事实呢？它们之间难道不应该以某种方式关联吗？

大量的目录操作是最有可能的解释。

如果系统遇到内存问题，内核是否不应该自动释放一些目录项？没有发生这种情况的原因可能是什么？

应该可以，我想不出任何不可以的理由。我不确定这是否是真正出错的地方。我强烈建议升级内核或进一步增加 vfs_cache_pressure。

有没有办法“查看” dentry 缓存以查看所有这些内存（即正在缓存的路径是什么）？也许这表明存在某种内存泄漏、符号链接循环，或者确实表明 PHP 应用程序做错了什么。

我不相信有。我会寻找任何具有大量条目或被搜索或遍历的非常深的目录结构的目录。

PHP 应用程序代码以及所有资产文件都通过 GlusterFS 网络文件系统挂载，这与此有关系吗？

肯定是文件系统的问题。例如，文件系统错误导致 dentry 无法释放，这就是一种可能。

Question 2

确认解决方案

对于任何可能遇到同样问题的人。数据中心人员今天终于找到了答案。罪魁祸首是与 Libcurl 捆绑在一起的 NSS（网络安全服务）库。升级到最新版本解决了这个问题。

描述详细信息的错误报告在这里：

https://bugzilla.redhat.com/show_bug.cgi?format=multiple&id=1044666

显然，为了确定某个路径是本地路径还是网络驱动器路径，NSS 会查找一个不存在的文件并测量文件系统报告所需的时间！如果您有足够多的 Curl 请求和足够的内存，这些请求都会被缓存并堆叠起来。

Answer

确认解决方案

对于任何可能遇到同样问题的人。数据中心人员今天终于找到了答案。罪魁祸首是与 Libcurl 捆绑在一起的 NSS（网络安全服务）库。升级到最新版本解决了这个问题。

描述详细信息的错误报告在这里：

https://bugzilla.redhat.com/show_bug.cgi?format=multiple&id=1044666

显然，为了确定某个路径是本地路径还是网络驱动器路径，NSS 会查找一个不存在的文件并测量文件系统报告所需的时间！如果您有足够多的 Curl 请求和足够的内存，这些请求都会被缓存并堆叠起来。

Question 3

我遇到了这个确切的问题，虽然 Wolfgang 对原因的判断是正确的，但缺少一些重要的细节。

此问题会影响使用 curl 或 libcurl 或任何其他使用 mozilla NSS 进行安全连接的软件执行的 SSL 请求。非安全请求不会触发此问题。
该问题不需要并发 curl 请求。只要 curl 调用频率足够高，超过操作系统回收 RAM 的努力，就会发生 dentry 累积。
NSS 的新版本 3.16.0 确实包含针对此问题的修复。但是，您无法通过升级 NSS 免费获得修复，也不必升级所有 NSS。您至少只需升级 nss-softokn（它对 nss-utils 有必需的依赖性）。并且为了获得好处，您需要为使用 libcurl 的进程设置环境变量 NSS_SDB_USE_CACHE。该环境变量的存在使得可以跳过代价高昂的不存在文件检查。

FWIW，我写了一个博客条目提供更多背景/细节，以防有人需要。

Answer

我遇到了这个确切的问题，虽然 Wolfgang 对原因的判断是正确的，但缺少一些重要的细节。

此问题会影响使用 curl 或 libcurl 或任何其他使用 mozilla NSS 进行安全连接的软件执行的 SSL 请求。非安全请求不会触发此问题。
该问题不需要并发 curl 请求。只要 curl 调用频率足够高，超过操作系统回收 RAM 的努力，就会发生 dentry 累积。
NSS 的新版本 3.16.0 确实包含针对此问题的修复。但是，您无法通过升级 NSS 免费获得修复，也不必升级所有 NSS。您至少只需升级 nss-softokn（它对 nss-utils 有必需的依赖性）。并且为了获得好处，您需要为使用 libcurl 的进程设置环境变量 NSS_SDB_USE_CACHE。该环境变量的存在使得可以跳过代价高昂的不存在文件检查。

FWIW，我写了一个博客条目提供更多背景/细节，以防有人需要。

Question 4

这实际上并没有解释您的答案，但作为该系统的用户，您提供了以下信息：

cat /proc/meminfo
MemTotal:       132145324 kB
...
SReclaimable:   44561644 kB
SUnreclaim:      1678736 kB

足以告诉我这是不是你的问题系统管理员有责任提供充分的解释。

我不想在这里听起来很粗鲁，但是；

您缺少有关此主持人角色的具体信息。
主机如何对资源进行优先排序超出了您的范围。
您不熟悉或者没有参与过此主机上的存储的设计和部署。
由于您不是 root 用户，因此无法提供某些系统输出。

这是你的系统管理员的责任来证明或解决 slab 分配异常。要么您没有向我们完整展示导致您出现这种情况的整个过程（坦率地说，我对此不感兴趣），要么您的系统管理员在处理此问题时表现得不负责任和/或不称职。

你可以随意告诉他，互联网上一些陌生人认为他没有认真履行自己的职责。

Answer

这实际上并没有解释您的答案，但作为该系统的用户，您提供了以下信息：

cat /proc/meminfo
MemTotal:       132145324 kB
...
SReclaimable:   44561644 kB
SUnreclaim:      1678736 kB

足以告诉我这是不是你的问题系统管理员有责任提供充分的解释。

我不想在这里听起来很粗鲁，但是；

您缺少有关此主持人角色的具体信息。
主机如何对资源进行优先排序超出了您的范围。
您不熟悉或者没有参与过此主机上的存储的设计和部署。
由于您不是 root 用户，因此无法提供某些系统输出。

这是你的系统管理员的责任来证明或解决 slab 分配异常。要么您没有向我们完整展示导致您出现这种情况的整个过程（坦率地说，我对此不感兴趣），要么您的系统管理员在处理此问题时表现得不负责任和/或不称职。

你可以随意告诉他，互联网上一些陌生人认为他没有认真履行自己的职责。

dentry 缓存使用率异常高

问题

问题

更新

答案1

答案2

确认解决方案

答案3

答案4

相关内容