Solaris 10 ZFS ARC 已达到极限，且 CPU 超载

Question 1

它可能不是 zfs - 你有很多可用内存，所以考虑这种可能性 -

echo 'pg_contig_disable/D' | mdb -k

如果输出是：

echo pg_contig_disable/D | mdb -k
pg_contig_disable:
pg_contig_disable:              0

您可能遇到了某种 NUMA 问题。Solaris 10 尝试通过设置内存块来提高缓存效率，从而加快内存访问速度。当您拥有大量内存和 Oracle 时，这会导致奇怪的情况 - 就像您描述的那样。在正常运行一个月左右后，CPU 用户使用率不高，系统 CPU 时间很多，系统就会陷入停顿。长期来看，将内核参数 pg_contig_disable 设置为 1。

短期修复方法是重新启动。如果重新启动有帮助，则需要设置内核参数。这是 Solaris 10 中具有大量可用内存的系统上的一个已知问题。

Answer

它可能不是 zfs - 你有很多可用内存，所以考虑这种可能性 -

echo 'pg_contig_disable/D' | mdb -k

如果输出是：

echo pg_contig_disable/D | mdb -k
pg_contig_disable:
pg_contig_disable:              0

您可能遇到了某种 NUMA 问题。Solaris 10 尝试通过设置内存块来提高缓存效率，从而加快内存访问速度。当您拥有大量内存和 Oracle 时，这会导致奇怪的情况 - 就像您描述的那样。在正常运行一个月左右后，CPU 用户使用率不高，系统 CPU 时间很多，系统就会陷入停顿。长期来看，将内核参数 pg_contig_disable 设置为 1。

短期修复方法是重新启动。如果重新启动有帮助，则需要设置内核参数。这是 Solaris 10 中具有大量可用内存的系统上的一个已知问题。

Question 2

感谢 jim mcnamara 为我指明了正确的方向。我没有看到与 pg_contig_disable 问题一致的症状，但它确实让我发现了 zfetch 的问题。

我在以下网站上发现了和我们一样的问题： http://solaristalk.blogspot.com/2014_05_01_archive.html

这导致了 Oracle 网站上的一篇调整文章，描述了为什么 ZFS 预取对我们来说是一个问题： http://docs.oracle.com/cd/E26502_01/html/E29022/chapterzfs-4.html

在重负载期间，我们使用 lockstat 看到 dmu_zfetch_find 位于互斥列表的顶部。此后，我已在我们的 ZFS 实现中禁用预取。今晚我将重新启动，以确保清除所有内容并重新开始。

希望这是正确的答案。如果问题仍然存在，我们稍后可能会对 pg_contig_disable 进行一些测试，以防万一。

Answer