NFS 和 GFS2 性能缓慢

Question 1

我只能提供一些一般性指示。

首先，我会设置并运行一些简单的基准指标。这样你至少会知道你所做的改变是否是最好的。

穆宁
仙人掌
纳吉奥斯

都是一些不错的选择。

这些节点是虚拟服务器还是物理服务器，它们的规格是什么。

各个节点之间采用什么样的网络连接

NFS 是否通过您的托管服务提供商的私有网络设置。

您没有使用防火墙限制数据包/端口，您的托管服务提供商是否这样做？

Answer

我只能提供一些一般性指示。

首先，我会设置并运行一些简单的基准指标。这样你至少会知道你所做的改变是否是最好的。

穆宁
仙人掌
纳吉奥斯

都是一些不错的选择。

这些节点是虚拟服务器还是物理服务器，它们的规格是什么。

各个节点之间采用什么样的网络连接

NFS 是否通过您的托管服务提供商的私有网络设置。

您没有使用防火墙限制数据包/端口，您的托管服务提供商是否这样做？

Question 2

我认为您有两个问题。首先是瓶颈导致了这个问题，更重要的是，GFS 的故障处理能力差。GFS 应该减慢传输速度直到它正常工作，但我无法提供帮助。

您说集群处理了约 200GB 的新文件到 NFS。从集群读取了多少数据？

我总是对前端和后端只有一个网络连接感到紧张，因为它允许前端“直接”破坏后端（通过超载数据连接）。

如果在每个盒子上都安装 iperf，则可以随时测试可用的网络吞吐量。这可能是快速识别是否存在网络瓶颈的方法。

网络利用率如何？存储服务器上的磁盘速度有多快，您使用的是哪种 RAID 设置？您的吞吐量是多少？假设它运行的是 *nix，并且您有安静的时间进行测试，则可以使用 hdparm

$ hdpard -tT /dev/<device>

如果您发现网络使用率过高，我建议将 GFS 放在辅助专用网络连接上。

根据您对 12 个磁盘进行 raid 的方式，您可能会获得不同程度的性能，这可能是第二个瓶颈。这还取决于您使用的是硬件 raid 还是软件 raid。

如果请求的数据分布在总内存之外，那么机器上大量的内存可能没什么用处，这听起来可能确实如此。此外，内存只能帮助读取，而且主要是在大量读取针对同一个文件的情况下（否则，它将被踢出缓存）

运行 top / htop 时，观察 iowait。此处的高值是一个很好的指标，表明 CPU 只是在无所事事地等待某些事情（网络、磁盘等）

我认为 NFS 不太可能是罪魁祸首。我们在 NFS 方面有相当丰富的经验，虽然它可以调整/优化 - 但趋向工作非常可靠。

我倾向于让 GFS 组件稳定下来，然后看看 NFS 的问题是否会消失。

最后，OCFS2 可能是 GFS 的一个可考虑的替代选项。当我研究分布式文件系统时，我做了相当多的研究，我不记得我选择尝试 OCFS2 的原因 - 但我做到了。也许这与 Oracle 将 OCFS2 用于其数据库后端有关，这意味着对稳定性的要求相当高。

Munin 是你的朋友。但更重要的是 top / htop。vmstat 还可以为你提供一些关键数字。

$ vmstat 1

您将每秒获得一次更新，了解系统花费时间执行的具体操作。

祝你好运！

Answer