RHCS：具有公共存储的 A/A 集群中的 GFS2。使用 rgmanager 配置 GFS

Question

我曾与集群打过交道。以下是我对这个主题的看法。

could have simply added force_unmount="1",  but I would like to know what is
the reason behind the default behavior. Why is it not unmounted?

如果您选择将 gfs 配置为群集资源，并添加clvmd和gfs磁盘作为资源，那么当您使用rgmanager它进行故障转移时将要尝试卸载磁盘，因此对于您的情况，我首先要做的是检查日志（或lsof/fuser等）以了解卸载失败的原因。可能存在某个进程正在打开文件或类似情况，从而阻止“干净”卸载。

可能是因为您没有使用 rgmanager 来启动集群应用程序吗？我在您的 cluster.conf 中没有看到它。如果这是真的，那将解释这种行为。

如果您选择force_unmount，rgmanager 在故障转移/恢复时会强制终止使用该磁盘的任何资源，然后再卸载磁盘。这是否是个好主意取决于情况。

clvm is stopped, but GFS is not unmounted, so a node cannot alter LVM structure 
on shared storage anymore, but can still access data. And even though a node can 
do it quite safely (dlm is still running), [...]  
Moreover if I later try to stop cman on that node, it will find a dlm locking,
produced by GFS, and fail to stop.

如果要在这种情况下更改 LVM 结构，可以再次手动启动 clvmd 守护进程。如果在停止 cman 之前卸载 gfs 磁盘，则应该可以。另一方面，在生产场景中，我很少遇到想要在集群节点上停止 CMAN 的情况。

我倾向于选择选项 4。

If I understand the latest approach correctly, such cluster only controls 
whether nodes are still alive and can fence errant ones, but such cluster
has no control over the status of its resources.

确实，如果你不添加gfs2资源clvmd作为集群资源，rgmanager您将无法控制它。在设置 A/A 集群时（当然，视情况而定），我通常会这样做将我的服务的启动脚本添加为集群资源status.（rgmanager 随后会定期使用参数调用该脚本，以确定是否需要执行已配置的操作）。由于我的脚本依赖于 gfs 文件系统，因此除非挂载该文件系统，否则它将失败。

方法 4 意味着手动启用clvmd、cman和gfs2（并且可能根据情况启用其他守护进程）。

由于 GFS 文件系统位于 iSCSI 设备之上，因此添加_netdev挂载选项/etc/fstab是其工作的必要条件。

这样，我就不会得到过于复杂的集群配置，以后添加更多服务就不会那么麻烦了（比如两个服务使用同一个磁盘或者其他什么）
当事情真的发生时，我的经验是，有了资源，人工干预会容易得多不是由管理rgmanager
根据我的经验，集群中最容易出错的不是 gfs2 或 clvmd 服务，而是顶层服务，因此经常重新启动/安装它们只会花费您额外的时间。

我也能想到一些缺点：

就像你说的，rgmanager 不会管理这些资源，并且如果 gfs 文件系统以某种方式出现故障/被卸载，它不会采取任何措施
大量安装 gfs 文件系统可能会给设备带来不必要的负载，例如updatedb其他可能需要遍历文件系统的作业，从而导致驱动器延迟（锁定流量）

无论你做什么决定

我会将 init 脚本添加为集群资源，如果您选择将gfs和clvm作为资源添加到集群，我会考虑添加__independent_subtree属性，因此如果失败，rgmanager 将不会重新挂载 gfs 文件系统。这当然取决于您的具体情况。请注意链接中的嵌套配置，标记一种依赖关系树。

Answer 1

我曾与集群打过交道。以下是我对这个主题的看法。

could have simply added force_unmount="1",  but I would like to know what is
the reason behind the default behavior. Why is it not unmounted?

如果您选择将 gfs 配置为群集资源，并添加clvmd和gfs磁盘作为资源，那么当您使用rgmanager它进行故障转移时将要尝试卸载磁盘，因此对于您的情况，我首先要做的是检查日志（或lsof/fuser等）以了解卸载失败的原因。可能存在某个进程正在打开文件或类似情况，从而阻止“干净”卸载。

可能是因为您没有使用 rgmanager 来启动集群应用程序吗？我在您的 cluster.conf 中没有看到它。如果这是真的，那将解释这种行为。

如果您选择force_unmount，rgmanager 在故障转移/恢复时会强制终止使用该磁盘的任何资源，然后再卸载磁盘。这是否是个好主意取决于情况。

clvm is stopped, but GFS is not unmounted, so a node cannot alter LVM structure 
on shared storage anymore, but can still access data. And even though a node can 
do it quite safely (dlm is still running), [...]  
Moreover if I later try to stop cman on that node, it will find a dlm locking,
produced by GFS, and fail to stop.

如果要在这种情况下更改 LVM 结构，可以再次手动启动 clvmd 守护进程。如果在停止 cman 之前卸载 gfs 磁盘，则应该可以。另一方面，在生产场景中，我很少遇到想要在集群节点上停止 CMAN 的情况。

我倾向于选择选项 4。

If I understand the latest approach correctly, such cluster only controls 
whether nodes are still alive and can fence errant ones, but such cluster
has no control over the status of its resources.

确实，如果你不添加gfs2资源clvmd作为集群资源，rgmanager您将无法控制它。在设置 A/A 集群时（当然，视情况而定），我通常会这样做将我的服务的启动脚本添加为集群资源status.（rgmanager 随后会定期使用参数调用该脚本，以确定是否需要执行已配置的操作）。由于我的脚本依赖于 gfs 文件系统，因此除非挂载该文件系统，否则它将失败。

方法 4 意味着手动启用clvmd、cman和gfs2（并且可能根据情况启用其他守护进程）。

由于 GFS 文件系统位于 iSCSI 设备之上，因此添加_netdev挂载选项/etc/fstab是其工作的必要条件。

这样，我就不会得到过于复杂的集群配置，以后添加更多服务就不会那么麻烦了（比如两个服务使用同一个磁盘或者其他什么）
当事情真的发生时，我的经验是，有了资源，人工干预会容易得多不是由管理rgmanager
根据我的经验，集群中最容易出错的不是 gfs2 或 clvmd 服务，而是顶层服务，因此经常重新启动/安装它们只会花费您额外的时间。

我也能想到一些缺点：

就像你说的，rgmanager 不会管理这些资源，并且如果 gfs 文件系统以某种方式出现故障/被卸载，它不会采取任何措施
大量安装 gfs 文件系统可能会给设备带来不必要的负载，例如updatedb其他可能需要遍历文件系统的作业，从而导致驱动器延迟（锁定流量）

无论你做什么决定

我会将 init 脚本添加为集群资源，如果您选择将gfs和clvm作为资源添加到集群，我会考虑添加__independent_subtree属性，因此如果失败，rgmanager 将不会重新挂载 gfs 文件系统。这当然取决于您的具体情况。请注意链接中的嵌套配置，标记一种依赖关系树。

RHCS：具有公共存储的 A/A 集群中的 GFS2。使用 rgmanager 配置 GFS

答案1

我倾向于选择选项 4。

无论你做什么决定

相关内容