编辑：

Question

如果它只是一个 OSD，我可以安全地销毁它并让 rook 重新制作它吗？

根据您的ceph status，您有降级的数据，但没有卡住/关闭的数据。因此，是的，您可以关闭第三个 OSD，但请注意，这样做会使您容易受到任何可能导致剩余 OSD 离线的攻击，同时您努力启动第三个替代 OSD。

EPERM

您是否在做一些非常愚蠢的事情，例如在 NFS 上运行此操作？df /var/lib/rook/osd1显示什么，以及是什么grep /var/lib/rook/osd1 /proc/mounts？

block checksum mismatch

这也符合 NFS 假设，但也可能是由硬件故障、驱动程序故障、文件系统驱动程序故障造成的（诚然，只有非常) 糟糕的 VFS 配置，或者一些其他我现在想不起来的事情。以下是一些猜测：

是否有可能多个守护进程意外地占用同一个数据目录？
uptime机器上有什么？
硬件是否遇到过特殊困难（例如超频）？CPU/内存压力测试是否成功完成？
您没有指定 VM 与硬件，但无论如何，您的堆栈的任何级别是否已-o nobarrier在相关的 FS 上设置？

后续行动

@quantomworks 问：

“我不确定你说的“-o nobarrier”是什么意思。

如果 Ceph 在 MD 上运行，您将拥有至少两个文件系统，最多可拥有无限个文件系统。具体来说，您将拥有：

您在 Ceph 上托管的文件系统。
托管 OSD 文件本身的文件系统。
（至 ∞）位于上层文件系统之下的文件系统 - 例如，托管通过-o loop其挂载 OSD 的文件的文件系统。

如果没有专用工具，即使你这样做了，你也无法真正保证屏障得到遵守，因为驱动程序、固件和硬件都会撒谎。基本上，I/O 的发生本身就是一个小奇迹。我在这里要求的问题可能最容易通过在grep -i barrier /proc/mounts所有相关机器上解决，而不是真正试图找出哪些 FS 是真正相关的。

无论如何，让 Ceph OSD 变得非常暴躁的更简单方法之一是提供不可靠的写入语义。“屏障”是在写入流中使用的工具，用于确保无论下游批处理如何，都不会发生任何后屏障将永远保存到磁盘前一切前屏障是持久的。一个简单的例子，银行转账：

写入 1：减少 Abby 的账户余额 100 美元写入 2：增加 Bobby 的账户余额 100 美元

在这种情况下，如果由于一些先前的写入批处理或磁头在磁性介质上的定位或太阳耀斑，写入 2 先发生，然后机器断电，小鲍比就得到了一些“免费”的钱。因此，在法律部门的坚持下，我们在写入 1 和 2 之间插入了一个屏障请求，从而保证虽然我们可能会在断电时稍微回溯一点时间，但我们永远不会损失一分钱。（当然，如果我们生活在一个像数据库一样的事务一致的世界中，艾比的损失也会得到补偿，但屏障是这种世界首先构建的方式之一。）

Ceph 利用屏障（以及其他技巧）尝试在非正常关闭的情况下同时提供吞吐量和某种形式的数据一致性。后一点也是我要求您提供的原因uptime；虽然还有其他方法可以反复非正常关闭 OSD（kill -9或oom_killer想到），但一个相当可靠的方法是让一个每小时重新启动一次的薄片盒。

Answer 1

如果它只是一个 OSD，我可以安全地销毁它并让 rook 重新制作它吗？

根据您的ceph status，您有降级的数据，但没有卡住/关闭的数据。因此，是的，您可以关闭第三个 OSD，但请注意，这样做会使您容易受到任何可能导致剩余 OSD 离线的攻击，同时您努力启动第三个替代 OSD。

EPERM

您是否在做一些非常愚蠢的事情，例如在 NFS 上运行此操作？df /var/lib/rook/osd1显示什么，以及是什么grep /var/lib/rook/osd1 /proc/mounts？

block checksum mismatch

这也符合 NFS 假设，但也可能是由硬件故障、驱动程序故障、文件系统驱动程序故障造成的（诚然，只有非常) 糟糕的 VFS 配置，或者一些其他我现在想不起来的事情。以下是一些猜测：

是否有可能多个守护进程意外地占用同一个数据目录？
uptime机器上有什么？
硬件是否遇到过特殊困难（例如超频）？CPU/内存压力测试是否成功完成？
您没有指定 VM 与硬件，但无论如何，您的堆栈的任何级别是否已-o nobarrier在相关的 FS 上设置？

后续行动

@quantomworks 问：

“我不确定你说的“-o nobarrier”是什么意思。

如果 Ceph 在 MD 上运行，您将拥有至少两个文件系统，最多可拥有无限个文件系统。具体来说，您将拥有：

您在 Ceph 上托管的文件系统。
托管 OSD 文件本身的文件系统。
（至 ∞）位于上层文件系统之下的文件系统 - 例如，托管通过-o loop其挂载 OSD 的文件的文件系统。

如果没有专用工具，即使你这样做了，你也无法真正保证屏障得到遵守，因为驱动程序、固件和硬件都会撒谎。基本上，I/O 的发生本身就是一个小奇迹。我在这里要求的问题可能最容易通过在grep -i barrier /proc/mounts所有相关机器上解决，而不是真正试图找出哪些 FS 是真正相关的。

无论如何，让 Ceph OSD 变得非常暴躁的更简单方法之一是提供不可靠的写入语义。“屏障”是在写入流中使用的工具，用于确保无论下游批处理如何，都不会发生任何后屏障将永远保存到磁盘前一切前屏障是持久的。一个简单的例子，银行转账：

写入 1：减少 Abby 的账户余额 100 美元写入 2：增加 Bobby 的账户余额 100 美元

在这种情况下，如果由于一些先前的写入批处理或磁头在磁性介质上的定位或太阳耀斑，写入 2 先发生，然后机器断电，小鲍比就得到了一些“免费”的钱。因此，在法律部门的坚持下，我们在写入 1 和 2 之间插入了一个屏障请求，从而保证虽然我们可能会在断电时稍微回溯一点时间，但我们永远不会损失一分钱。（当然，如果我们生活在一个像数据库一样的事务一致的世界中，艾比的损失也会得到补偿，但屏障是这种世界首先构建的方式之一。）

Ceph 利用屏障（以及其他技巧）尝试在非正常关闭的情况下同时提供吞吐量和某种形式的数据一致性。后一点也是我要求您提供的原因uptime；虽然还有其他方法可以反复非正常关闭 OSD（kill -9或oom_killer想到），但一个相当可靠的方法是让一个每小时重新启动一次的薄片盒。

编辑：

编辑：

答案1

后续行动

相关内容