Equallogic 挂起 45 分钟后,防止在 Xenserver 上运行的 ext3 Linux Vms 损坏

Equallogic 挂起 45 分钟后,防止在 Xenserver 上运行的 ext3 Linux Vms 损坏

今天,我的存储 Equallogic PS4000E 遇到了一个问题,它们卡住了 45 分钟,然后启动并正常运行,没有日志,没有任何内容可以帮助我们发现发生了什么。

好吧,我运行了一个带有 2 个服务器池版本 5.6 SP2 的 Xenserver,在出现此存储问题后,最新的 Linux vms Ubuntu 12 和 Windows Vms 恢复正常工作,但大多数旧的 Debian Vms 变成只读 FS,我们需要对所有 vms 进行 fsck,一些 vms 被永久损坏,其他 vms 在重新启动和 fsck 后正常工作。

我想知道是否有任何方法可以防止 iScsi 丢失连接/超时连接时 VM 文件系统损坏,也许增加 Xen 上的 iScsi 超时或每个客户 VM 中的类似操作。

有人吗?

答案1

当您处理约 1 小时的存储连接丢失时,损坏是无法完全避免的 - 当然不是通过调整虚拟机管理程序或操作系统中的某些 SCSI 超时变量。

无法续保确实很遗憾,但对于 7.2k 磁盘 Equallogic 系统来说,这是很正常的,因为该系统的保修期最多为 5 年(10K/15K/SSD 单元的保修期最多为 7 年)。我会链接到 EQL“发布和支持指南”PDF,但访问其所在的支持页面需要有效的保修。

您说过只有您的“旧” Debian VM 之后会遇到严重问题 - 也许这与它们使用的文件系统和/或您的挂载配置方式有关?(例如data=journal/ ordered/ writeback

没有日志,没有任何东西可以帮助我们发现发生了什么

尽管如果没有先前的收集和分析经验/熟悉程度,许多日志数据集可能很难获得,但这种情况极不可能发生。

您如何知道这是存储问题?您观察到了哪些事件/错误或行为导致得出此结论?

@Dom 在评论中提出了一个关于交换机日志的好问题。Equallogic 诊断并非围绕最终用户的可读性构建的,但如果日志记录确实到位,交换机日志应该是完全可访问和可读的。

如果您没有足够的预算在 SAN 使用寿命/可支持性结束后更换它,那么您首先就买不起它。我知道这完全是事后诸葛亮,对您没有帮助,但您应该认真考虑放弃 EQL 存储,转而使用更便宜的存储(例如多台服务器、仅本地存储以及使用 DRBD 之类的东西复制虚拟机)。SAN 可能很棒,但它也是一项严肃的财务承诺。

相关内容