显然,文件和目录的消失发生在所有 ext4 文件系统中,包括 /var 和 /usr 中通常“只读”的文件和目录,例如为 gcc 安装的二进制文件,以及其他几个实用程序,例如 apt-get、aptitude,我们尝试用来做一些测试和修复,但是很多命令和实用程序不再工作,所有它们都崩溃了,它们的一些依赖项或文件消失了。
这些文件系统是 ext4,这奇怪地发生在上周五 13 点(2015 年 11 月 13 日)下午 4:10 左右(GMT-3 DST,巴西)。 /var 的一些日志文件也消失了。但是,当用户也注意到系统异常时,我们可以获取系统日志,开始显示大量错误。但这些错误仅与文件缺失有关,没有解释可能导致数据消失或任何类型的硬盘问题的事件。
作为解决方法,我们使用救援映像启动,只是为了尝试获取 /home 数据的副本,尽管已损坏,但我们可以从某些文件中恢复数据。当然,一些数据被恢复,但许多文件和目录消失了,其他文件和目录仍然存在但被截断(零大小)。
有一些已知问题可以解释这一点吗?如何防止其他服务器再次发生这种情况?
附:“存储”安装在硬盘 RAID 1 中(位于 2 个硬盘之间)
编辑-环境: 机器坏了,所以我无法获得那里的很多信息,但它正在运行 Debian:
uname -a
Linux XXXX 3.16.0-4-amd64 #1 SMP Debian 3.16.7-ckt11-1+deb8u6 (2015-11-09) x86_64 GNU/Linux
- 在某些 NAT 下
- 对外部(云)SVN 服务器(受防火墙控制)的 Internet 访问。
- 通过 Internet 访问某些软件包存储库以进行手动更新(apt-get update/upgrade)。几个月没有进行任何更新或升级
- 通过ssh访问
答案1
我实际上怀疑您被内核 3 和 4 中一个备受关注的 ext4 损坏错误所困扰。看看这个线程,
http://bugzilla.kernel.org/show_bug.cgi?id=89621。
还有更多关于该错误的线程,我只是发现这个更有趣。
如果其他服务器处于相同级别的更新和版本,我建议进行一轮安全/软件包更新。