我们的 NFS 共享文件系统正在锁定。
请随时提出您认为相关的任何问题。:)
当时,有很多进程处于“磁盘休眠”状态,我们机器上的平均负载猛增。机器对 SSH 有响应,但我们的大多数网站 (apache+mod_php) 都挂了,我们的电子邮件系统 (exim+dovecot) 也是如此。任何不需要对文件系统有写访问权限的网站都会继续运行。
平均负载持续上升,直到达到某种超时,但至少持续 10-15 分钟。我见过平均负载超过 800,但机器仍然对不需要写入共享文件系统的操作做出响应。
我一直在研究各种各样的选项,但结果都是些干扰因素:nagios、proftpd、bind、cron 任务。
我在文件服务器的系统日志中看到这些消息:
7 月 30 日 09:37:17 fs0 内核:[1810036.560046] statd:服务器 localhost 没有响应,超时 7 月 30 日 09:37:17 fs0 内核:[1810036.560053] nsm_mon_unmon:rpc 失败,状态 = -5 7 月 30 日 09:37:17 fs0 内核:[1810036.560064] lockd:无法监控 node2 7 月 30 日 09:38:22 fs0 内核:[1810101.384027] statd:服务器 localhost 无响应,超时 7 月 30 日 09:38:22 fs0 内核:[1810101.384033] nsm_mon_unmon:rpc 失败,状态 = -5 7 月 30 日 09:38:22 fs0 内核:[1810101.384044] lockd:无法监控 node0
涉及的软件:
VMWare、Debian lenny(64 位)、古老的 Red Hat(32 位)(我相信是版本 7)、Debian etch(32 位)
NFS、apache2+mod_php、exim、dovecot、bind、amanda、proftpd、nagios、cacti、drbd、heartbeat、keepalived、LVS、cron、ssmtp、NIS、svn、puppet、memcache、mysql、postgres
Joomla!、Magento、Typo3、Midgard、Symfony、自定义 php 应用程序
答案1
在这种情况下,请尝试重新挂载 nfs 分区。是否同步导出?