我正在研究集中管理 20 台 Linux 服务器和 100 台 Linux 工作站的最有效方法。
我不确定是否存在某种管理和监控套件可以从一个站点完成日常管理工作和故障排除。
答案1
我有一个拥有四十个工作站和大约十五个计算节点的站点。
我通过以下方式管理工作站:
- 迫使工程师将所有数据存储在 NFS 网络上,而不是本地
- 不允许任何工程师以任何理由在任何工作站上拥有 root 权限
- 将所有系统的 syslog 传输到中央 syslog-ng 主机,并定期(通常是每天,但有时每小时)进行日志解析
- 使用 nagios 监控运行情况
- 拥有可重复的启动环境——经验法则是,如果问题无法在 30 分钟内解决,则重新启动机器(实际上,我们的启动速度比这快得多,因为在这种设置下,我们很少有 30 分钟的时间来排除故障),如果启动失败,我们就开始更换硬件
我管理计算场的方式几乎相同,不同之处在于:
- 有一个本地 /scratch 目录,任何人都可以写入任何内容 - 但该目录的内容无法保证
- 性能/使用情况计数器通过中央主机的 munin 完成
- 网络活动是通过使用 cacti 来监控农场节点所连接的交换机端口来完成的
它并不完美,但是它能够维持这个网站的运转。
(哦,我应该提一下,这个站点没有任何现场专职 IT 人员,而是 PT 和按需的。上面的监控系统通常可以让您知道何时有计算机出现问题。)
答案2
答案3
答案4
您的“日常管理”任务是什么?您运行的是什么发行版?
Logwatch 和 cron 电子邮件可以大大帮助您了解服务器上正在发生的事情。除此之外,还有以下产品木偶可以帮助自动化推送软件包、更改防火墙配置等操作。还有一些工具,例如并行 SSH它可以帮助您同时在多个服务器上手动执行某些命令行。
如果您正在运行基于 Debian 的解决方案,则有一个名为 apticron 的软件包将通过 cron 定期运行,并可以通过电子邮件向您发送需要更新软件包的报告。我知道 Redhat/CentOS 类型的发行版有一个类似的程序,但我暂时想不起它的名字了。
就监测而言,数量庞大您可以查看的软件包。我偏爱 Nagios,但市面上有许多免费和付费系统可以做得很好。但是,如果不提供更多详细信息,我们很难针对您的具体情况提供好的建议。