我需要能够判断一系列服务器上是否有人处于活动状态,如果没有,则自动关闭它们(关闭虚拟机)。这不是一项简单的任务,因为我有 1000 多个服务器实例,包括各种操作系统(Win、Unix、Linux)和许多不同类型的配置。这使得在机器上安装正常运行时间代理变得并非易事。此外,由于用户是管理员,我无法真正确保我安装的工具不会被篡改。
所以我的想法是将每个服务器视为一个黑匣子,并使用服务器外部的统计数据来判断是否存在活动:
- 监控所有服务器的磁盘和 CPU 活动。
- 如果磁盘写入和 CPU 活动在 1 小时内降至零,则假定系统处于空闲状态并将其关闭。
如果我的准确率达到 90% 左右,我并不在乎关闭比真正空闲的机器更多的机器。上述黑盒是否有效或不可靠?哪些黑盒指标更合适?
答案1
只需告诉人们,如果他们弄乱了脚本,您将看不到写入或 CPU 活动,并且它会终止实例:)