我可以使用 Windows Pro 或 Server Standard 或 CentOS 中的任何一个来进行此监控(我猜)。AWS Deadline 作业似乎存在一些复杂的问题,我不希望任何人知道。作业经常失败。
我认为,最确凿的证据是,由于无法访问特定共享,作业监控软件有时无法启动。共享是 ZFS,硬件完全有能力跟上 IO。此问题主要发生在密集集群中,其他时候则出现零星的“一次性”事件。“重新启动即可解决问题”,但在密集的故障集群中则不行。
我强烈希望密切监控网络共享的可靠性,因为有时这些共享会突然神秘地无法供 Windows 10 客户端使用!然后它们会在片刻或几分钟后再次出现...或者重新启动即可解决问题。
所有遇到此问题的客户端都运行 Windows 10,但这并不一定意味着这是 Windows 10 的问题。
网络拥塞程度不算太高。
我可以使用事件查看器进行这种监控吗?有没有一种简单的 Python 方法可以进行这种监控。我想在一周内尽可能多地收集数据……一天 24 小时……如果这有意义的话。
答案1
运行脚本作为计划任务,定期且频繁地读取和写入较小但变化的值到共享上的文本文件中,并将其记录到监控服务器。
如果可能的话,我建议每隔几秒钟运行一次,因此如果您要在 Windows 机器上托管它,您可能希望使用 cmd 而不是 PowerShell。
要写入的值是精确到秒的几分之一秒的时间/日期,在下一次迭代中,脚本将查找该文件,如果找到,将读取该文件中的值,然后将其附加到监控日志中,并将新值写入检查文件。如果找不到该文件,您将向日志中写入适当的错误消息。
您可以验证对共享的访问(包括读取和写入),直至您想要的或您的系统可以处理的任何粒度,并且您将获得对该共享的成功或失败的读取和写入的日志。