我一直在工作中管理 Windows Server 2003 机器,但我是一名软件开发人员。(请不要说“雇用系统管理员”,这个问题的重点是我自己的学习)。
服务器管理员如何知道在事件查看器中要查找什么?有时会出现我无法理解的奇怪事物,很多时候会出现一些始终存在的东西,而我只是忽略它们,因为它们始终存在。
是否有一些资源可以指导我了解 Windows Server 事件查看器日志的正常行为以及哪些行为可能导致灾难?
或者也许有一些第三方工具可以解读它们并提出建议?但我更喜欢学习路线。
答案1
事件日志是操作系统、其组件以及系统上安装的任何软件所抛出的任何消息或错误的集中地。因此,我们无法完全涵盖其所有潜在内容,因为它可能包含无限的潜在内容,并且它们都需要单独处理。
分析事件日志的一种方法是:
- 过滤信息警报,以便您只看到警告和错误。
- 依次研究每个问题,并尝试解决每个问题。Google 是实现此目标的完美合法方式。如果您能够解决错误,使其不再发生,那么很好,这个问题就解决了。继续下一个。
- 如果您无法解决错误,请尝试确定它是良性问题还是真正的问题。如果是真正的问题,请将其升级。如果不是,请将其添加到“已知错误”记录中(或心理“忽略此错误”池),然后继续处理下一个错误。
这就是全部了。安全事件日志审计略有不同,但通常可以使用上述方法很好地覆盖应用程序和系统。
您可以设置监控/警报包来查看事件日志并向您发出警报。有两种典型方法:
- 配置工具来监视特定条目并发出警报
- 配置该工具以忽略已知的良性条目并对其他所有内容发出警报
每种方法都有其优势。但要记住的关键一点是,监控工具的实用性取决于其配置,没有“灵丹妙药”可以让你很好地兼顾“足够安静”和“保证每次出现真正问题时都会提醒你”。不幸的是,这需要不断的平衡。
答案2
如果您运行的是优质服务器硬件,那么还有一条建议,那就是运行供应商提供的免费监控软件。IBM 有 Director,HP 有 SIM,Dell 有 OpenManage。如果配置正确,这些软件都会向您发出不良警报 - 最具体地说,就是风扇坏了、过热、SMART 警报中即将发生的磁盘故障,或者您可能不知道的实际磁盘故障(在 RAID 卷中)。
除了硬件警报之外,主动(非常频繁地)浏览事件日志没有什么意义。您通常会在问题报告后使用它们来查找问题原因。当然,每个环境都是不同的,如上所述,如果您有审计或其他安全要求(HIPAA、PCI 等),安全日志可能会有所不同。