在我的工作中,备份的优先级出奇地低。备份策略是在不久前实施的,从那时起,人们就认为备份没问题。如果你问系统管理员,他们会说一切都备份了。
但是,当你要求特定备份时,有一半的时间他们都不在:
- 磁盘已满
- 磁带失败
- 好像有人禁用了备份作业
- 网络连接中断
- 我们几年前就订购了该磁盘,但财务部门尚未批准采购订单
- 文件已损坏
- 文件包含错误的数据库
- 仅事务日志备份(没有完整备份则无用)
几周前,一台服务器丢失了太多磁盘阵列磁盘,差点酿成灾难。幸运的是,如果你尝试了很多次,一个磁盘仍然能够复制数据。
但即使在那次险些酿成灾难之后,我似乎也无法说服系统管理员改善这种情况。所以我想知道,有什么建议可以让人们睁开眼睛?在我看来,我们正走在悬崖边上。
答案1
你必须始终从顶部解决这些问题。
当前的备份策略是否得到管理层的支持和理解?如果没有,那就毫无用处。
高管层需要了解问题所在以及所涉及的风险(丢失需要通过法律途径才能生存的财务数据,还是丢失花费数年时间收集的客户数据?),并在决定采取行动或决定让某人(比如您)采取行动时进行权衡。
如果您无法联系到管理层,请尝试联系业务控制员或其他财务职位,因为数据检索及其完整性对公司的报告至关重要。如果需要,他们可以“发起风暴”...
答案2
从哪儿开始呢?这是一场即将发生的灾难。系统管理员的主要工作职责是确保数据备份和可恢复。其余一切都是次要的。没有如果,没有但是。
您可以做以下几件事:
跟踪恢复的 KPI。应该可以生成一份报告,显示有多少恢复请求已成功。任何低于 100% 的情况都应进行彻底调查。管理层喜欢报告,这是确凿的证据。
所有备份和恢复操作都应该有记录的程序,包括所有系统及其备份策略、磁带轮换、时间表、升级路径、测试恢复等。要求查看它们。
与系统管理员经理交谈并表达您的担忧。准备好恢复不起作用的证据。如果没有效果,请进一步询问。
认真点——大吵大闹。这样的事情会毁掉一家公司。
答案3
建议(至少)每年进行一次灾难恢复测试。成功执行测试所需的工作应该能发现缺陷。
答案4
很容易将责任归咎于管理员——然而 Oskar 的说法是正确的:这些事情都是由高层推动的。如果管理层不花钱将备份作为优先事项,那么系统管理员通常就倒霉了,只能用他们拥有的资源尽力而为。
关键是,如果你是那些不幸的管理员之一——我在与一些客户打交道时就遇到过这种情况——你要确保管理层得到反复的、可通过纸质记录确认的方式告知,这对业务来说是一种风险。
我的策略是不断解决问题。如果你这样做,有时问题会得到解决,但这主要是为了让我的报告对象无法以“我从未得到汇报”为借口。作为一名顾问,我通常可以做得更好。我可以让我的老板向比我更高级的管理层汇报存在漏洞。这可以分散责任,或者至少将责任集中在比我更高的级别上。
同时,您必须富有创造力,并尽力利用客户所能提供的任何资源来将风险降至最低。
虽然在某些情况下管理员可能有过失,但管理层始终要负责任:要么知道风险但没有采取足够措施来减轻风险,要么雇用没有提醒他们注意这些风险的人。