针对以下问题最佳系统管理员事故,您经历过的最严重的事故是什么?与上一个问题不同,我所说的“最严重”是指对系统造成最大程度的破坏或对人员造成实际伤害。
我先从我自己开始说:
我们有两个远程配线柜,它们位于一条 100 英尺长的走廊的尽头,走廊的地面上铺有金属格栅。在我们安装好 Cat6 电缆后,承包商清理了所有从格栅中掉落到 3 英尺以下混凝土中的碎屑。一天,我和一位同事进入走廊检查进度,但我们分心了,没有注意到一块格栅被移开了。我的朋友一脚踩空,胸部撞到了钢横梁上。他气喘吁吁,浑身酸痛,不得不休息了几天,但幸运的是,钢梁的边缘是圆的,开口的大小使他的头没有撞到它或下面的地板上。
显然,我们了解到地板被部分拆除的区域需要进行标记。
答案1
想象一下,如果您在飓风安德鲁期间住在南佛罗里达州(24X7 热潮之前)。您的所有服务器都安全地锁在一栋建筑中,需要您佩戴徽章才能进入,而更安全的区域则需要额外扫描您的徽章。想象一下,一个傻瓜没有考虑到需要在门上安装实际的把手。想象一下,一份价值 400 万美元的合同需要送货,最近的电力在 230 英里以北,天然气供应不足,道路危险,而发电机的设计供电时间为 48 小时。如果您愿意的话,可以嘲笑一下,一堆服务器被放在卡车后面,卡在米老鼠收费公路上,因为缺少汽油而停滞不前。如果您愿意的话,可以嘲笑一下,从后勤、系统管理员和运营的角度来看,这一切是多么糟糕,完全没有借口。最精彩的部分是听数百台 UPS 装置同时呼喊着需要维持生命的电力。
答案2
我在思科工作时,经常会遇到这样的客户:购买了价值 30 美元的无线网卡,当驱动程序无法安装时,他们会吐出芯片;或者遇到使用思科最便宜、最基础的路由器的人,他们会因为支持问题而大声抱怨。
有一天,我接到了世界上最大的信用卡供应商之一的电话(比如 Amex、Mastercard、Visa、Diners……事实上,它是这些品牌之一,我不知道他们是否会喜欢我提到它)。我是一线支持人员,我唯一的工作就是评估情况、对其进行评级,并将其转交给相应的支持部门。这是我处理的唯一一个优先级一的案例。
信用卡公司的一名工作人员打来电话说,他们位于美国东西海岸的主机之间的链接断了。如果在一台主机上创建了一个账户,交易将始终在该主机上进行。如果你最近的链接始终靠近该主机,那么这没什么问题。但在这一天,如果你在东海岸服务器上有一个账户,但你身处西海岸,交易将被拒绝,因为链接断了。
评估损失时的标准问题是“这会给你的企业造成多大的损失?”答案是冷静而镇定的“每 30 秒大约一百万美元”。
当您下次因为 30 美元的无线网卡而想向客服大发牢骚时,这确实能让您理解其中的道理。
(需要注意的是,思科在转接后 5 分钟内就恢复了连接)
答案3
为 rm 或 mv 等命令添加别名以添加“-i”选项以避免错误是很常见的。但不久前在我公司就发生过这种情况。有人在其中一台服务器的 root 的 .bashrc 中放入了此行。
alias rm='rm -i'
然后它复制了该行并用 rm 替换 mv......或者他是这么想的:
alias rm='rm -i'
alias mv='rm -i'
剩下的就是历史了:)
嗯,问题是,当移动“你确定吗”这个问题时,说的是“删除”而不是“移动”,但是......
答案4
我学会了在按下 Enter 键之前完成每个命令句子。
我遇到的一个稍微类似的情况是,当我不确定某个命令时,我按下 Home 并输入一些垃圾字符,因此该命令无法被识别。
me@mypc:~$ sdkjfhdsudo mv --too-many --switches-to-be --comfortable --working-with --while-running --an-important-command /here/this /there/that
bash: sdkjfhdsudo: command not found
然后我再次检查选项,如果需要的话,慢慢检查。还有人这样做吗?当然,你必须确保输入足够多的垃圾字符(5+),以防止其成为另一个有效命令并造成更多不可预测的损害。
(这其中是否存在我尚未发现的基本缺陷,或者在给定 5 个以上的垃圾字符(通常在“asdfghjkl”键中)的情况下,它会做出一些不可预测的事情?)