如果你从事 IT 工作,你就会知道事情永远不会完全按照你想象的那样发展。 在某个时候,你会遇到错误或者出现问题,最终你必须修复它们。 这就是系统管理员的工作。
作为人类,我们都会犯错误。 有时,*我们*是过程中的错误,或者*我们*是出错的原因。 因此,我们最终不得不弥补自己的错误。 这种情况会发生。 我们都会犯错误、打错字或出现错误。
作为一名年轻的系统管理员,我通过惨痛的教训学到了这一点。 我犯了一个巨大的错误。 但是,在我的主管的指导下,我学会了不要沉溺于我的错误,而是创建一个“错误策略”来纠正错误。 从你的错误中学习。 忘掉它,继续前进。
我的第一份工作是在一家小公司担任 Unix 系统管理员。 实际上,我是一名初级系统管理员,但我大部分时间都是独自工作。 我们是一个小型 IT 团队,只有我们三个人。 我是 20 或 30 台 Unix 工作站和服务器的唯一系统管理员。 另外两人支持 Windows 服务器和桌面。
任何阅读此文章的系统管理员可能不会感到惊讶,作为一个没有经验的初级系统管理员,我最终在错误的目录中运行了 rm
命令。 以 root 用户身份。 我以为我正在删除我们某个程序的一些过时缓存文件。 相反,我错误地擦除了 /etc
目录中的所有文件。 哎呦。
我意识到自己做错了事情的线索是 rm
无法删除某些子目录的错误消息。 但是缓存目录应该只包含文件! 我立即停止了 rm
命令,并查看了我所做的事情。 然后我惊慌失措了。 突然间,一百万个想法涌入我的脑海。 我是不是摧毁了一个重要的服务器? 系统会发生什么? 我会被解雇吗?
幸运的是,我运行的是 rm *
而不是 rm -rf *
,所以我只删除了文件。 子目录仍然存在。 但这并没有让我感觉好一点。
我立即去找我的主管,告诉她我做了什么。 她看到我对自己的错误感到非常愚蠢,但我承认了错误。 尽管情况紧急,她还是花了几分钟时间来指导我。 “你不是第一个这样做的人,”她说。 “如果换成别人,他们会怎么做?” 这帮助我冷静下来并集中注意力。 我开始减少思考我刚刚做的愚蠢的事情,更多地思考我接下来要做什么。
我制定了一个简单的策略:不要重启服务器。 使用相同的系统作为模板,并重新创建 /etc
目录。
一旦我有了行动计划,剩下的就很容易了。 这只是运行正确的命令从另一台服务器复制 /etc
文件,并编辑配置以使其与系统匹配的问题。 感谢我记录一切的习惯,我使用我现有的文档进行了任何最终调整。 我避免了必须完全恢复服务器,否则这将意味着巨大的中断。
可以肯定的是,我从那个错误中吸取了教训。 在我作为系统管理员的剩余时间里,我总是在运行任何命令之前确认我所在的目录。
我也学到了建立“错误策略”的价值。 当事情出错时,惊慌失措并思考接下来可能发生的所有糟糕事情是很自然的。 这是人的本性。 但是,创建一个“错误策略”可以帮助我停止担心刚刚出错的事情,并专注于让事情变得更好。 我可能仍然会想到它,但知道我的下一步措施让我能够“克服它”。
12 条评论