如果你在 IT 行业工作,你就会知道事情永远不会完全按照你的想法进行。在某些时候,你会遇到错误或出现问题,最终你将不得不修复这些问题。这就是系统管理员的工作。
作为人类,我们都会犯错。有时,我们是过程中的错误,或者 我们 是出错的原因。结果,我们最终不得不修复自己的错误。这是很正常的。我们都会犯错、打错字或出错。
作为一名年轻的系统管理员,我以惨痛的教训学到了这一点。我犯了一个巨大的错误。但多亏了我的主管的一些指导,我学会了不要沉溺于我的错误,而是创建一个“错误策略”来纠正错误。从错误中学习。克服它,然后继续前进。
我的第一份工作是一家小公司的 Unix 系统管理员。实际上,我是一名初级系统管理员,但我大部分时间都是独自工作。我们是一个小型 IT 团队,只有我们三个人。我是 20 或 30 台 Unix 工作站和服务器的唯一系统管理员。另外两个人支持 Windows 服务器和桌面。
任何正在阅读这篇文章的系统管理员可能都不会惊讶地知道,作为一个没有经验的初级系统管理员,我最终在错误的目录中运行了 rm
命令。以 root 身份。我以为我正在删除我们某个程序的一些过时的缓存文件。结果,我不小心删除了 /etc
目录中的所有文件。哎哟。
我意识到自己做错事的原因是 rm
无法删除某些子目录的错误消息。但是缓存目录应该只包含 文件!我立即停止了 rm
命令,并查看了我所做的事情。然后我慌了。一下子,无数的想法涌入我的脑海。我是否刚刚摧毁了一台重要的服务器?系统会发生什么?我会不会被解雇?
幸运的是,我运行的是 rm *
而不是 rm -rf *
,所以我只删除了文件。子目录仍然存在。但这并没有让我感觉好些。
我立即去找我的主管,告诉她我做了什么。她看到我对自己的错误感到非常愚蠢,但我承认了错误。尽管情况紧急,她还是花了几分钟时间对我进行了一些指导。“你不是第一个这样做的人,”她说。“别人在这种情况下会怎么做?” 这帮助我冷静下来并集中注意力。我开始较少地思考我刚刚做的蠢事,而更多地思考我接下来要做什么。
我制定了一个简单的策略:不要重启服务器。使用相同的系统作为模板,并重新创建 /etc
目录。
一旦我有了行动计划,剩下的就很容易了。这只是运行正确的命令从另一台服务器复制 /etc
文件并编辑配置以使其与系统匹配的问题。多亏了我记录一切的习惯,我使用了我现有的文档来进行最后的调整。我避免了必须完全恢复服务器,这将意味着巨大的中断。
可以肯定的是,我从那个错误中吸取了教训。在我余下的系统管理员生涯中,我总是在运行任何命令之前确认我所在的目录。
我还了解了制定“错误策略”的价值。当事情出错时,很自然地会感到恐慌并思考接下来可能发生的所有坏事。这是人之常情。但是,制定“错误策略”可以帮助我停止担心刚刚出错的事情,并专注于把事情做得更好。我可能仍然会思考它,但是知道我的下一步行动使我可以“克服它”。
12 条评论