我的第一次系统管理员失误

如何在恐慌中专注于寻找解决方案。

图片来源：

Opensource.com

如果你在 IT 行业工作，你就知道事情永远不会完全按照你想象的那样发展。在某些时候，你会遇到错误或出现问题，最终你不得不修复这些问题。这就是系统管理员的工作。

作为人类，我们都会犯错。有时，我们是过程中的错误，或者我们是出错的原因。结果，我们最终不得不修复自己的错误。这种情况会发生。我们都会犯错、打错字或出错。

作为一名年轻的系统管理员，我付出了惨痛的代价才吸取了这个教训。我犯了一个巨大的错误。但多亏了我的主管的一些指导，我学会了不要沉溺于自己的错误，而是制定一个“错误策略”来纠正错误。从错误中学习。克服它，继续前进。

我的第一份工作是在一家小公司担任 Unix 系统管理员。实际上，我是一名初级系统管理员，但我大部分时间都是独自工作。我们是一个小型 IT 团队，只有我们三个人。我是 20 或 30 台 Unix 工作站和服务器的唯一系统管理员。另外两人支持 Windows 服务器和桌面。

任何阅读本文的系统管理员可能都不会惊讶地知道，作为一名经验不足的初级系统管理员，我最终在错误的目录中运行了 rm 命令。以 root 身份。我以为我正在删除我们某个程序的一些陈旧的缓存文件。结果，我错误地清除了 /etc 目录中的所有文件。哎哟。

我意识到自己做错事是因为 rm 无法删除某些子目录的错误消息。但是缓存目录应该只包含文件！我立即停止了 rm 命令，并查看了我所做的事情。然后我慌了。一瞬间，无数的想法涌上我的脑海。我是否刚刚摧毁了一台重要的服务器？系统会发生什么？我会不会被解雇？

幸运的是，我运行的是 rm * 而不是 rm -rf *，所以我只删除了文件。子目录仍然存在。但这并没有让我感觉好一点。

我立即去找我的主管，告诉她我所做的事情。她看到我为自己的错误感到非常愚蠢，但我承认了错误。尽管情况紧急，她还是花了几分钟时间对我进行指导。“你不是第一个这样做的人，”她说。“别人在这种情况下会怎么做？” 这帮助我冷静下来并集中注意力。我开始减少思考我刚刚做的蠢事，更多地思考我接下来要做什么。

我制定了一个简单的策略：不要重启服务器。使用相同的系统作为模板，并重新创建 /etc 目录。

一旦我有了行动计划，剩下的就容易了。这只是运行正确的命令从另一台服务器复制 /etc 文件并编辑配置以使其与系统匹配的问题。感谢我记录一切的习惯，我使用了我现有的文档来进行任何最终调整。我避免了必须完全恢复服务器，否则这将意味着巨大的中断。

可以肯定的是，我从那个错误中吸取了教训。在我作为系统管理员的余生中，我总是在运行任何命令之前确认我所在的目录。

我还了解了制定“错误策略”的价值。当事情出错时，恐慌并思考接下来可能发生的所有坏事是很自然的。这是人之常情。但是，制定“错误策略”可以帮助我停止担心刚刚出错的事情，而专注于让事情变得更好。我可能仍然会考虑它，但知道我的下一步行动让我能够“克服它”。

标签

Jim Hall 是一位开源软件倡导者和开发者，最著名的是他在 GNOME 中的可用性测试以及作为 FreeDOS 的创始人兼项目协调员。

12 条评论

本作品根据知识共享署名-相同方式共享 4.0 国际许可协议获得许可。