什么是系统管理员英雄?

来自社区的两个关于系统管理员英雄事迹的故事:这对你意味着什么?
141 位读者喜欢这篇文章。
Open Force superhero characters

作者:Jason van Gumster via GitLab, CC BY-SA 4.0 International

系统管理员花费大量时间来预防和解决问题。当然,在某些时候,系统管理员会成为英雄,无论是对他们的团队、部门、公司还是公众,尽管他们“拯救”的人可能永远不会知道。

欣赏来自社区的这两个关于系统管理员英雄事迹的故事。这对你意味着什么?


在 2000 年代初期,我曾在陆军国民警卫队的一个合同中担任系统管理员。我参与了一个试点新内容管理系统的项目。该系统将能够向全国各地的教室分发在线教育材料。蒙大拿州被选为最初的试点和测试阶段。我前往蒙大拿州,并在他们的数据中心部署了多台运行 Red Hat Linux 和内容管理软件的服务器。

几天后,我在常规办公室接到了一个忧心忡忡的警卫队队员打来的电话,带来了紧急消息。其中一台服务器无法启动。由于情况特殊,无法轻松进行故障排除。

测试计划在下周开始,这几乎没有时间让服务器恢复在线。项目延误将是代价高昂的。我需要快速解决问题。幸运的是,我们在本地数据中心有几台相同的服务器。我使用其中一台重新安装了操作系统和应用程序,然后将其配置得与蒙大拿州的问题服务器完全相同。然后,我取下硬盘驱动器,安全地包装好,并通过隔夜快递寄给了蒙大拿州国民警卫队军械库。

警卫队队员第二天早上打电话给我,说他收到了替换驱动器。我指导他如何卸下和更换启动驱动器。这样做之后,他按下了电源按钮。我们沉默地等待了几秒钟,然后他告诉我他可以看到指示灯并听到驱动器活动的声音。我开始 ping 服务器,在收到一些积极响应后,我能够 SSH 进入它。这是一个好兆头!

每个人都很欣慰服务器再次上线,以便测试可以开始进行。

如果您想了解有关此计划的更多信息,这里有一篇文章。(由于某些原因,加载时间非常长,所以我将其保存为 PDF 以防万一。) 

Alan Formy-Duval


人类喜欢好故事。在 IT 行业,关于代码编写和布线的英雄事迹的故事可以追溯到第一台计算机和住在其中的 bug。它们都深受喜爱。如果听众没有受到故事起因的影响,那么它们会更受欢迎。

当事件变得糟糕时,系统管理员往往会成为替罪羊。这一事实使我们常常不情愿地荣幸地成为这些故事的主角。反派可以是任何事物,从恶劣的天气或挖断的电缆,到错误输入的命令,或者仅仅是人为错误。因为我们所处的行业是围绕着人为制造的冲突和戏剧性事件而建立的,所以我们行业中的传奇史诗通常涉及系统管理员与考虑不周的开发人员作斗争。这是一个老套的桥段,但当故事被讲述时,它仍然是一个引人发笑和惊叹的好桥段。

我一直是一个喜欢与同行和朋友分享这些故事的人。同志情谊和欢笑对我来说很重要。这些故事是破冰者,也是在舞台上、会议室里,或者只是在辛苦一天后与朋友喝啤酒时结束场景的人。但是今年,我开始以不同的方式思考我们的讲故事传统。我们在饮水机旁应该谈论的英雄不是那些在周日凌晨 3 点以华丽的姿态解决问题的系统管理员。行业中真正的英雄是那些在周二下午 3 点阻止问题发生的系统管理员。

当我和我的客户谈论构建有效的解决方案时,我将对话重点放在两个核心原则上。首先,我恳求他们不要沉迷于闪亮的新事物,而是将他们的解决方案建立在经过验证的、可支持的技术之上。是的,闪亮的新技术可以在某些用例中提供价值。但最有可能的是,它只是增加了复杂性,从而降低了稳定性和可维护性。这些因素共同作用,最终减缓了最终用户的采用速度。

不增长的平台是不会持久的平台。我不希望在一个在其首次升级时就不存在的平台上工作。违反这一原则会创建需要大力气才能维持生存的系统。没有人能从这种情况中受益,即使你从中得到了一个好故事。

我每次有机会都会强调的第二个原则是关注基础知识,并了解我们正在实施的技术实际上是如何工作的。长期以来,我们的行业一直专注于将我们的产品营销为部署快速、易于管理,但这几乎总是一层薄薄的遮羞布。任何人设计的每个 IT 系统最终都会在其生命周期的某个时刻崩溃。如果你不了解当系统出现问题时会发生什么,你就没有机会在不编写新的传奇故事以便在未来几周的午餐时谈论的情况下恢复系统。

我花了比我感到舒适的时间更长的时间才弄清楚,我们都喜欢的英雄故事是我们没有坚持我最看重的任何解决方案的基本原则的结果。因此,当今年的系统管理员日到来时,我不会向那些构建了一个糟糕的系统并通过极端情况和过量咖啡因使其保持运行的英雄们举杯。我将向我们行业中那些专注于防止英雄时刻发生的无聊的人们致敬并与他们分享一杯饮品。一个与随叫随到的电话一起度过的无聊周末是我从现在开始将从我的系统管理员兄弟那里要求的最英勇的事情。

—Jamie Duncan

User profile image.
Opensource.com 发布关于创建、采用和分享开源解决方案的故事。在 Twitter 上关注我们 @opensourceway。

2 评论

第二个故事,Jamie Duncan,说得太对了!我在 opensource.com 上的另一个帖子中也发表了类似的评论……作为 IT 部门的负责人,我更看重系统安静且可预测地运行。我知道我的团队成员都很优秀,会在需要时做出英勇的努力,我们所有人肯定都有那些“通宵达旦”的故事可以回忆。

许多系统管理员感到痛苦的一件事是,你为良好运行的系统所做的工作缺乏认可。人们习惯了良好的环境,不明白保持它们运行需要付出什么。我发现更多初级系统管理员因此而感到沮丧。这使得部门的经理或领导者在每个机会都与团队互动、培养、培训、指导团队变得尤为重要。我真心感谢为我工作的人们,保持士气高昂非常重要。

并不是我在抱怨,但我发现很少有人会特意感谢系统管理员对重要细节的持续关注。对于任何阅读本文的人来说,如果你对某些做得好的工作给予简单的表扬或感谢——或者只是对没有遭受大量系统中断表示感谢,那将会有很大的帮助。

当您实际阅读他们的电子邮件通知并回复时,也有助于提高系统管理员的士气。如果您能提供帮助,那就更好了!我们有多少系统管理员发送了多封关于问题/维护的重要通知,结果在您精心沟通和预先计划的工作开始时,却被恐慌的升级请求淹没。

对我来说,系统管理员英雄是技术 компетентный、系统中断水平非常低、真诚地帮助最终用户,并且具有在需要时做正确事情的伟大职业道德的人。

每次 Arch 更新时,我都感觉自己像个英雄系统管理员!

Creative Commons License本作品根据 Creative Commons Attribution-Share Alike 4.0 International License 获得许可。
© . All rights reserved.