5 个系统管理员的恐怖故事

6 位读者喜欢这篇文章。
5 sys admin horror stories

Opensource.com

系统管理员感谢日快乐!System Administration Appreciation Day!

这份工作不容易。总是有系统需要更新,错误需要修复,用户需要取悦,等等等等。系统管理员的工作甚至可能包括修理打印机(抱歉)。为了庆祝我们的系统管理员为我们所做的辛勤工作,保持我们的机器正常运行,我们收集了五个恐怖故事,证明了这份工作有多么可怕/困难。

您有自己的系统管理员恐怖故事吗?请在下面的评论中告诉我们。

吱!砰!轰!

来自 David Both

在 1970 年代后期,我曾在 IBM 工作,担任客户工程师,在一个俄亥俄州西北部的小镇上。当时有很多非常旧的单元记录设备,如穿孔机、卡片分类机和其他类似的设备,我经常在这些设备上工作。还有一些更现代的中型和大型计算机,我们也提供服务。在夏末的一个晚上,我正在一台穿孔机上工作,或多或少地目睹了一家企业可能发生的最糟糕的事情。

似乎这家公司聘请了一位新的夜班操作员,他才上班几个星期。他正在按照运行手册中的指示运行工资单,并将工资单磁盘包加载到一台大型 IBM 磁盘驱动器上,可能是 IBM 3350,然后启动了它。这时,这位新手操作员听到一声非常响亮的尖叫声,磁盘未能联机。

正如更有经验的操作员所知,驱动器发生了磁头碰撞,或者 IBM 称之为磁头-磁盘干扰 (HDI)。这意味着磁头和磁盘本身都损坏了。

然后,这位新操作员将同一个磁盘包放在另一个驱动器单元上,结果完全相同。他知道情况不妙,但他被告知备份工资单磁盘包的位置,于是他继续将备份包加载到第一个已经损坏的驱动器单元上。当他试图加载时,这个组合也产生了同样令人毛骨悚然的尖叫声。他现在认为他应该打电话给主管操作员,主管操作员立即赶到现场,在听完发生的事情后,当场解雇了可怜的新手。

IBM 现场工程师只花了几个小时就重建了两个损坏的驱动器单元,但该公司花了数周时间才手工恢复了所有丢失的数据。有时,单次备份是不够的,完整的操作员培训至关重要。

意外的垃圾邮件发送者

一个匿名故事

这是一个非常常见的故事,新的系统管理员不得不讲述:他们设置了一个电子邮件服务器,并且没有限制作为中继的访问权限,几个月后他们发现他们已经在全球范围内发送了数百万封垃圾邮件。但这不是发生在我身上的事。

我设置了一个 Postfix 和 Dovecot 电子邮件服务器,它运行良好,它拥有所有正确的权限和所有正确的限制。它运行得非常出色,持续了多年。然后有一天早上,我收到一个包含数百个电子邮件地址的文件。我被告知这是一个艺术组织列表,并且有一个紧急公告必须尽快向该列表发布。所以,我立刻开始行动。我设置了一个电子邮件列表,我写了一个快速的 sed 命令从文件中提取地址,然后我导入了所有地址。然后,我激活了一切。

十分钟之内,我的服务器几乎崩溃。结果证明,我被要求为一个我们从未见过面、从未联系过、并且不知道自己被添加到邮件列表中的人设置一个邮件列表。我不知不觉地设置了一种方式,让我们向数百个艺术组织和大学的人员发送垃圾邮件。我们的地址被一些地方列入黑名单,并且花了一个星期的时间才让愤怒的电子邮件停止。教训: 索要更多信息,特别是当有人要求您导入数百个地址时。

流氓服务器

来自 Don Watkins

我是一个文科人士,最终成为了技术总监。除了我在获得思科认证网络工程师证书的过程中获得的 15 个学分外,我所有的其他学习都是在工作中获得的。我认为从真实经验中学习不该做什么通常是最好的老师。然而,这些经验往往会以情感痛苦为代价。在我的思科经验之前,我对 TCP/IP 网络以及我可能无意中造成的破坏知之甚少,因为我不了解路由和 DHCP 的细微差别。

当时我们学校的网络是一个活动目录域,DHCP 和 DNS 由 Windows 2000 服务器提供。我们所有的教职员工对电子邮件、互联网和网络共享的访问都是通过这种方式提供的。我一直在研究 K12 Linux 终端服务器 (K12LTSP) 项目的用途,并构建了一个带有单网卡的 Fedora Core 盒子。我想看看我的新项目运行情况如何,所以在没有与我的网络支持专家交谈的情况下,我将其连接到我们的主 LAN 网段。在很短的时间内,我们的帮助台电话响个不停,校长、教师和其他教职员工都无法访问他们的电子邮件、打印机、共享目录等等。我不知道 Windows 客户端会在我们的网络上看到另一个 DHCP 服务器,那就是我的测试计算机,并从中获取 IP 地址和 DNS 信息。

我不经意地创建了一个“流氓” DHCP 服务器,并且没有意识到它会造成的破坏。我与支持专家分享了发生的事情,我仍然可以看见他径直走向那台流氓计算机,将其从网络中断开连接。我们所有的客户端计算机都必须重新启动,我们的许多交换机也必须重新启动,这导致了很多混乱和由于我的无知而浪费的时间。那时我了解到最好在自己的子网上测试新产品。

许可难题

另一个匿名故事

在一家小型非营利组织工作,公司的 CEO 只会为他持有股份的公司拥有的软件付费;其他一切,他都让 IT 部门非法使用(购买一份副本,分发多份)。他通过要求每台计算机都安装某些软件来实现这一点,但他从未授权购买站点许可证或比我们最初拥有的更多的许可证。

我刚进入 IT 行业,并且有一个宏伟的计划,即如何说服人们使用免费和开源版本的软件,但是当公司的 CEO 和文化明确允许非法使用软件时,开源可能很难推销(除非它填补了闭源软件无法填补的空白,但那样它就不是在取代任何东西,所以问题仍然存在)。

当我清楚地看到管理层真正理解他们在做什么以及为什么是错误的时候,并且没有打算纠正它时,我离开了这份工作。我这样做部分是因为我不赞成这种道德(如果你要使用需要许可证的软件,那就支付许可费;这是交易的一部分),部分是因为我非常确定,如果律师找上门,该组织不会为 IT 部门提供赔偿(更有可能的是,他们会让我们背锅)。

果然,在我离开大约一年后,他们被一家他们非法使用的公司起诉了。我转到了一家使用大约 90% 开源软件(其中一些是付费的,一些是 0 美元)的公司。

堵住漏洞!

来自 Don Watkins

那是 2004 年初,我最近参加了红帽系统管理培训。当时西纽约地区信息中心开始寻找试点学校,在 Linux 服务器上试用 Lotus Notes,我正在寻找应用我新学到的知识的方法。我自愿让我们的学区参加试点。

我们与地区信息中心提供的一位经验丰富的 Linux 微机支持专家合作,使用了一台备用的机架式服务器,并在其上安装了红帽企业 Linux。作为我们安装的一部分,我们将服务器配置为使用随附的 DDS3 磁带驱动器每天备份电子邮件服务器一次。每天我都会简单地插入一个标记为一周五天的磁带,对于我们使用的两周周期,我们使用了十盘磁带。一切都运行良好一段时间,直到我们的磁带驱动器停止正常工作。电子邮件是关键任务。当磁带驱动器无法正常工作时,我们该怎么办?

需求通常是发明之母。我对 BASH 脚本知之甚少,但这即将迅速改变。我与现有的脚本一起工作,并使用在线帮助论坛、搜索引擎和一些印刷文档,我设置了一台运行在 Fedora Core 上的 Linux 网络附加存储计算机。我学会了 如何创建 SSH 密钥对 并配置它以及 rsync 将备份文件从电子邮件服务器移动到存储服务器。这运行良好几天,直到我注意到存储服务器的磁盘空间正在迅速消失。我该怎么办?

那时我学到了更多关于 Bash 脚本的知识。我修改了我的 rsync 命令,以删除早于十天的备份文件。在这两种情况下,我都了解到一点知识可能是危险的,但在每种情况下,我作为 Linux 用户和系统管理员的经验和信心都在增长,因此我成为了其他人的资源。从好的方面来说,我们很快意识到,在恢复电子邮件文件方面,磁盘到磁盘备份系统优于磁带。从长远来看,这是一个胜利,但在整个过程中都存在很多不确定性和焦虑。

User profile image.
Opensource.com 发布关于创建、采用和共享开源解决方案的故事。在 Twitter 上关注我们 @opensourceway。

4 条评论

哎哟 - 第一个故事再次让我全身发冷。我不认为有哪个数据中心拥有旧式的顶部加载磁盘包而没有发生过这种情况(通常只有一次,因为被破坏的磁盘和驱动器的数量往往会随着讲述而增长 - 我很确定我们在 80 年代中期的恐怖故事中,到我退休时已经上升到三个驱动器和四个磁盘包 - 两个和两个才是真实的故事)。我们没有解雇罪魁祸首,我们把他提拔出了计算机房。

再补充一个我自己的涉及操作员的大型机恐怖故事。我曾经很不光彩地帮助我的老板从这个故事中恢复过来。半夜,打印队列被停用,一个无聊的操作员想知道,如果你分离系统上的最后一台打印机,然后重新激活队列会发生什么 - 所以他试了一下!!由于系统上的最后一台打印机也是停止/加载打印机,他得到的是队列中前 20 个作业中的每一个作业的完整系统转储,之后系统耗尽了 Dumpdisk、Swapdisk 和主内存上的空间,并完全冻结。我们不得不进行硬件级别的停止/加载才能摆脱困境。我在 SA 团队对事件报告的回应中建议,我们应该切掉操作员的手指,这样他就不会再这样做了,这个建议得到了我老板的赞同,但团队负责人不情愿地删除了。

所以问题是 - 在夜班,更有危险的是缺乏经验但用心良苦,还是经验丰富但无聊?

我有一个来自另一位 IT 人员的恐怖故事。有一天,他们被安排在他们的数据中心的一个机架上添加一台新服务器。他们添加了服务器……小心不要碰到附近生产服务器、SAN 和网络交换机的电缆。物理安装进行得很顺利。但是当他们打开服务器电源时,整个机架都黑了。客户很不高兴 :( 事实证明,他们将服务器连接到的电源电路已经达到最大容量,因此他们导致断路器跳闸。吸取的教训……使用冗余电源并监控功耗。
另一个问题是作为一个思科交换机新手,进行了一些更改,并认为听起来无害的“reload”命令会像 Linux 在您重新启动守护进程时一样工作。看着您的 vmware 集群交换机上 48 个链路活动 LED 熄灭……无价之宝

我有两个故事

我曾是一个学区的 Windows 管理员,而 Linux 管理员突然离职了。在我接管 Linux 管理员职责大约 3 天后,我来上班时发现 Web 服务器宕机了。我跳到控制台,看到了 RAID 阵列的数百个磁盘读取错误。这台特定的服务器在一个驱动器上安装了 Linux,所有主目录和 Web 目录都在一个 3 磁盘阵列上。我心想没什么大不了的,它只是在抱怨一个驱动器,而且我有一个用于服务器的冷备 HDD。所以我把它从盒子里拿出来,走到控制台去验证要拔掉哪个驱动器,这时我注意到 RAID 级别是 0!在“糟糕!”的时刻之后,我想,没什么大不了的,阵列已经没了,所以我只需更换故障磁盘,然后在 RAID5 中重建它,并恢复最新的备份。我找不到服务器的磁带,所以我查看了 cron 以查看备份作业的目标位置,发现他正在将主目录和 Web 目录 tar 到一个文件,该文件位于同一个阵列上!!!这种情况从糟糕变成了最坏的情况,就是这么快。最后,花了 7,000 美元,我们不得不将阵列送到 Drive Savers 以取回数据。

几年后,服务器机架中的一个 UPS 坏了,在更换的 UPS 到货期间,工作正常的 UPS 上的电池故障指示灯和蜂鸣器开始响起。完美! :-( 我们收到了第一个更换的 UPS,当我们拔下故障的 UPS 以更换它时,我们发现 220 插座熔化并烧焦了。经过检查,我们发现 UPS 内置的电源线没有正确拧紧到接线柱上,这导致电源在内部周期性地电弧放电,直到电源线和插座熔化到无法连接的地步。我们更换了插座,并将新的 UPS 安装到机架上。请记住,整个过程中,机架都在使用电池故障的单个 UPS 运行。

当我伸手去打开新 UPS 的电源时,我的同事正从机架后面走出来,整个机架都黑了。他的脚绊到了工作正常的 UPS 的电源线,并将其拉动到足以断开触点,并且由于电池故障,它无法供电并关闭。花了大约 30 分钟才使一切恢复正常。

第二次更换 UPS 的情况要好得多。 :-)

这个故事似乎也很经典

在一家大型英国国际 IT 公司工作,我接到了内部 IT 部门最新员工的电话:“主服务器,你知道……”

“是的?”

“我正在清理某人的主目录……”

“是的?”

“嗯,服务器停止正常运行……”

“是的?”

“……而且我似乎无法让它现在启动……”

“哦-好吧。我就走到你那里看看。”

我下楼来到 IT 部门所在的地下室,看了看他的工作站终端屏幕。回溯终端历史记录,就在大量错误消息之前,我找到了他的最后一条命令:'rm -rf /home/johndoe /*'。我可能不必说他当时是 root 用户(那是 sudo 之前的日子,不是说 sudo 在他的情况下会有所帮助)。

“好吧,”我说。“是时候备份了。”

当我看到他的脸开始抽搐,他低声说:“备份……?”时,我知道我必须离开了。

==========

来自同一公司的额外条目

那是 5.25 英寸软盘的时代(如果您是年轻一代,维基百科是您的朋友)。我有时不得不要求人们发送软盘的副本,以检查为什么事情没有正常工作。有一次我收到了一张漂亮的复印件,另一次,磁盘附带了一张礼貌的便条……用订书钉订在磁盘上,更准确地说!

Creative Commons License本作品根据知识共享署名-相同方式共享 4.0 国际许可协议获得许可。
© . All rights reserved.