系统管理员对于组织及其网络运营中心和数据中心的可靠和成功运行至关重要。 系统管理员必须精通系统的底层平台(即 Windows、Linux),并熟悉包括网络、备份、数据恢复、IT 安全、数据库操作、中间件基础知识、负载均衡等多个领域。 系统管理员的任务不仅限于服务器管理、维护和维修,还包括任何支持生产环境平稳运行、尽量减少(或没有)客户和最终用户投诉的功能。
虽然系统管理员的职责清单看似无穷无尽,但有些职责比其他职责更为关键。 如果您担任系统管理员职位(或希望有一天担任),请确保您已准备好遵循这些最佳实践。
文档
文档是系统管理员记录资产的方式,包括硬件和软件类型、数量和许可证。 如果生产环境中出现任何问题,文档有助于识别可能涉及的硬件、虚拟机、设备、软件等。
硬件清单
维护所有物理和虚拟服务器的列表,其中包含以下详细信息
- 操作系统: Linux 或 Windows,带有版本的虚拟机监控程序
- RAM: 物理服务器中的 DIMM 插槽
- CPU: 逻辑 CPU 和虚拟 CPU
- HDD: 硬盘类型和大小
- 外部存储 (SAN/NAS): 存储的制造商和型号,以及管理 IP 地址和接口 IP 地址
- 开放端口: 服务器端为传入流量开放的端口
- IP 地址: 带有 VLAN 的管理和接口 IP 地址
- 工程设备: 例如,Exalogic、PureApp 等。
软件清单
- 配置的应用程序: 例如,Oracle WebLogic、IBM WebSphere Application Server、Apache Tomcat、Red Hat JBoss 等。
- 第三方软件: 任何未随已安装操作系统附带的软件
许可证详情
维护物理服务器和虚拟机 (VM) 的许可证数量和详细信息,包括 Windows 许可证、Linux 操作系统的订阅以及虚拟机监控程序主机的许可证限制。
服务器健康检查
- 运行进程: 检查消耗资源超出预期的进程,并采取措施微调应用程序(在应用程序团队的帮助下)。
- CPU 利用率: 持续监控和检查关键进程(如“java”、“http”、“mysql”等)的 CPU 利用率,以确保这些进程消耗的 CPU 资源未超出预期。 如果是这样,请与应用程序团队协调,在应用程序级别检查并微调。 同时分析操作系统参数,如“Ulimits”。
- 内存利用率: 检查内存利用率,并在需要时清除缓存。
- 僵尸进程: 检查进程表中 PID 仍然存在于进程终止后的进程。 僵尸进程会降低服务器性能,因此请查找并终止任何存在的僵尸进程。
- 负载平均值: 如果您遇到性能问题,请检查负载平均值并调整服务器性能。
- 磁盘/SAN/NAS 利用率: 检查外部连接存储的 I/O 报告,以跟踪和检查读/写操作的速度。 如果您发现任何问题,请立即与存储和网络团队协调以纠正问题。
备份和灾难恢复计划
与备份团队沟通,并向他们提供备份的数据和客户端优先级。 生产服务器的推荐备份标准是
- 增量备份: 每日,周一至周五
- 完全备份: 周六和周日
- 灾难恢复演练: 每月(最好是每月一次,或者必要时每季度一次)与备份团队执行恢复模拟演练,以确保在出现问题时可以恢复数据。
补丁
必须及时实施针对已知漏洞的操作系统补丁。 补丁有很多类型和级别,包括
- 安全
- 关键
- 中等
发布补丁时,请检查错误或漏洞详细信息,以查看它如何应用于您的系统(例如,漏洞是否影响您系统中的硬件?),并在需要时采取任何必要措施来应用补丁。 确保交叉验证应用程序与补丁或升级的兼容性。
应用程序兼容性
在任何应用程序上线之前,请检查其与您的硬件和操作系统的兼容性,并确保进行负载测试(在应用程序团队的支持下)。
服务器加固
Linux
- 设置 BIOS 密码: 这可以防止用户更改 BIOS 设置。
- 设置 GRUB 密码: 这可以阻止用户更改 GRUB 引导加载程序。
- 拒绝 root 访问: 拒绝 root 访问可以最大限度地降低入侵的可能性。
- Sudo 用户: 创建 sudo 用户并分配有限的权限来调用命令。
- TCP 包装器: 这是保护服务器免受黑客攻击的武器。 为 SSH 守护程序应用规则,仅允许受信任的主机访问服务器,并拒绝所有其他主机。 对其他服务(如 FTP、SSH 文件传输协议等)应用类似的规则。
- Firewalld/iptables: 为服务器的传入流量配置 firewalld 和 iptables 规则。 包括特定端口、源 IP 和目标 IP,并允许、拒绝、拒绝公共区域和私有区域的 ICMP 请求等。
- 防病毒软件: 安装防病毒软件并定期更新病毒定义。
- 安全和审计日志: 定期以及在需要时检查日志。
- 轮换日志: 将日志保留有限的时间,例如“7 天”,以保持足够的磁盘空间以实现完美运行。
Windows
- 设置 BIOS 密码: 这可以防止用户更改 BIOS 设置。
- 防病毒软件: 安装防病毒软件并定期更新病毒定义。
- 配置防火墙规则: 防止未经授权的方访问您的系统。
- 拒绝管理员登录: 限制用户进行可能增加系统漏洞的更改的能力。
使用 syslog 服务器
通过在环境中配置 syslog 服务器以记录系统和应用程序日志,如果发生入侵或问题,系统管理员可以检查以前的和实时的日志来诊断和解决问题。
自动化
许多系统管理员任务(例如服务器健康检查、资源利用率、备份触发器、传输文件和日志等)必须在特定时间完成。 因此,系统管理员必须编写脚本或使用外部工具,并将它们配置为 cron 作业,以便在适当的时间自动执行任务。
监控工具
安装和配置 Nagios、HP 等实时监控工具,以监控您的 IT 基础设施并发出有关潜在问题的警报。
结论
虽然这些是系统管理员负责的最重要的任务,但该角色远不止此列表中的职责。
例如,系统管理员必须与多个团队协调以解决问题、与客户沟通并更新客户、保持 100% 正常运行时间、与审计团队进行讨论、准备每周/每月/每季度报告、使用适当的工具持续监控服务器和服务,以及维护硬件控制台并响应任何触发的警报。
系统管理员始终是数据中心或网络运营中心中与 Web 托管、应用程序和服务器中断以及其他关键 IT 运营问题相关的事件的单一联系点 (SPOC)。
您认为系统管理员还有哪些其他基本任务或最佳实践? 请在评论中分享您的意见。
7 条评论