凌晨 3 点服务器 CPU 飙到 100%：一名网络工程师的 7 小时排障实录

摘要：凌晨 2 点 57 分，手机屏幕突然亮起的瞬间，我猛地从床上坐起 —— 那是公司运维告警系统的紧急通知，红色图标像颗定时炸弹：“核心业务服务器 CPU 使用率持续 10 分钟 100%，负载值突破 50”。作为负责公司 300 + 台服务器运维的网络工程师，我

凌晨 2 点 57 分，手机屏幕突然亮起的瞬间，我猛地从床上坐起 —— 那是公司运维告警系统的紧急通知，红色图标像颗定时炸弹：“核心业务服务器 CPU 使用率持续 10 分钟 100%，负载值突破 50”。作为负责公司 300 + 台服务器运维的网络工程师，我太清楚这个数字意味着什么：再拖延半小时，用户访问会全面卡顿，订单系统可能崩溃，甚至引发数据丢失。抓起笔记本电脑冲向书房的路上，我脑子里已经开始飞速过筛：是恶意攻击？代码漏洞？还是硬件故障？这篇文章，我会把这次惊心动魄的排障全过程拆解开来，从故障突发、逐层排查到彻底解决，再到后续的预防体系搭建，希望能给同样奋战在运维一线的同行们一些参考。

打开远程桌面的瞬间，屏幕上的 “CPU 使用率：100%” 红色提示像根刺扎进眼里。这台服务器是公司电商平台的核心应用节点，搭载的是 Intel Xeon Gold 6248 处理器，8 核 16 线程，平时负载稳定在 15%-20%，即便是大促期间也很少超过 60%。此时任务管理器里，“System” 进程占用率高达 45%，还有一个陌生的 “Java.exe” 进程占了 38%，剩下的 CPU 资源被数据库服务和各类系统进程瓜分殆尽。

我第一时间做了三件事：一是通过运维平台将该服务器的业务临时迁移到备用节点，避免影响用户；二是保存当前系统日志和进程快照，防止后续排查时关键数据丢失；三是关闭服务器上非必要的后台服务，比如日志备份、监控数据采集等，先腾出一点 CPU 资源用于排查操作。这一步很关键 —— 很多工程师遇到 CPU 满负荷时会慌不择路地重启服务器，虽然可能暂时解决问题，但会毁掉所有故障现场数据，导致后续无法定位根本原因，埋下更大隐患。

迁移业务花了 8 分钟，期间我不断刷新服务器监控面板，发现 CPU 使用率在关闭部分服务后降到了 85%，但 “System” 和那个陌生 “java.exe” 进程的占用率依然居高不下。这时候我意识到，问题可能出在系统内核或应用程序层面，而非简单的资源不足。

排查 CPU 高占用问题，我一直遵循 “从表层到深层、从软件到硬件” 的原则，这次也不例外。首先从占用率最高的进程入手，再逐步深入到进程内部的线程、调用栈，最后定位到具体代码或配置问题。

第一步：定位异常进程的 “真实身份”

那个陌生的 “java.exe” 进程引起了我的怀疑 —— 公司电商平台的应用服务确实基于 Java 开发，但正常进程名称是 “app-server.exe”，而非直接的 “java.exe”。我通过命令行工具查询该进程的 PID（进程标识符）为 1286，然后用 “tasklist /fi "PID eq 1286"” 命令查看进程详情，发现它的启动路径是 “C:\ProgramData\Temp\java.exe”，这明显不是系统或应用程序的默认路径。

接着我用杀毒软件对该文件进行扫描，结果显示它是一个伪装成 Java 进程的挖矿程序 —— 这就解释了为什么 CPU 占用率会突然飙升。但问题又来了：这台服务器部署在公司内网，且只开放了 80、443 和 22 端口，挖矿程序是怎么进来的？我立刻检查服务器的登录日志，发现凌晨 1 点 23 分有一个来自外部 IP 的远程登录记录，使用的是一个已经离职员工的账号，且登录后执行了 “wget” 命令从某个境外服务器下载了文件。

第二步：追溯入侵路径，堵住 “漏洞缺口”

离职员工账号未及时注销？还是密码被破解了？我先检查了账号状态，发现这个账号在员工离职时已经被设置为 “禁用”，但日志显示登录时账号是 “启用” 状态。这说明有人修改了账号权限。接着我查看服务器的防火墙规则，发现 3389 端口（远程桌面端口）被意外开放了 —— 正常情况下，公司内网服务器的 3389 端口只允许内网 IP 访问，但日志显示 2 天前有一条防火墙规则被修改，允许所有 IP 访问 3389 端口。

顺着这个线索，我找到了 2 天前的运维操作记录：当时一名新入职的实习生在配置另一台服务器的防火墙时，误操作修改了这台核心服务器的规则，且没有经过审核流程。而那个离职员工的账号，是因为上个月系统升级时，权限同步出现漏洞，导致被禁用的账号又自动恢复了启用状态。这两个 “巧合” 叠加，让黑客有机可乘 —— 通过暴力破解离职员工的弱密码（该员工离职前使用的密码是 “123456”，未按要求定期修改），从 3389 端口登录服务器，植入了挖矿程序。

第三步：清理恶意程序，修复系统漏洞

找到原因后，清理工作反而相对简单。我先结束了 PID 为 1286 的挖矿进程，然后删除了 “C:\ProgramData\Temp\” 目录下的所有可疑文件，包括挖矿程序的配置文件和日志文件。接着用系统自带的 “sfc /scannow” 命令修复可能被篡改的系统文件，再通过 “msconfig” 工具检查启动项，确保没有残留的恶意程序开机自启。

之后，我立刻关闭了服务器的 3389 端口外部访问权限，恢复了防火墙的默认规则；将所有离职员工的账号彻底删除，而非仅设置为禁用；并对所有服务器的账号密码进行了强制更新，要求必须包含大小写字母、数字和特殊字符，且定期 90 天更换一次。这一步是 “亡羊补牢”—— 如果只清理恶意程序而不堵住入侵路径，用不了多久问题还会再次出现。

第四步：排查 “System” 进程高占用的隐藏原因

解决了挖矿程序的问题后，“System” 进程的占用率依然有 35%，这明显高于正常水平（一般不超过 10%）。我通过 “Process Explorer” 工具查看 “System” 进程下的线程详情，发现有一个线程（PID 为 129）的 CPU 占用率高达 30%，且该线程对应的模块是 “ntoskrnl.exe”—— 这是 Windows 系统内核的核心模块，通常与驱动程序或系统服务相关。

我先检查了服务器最近是否安装过新的驱动程序或软件，发现 3 天前刚更新过网卡驱动。于是我尝试回滚到之前的驱动版本，重启服务器后，“System” 进程的占用率降到了 8%，恢复正常。后来联系网卡厂商技术支持得知，那次驱动更新存在 bug，会导致系统内核在处理网络请求时出现死循环，从而占用大量 CPU 资源。这个细节也给了我一个教训：服务器的驱动和系统更新不能盲目追求 “最新”，必须先在测试环境验证稳定性后，再部署到生产环境。

早上 10 点，服务器 CPU 使用率稳定在 18%，业务全部恢复正常，这场持续 7 小时的排障终于结束。但比解决问题更重要的是复盘总结 —— 如何避免以后再发生类似情况？

我梳理了以下 3 点核心措施，也分享给各位同行：

建立 “三层防护” 的服务器安全体系

第一层是 “访问控制防护”：严格限制服务器的远程登录权限，仅开放必要端口（如 22、80、443），且通过 VPN 或内网堡垒机进行访问；定期清理离职员工账号，对所有账号启用多因素认证（MFA），避免弱密码漏洞。第二层是 “进程监控防护”：部署运维监控工具（如 Zabbix、Nagios），对 CPU、内存、磁盘等关键指标设置阈值告警，同时对异常进程（如非默认路径的进程、陌生名称的进程）进行实时监控，一旦发现立即触发告警。第三层是 “漏洞修复防护”：定期对服务器进行漏洞扫描（如使用 OpenVAS），及时修复系统和软件的安全漏洞；驱动和系统更新必须经过测试环境验证，制定回滚预案后再部署到生产环境。

优化 CPU 高占用的 “应急响应流程”

这次排障让我意识到，完善的应急响应流程能大大缩短故障处理时间。我后来重新修订了公司的《服务器 CPU 高占用应急处理手册》，明确了 “三步响应法”：第一步是 “止损”，立即将业务迁移到备用节点，关闭非必要服务，避免影响扩大；第二步是 “定位”，通过进程监控工具排查高占用进程，追溯进程来源和启动原因，定位根本问题；第三步是 “修复”，清理异常程序或修复漏洞后，验证服务器状态，确认业务恢复正常，最后记录故障日志和处理过程。手册中还附上了常用的排查命令和工具下载链接，确保任何运维人员遇到类似问题时，都能按流程快速处理。

加强运维团队的 “风险意识” 培训

很多故障的发生，其实源于人为操作失误 —— 比如这次的防火墙规则误修改、离职账号未及时删除。因此，我建议定期组织运维团队进行风险意识培训，重点强调 “变更审核” 和 “操作规范”：任何涉及服务器配置（如防火墙规则、账号权限、驱动更新）的变更，必须提交变更申请，经过技术负责人审核后才能执行；操作过程中要做好备份，制定回滚方案，避免 “一步错，满盘输”。同时，定期开展故障演练，模拟 CPU 高占用、服务器宕机等场景，让团队成员在实战中熟悉应急处理流程，提高应对能力。

从事网络工程师工作这些年，我经历过无数次服务器故障，但这次 CPU 飙到 100% 的经历，依然让我印象深刻。它让我明白，运维工作没有 “一劳永逸”，哪怕是一个看似微小的操作失误（如实习生误改防火墙规则），或是一个被忽略的漏洞（如离职账号未删除），都可能引发严重的故障。作为运维人员，我们既要对技术有 “敬畏心”—— 清楚每一次配置变更可能带来的风险，不盲目操作；也要对工作有 “细心”—— 不放过任何一个异常指标，不遗漏任何一个排查细节。因为我们守护的，不仅是一台台冰冷的服务器，更是公司业务的稳定运行和用户的信任。

最后，如果你也遇到过类似的 CPU 高占用问题，或者有更好的排障方法，欢迎在评论区交流 —— 运维之路，我们并肩同行。

来源：wljslmz一点号

标签： cpu 服务器防火墙运维网络工程师

本文地址：http://news.43b.com.cn/a/1520701.html

免责声明：本站系转载，并不代表本网赞同其观点和对其真实性负责。如涉及作品内容、版权和其它问题，请在30日内与本站联系，我们将在第一时间删除内容!