摘要:做服务器运维这么久,最让人崩溃的,不是遇到棘手的故障,而是在客户焦急的目光下,故障还连环出现!今天就和大家分享一次让我印象深刻的戴尔 R740 服务器 “拯救行动”。
做服务器运维这么久,最让人崩溃的,不是遇到棘手的故障,而是在客户焦急的目光下,故障还连环出现!今天就和大家分享一次让我印象深刻的戴尔 R740 服务器 “拯救行动”。
那天接到客户紧急求助,戴尔 R740 服务器卡在 “initializing firmware interfaces” 界面,怎么都无法正常引导。我火速赶到现场,尝试各种常规操作,重启、放电……,可服务器还死死卡在那里,毫无反应。
客户急得直跺脚,不停地看表,嘴里念叨着业务耽误不起。没办法,时间不等人,客户直接搬来一台同型号的备用服务器。
本以为备用服务器能解燃眉之急,谁知道它也好不到哪去。一开机,firmware 进入 recovery mode,好不容易熬过这关,又卡在加载 lifecycle controller。我盯着屏幕,秒针滴答滴答,整整 15 分钟,才终于进入配置界面。刚把阵列信息导入,更离谱的事发生了 —— 键盘鼠标突然全部失灵!无奈之下,只能重启,又是漫长的 15 分钟等待。再次进入 BIOS 设置,准备把阵列卡设为第一引导,结果键盘鼠标又 “罢工” 了,我心里真是万马奔腾!
接连受挫,我决定配置 idrac,通过远程来设置引导。这次依然是 15 分钟的等待 “魔咒”,好在顺利进入 idrac 配置界面。
我兴奋地设置好引导顺序,点击保存并重启,满心期待系统能顺利启动。可现实又泼来一盆冷水,系统提示存在多个任务,需待任务完成后才能重启。我查看任务列表,却发现任务根本没有在处理,就像静止了一样。强制重启后,发现了更严重的问题,阵列卡无法识别了,当然连带着硬盘肯定也是识别不到了。
直接关机,拔掉电源线,按住开机键30秒以上,放电。片刻后重新开机,好在阵列卡认了,硬盘也正确地识别到了。但是,刚才设置的引导根本没生效,服务器还是老样子,无法引导。
客户已经急得满头大汗,一咬牙又搬来一台阵列卡坏的服务器,让我把这三台 “病机” 拼成一台能用的。
我撸起袖子,正准备大干一场时,奇迹出现了!服务器突然 “活” 过来了,idrac 设置的调整引导任务竟然成功完成了!我激动地重启服务器,终于看到了 centos 引导界面,以为这场 “战斗” 终于要结束了,然而……
然而,系统并没有如我所愿顺利启动,而是提示 “failed to mount /sysroot”。
我迅速输入命令 “xfs_repair -v /dev/mapper/centos-root” 修复文件系统,结果却提示修复失败。关键时刻,我只能使出 “大招”,用 “xfs_repair -v -L /dev/dm-0” 强制日志清零来修复。修复完成后,输入 exit 命令,系统提示 logout,紧接着,centos 终于正确引导了!
我长舒一口气,通知客户测试应用软件。看着软件正常运行,客户紧锁的眉头也终于舒展开来。这场与服务器故障的 “持久战”,最终以胜利告终,我也顺利完成任务,收钱走人。
走的时候,又发现服务器报错了,扫了一眼,usb设备报错而已,无所谓了,忽略吧,也许是USB键盘有问题,也放是USB接口有问题,无伤大雅,暂时不管了。
这次经历让我深刻体会到,做服务器运维,不仅要有扎实的技术,更要有足够的耐心和强大的心理素质。你在工作中遇到过哪些难忘的服务器故障呢?欢迎在评论区分享!
来源:IT狂人日志