弱电工程运维服务应急处理方案及应对措施

B站影视 2024-12-27 17:30 1

摘要:大家好,我是薛哥。我们VIP会员群的读者咨询运维服务应急处理措施,今天分享一个非常全面的运维服务方案应急处理措施,包含了具体的应急预案处理措施,可以参考一下。

大家好,我是薛哥。我们VIP会员群的读者咨询运维服务应急处理措施,今天分享一个非常全面的运维服务方案应急处理措施,包含了具体的应急预案处理措施,可以参考一下。

这套完整的word方案素材,VIP会员有下载!

为保障运维服务在突发时间等应急保障工作中能够持续稳定运行,我司完成以下工作。

根据本项目运维服务工作特点编制《应急保障工作方案及预案》,保障工作方案及预案中应至少包括以下内容:应急保障联系人通讯录、应急保障工作组织机构、应急保障设施设备管理办法、应急保障服务水平指标、应急保障工作完成标准、应急保障输出文档清单。

根据委托方要求启动应急保障工作机制后,我司按照应急保障工作方案安排各项工作,如遇突发情况应及时向委托方单位汇报并做好记录。

根据应急保障事件情况,委托方方有权要求我司临时提高运维服务保障标准和要求,我司将提高的服务标准写入《应急保障工作报告》。

应急保障工作完成后我司编制《应急保障工作报告》,报告中应对当次应急保障工作做出总结,报委托方审核。

完成标准:

每次我司应急保障服务工作以运维服务方提交《应急保障工作报告》并由用户签收视为完成。

交付件:

《应急保障工作方案及预案》、《应急保障工作报告》及其他过程文档

1.1目的

在系统的维护管理过程中,有可能出现影响面大、紧急度高的安全事件,在这个过程中,考虑到事件的紧急性和影响的重大程度,事件处理人员不能沿用普通的事件管理流程,需要启动重大故障管理流程保证快速恢复业务的正常运转。通过编制应急方案,可以提高系统安全事故应急响应和处置能力,对于可能发生的导致的大面积不可访问事故或灾害,能够在第一时间做出快速反应并采取应对措施,及时恢复系统运行,降低影响。

1.2应急保障联系人通讯录

我司将安排专人处理应急保障工作,提供应急保障联系人通讯录。领导及维护人员保证多种通讯方式的畅通。各级应急组织成员要保证手机和固定电话24小时处于待机状态,应急抢修队成员要确保通讯手段有效。

通信机房要保移动、固定、企业网和公务电话畅通。机房通讯录要保证准确、无误,摆放显著位置,定期进行测试。

各级公司要及时更新通讯录,要求应急通信办公室人员每人一份。各级分公司机房内的通讯录要摆放明显位置。

1.3应急保障工作组织机构

Ø应急总指挥职责

•保证在任何时间,及时协调应急行动所有涉及的岗位人员;

•提供必须的紧急响应设备;

•在紧急情况下全面负责紧急行动;

Ø 应急技术经理职责

•在总指挥领导下具体技术应急开展工作,当总指挥不在时履行总指挥职责;

•根据获得的应急信息下达命令。

Ø 原厂授权认证服务商应急经理职责

•负责关键设备及业务系统的及时抢修及技术问题把控;

•负责指挥现场原厂授权服务商技术工程师及片区维护工程师的临时关键设备抢救和对事态的控制;

•听从上级指挥人员的指挥。

Ø 各相关专业及片区应急负责人职责

•负责尽快收集信息向应急总指挥汇报事故情况;

•负责现场临时设备抢救和对事态的控制;

•听从上级指挥人员的指挥。

应急机构要做好发电机、油料、车辆、工具以及服装等应急物资的准备及储备工作,并对储备进行定期检查。

要根据预案设置,提前做好资源的分配工作。

机房应急抢修人员提前做好备用单板测试、主备单板、主备机倒换测试,定期做好完整系统数据备份并异地存放,要保证抢修工具齐全完好。

抢修人员要加强日常巡线工作,备好抢修物资及抢修工具,24小时待命。

1.6应急保障输出文档清单

《应急保障工作方案及预案》、《应急保障工作报告》及其他过程文档。

1.7应急预案准备工作

我司将编制应急管理手册并向用户提交,应急管理手册内容包括机房应急事件分类、处置流程、定期演练等,同时我司将根据招标方要求定期进行应急演练并提交演练报告

通过编制《应急管理手册》,提高系统安全事故应急响应和处置能力,对于可能发生的导致的大面积不可访问事故或灾害,能够在第一时间做出快速反应并采取应对措施,及时恢复系统运行,降低影响。

1)故障发生

系统运维服务小组可从以下途径得知故障的发生:

•运维服务中心通过网管告警发现故障

•维护站点通过维护巡检发现故障

•用户发现故障,报给呼叫中心

•驻场工程师发现故障

2)报障受理

监控系统运维服务小组得知系统故障发生后,立即响应,并向报障人或单位详细了解系统故障情况。

3)信息研判

运维服务小组根据了解到的系统故障情况进行分析判断,以确定采用一般故障处理流程还是立即启动系统突发故障应急处理预案。

4)预案启动

如需启动应急预案,则立刻通知系统突发故障应急领导小组,由领导小组启动应急预案,对系统突发故障应急事件进行全面管控处理。

5)资源确认

系统突发故障应急预案启动后,首先是根据现场突发故障实际状况、紧急程度、技术难度、备品备件等情况对相关资源(主要是参与人员)依据经验进行调度和确认,主要有以下资源:

•我公司技术支持人员;

•原厂授权认证服务商技术人员及各系统相关厂家技术支持人员;

•我公司聘请的技术专家

6)预案执行

按照既定的预案进行突发故障抢修,如遇到问题及时向系统突发故障应急领导小组汇报。

7)预案终止

预案的终止时间由故障现场技术人员根据现场的实际进展情况,在与用户单位有关部门协调后报系统突发故障应急领导小组决定。

8)结果上报

预案中止后,相关预案参与人员将整个事件过程中的经验和教训,修改、完善事件应急预案。然后集中上报至系统突发故障应急领导小组。

应急保障流程图如下:

我们的运维服务团队每年组织实施一次 “机房及网络安全事件应急演练”并向用户方提供演练报告

在系统的维护管理过程中,有可能出现影响面大、紧急度高的安全事件,在这个过程中,考虑到事件的紧急性和影响的重大程度,事件处理人员不能沿用普通的事件管理流程,需要启动重大故障管理流程保证快速恢复业务的正常运转。通过编制应急方案,可以提高系统安全事故应急响应和处置能力,对于可能发生的导致的大面积不可访问事故或灾害,能够在第一时间做出快速反应并采取应对措施,及时恢复系统运行,降低影响。

网络与信息系统故障突发事件分类如下:

Ø 自然灾害:指地震、火灾等因自然因素引起的网络与信息系统的损坏。

Ø 事故灾难:指电力中断、网络损坏、软件、硬件设备故障等引起的网络与信息系统的损坏。

Ø 人为破坏:指人为破坏网络线路、通信设施,黑客攻击、病毒攻击、恐怖袭击等引起的网络与信息系统的损坏。

相应的需要安全保障的内容如下:

•病毒感染:计算机被感染上病毒;

•数据库入侵:数据库被入侵或崩溃;

•业务系统崩溃:业务系统被入侵或出现bug崩溃;

•网络中断:网络中断导致瘫痪;

Ø 重大自然灾害:重大自然灾害影响系统运转。

1.10应急预案处理措施1.10.1前端失效应急预案

1) 到前端重点各子系统失效通知后,应急处理小组应及时部署应对具体措施,要求应急保障小组前往现场检查,同时要求平台维护人员同步检查平台软件,迅速定位故障原因。

2) 故障原因若为平台软件故障,则要求平台维护人员排除问题,现场的保障小组配合平台维护人员做测试,确保故障排除。

3) 故障原因若为前端设备或线路故障,应急处理小组立即通知运营商相关领导,保障小组更换设备并配合运营商排除线路故障。

4) 应急处置结束后,应急处理小组应将故障分析报告,在调查结束后一日内书面报告用户领导部门。

1) 发生机房漏水时,第一目击者应立即通知相关人员,并及时报告应急处理小组,应急处理小组接报后应立即前往事发地。

2) 若空调系统出现渗漏水,应急处理小组应立即通知相关人员进行处理,并及时清除机房积水。

3) 若墙体或窗户渗漏水,应急处理小组应立即采取有效措施确保机房安全,并及时清除积水,维修墙体或窗户,消除渗漏水隐患。

1) 发生设备被盗或人为损害设备情况时,使用者或管理者应立即报告应急处理小组,同时保护好现场。

2) 应急处理小组接报后,通知安保等相关部门,一同核实审定现场情况,清点被盗物资或盘查人为损害情况,做好必要的影像记录和文字记录。

3) 事发部门和当事人应当积极配合相关部门进行调查,并将有关情况向应急处理小组汇报。

4) 应急处理小组及时恢复设备正常运行,并对事件进行调查。必要时,应急处理小组及时上报市局应急办公室和相关部门。

1) 接到长时间停电通知后,应急处理小组应及时部署应对具体措施,要求用户在停电前停止业务、保存数据。

2) 应急处理小组应及时与相关人员联系,启动备用发电设备,保证信息系统正常运行。如有必要,应急处理小组及时上报相关部门。

1) 发生通信线路中断、路由故障、流量异常故障后,操作员应及时通知应急处理小组。

2) 应急处理小组接报告后,应及时查清通信网络故障位置,隔离故障区域,并通知相关部门查清原因;同时及时组织相关技术人员检测故障区域,逐步恢复故障区与服务器的网络联接,恢复通信网络,保证正常运转。

3) 事态或后果严重的,应急处理小组应及时报告用户领导部门。

4) 应急处置结束后,应急处理小组应将故障分析报告,在调查结束后一日内书面报告用户领导部门。

1) 发现网络病毒时,信息系统管理员应立即断开网线,终止网络病毒传播,并报告应急处理小组。

2) 相关应急保障小组应根据应急处理小组指令,采取隔离网络等措施,及时杀毒。

3) 事态或后果严重的,应急处理小组应及时报告用户领导。

4) 处置结束后,应急处理小组应将事发经过、造成影响、处置结果在调查工作结束后一日内书面报告用户领导部门。

1) 发生服务器软件系统故障后,应急处理小组应立即组织人员检查出现故障的原因并尽快排除。

2) 如遇重大故障不能解决时,应立即联系软件开发部门或设备供应单位共同查找原因,了解故障程度,着手抢修。

3) 如果超过2个小时还未修复完毕,严重影响了业务工作的正常进行,应通知相关业务单位采用其他方式尽力完成业务工作,待系统修复后输入业务系统。

4) 如遇数据库损坏等重大事故时,应将备份文件还原,避免重要数据的丢失。

5) 事态或后果严重的,及时报告用户领导小组。

6) 处置结束后,应急处理小组应将事发经过、处置结果等在调查工作结束后一日内报告用户领导小组。

1) 发生核心设备硬件故障后,应及时报告应急处理小组,并组织查找、确定故障设备及故障原因,进行先期处置。

2) 若故障设备在短时间内无法修复,应急保障小组应启动备份设备,保持系统正常运行;将故障设备脱离网络,进行故障排除工作。

3) 应急保障应在故障排除后,在网络空闲时期,替换备用设备;若故障仍然存在,立即联系相关厂商,认真填写设备故障报告单备查。

4) 事态后果严重的,应急处理小组及时报告用户领导小组。

系统平台发生重大故障后,相关人员应在5分钟内向应急处理小组报告,应急处理小组组织人员采取有效措施开展先期处置,恢复信息网络正常状态。发生重大事故(事件),无法迅速消除或恢复系统,影响较大时实施紧急关闭,并立即向用户领导小组报告。如有必要,用户领导小组及时上报相关部门。

1.10.10善后处置

应急处置工作结束后,应急处理小组组织有关人员和技术专家组成事件调查组,对事件发生原因、性质、影响、后果、责任及应急处置能力、恢复重建等问题进行全面调查评估,根据应急处置中暴露出的管理、协调和技术问题,改进和完善预案,实施针对性演练,总结经验教训,整改存在隐患,组织恢复正常工作秩序。

1.10.11装备保障

运维团队应建立并保持电力、空调、机房等网络安全运行基本环境,预留一定数量的信息网络硬件和软件设备,指定专人保管和维护。

1.10.12数据保障

重要信息系统均建立备份系统,保证重要数据在受到破坏后可紧急恢复。

建立符合要求的网络与项目各系统保障技术支持力量,对网络接入单位的网络与个系统平台操作人员提供技术支持和培训服务。

将系统平台故障的应急管理、工作流程等列为培训内容,增强应急处置能力。加强对系统平台故障的技术准备培训,提高技术人员的防范意识及技能。

1.10.15预案演练

应急处理小组每年至少安排一次演练,建立应急预案定期演练制度。通过演练,发现和解决应急工作体系和工作机制存在的问题,不断完善应急预案,提高应急处置能力。

1.10.16责任与奖惩

应急处理小组不定期组织对各项制度、计划、方案、物资等进行检查,对信息网络突发事件应急处置中做出突出贡献的集体和个人,提出表彰奖励建议;对玩忽职守,造成不良影响或严重后果的,依法依规提出处理意见,追究其责任。

最新弱电精品资料

全文件共计5700多个,建议弄一套,绝对有帮助!

文章中的PPT方案,全部赠送了,共计457个PPT,6套完整图纸,343个行业标准规范及施工图集,word的方案60个,施工组织设计20个,工程量清单23个(带参考价格),图纸及素材196个,VISIO图块及拓扑图141个,项目管理及施工方案,实用性excel表格84个,投标方案及施工组织设计等等。

来源:智能化弱电工程

相关推荐