通讯机房消防应急预案

2022-09-29 版权声明 我要投稿

第1篇:通讯机房消防应急预案

浅谈消防应急预案编制的标准

摘要:近年来,民用建筑火灾一直居高不下,其中因为人员疏散不利导致了大量的人员和财产损失。尽管很多单位都积极制定了各自的疏散预案,但是缺乏统一的编制依据。本文就对民用建筑消防疏散预案编制的标准进行探讨,力求预案的编制更加科学化、合理化。

关键词:民用建筑;疏散预案

1.应急预案编制依据

应急预案的编制依据主要包括三类:

1)法规制度依据,包括消防法律法规规章、涉及消防安全的相关法律规定和单位内部制度。

2)客观依据,包括单位的基本情况、消防安全重点部位情况等。

3)主观依据,包括员工变化程度、消防安全素质和防火灭火技能等。

2.应急预案编制范围

应急预案的编制范围应包括消防安全重点部位、人员密集场所、在建工程和其他需要制定应急预案的部位或场所。

3.应急预案编制内容

3.1单位基本情况

包括单位基本概况和消防安全重点部位情况,消防设施、灭火器材情况,消防组织、义务消防队人员、微型消防站的设置及装备配备情况等。通过明确重点部位并分析其火灾危险,指导应急预案的制定和演练。

3.2应急组织机构

1)火场指挥部。火场指挥部的主要职能是确定总指挥、及组织机构,主要负责指挥协调各职能小组和义务消防队开展工作。

2)灭火行动组。灭火行动组由志愿消防队员及微型消防站队员组成,主要负责现场灭火、抢救被困人员、操作各类消防设施。

3)疏散引导组。疏散引导组主要负责引导人员疏散自救,确保人员安全快速疏散。

4)安全防护救助组。安全防护救助组主要负责对受伤人员进行紧急救护,并视伤情转送医疗机构。

5)火灾现场警戒组。火灾现场警戒组主要负责控制各出口,确保无关人员只出不进,火灾扑灭后保护现场。

6)后勤保障组。后勤保障组主要负责通信联络、车辆调配、道路畅通、供电控制、水源保障。

7)机动组。机动组受火场指挥部指挥,负责增援行动。

3.3火灾场景设定

火灾场景设定即对可能发生火灾做出的有根据、符合实际的设想,是制定应急预案的重要依据。内容如下:

1)重点部位和主要起火点。同一重点部位可假设多个起火点。

2)起火物品及蔓延条件,燃烧面积(范围)和主要蔓延方向。

3)可能造成的危害和影响(如可燃液体燃烧,爆炸,结构倒塌,人员伤亡、被困等情况),以及火情发展变化趋势、可能造成的严重后果等。

4)区分白天和夜间、营业期间和非营业期间。

5)消防应急增援力量的配置情况

3.4接报警处置程序

1)报警。以快捷方便为原则确定发现火灾后的报警方式,如口头报警、电话报警、报警器等,报警对象为企业专职消防队、单位值班领导、消防控制中心等。报警时应说明一下情况:着火单位、着火部位、着火物质、有无人员被困、单位具体位置、报警电话号码、报警人姓名;同时,还要将火情报告给本单位值班领导和安全主管部门。

2)接警。相关部门接警后,启动应急预案,按预案确定内部报警方式和疏散范围,组织指挥初期火灾的扑救和人员疏散工作,安排力量做好警戒工作。有消防控制室的场所,值班人员接到火情消息后,立即通知巡视人员到现场核实火情,火情核实确认后,立即报告消防队和单位值班负责人,通知灭火行动组人员前往着火层。

3.5初期火灾处置程序和措施

初期火灾处置程序和措施如下:

1)指挥部、各行动小组和义务消防队迅速集结,按照职责分工,进入相应位置开展灭火救援行动。

2)发现火灾时,起火部位现场员工应当于1min内形成灭火第一战斗力量,在第一时间内采取如下措施:利用现场灭火器、消火栓等固定式消防器材、设施灭火;电话或手动报警按钮附近的员工打企业消防队值班电话报警,报告消防控制室及单位值班人员;安全出口或通道附近的员工负责引导人员进行疏散。若火势扩大,单位应当于3min内形成灭火第二战斗力量,及时采取如下措施:通信联络组按照应急预案要求通知预相关员工赶赴火场,向火场指挥员报告火灾情况,将火场指挥员的指令下达给有关员工;灭火行动组根据火灾情况利用消防器材、设施扑救火灾;疏散引导组按分工组织引导现场人员进行疏散;安全救护组负责协助抢救、护送受伤人员;现场警戒组负责阻止无关人员进入火场,维持火场秩序。

3)相关部位人员负责关闭空调系统和煤气总阀门,及时疏散易燃易爆危险品及其他重要物品。

3.6应急疏散的组织程序和措施

1)疏散通报。火场指挥部根据火灾的发展情况,决定发出疏散通报。

2)确定疏散通报形式。常用的通报方式有两种,一种是语音通报,即利用消防广播播放预先录制好的消防紧急广播或由值班人员直接播报火情、介绍疏散路线及注意事项。另一种是警铃通报,即通过警铃发出紧急通告和疏散指令。

3)疏散引导。疏散引导工作主要分为四方面:一是划定安全区,即划定供疏散人员集结的安全区域。二是明确责任人。即在疏散通道上分段安排人员指明疏散方向,统计数量,稳定情绪。三是及时变更修正。即在预案中担负灭火和疏散救援责任的人员变化后,要及时进行调整和补充。四是突出重点。即把引导疏散作为应急预案制定和演练的重点。

3.7安全防护救护和通讯联络的程序及措施

1)建筑外围安全防护。清除路障,疏导车辆和围观群众,确保消防车通道畅通。

2)建筑首层出入口安全防护。禁止无关人员进入起火建筑,指引公安消防人员进入起火部位。

3)起火部位的安全防护。引导、疏散人流,维护疏散秩序,阻止无关人员进入起火部位;防护好现场的消防器材、装备。

4)在安全区及时对受伤人员进行救治,将危重病人及时送往医院救治。

5)利用电话、对讲机等建立有线、无线通信网络,确保火场信息传递畅通。

6)火场指挥部、各行动组、各消防安全重点部位必须确定专人负责信息传递,保证火场指令等到及时传递、落实。

7)安排专人在主要路口接应消防车。

3.8绘制灭火和应急疏散计划图

灭火和应急疏散计划图应力求详细准确,图文并茂,标注明确,直观明了。应针对假设起火部位绘制灭火进攻和疏散路线平面图。平面图比例应正确,设备、物品、疏散通道、安全出口、灭火设施和器材分布位置应标注准确,假设起火部位及周圍场所的名称应与实际相符。对于灭火进攻方向,灭火装备停放位置、消防水源,物资、人员疏散路线,物资放置、人员停留地点以及指挥员位置,图中都应标识明确。

3.9应急疏散预案应在单位内部每年评审一次,根据地理位置、人员、设备等信息的变化情况,更新疏散预案的相关内容。

参考文献:

[1]中华人民共和国消防法(2008.10)

[2]机关、团体、企业、事业单位消防安全管理规定(公安部令第61号)

[3]建筑设计防火规范(GB50016-2014)

[4]《生产安全事故应急预案管理办法》(安监总局令第88号)

[5]生产经营单位生产安全事故应急预案编制导则(GB/T 29639-2013)

作者:赵铭

第2篇:机房消防应急预案

为确保机房安全与稳定,以保证正常运行为宗旨,按照“预防为主,积极处置”的原则,本着建立一个有效处置突发事件,建立统一指挥、职责明确运转有序、反应迅速处置有力的机房安全体系的目标,特制定本预案。

一、适用范围

本预案适用于机房存在的重大火灾隐患和因各种原因发生的火灾事件等。

二、组织领导

为防止发生重大火灾事件时出现混乱局面,使灭火工作及时得到有组织、有步骤的进行,根据实际情况成立机房消防应急指挥小组。组长: ;副组长: ;成员: 。

三、火灾预防

1.机房全体人员应有高度的防火意识,禁止在机房内存放易燃易爆物品,禁止在机房内吸烟或使用明火,禁止在机房内乱拉电线。

2.消防器材由专人负责保管,定期检查消防器材。未经许可,禁止擅自移动。

3.每月进行一次电源开关、电器和线路的检查,发现故障、老化、破损、绝缘不良等不安全因素,必须及时报修,并做好记录备案,消除安全隐患。

4.走廊、楼梯等公共部位严禁堆放物品,保持通道畅通。

四、火灾处置

1.机房消防与大楼值班室相连接,值班人员发现报警器报警或发现火情时,应在迅速确认后电话通知大楼监控中心,并根据火情直接报119火警。

2.电话通知应急指挥小组,启动应急预案。报告后,应根据火势情况,向周围人员发出火警信号。

3.消防应急指挥小组进入现场,开展灭火救援行动。在消防人员未到达火灾现场时,应打开应急通道,组织现场无关人员有序疏散,并派人及时切断电源,隔离火灾危险源和重要设备,充分利用中心消防器材进行灭火。机房发生火灾,应遵照下列原则:首先保人员安全;其次保关键设备、关键数据安全;三是保一般设备安全。

4.确认机房设备区域火情后,根据现场情况实施机房区域气体灭火操作。

5.协助消防员灭火。在自救的基础上,当专业消防队到达火灾现场后,火灾事故应急指挥小组要简要的向消防队负责人说明火灾情况,听从消防队的指挥,并全力支持消防队员灭火。

五、灾后处理

1、火灾消除后,应将抢运的设备物资放置在安全场所,并登记造册,计算火灾损失。

2、火灾消除后,对火灾现场进行清理,消除烧毁物资,杜绝火势复燃。

3、灾后值班人员和安全主管人员应配合消防部门和公安部门分析火灾原因,明确火灾责任人。

第3篇:机房消防应急预案

为使信息机房发生火灾事故时,当班人员能镇静有序地处置事件,特制订本预案,请各成员认真学习,熟悉应急处置程序,提高全员的应急能力,一旦发生突发事件,尽最大努力保证员工人身安全和减少损失。

起火原因一般有明火管理不慎;电气设备管理、使用不当;纵火等原因。

预案一:当闻到烧焦气味时

当班人员发现信息机房内有冒烟现象或闻到烧焦气味时,可能是某处阴燃处于起火阶段或电源超负荷发热引起,容易引发火灾,当班人员要立即查明原因和地点,针对不同情况,采取迅速将火源扑灭或关闭电源总开关、隔离火源附近易燃物、关闭窗等措施,消除起火隐患,防止引了火灾。事后立即向安保部门报告,并做好现场保护工作和防止起火点复燃,不得随意离开现场和将事故隐瞒不报。 预案二:当班时发现起火或冒出浓烟

由于起火源隐蔽或其他突发原因未能及时发现和消除起火隐患,酿成明火和冒出浓烟,燃烧面积不大,就是火灾的初起阶段,当班人员发现起火或冒出浓烟时,切忌惊惶失措,要沉着、果断,会同其他当班人员分工协作,迅速查明原因组织扑救,当火执已无法控制时处置办法:

一是指定专人立即拔打“119”火警电话报警和向上级保卫部门报告,并向本部门和周围的人及群众喊叫报警; 二是组织本单位、部门在场的人员有序地投入扑救工作,充分利用消防栓、灭火器、水桶等器材灭火,不能消极等待消防队到来,而错过灭火良机,力求将火扑灭或控制火势蔓延,不能只顾个人安危而逃离火场

三是大声呼喊请求邻近单位及群众的支援。

四是在组织灭火同时,要立即组织人员疏散和转移物品中,特别昌易燃、易爆物品和易受到火舌威胁的现金、重要凭证要及时转移到安全地点,并派人员守护,确保安全。

五是灭火后要注意保护现场,维护好秩序,以利于消防部门调查分析火灾原因。 注意事项:

报警人员报警时要向消防部门讲清楚起火地点、单位、起火的种类和火势大小,报警后即到街道或十字路口迎接、引导消防车辆的到来;扑救人员在消防人员到来后,要立即向消防指挥人员讲清火场内存放有何种物资和贵重物品,火场内是否有爆炸、剧毒物品,并协助消防部门维护好现场秩序。自行扑救火灾时要留心观察火势和环境,防止被火围困、烟气中毒、坠物砸伤等,在确保自身安全的情况下扑救火灾。

第4篇:机房消防应急预案

应急预案应当具体规定突发事件应急管理工作的组织指挥体系与职责和突发事件的预防与预警机制、处置程序、应急保障措施以及事后恢复与重建措施等内容。下面是关于机房消防应急预案的内容,欢迎阅读!

机房消防安全工作极为重要,一旦发生火灾,将直接影响大厦内设备正常运行,并对人身安全和经济财产造成巨大的损失。为防范消防安全事故发生,保证消防安全事故发生时能够快速、高效、合理有序地处置,特制定本预案。

一、电气火灾的主要因素

1.电气线路短路、过载、接地电阻过大等引发火灾。

2.由于机房内设备长时间不间断运行或设备故障引发火灾。

3.静电产生火灾。

4.雷电等强电入侵引发火灾。

二、处置程序

1.发现火情后,迅速切断电源,利用就近灭火器进行灭火,并按照特级事故通报机制进行通报,向领导汇报火灾具体情况。

2.迅速组织相关人员携带消防器具赶赴现场灭火,并听从现场指挥人员指挥。

3.如火情较为严重,应立即与大厦消防中控取得联系,并与之协商处理办法

措施,必要时需要专业消防灭火的,迅速请示领导拨打119。

三、注意事项

1.一旦机房发生火灾,应遵循以下原则:首先保证人员安全;其次保证关键设备安全;再保证一般设备安全;救火过程中应边救火,边报警。

2.火灾发生时,第一发现人查明起火原因,如因电源引起,应首先切断电源。

四、预防措施

1.对机房内电气设备定期检查。发现存在问题的设备及时维修,消除安全隐患。

2.每天定时对机房重要电气设备和电子设备的温度进行了监控,能够及时地发现并消除隐患。

3.应组织相关人员进行消防安全教育,学习消防知识,学会正确使用各种灭火器,有计划的进行相关的消防演习。

第5篇:计算机房消防应急预案

在日常生活或是工作学习中,难免会突发一些事故,为了避免事情往更坏的方向发展,时常需要预先编制应急预案。你知道什么样的应急预案才能切实地帮助到我们吗?以下是小编为大家收集的计算机房消防应急预案,欢迎大家分享。计算机房消防应急预案1

为确保办公室机房安全与稳定,以保证正常运行为宗旨,按照“预防为主,积极处置”的原则,本着建立一个有效处置突发事件,建立统一指挥、职责明确运转有序、反应迅速处置有力的机房安全体系的目标,特制定本预案。

一、机房日常维护

1、建立健全机房管理制度

(1)在正常工作日内,信息技术人员负责对机房进行监控,主要职责是:巡视网络设备及系统的运行情况,发生异常情况及时处理,消除网络故障隐患。

(2)节假日期间信息技术人员轮流值班,负责处理有关异常情况。

(3)机房采取来人来访登记制度,未经允许,无关人员不得进入机房区域。

2、机房内严格采取防雷、防火、防尘、防静电等措施以及机房入口处24小时监控录像等措施。

3、认真做好数据备份工作,定期做一次数据库完全备份,每月检查服务器运行和备份情况。

4、信息技术人员对机房的主要网络设备(路由器、主干交换机等)进行工作时间内全程监控,发现异常情况应及时进行处理,确保办公室网络的正常运行。

二、机房突发事件应急处置方案

1、电源系统应急预案

(1)定期检查机房供电设备的运行状况和电路线缆器材情况,当发生下列突发事件时,按照以下方案进行处置:

(2)当机房发生市电供电突然停电或是电源异常时。检查不间断电源的电池可供电时间,确保设备正常运行,如遇到突然断电,应及时将空调等设备及时断电,预防突然来电时瞬间电流过大导致设备损坏等现象。

(3)当确定停电原因是在本身供电系统范围内,立即汇报给负责领导,并及时联系相关维护人员达到现场检修。

(4)恢复供电后,严格按照操作程序逐步恢复机房设备,以防瞬间电流过大造成设备损坏。

2、网络和服务器络系统应急预案

(1)发生网络故障时,首先检查机房设备情况,确定网络故障的原因,然后联系网络维护人员,及时处理和排除故障。

(2)当确认原因为短时间无法恢复,应该及时向负责领导汇报,然后再联系维护人员,及时处理故障。

(3)当人为或病毒破坏的故障发生时,具体按以下顺序进行:判断破坏的来源及性质,断开影响安全与稳定的信息网络设备,断开与破坏来源的物理网络连接,然后再联系维护人员,及时处理故障。

(4)发生服务器系统故障后,应立即向相关领导汇报情况,同时安排人员将故障服务器脱离网络,保存系统状态不变,保护原始数据。

在确认安全的情况下,重新启动故障服务系统:若重启系统成功,则检查数据丢失情况,利用备份数据恢复;若重启失败,立即联系相关维护人员,请求技术支持,做好技术处理。

处置结束后,技术人员应将处理过程记录下来,以方便日后对此问题的处理。

3、消防和防雷应急预案

(1)上班工作时间发生火警,还在机房工作的人员应及时紧急撤离,并立刻拨打119报警。在确保自身安全的情况下,应尽量使用灭火器进行灭火,减少电子设备的损坏。同时采取关闭电源总闸等措施,尽量减少可能造成的损失和破坏。

(2)非工作时间或节假日休息时间值班人员发现火情后,要立刻拨打119报警,并立刻通知相关部门和领导,做好火灾的处置工作。

(3)火情结束之后,机房相关人员应全体赶赴现场,同时立即联系相关网络公司和设备相关厂家,及时评估事故损失情况,研讨恢复网络系统正常运行的最佳解决方案。

(4)遇雷暴天气或接上级部门雷暴气象预警,应关闭所有服务器,切断电源,暂停内部计算机网络工作。雷暴天气结束后,及时开通服务器,恢复内部计算机网络工作。因雷击造成的损失,应及时进行核实、报损,并将详细情况向部门领导汇报。

4、自然灾害和盗抢应急预案

(1)发生自然灾害后,首先应该组织人员撤离现场。当确认灾害不会造成人生伤害后,在回到机房检查设备,立刻向上级领导汇报,并联系相关网络和设备厂家,积极做好灾后恢复工作,确保在最短时间内

恢复机房正常运行。

(2)发生盗抢事件后,要保护好现场然后报警,并向上级领导汇报情况。待现场处理完毕后,要组织相关人员估计损毁情况,并联系相关网络和设备厂家,积极做好恢复工作。计算机房消防应急预案2

为使信息机房发生火灾事故时,当班人员能镇静有序地处置事件,特制订本预案,请各成员认真学习,熟悉应急处置程序,提高全员的`应急能力,一旦发生突发事件,尽最大努力保证员工人身安全和减少损失。

起火原因一般有明火管理不慎;电气设备管理、使用不当;纵火等原因。

预案一:当闻到烧焦气味时

当班人员发现信息机房内有冒烟现象或闻到烧焦气味时,可能是某处阴燃处于起火阶段或电源超负荷发热引起,容易引发火灾,当班人员要立即查明原因和地点,针对不同情况,采取迅速将火源扑灭或关闭电源总开关、隔离火源附近易燃物、关闭窗等措施,消除起火隐患,防止引了火灾。事后立即向安保部门报告,并做好现场保护工作和防止起火点复燃,不得随意离开现场和将事故隐瞒不报。

预案二:当班时发现起火或冒出浓烟

由于起火源隐蔽或其他突发原因未能及时发现和消除起火隐患,酿成明火和冒出浓烟,燃烧面积不大,就是火灾的初起阶段,当班人员发现起火或冒出浓烟时,切忌惊惶失措,要沉着、果断,会同其他当班人员分工协作,迅速查明原因组织扑救,当火执已无法控制时处置办法:

一是指定专人立即拔打“119”火警电话报警和向上级保卫部门报告,并向本部门和周围的人及群众喊叫报警;

二是组织本单位、部门在场的人员有序地投入扑救工作,充分利用消防栓、灭火器、水桶等器材灭火,不能消极等待消-防-队到来,而错过灭火良机,力求将火扑灭或控制火势蔓延,不能只顾个人安危而逃离火场

三是大声呼喊请求邻近单位及群众的支援。

四是在组织灭火同时,要立即组织人员疏散和转移物品中,特别昌易燃、易爆物品和易受到火舌威胁的现金、重要凭证要及时转移到安全地点,并派人员守护,确保安全。

五是灭火后要注意保护现场,维护好秩序,以利于消防部门调查分析火灾原因。

注意事项:

报警人员报警时要向消防部门讲清楚起火地点、单位、起火的种类和火势大小,报警后即到街道或十字路口迎接、引导消防车辆的到来;扑救人员在消防人员到来后,要立即向消防指挥人员讲清火场内存放有何种物资和贵重物品,火场内是否有爆炸、剧毒物品,并协助消防部门维护好现场秩序。自行扑救火灾时要留心观察火势和环境,防止被火围困、烟气中毒、坠物砸伤等,在确保自身安全的情况下扑救火灾。

第6篇:机房消防安全处理应急预案

机房消防安全工作对于公司运营极为重要,一旦发生火灾,将直接导致公司业务中断,严重影响公司的安全稳定,并造成巨大的经济财产损失。为建立有效防范和处理火灾事故的工作机制,防范消防安全事故的发生,力保消防安全事故发生时能够快速、高效、合理有序地处置,特制定本预案。

1.机房火灾隐患分析

由于机房内电气设备多,线路复杂,大部分的火灾都是电气火灾,引发电

气火灾的主要因素有:

1.电气线路短路、过载、接地电阻过大等引发火灾。

2.由于机房内的电脑、空调、UPS等设备长时间不间断运行或设备故障引发火灾。

3.静电产生火灾。

4.雷电等强电入侵引发火灾。

2.处置程序

1.发现火情后,迅速切断电源,利用就近灭火器进行灭火,并按照特级事故通报机制进行通报,向领导汇报火灾具体情况。

2.迅速组织相关人员携带消防器具赶赴现场灭火,并听从现场指挥人员指挥。

3.如火情较为严重,应立即与大厦消防中控取得联系,并与之协商处理办法措施,必要时需要专业消防灭火的,迅速拨打119。

4.迅速组织相关人员对重要数据设备进行转移,尽可能保证关键设备安全,引导人员进行疏散。

3.扑救方法

1.电源或线路起火应首先切断电源,绝不能用水扑救。

2.扑救机房设备时,最好使用气体(如CO2)灭火器,干粉,泡沫灭火器会对设备造成

腐蚀,使损失增大。

4.注意事项

1.一旦机房发生火灾,应遵循以下原则:首先保证人员安全;其次保证关键设

备安全;再保证一般设备安全。

2.火灾发生时,第一发现人查明起火原因,如因电源引起,应首先切断电源。

3.火灾发生后应遵循边救火,边报警的原则。

5.预防措施

1.设备整改:机房现有的电气设备和消防设备均有存在不合理之处,需要整改,

消除隐患。现有的配电开关为墙上的半埋式家用配电开关,应更换为专业的独立空气配电箱,修改配电柜各类闸刀和开关的布局,使其具备独立切换的功能。 现有的灭火器为干粉灭火器,且维护也已过期,干粉灭火器虽然可以有效灭火,但是会对设备造成腐蚀,损坏设备,应更换为气体灭火器。

2.每天定时对机房重要电气设备和电子设备的温度进行了监控,能够及时地发

现并消除隐患。

3.应组织相关人员进行消防安全教育,学习消防知识,学会正确使用各种灭火器,有计划的进行相关的消防演习。

第7篇:机房应急预案

主机运维应急预案简介

. 崔志昂 上海超级计算中心 上海 201203 zacui@ssc.net.cn . 魏玉琪 上海超级计算中心 上海 201203 yqwei@ssc.net.cn 引言:

高性能计算技术及应用水平已成为显示综合国力的一种标志。高性能计算机持续不间断地 为用户提供高性能计算服务,而运维应急预案是主机运行中处理突发事件的依据和方法,是主

机系统稳定运行的保障。本文简要介绍上海超级计算中心主机运维应急预案,供同行参考。

1. 主机和运维管理制度简介

超级计算机是功能最强、运算速度最快、存

储容量最大的一类计算机。目前只有少数国家掌握 研发技术,系统造价非常昂贵,多用于国家高科技 领域和尖端技术研究,是国家科技发展水平和综合 国力的重要标志。上海超级计算中心作为上海信息 港主体工程之一,国家和上海市政府投资先后引 进神威-I超级计算机、神威-64P集群计算机、曙光 4000A超级计算机系统并投入商业化运行。

上海超级计算中心自2001年正式开通至今,

这些高性能计算机系统已安全、稳定运行七年多时 间,上机用户取得了丰硕的科研成果和社会效益。 在这七年中,为保障这些高性能计算机系统安全、 稳定、不间断地运行,技术支持部在中心引进第一 台高性能计算机--神威-I超级计算机系统的同时,建 立了机房应急预案、运行记录、设备运行参数等基 础运维制度,在二期引进曙光4000A超级计算机系统 过程中,不断完善原有运维制度,并针对该主机系 统特点编写了大量操作方法和应急预案。

中心自2006年获得ISO27001(BS7799)信息安 全认证以来,技术支持部根据其要求规范了文档体 系建设,形成了机房管理制度、应急预案、操作方 法、运行情况记录的四大类运维文档。

正是这些运维管理制度的不断完善和有效执 行,才确保了资产价值高、服务对象广、社会影 响大的中心主机系统安全、稳定运行,保障重点项 目、用户服务的连续性。

2. 应急预案重要性

上海超级计算中心机房运维管理文档划分为机 房管理制度、应急预案、操作方法、运行记录共四 大类(如图1所示)。

图1 应急预案分类

应急预案在应急系统中起着关键作用,它明确 了在突发紧急情况发生之前、发生过程中以及刚刚 结束之后,谁负责做什么、何时做,以及相应的策 略和资源准备等。它是针对可能发生的重大事故, 按照其影响和后果严重程度,在应急准备、响应、 操作各个方面预先做出的详细安排,是开展及时、 有序和有效事故应急工作的行动指南。因此,应急 预案在这四类运维管理文档中处于最为重要的地位。

3. 应急预案分类

应急预案按重要性和事件种类,可以划分为消

防预案、断电预案、空调预案、其他预案共4种,预 案各文档之间彼此独立又互为关联,具有非常强的 可操作性。制定预案的指导原则是尽一切可能,最 大限度地确保向用户提供的服务不中断。在紧急事 件发生的情况下,保证核心设备连续运行,避免存 储数据丢失。在事件处置完成后,能快速恢复高性 能计算服务。

3.1 消防预案

消防预案是主机房最重要的应急预案。该类预 案根据《上海超级计算中心灭火和应急疏散预案》 的原则并结合主机房主机设备和消防设备的运行特 性而制定。主要由《主机房消防应急预案》和《主 机房气体喷淋消防系统启动撤离及处置应急预案》 2个文档组成。

消防应急预案:该预案着重规范了火警事件发 生后,所有主机维护人员如何根据所属区域和现场 情况,判断和选择正确的处理方法,同时配合中心 物业人员处置,降低事件带来的影响。

对于设备发生烟雾,主机维护人员协同物业人 员寻找烟雾点予以切断相关区域电源;当设备发生 可以控制火情,协同物业人员灭火;当主机房发生 火灾而无法控制,应采取施救方法等措施。

气体喷淋预案:该预案描述主机房气体喷淋系统启

动的响应和确认并具体规定了撤离机房路线、善后处置。

这两个预案中,消防应急预案作为消防预案

的主体,涉及到如何处理与消防有关情况的各个方 面。气体喷淋预案是主机房发生重大火灾时应对的 最终灭火手段和人员撤离引导方法。

3.2 断电预案

断电预案的重要性仅次于消防预案。该类预

案根据中心供配电系统实际情况和各种断电影响范 围下对主机运行的最小保障要求而制定的。主要由

《主机房断电应急预案》、《曙光4000A超级计算机 系统紧急关机操作方法》、《曙光4000A超级计算机 系统双路断电关机操作方法》等多个文档组成。

主机房断电应急预案:该预案用于断电情况

下,主机维护人员如何与中心物业部门联系控制主 机房供电情况,并且负责对主机系统运行受断电影 响程度做出正确判断。指导维护人员按影响程度, 分别选用预案中对应的操作方法。本预案在所有断 电预案中起指导思想作用。 紧急关机操作方法:该预案制定了主机系统在 紧急情况下,最快速度关机的操作步骤。主要用于 发生烟雾、明火或消防、断电预案需在数分钟内关 机断电的事件。

双路断电关机操作方法:该紧急操作预案主要 用于在外界双路供电全部中断情况下的操作。

该预案的关机原则是:根据实际电力供应考虑 操作步骤,宁慢勿快,在时间允许的情况下,最大 程度保证存储节点、SAN和SCSI存储设备、工程用户 的计算节点的运行,尽可能减少关闭范围,以确保 能在恢复供电的情况下,主机尽快恢复正常运行状 态,减少影响范围。

3.3 空调预案

超级计算机系统在运行中消耗大量电能,在

提供高性能的计算能力同时产生大量的热量,必须 采用专用空调系统,以保持主机系统适当的温、湿 度、空气洁净度等运行环境需求。因此,专用空调 系统与主机系统密切相关,空调预案是主机房必备 的应急预案。

制定该预案的原因在于,断电情况下,空调与 主机系统存在互相牵制的现状。主机和空调系统均 为外界双路供电,主机系统配有UPS不间断电源系 统,而空调系统无UPS支持。在双路停电情况下,主 机系统可获得UPS电池组支持运行若干分钟,空调系 统无UPS支持只能停机。由于在无空调冷却情况下, 主机系统会在短时间内积聚大量热量导致超过运行 警戒温度,主机系统在有可供电余量的情况下,仍 将被迫关机。因此,确保空调中断情况下的主机运 行环境是该预案的制定原则。

预案根据各台主机配备的空调系统特点制定, 由《曙光机房空调系统故障应急预案》和《神威机 房空调系统应急预案》2个文档组成,这里仅介绍曙 光机房空调系统应急预案。

该预案的第一步:考虑增强主机系统散热效

果,采用打开主机机柜前后门,和机房周边木门, 在通风道上布置有UPS支持的应急风扇,形成空气对 流,带走热空气,从而增强主机系统散热效果,降 低升温速度。

该预案的第二步:在采取上述措施并持续升温 到一定温度之上的情况下,考虑紧急关闭部分或全 部计算节点,减少热量生成,确保主机系统的核心 存储和网络系统不受影响,确保空调系统修复后, 主机系统能快速恢复运行。

3.4 其他预案

除了固定的三类预案之外,技术支持部还根据 主机系统实际运行中出现的各种意外情况,随时制 定具有针对性的预案。

如《大楼顶棚坍塌应急操作方法》的制定,就

是由于2008年1月连续发生雨雪等灾害性天气,中心 大楼顶棚大量积雪且难融化,物业预计存在情况继 续恶化,有发生顶棚坍塌事故的可能,一旦发生将 影响一楼主机运行。

针对该突发的隐患,中心技术支持部制定应急 操作方法,对维护巡查频度范围、漏水可能发生位 置、如何处理受漏水影响的主机设备等操作步骤进 行严格界定。即使在最后,中心大楼顶棚经受住灾 害性天气的考验,该预案并未发挥作用,这正体现 了应急预案的备而不用的特点。而且通过各种意外

情况的迅速分析、应对和实践操练,不断锻炼主机 维护队伍,使之走向成熟。

4. 在实际案例中,应急预案的作用

在主机系统年复一年的运行中,我们希望这些 设备正常稳定运行,应急预案永远不会被使用,然 而在实际运行中,总免不了因突发事件执行应急预 案。

而每次突发事件是检验应急预案制定是否科 学、有效的最好证明。

4.1 双路断电,UPS正常运行案例

2006年8月某天,因打雷导致供电一路跳闸自动 换至另一路供电,曙光机房2台空调掉电。

主机维护人员立即按应急预案操作,电话通知 物业人员恢复空调运行,恢复过程中所有空调相继 出现高温报警,机柜液晶屏平均温度35度,开启全 部曙光机柜前后门,打开神威-曙光玻璃门并调集应 急电扇,于12:45恢复正常。

12:50再次出现双路供电中断,曙光空调因无

UPS支撑全部断电,启动断电应急预案,开启

5、6号 木门,开启神威机房全部空调,布置电扇,将冷气 导入曙光机房,热量从6号木门的外部通道排出,选 择性杀除部分作业,至13:05供电恢复,曙光空调开 始工作,13:20环境恢复正常。全机在此过程中,正 常运行未停机,只损失了部分不重要的作业。

4.2 单路断电,UPS失效案例

2007年8月某天,因低压配电柜开关至UPS房间 X-JM柜电缆发生相对地短路,造成UPS机组逆变器 自身保护动作,关闭UPS机组,导致曙光主机系统失 电。

全机掉电后,主机维护人员迅速按应急预案

手 工 关 闭 所 有 电 源 开 关 。1 0 : 3 0恢 复 供 电 ,温湿度恢复正常后,全机加电,恢复过程中修复

storage00

1、00

5、010三个盘阵的9个用户文件系统, 修复15个节点加电故障,除cnode00

9、anode029电源

环 境 模块故障,于当日15:10全机系统恢复正常。

由于处置及时,主机受影响范围很小,在恢复 供电后数小时即成功开启全系统。

5. 随时保持应急预案的适用性

主机长年累月的运行,故障和问题的发生,往 往是必然的,也是客观、无法回避的。因此,要求 在维护工作中,预先考虑到可能的问题和故障,制 定完善的应急预案。应急预案不可能包含所有的故 障和问题,但应根据维护经验,尽可能地设想各种 危机情况下的处置措施。做到预想到各种可能的问 题。

而在形成应急预案后,更重要的是持续地在

运行中加以完善、测试和演练,尽可能模拟实际情 况,做到即使只有1名维护人员在场,也能在真正发 生危机时,以最短时间独立处置故障。

以目前中心的主机运维工作为例,三年内,仅 断电预案就已根据实际运行情况的变化,制定并更 新了5~6个版本,针对夏季突发断电也有专用预案。 这样的措施,直接保障了2006年8月突发断电事件中 的主机连续运行。而2007年8月的突发断电事件中, 由于预案在之前刚根据实际情况进行过演练和修 改,主机维护人员仅用半小时就完成所有应急操作 动作,整机仅有个别设备故障,确保了主机设备未 因突发断电而发生大范围损坏现象,恢复供电后直 接完成开机。

实践证明,完善而适用的应急预案能保障向用 户提供稳定的高性能计算服务。

6. 结束语

完备而适用的应急预案能有效降低主机系统因 意外事件发生带来的运行风险,对可能发生的意外 来说,是一种事前防范措施。但对整个主机系统产 品而言,是一种事后防范措施。如果主机系统生产 厂商能把这些防范措施纳入整个系统设计过程中, 使操作方法更加简便、更趋于人性化,这将帮助主 机维护人员更为妥善处理意外事件,用户得到更为 稳定的高性能计算服务。我们相信未来国产的高性 能计算机能做到这一点,期待着这一天早日到来。

(为帮助了解,特在附录中节选部分双路断电关机预案内容)

附录:《曙光4000A超级计算机系统双路断电关机操作方法》(省略具体操作步骤)

曙光4000A超级计算机系统双路断电关机操作方法

注意:

1、本方法专用于主机房发生双路同时断电紧急操作使用。(包括单线断电切换失败)。

2、本方法作为《曙光-4000A超级计算机系统紧急关机操作方法》(SSCS(TS)-XXXX-XXXX-XXXX)的附件。

1. 断电确认及操作:

主机房内一旦发现断电,并接物业明确通知为双路断电,首先执行如下操作(即确保节点温度):

1.1 打开机房门便于散热,..

1.2 机房通道上布置应急风扇加强冷热空气对流,夏季:应急风扇布置..;冬季:应急风扇布置..,使曙光

机房的温度尽量降低。

1.3 打开所有机柜前、后门。

1.4 密切注意机房节点平均温度(专指各机柜液晶面板所示之环境温度值)。

2. 紧急关机条件确认:

在完成上述操作后,密切观察主机房环境。一旦有如下任何一个条件满足:

2.1 自断电发生起,已达到XX分钟仍未恢复供电;

2.2 采取上述紧急通风措施,节点温度持续上升,超过XX℃;

可认定为紧急断电事件,即刻按下列紧急关机操作方法进行操作。

3. 紧急关机操作步骤:

注意事项:

3.1 ..

3.2 关机操作的全过程中,注意随时保持和物业的通讯联系。除根据情况随时联络外,应严格保证每XX分钟与物

业联系一次,询问UPS可支撑时间及恢复供电可能。(分机、手机、对讲机等)

3.3 应理解关机原则为:根据实际电力供应考虑操作步骤,宁慢勿快,在时间允许的情况下,最大程度保证X排节

点、存储节点、SAN和SCSI存储设备的运行,尽可能减少关闭范围,以确保恢复。

第一级操作:(首先执行) 关闭主机系统外围设备..

第二级操作:(完成上述操作后,当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃,任一条件满足, 执行如下操作)

关闭非重要用户计算节点(ABC组)..

第三级操作:(完成上述操作后,当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃,任一条件满足, 执行如下操作)

关闭所有用户计算节点(D组)..

第四级操作:(完成上述操作后,当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃,任一条件满足, 执行如下操作)

关闭SAN存储设备和LSF数据库服务器..

第五级操作:(完成上述操作后,当再次发现UPS电池低于XX分钟或节点平均温度超过XX℃,任一条件满足, 完成关机操作)

关闭SCSI磁盘阵列和所有存储节点..

特别关注:

1. 如时间非常紧急,UPS电池低于XX分钟:

直接执行关机脚本:..

此脚本可分别将计算节点、接入节点、存储节点进行关闭。

2. 如时间极其紧急,UPS电池低于XX分钟,可按《曙光-4000A超级计算机系统紧急关机操作方法》(SSCS(TS)- XXXX-XXXX-XXXX),直接拉闸操作。

(上述二个方法仅用于突发情况,非极其必要情况下严禁使用,应使用前列方法操作)

3. 如遇主机失电(如关机操作不及已掉电或突发自动掉电)应关闭所涉范围所有设备电闸开关。..

上一篇:银行合规案例心得下一篇:八年级下册华东师大版