sap运维流程(精选5篇)
一、项目回顾
2007年6月**实施了在建项目期的SAP应用系统,历时4个月的项目实施,于2007年十月正式上线。迄今为止系统已经正常运行了2年多。作为**未来战略发展的重要一步,**信息化建设在探索的过程中迈开了第一步,也取得了初步的效果。但是任何项目都会有问题和缺陷,关键是能否及时提出问题、总结问题、解决问题并从问题中吸取教训。
二、问题汇总
通过对系统的全面检查以及现场的调研现在主要存在库存积压与帐帐不符两方面的问题。形成这些问题的原因是诸多的,现分述如下。
三、问题成因
1、项目实施期遗留问题
¨ 由于上线时间比较紧,期初数据导入全部采用财务总额导入。(例如:某设备分主设备一套,配套设备十套,导入时本应导入两个条目,但迫于时间限制在导入时没有按明细导入,从而导致后期核对差异较大)
¨ 个别外部顾问经验比较欠缺。(例如:在库存导入时移动类型冲销不匹配,导致报表逻辑错误,直到工程结算前调整过来)
¨ 由于我方是第一次做SAP项目,经验欠缺,人员能力薄弱完全受制于外部顾问。
¨ 项目实施期间业务人员本身并未明确提出需求,导致很多应该实施的功能并未实施。¨ 缺乏专职的关键用户和内部顾问,采用兼职的关键用户由于受时间和精力限制,并不能熟悉系统的操作,同时也增加了工作量。
¨ 整个项目实施期、运维期都没有成立专门的数据组,数据的真实性、完整性以及相关一系列问题没人负责,导致工程结算期出现很多数据问题。
2、工程结算期问题
2.1流程层面
有部分业务未按原定流程执行导致工程结算账面出现问题,经总结主要体现在以下几个业务流程:
¨ 工程部与采购部流程衔接问题,导致库存积压,具体体现在:工程部制定工程计划同时生成采购计划,但当工程计划设计变更时并未在系统中进行变更操作,同时也未和库房沟通,库房还按原有计划采购物资,不符合工程要求,导致大量库存有积压现象。另一方面库房按工程要求采购物资,但实际采购中并无此物资,进行替代采购行为,但并未和工程部门沟通导致替代料无法使用同时也造成库存积压现象。
¨ 采购收货流程未按原定流程执行,具体表现在:库房收货后,库管员由于未及时录入系统并且没有和采购员及时沟通,采购员在系统中查不出此类物资,于是进行重复采购,导致库存积压。
¨ 未按出库流程执行,导致大量使用白条出库,导致此现象有两个原因:一是由于工程建设期时间紧促,采用白条出库先发料,后期补录出库单,但有大量白条并未补录,导致帐实不符。二是有部分库管员为了节省时间,在已知施工单位要领料未出库之前已经打印了出库单,而施工单位由于其他原因并未领料,于是导致帐实不符。同时也有由于人员更换频繁,大量白条丢失无法追回的导致账实不符。
¨ 生产领料已经开始,白条入库。¨ 出库单据已经丢失,然后说发出,在追回的同时再次买入造成库存积压。
2.2数据层面
在系统中也存在大量垃圾数据,主要体现在一下几点:
¨ 物料编码重复即同一种物资编码不同。产生此现象的原因是物资名称不统一,例如:一根8号钢管各部门称呼不一,有些部门称之为8号钢管,有些部门就称之为9号,此现象导致在系统中维护的多个物料实际上是同一种物料,这样采购员在采购8号钢管时就会重复采购,导致库存积压现象。
¨ 设备运费处理应记入设备成本,但在系统中却新建物料,造成数据冗余。
2.3 操作层面
财务:数据录入不完整,如:应付款漏录合同号,导致合同付款对应不上。
物资:库房系统操作人员由于操作不熟练在工程紧张时期产生大量白条现象,同时由于人员更换频繁,在工作交接后根本没有进行系统操作传承,导致新近人员不会基本操作。
预算:预算员连系统最基本操作都不熟练,如:SAP能同时打开6个窗口,同时处理业务等操作都不会使用。从侧面了解甚至有个别业务人员登陆SAP系统都不会操作。
工程:工程合同未在系统内处理,在结算期所有合同的处理未在系统实现。
2.4系统配置层面
¨ 物料收发存报表差异存在较大,导致账面不平,经仔细查询属于上线期间系统配置问题,但同时也反应出财务人员对业务不熟悉,并没有发现报表错误,导致2年的物料帐与财务帐并未帐帐相符。此问题也反应出运维部门支持不够,缺乏运维管理机制,也缺乏相应的考核机制。¨ 物料分类账模块在系统上线期间配置只考虑工程发料业务,在项目后期由于业务变化导致产生大量差异无法调整,只能通过手工调整。
¨ 通过与原有金蝶系统对比,财务模块在应用过程当中发现很多功能并未使用(如:银行对账功能、科目余额表、帐龄分析表等),导致使用系统后反而增加了很多工作量,所以财务人员普遍反应系统应用效果不好,此问题反应出一线财务人员对业务需求不明确。
¨ 跨权限应用,表现在工程权限,采购订单跨权限审批。
2.5系统运维管理层面
¨ 没有严格的运维管理机制和运维流程,虽然建立了一些运维流程和管理规定,但在实际操作中并没有严格执行,相比燃气项目我们的管理机制还相差甚远。
¨ 原信息化办公室主任与内部顾问沟通不够,许多达旗一线反应的问题并未重视,也没有解决,导致一线员工反应的问题越来越少,而实际发生的问题却越来越多。
¨ 维护人员数量和技术水平还与燃气项目组相差甚远。
¨ 管理层对运维管理的重要性并未足够重视,没有相应的激励措施,导致运维人员进步的激情不高。
四、解决建议
1、补录数据,将没有录入系统的相关单据一次性补录,追回相关无手续单据入系统。
2、进行库存盘点,将差异进行账面盘盈/亏处理。
3、处理财务账面未分摊差异到材料成本差异。
4、建立运维机制,后期可以考虑外包方式。
五、通过问题得到的结论
SAP与物采系统(中国石油物资采购管理信息系统)融合设计是为了解决集团公司及下属地区公司、分公司SAP与物采系统采购数据传递的解决方案。融合衔接设计很好地联接了SAP与物采系统,使SAP与物采系统得到了实时数据的传递。
通过解决方案,实现数据一次性录入,多方共享,保证公司SAP系统、物采系统数据的完整性,满足企业物资采购管理的需要。
2 SAP和物采系统介绍和问题
物采系统是中国石油天然气集团公司开发的一套中国石油物资采购管理信息系统。物采系统就是为了满足物资采购管理和采购交易为一体的业务管理需要,促进业务处理自动化、业务管理规范化、决策支持智能化,支撑“集中采购、分散操作”。实现中石油集团公司信息化的发展目标,在“一个全面、三个集中”要求下,按照中石油企业物资采购管理制度,为提高物资采购管理水平、开发的集成物资采购管理信息系统(简称物采系统)。
物采系统的应用范围包括总部及所属企事业单位和供应商。主要以采购供应链为主线,覆盖采购管理和交易全过程,实现采购业务全流程、全覆盖。业务分级授权管理,采购物资品质覆盖中的60大类所有物资。架构包括了系统门户、交易平台、业务管理平台、基础管理平台及决策支持平台。
物采系统是基于i2采购交易软件进行客户化开发的,并与SAP、公共数据编码平台等系统通过企业服务总线(ESB)实现异构系统间有机集成。
SAP系统是国外一套先进的企业信息管理系统,而物采系统是根据B2B交易方式创建的物资采购管理信息系统,它是根据企业自身特点创建的一套物资采购管理信息系统。而SAP系统在物资采购方面功能不是特别突出,与企业自身物资采购特点也不是衔接得特别好。这就造成了在物资采购方面,企业只应用了主数据创建和维护、创建采购订单、发票校验、物资采购申请、货源清单创建和维护这几个功能。而物采系统主要功能就是在物资采购方面集中统一采购管理,特别突出采购方面功能,结合了企业物资采购管理自身特点。
物资采购管理信息系统主要功能包括了计划管理、采购交易管理、合同管理、结算管理、物料管理、价格管理等相关功能。SAP系统和物采系统之间就好像SAP系统负责创建采购订单、物资入库与结算。而物采系统负责物资招标、供应商管理、价格管理、合同管理等功能,它主要突出了采购管理功能。
怎么样才能更好地把SAP系统与物采系统这两套设计功能不同的系统融合衔接到一起,组成一个完善的物资采购管理信息系统?
3 融合衔接流程设计
作为中国最大的跨地区集团公司,它下属地区公司繁多,转换数据量大,各个地区公司业务也有差异,所以不能简单地使用SAP与物采系统接口转换技术进行数据传递。为此经过调研特此进行了设计方案。
根据企业下属地区公司繁多,需要转换数据量大,各个地区公司业务有差异等特点采用在企业总部建立统一的数据管理系统,服务于SAP采购数据与物采系统数据形成对照及转换;数据对照转换表统一维护,只有一套对照转换表,维护后自动保存到SAP和物采系统中。在物采系统进行采购计划申请、采购、审批、采购谈判、采购招标、采购订单、订单查询等相关业务,当这些业务进行完成后,物采系统自动生成订单。
当生成订单的同时,根据数据对照转换表在SAP系统中自动生成采购订单,并且物采系统订单和SAP系统采购订单形成对应。而后由SAP系统进行采购订单审批、入库发货、采购结算等后续的工作。通过“订单转化接口”物采系统实时向SAP系统转换采购订单。
通过上述方案,采购数据由物采系统录入,传递到SAP系统中进行处理,保证了企业物资采购业务流程的完整性,加强了企业物资采购业务管理的需要。
而在SAP和物采系统的供应商和物资编码都通过由编码申请平台申请要求进行申请,编码申请平台将申请下来的编码同时传递到SAP和物采系统中。这样就形成了编码及物资单位的唯一性、一致性、及时性,更好地保证了SAP和物采系统的融合衔接。而对这些编码的管理全部由物采系统进行管理,并对供应商管理更加科学细化。
结合企业及下属地区公司繁多、数据量大特点,在SAP与物采系统数据库里分别建立了SAP与物采系统数据对照转换表,根据数据对照转换表建立了中间数据库,从而进行物采系统订单和SAP系统采购订单字段之间相互转换,保存到中间数据库。如图1所示。
数据对照转换表主要保存在中间数据库,数据对照转化表主要根据SAP和物采系统数据形成一一对应的逻辑关系。数据对照转换表主要包含主数据和订单转换表。物采系统根据数据对照转换表把相关数据转换成SAP系统所需要的数据,从而使SAP系统随机生成采购订单进行相关业务操作。然后SAP系统把创建的采购订单业务操作完成后,在物采系统就可以进行采购订单查询等相关操作。
这样就使SAP和物采系统的采购业务衔接在一起,使物资采购业务流程形成了完整性。加强了企业物资采购业务管理的需要,实现了管理与交易一体化的统一物资采购信息平台,促进了物资采购业务处理自动化、业务管理规范化、决策支持智能化的要求。
4 结束语
通过SAP与物采系统融合衔接设计,很好的完善成了企业物资采购业务流程,使企业物资采购管理信息系统与SAP系统形成一体,实现了管理与交易一体化统一的信息平台。很好地满足了SAP与物采系统融合要求。通过SAP与物采系统融合衔接设计,它为今后一些系统的融合衔接提供思路,更重要的是也为今后其它系统与SAP系统的融合提供了参考与借鉴。
摘要:本文主要介绍了物采系统,重点分析了SAP与物采系统融合衔接中的问题,针对这些问题提出了相应的融合衔接设计了,解决了SAP与物采系统数据传递,从而形成了物资采购从谈价议价、招标、反向拍卖到产生采购订单付款一个完整科学管理信息流程,满足了物资采购管理和采购交易为一体的业务管理需求,为以后其他系统与SAP系统融合提供了借鉴意义。
关键词:SAP,物采系统,融合衔接,数据对照转换表,中间数据库
参考文献
[1]黄佳.SAP程序设计(第一版).北京:机械工业出版社,2005-04.
[2]王宏.实战SAP程序开发.北京:电子工业出版社,2006-08.
[3]黄佳.SAP高级应用开发.北京:人民邮电出版社,2008-10.
[4]唐嘉,彭功涛,方玉凤.SAP实用程序开发进阶.北京:兵器工业出版社,2012-03.
[5]刘雪飞,王雪飞,王申强.网络线路数据流量监视的实现[J].信息网络安全,2012,(11):60-62.
众所周知,运维包罗万象,如何清晰地划分运维的流程?有必要借用ITIL的方法论。同时,可结合精细化资产管理,确定运维任务。
用ITIL建立流程
ITIL是IT基础架构库的缩写,是国际上IT管理的标准体系。实践表明遵循ITIL方法论,结合我国信息化运维管理实际情况,灵活运用ITIL实用方法,能够明显提高信息系统运行效率。实践中,由技术部门和运维管理委员会以及绩效管理单位三方共同研究,根据运维管理工作实际需要,结合TIIL最佳实践理论,建立信息化运维服务十项管理流程。
事故时间排除管理: 管理的目的是尽可能缩短故障时间,使信息系统能够及时恢复到规定的服务业务工作的级别和水平。
问题管理: 是保障信息系统健壮的必要手段,作用是将任何原因引起的对业务工作产生的负面影响减少到最低程度。事故管理强调的是事故恢复的速度,问题管理则注重了找出事故产生的根源。
配置管理: 主要对信息系统基础架构和逻辑关系以及应用软件配置进行优化管理,尤其对系统变更和软件发布等提供基础数据依据。
变更管理: 在信息系统竣工即将进入试运行期间,按照变更流程进行实施工作,将由变更所导致的系统中断时间,减少到最低限度。
发布管理: 主要对新开发或修改后的软件配置进行管理,对新增加的信息服务功能进行分发和推介。
服务级别管理: 是整个运维管理的重点内容,服务级别协议是根据各项业务需求,将每项运维工作内容进行分解细化,规范确定服务内容和服务标准。
财务管理: 主要涉及了运维投资预算、成本核算和服务计费三个方面的管理问题,量化工作、精细管理、合理计算运维成本。
持续性管理: 是信息系统安全、可靠和健壮运行的重要保障措施,实践中在招标过程中定义了对工程师的级别要求,保障合理必要的高技术人才资源储备等。
能力管理: 在实践中是动态管理的过程,通过对运维人员的合理配置,能够有效地促进信息资源发挥出应有的效能。
可用性管理: 前瞻性地分析未来各项业务工作需求,不断优化、提高信息系统基础设施的可用性,不断探索用合理的成本满足日益增长的信息应用需求,使运维服务能力构建在真实的业务需求基础上,追求信息服务能力的最大化,不断节约运行成本,不断减少财政支出。
精细资产管理
在运维实践中,精确的资产管理是做好运维服务外包的先决条件,也是贯穿整个运维外包工作的核心工作,同时也是核算运维费用的基础依据。将资产管理作为抓手,通过精细化的管理实现对信息化资产购置数额、财政核查以及在线运行与库存备件的同步管理,通过资产管理平台动态更新,是保障国有资产能够发挥出最大效益的重要举措。
事实上,信息化资产管理在运行维护过程中具有隐蔽、动态变化的特征。信息化类资产管理不同于其他资产管理,需要对资产管理进行动态的持续不断的跟踪管理。重点需要做好六个方面的管理工作:
新资产的登记录入工作。新资产录入应该以竣工验收设备清单为准,不得照搬合同资产清单。
核实新资产的性能配置。在资产录入运维系统之前,需要具有一定专业知识的人员参与核实资产,其中包括破解设备性能的隐蔽性的问题。
运维过程动态资产管理。保证系统竣工后提交清单与实际相符,但在运维过程中也将出现因设备老化、损坏、更新、替代、升级等动态改变设备性能的过程,这个过程是ITIL流程中的配置管理和变更管理,作为运维管理人员对此类调整必须进行动态跟踪和变更。
软件类资产的管理。软件资产价值更具隐蔽性,在移交过程需要具有一定专业知识的人员参与对软件封装后的功能进行核实确认。
对非运维类资产管理。信息化资产属性繁多,如机柜、控制台、工具、敷设线路等无需进行运维工作,也不计算核定运维费用,但此类资产存在价值,对这些设施和器材的管理仍很重要,应该进行分类管理。
信息化资产的管理。信息化资产总值与核定基础设施运维费有直接关联,资产分类必须严格按照财政的分类要求和统计口径精细计算。
技术管理部门肩负对国有资产的管理职责,应该精心做好信息化资产的清点工作,摸清资产底数,及时了解资产状态,在资产标识、资产消耗、资产保修、资产报废等方面进行科学、规范管理。通过资产核查与运维公司签订《信息化资产保管协议》确保信息化资产数额齐全、性能完好。
清晰网络流程
在实现资产精细化管理的条件下,下一步需要清楚这些资产的实际用途,设备之间是如何联接的?能够提供什么系统功能,能够支撑什么业务应用?这正是购置信息化资产设备目的所在。
对于复杂庞大的信息系统,要搞清楚这些问题并非易事,必须精细绘制以设备资产为基础,以网络程式为主线,以服务应用为目的的信息系统运行图。运行图类似作战地图,反映了系统之间集群联动、协同工作的运行机理,展现了系统运行的主要设备状况,表述了经过线路互联将设备集成为信息系统的实际状况,体现了信息产生和应用的全部过程,结合网络系统运行管理软件,起到了运筹帷幄,决胜千里的关键作用。实践证明,信息系统运行图在信息化运维管理工作中特别是对基础设施维护工作中发挥着重要的指导作用。
在具备了运行图、清晰了网络流程的基础上,需要绘制信息内容应用图,明晰信息系统究竟提供有多少应用功能,也就是支撑了多少业务工作,提供了多少服务内容。这需要从信息系统、信息子系统、信息应用平台、信息应用模块进行逐级定义,分层梳理应用目录。信息内容应用图集中展现了信息系统提供的全部使用功能,表述了信息之间的内在逻辑关系,明晰了信息流程相互关系,也是信息化建设成果的集中体现。
实践中,通过《信息系统运行图》和《信息内容应用图》从两个维度集中展现了信息系统的运行状况,纵览了对全业务全流程支撑全貌,从保障系统运行和提供信息应用两个层面,反映了信息化运维工作的主要任务,为定义运维服务级别协议、核定运维工作所需人员级别、工时工作等提供了基础资料。
确定运维任务
在具备《信息系统运行图》和《信息内容应用图》的基础上,运维管理工作的核心内容是编制SLA运维服务级别协议。通常国际上IT管理标准体系中的SLA主要是服务商与用户之间签署的协议文件,其内容是从服务能力、可靠性及响应速度等指标方面做出清晰的服务定义。
实践中研究发现,由于通常的SLA关注重点在于运维工作的服务能力、时间、可靠性等指标,涉及的管理范围不宽,内容也难以全面准确定义运维工作的职责与任务。在当前信息化运维管理体制下,通过实践对SLA功能的拓展,增加了“应用目录”“服务产品”“人员级别”“工时核算”四个运维工作指标项。新拓展的SLA将国际上通用的ITIL实践方法进行了本土化的移植,使其在运维管理工作中具有了多项实用功能,通过一张SLA表将信息化运维总体工作内容和运行成本实现可视化管理。此表有三个主要作用: 一是作为信息服务产品目录,定义了运维服务工作职责与任务; 二是用于服务级别协议,为绩效管理单位提供监督考核依据; 三是作为运维人工工时成本核算参考,为财政管理部门提供了翔实的成本构成依据。SLA的指标项内容如下: 应用目录、服务产品、人员级别、工时核算。
通过对运维管理工作的不断探索,将信息化运维服务工作“产品化”是实现细化运维管理目标的有效手段。
作者介绍
郑州向心力通信技术股份有限公司
二零一八年 1 机房运维管理前期准备 1.1 管理目标
机房基础设施运维团队应与业主管理层、IT部门、相关业务部门共同讨论确定运维管理目标。制定目标时,应综合考虑机房所支持的应用的可用性要求、机房基础设施设施的等级、容量等因素。目标宜包括可用性目标、能效目标、可以用服务等级协议(SLA)的形式呈现。不同应用的可用性目标的机房,可设定不同等级的机房基础设施的运维管理目标。1.2 参与数据中心建设过程
机房运维团队应充分了解自己将要管理的场地基础设施。对于新建机房,应尽早参与机房基础设施的建设过程,以便将运维阶段的需求在规划、设计、建造、安装和调试等过程中得到充分的考虑;同时为后期做好运维工作打下基础。1.2.1 应参与规划设计
机房的规划设计是一个谨慎和严谨的过程,需要所有参与机房建设的相关方共同完成,才能确保规划和设计的有效性、实用性等要求。其中,基础设施运维团队应提出运维要求,从运维经验、实际运维难度、提高运维可易性等方面对规划和设计过程进行配合。1.2.2 应参与相关供应商遴选
机房基础设施运维团队应参与机房基础设施设备供应商选择的全过程,及时地了解各种产品及服务的品牌、型号、规格等关键参数,使之更能满足运维的要求。并就在安装、调试过程中的注意事项等提出建议,还需要对后续的设备保修等服务提出要求。1.2.3 应参与建造管理
机房的基础设施运维团队应积极参与机房基础设施的建造工作,并协助做好建设项目的项目管理工作,着重关注工程建造中如材料的使用、工序、建造过程等工作,重点关注隐蔽工程的安装工艺和质量。机房基础设施运维团队应充分了解施工过程中的工艺。对于新建数据中心,从施工质量和日后运维方便性出发,尽早发现施工过程的问题,及时纠正,方便日后运维和节省日后整改成本。1.3 测试验证
机房基础设施投产前的测试验证是确保机房基础设施满足设计要求和运行要求的关键环节。1.3.1 时间和预算
机房的业主应设立测试验证专项预算,预算应包括外部测试验证服务提供商的相关费用,以及在测试验证阶段产生的电费、水费、油费等相关费用。应制定测试验证的工期规划,以更准确地预测机房基础设施交付投产的日期。1.3.2 测试验证参与方
项目建设管理部门可作为测试验证工作的主体责任单位;运维管理部门可作为测试验证工作的主体审核单位;第三方测试服务商可作为测试验证的实施单位及整体组织工作的协调单位。但运维管理部门应要求测试服务商预先提供测试方案,在运维管理部门审核后方可进行。机房基础设施运维团队可参与测试验证工作,在此过程中熟悉设施和设备,可建立相关运维技术文档库,为后期的运维工作做好准备。
机房关键设备提供商及工程总包商,应积极配合测试验证工作,应在供应商合同中对此项有明确要求。1.3.3 测试验证内容
验证应覆盖所有关键子系统和设备应具备的功能和关键的操作程序,确保满足设计要求,必要时可做故障情景模拟来检验。
测试验证中发现设计或者建设阶段的问题,应该在报告中充分体现;可以改造的部分,应要求建设单位进行改造;不能改造或暂时不需改造部分,应作为风险点在运维过程中予以特别的重视,并制定相关预案。
1.3.4 设施健康评估
当接手已在运行的机房基础设施的运维工作前,运维团队应对设施的情况进行健康评估,了解潜在风险点,其中能够改造的部分,应该申请予以优化改造。不能改造的部分,应该作为风险点在运维中予以特别的重视,并制定相关预案。1.4 技术文档
完整并准确的技术文档是后期运行、维护、维修、故障诊断、优化改造的基础。运维团队在开展运维工作前,应从施工单位得到场地基础设施的全套相关文档,包括但不限于:机房的规划设计资料及竣工图纸、全套设备的清单及相关操作文档和保修保养资料、机房自动操作系统的逻辑图及说明文档、监控系统的点表、验收测试文档、机房所在建筑的建筑设计资料、竣工图纸。整体文档应在限定时限内进入运维管理知识库,并按照质量管理的原理和要求设定文档的起草、变更、审核、批准、保存、分发等职责权限。1.5 管理边界
为了明确管理责任,机房基础设施运维团队应将可能影响机房基础设施运维目标达成的外界因素整合成管理边界报告,提交业主管理层并组织研讨,形成明确的决策,制定完整的协调沟通机制及权责界限。这些因素包括但不限于:不归本部门负责,但可能对于本部门有重大影响的供电、供水、供暖、制冷、消防、安防、监控、运营商线路接入等系统。安全管理和质量管理建议 2.1 人员安全
机房基础设施运维团队要编制正式的机房生产环境(工作场所)的安全方针,设定严格的安全生产规范;并根据安全方针制定有效的、明确的安全计划,来教授和培训安全原则、危险识别、纠正缺陷和控制风险。并加强对于该部分规范的合规度的培训、考试和审核检查,以确保机房运维人员的人身安全。相关安全生产规范主要包括:
●机房生产环境安全管理规范; ●机房基础设施各系统安全管理手册; ●机房基础设施涉及安全的应急预案; ●机房基础设施管理过程涉及的技术方案中的安全管理策略。机房基础设施中与电气相关的工作存在着固有危险。设施运维团队应当创建一份正式电气安全计划,以最小化所有工作人员受到电气伤害的风险,确保现场电气系统达到相关法规标准。电气安全计划中的条款应规定电气工作人员在有资质和具备合理安全工作流程的前提下才能进行操作,并应利用防护设备和其他控制手段,如上锁挂牌设备。此计划的创建旨在防止员工受到电击、烧伤、电弧和其他潜在电气安全隐患,同时要求其遵守法规标准。
相关国家、行业规程包括但不限于:
●GB 26860电力安全工作规程 发电厂和变电站电气部分; ●DL 408 电业安全工作规程。2.2 物理环境安全
应了解周边社会环境信息,评估潜在的安全风险并制定预案。这些信息宜包含但不限于:周边交通路况、医院、供油站、消防站、变电站、供水、供电、供气、网络通信线路等。可建立周边社会环境管理资料库。
应了解机房所在地的历史自然灾害情况。包含但不限于GB50174 及TIA-942中提到的所有评估机房选址的外部因素,并制定相应的管理预案。
应建立并执行严格的机房设备、人员、车辆进出管理制度。应设立不同安全区等级(参考ISO27001信息安全管理中的物理安全控制)并制定访客管理制度,用以有效管理访客。2.3 质量管理
在机房基础设施运维过程中建立完善的质量管理体系,是保障以上机房基础设施运维趋于卓越的重要因素和手段。机房基础设施运维团队的所有关键工作应包括以下的质量管理要素: 2.3.1 质量保证
●过程制定; ●程序制定; ●过程审核和批准; ●过程和程序培训。2.3.2 质量控制
●事件回顾; ●质量检查和检验; ●定期质量审核。2.3.3 质量改进
●故障分析; ●经验教训; ●优化及创新计划。人员管理建议 3.1 组织及人员 3.1.1 组织架构
机房运维团队应有清晰的组织架构,同时对各岗位有明确的岗位职责说明并在计算机化维护管理系统(CMMS)中实现权责匹配,同步更新。中大型数据中心场地基础设施运维团队中除现场负责人外,可按照工作内容分设以下几个主要职能岗位:
●运维巡检团队
主要职责:对基础设备设施进行巡检,担任值班工作,第一时间发现故障或问题,并作为管理程序的执行者。
●技术管理团队
主要职责:对机房基础设施提供运维技术支持,解决技术问题,承担机房基础设施一般性的优化改造工程的项目管理工作,宜包括电气、空调、弱电等系统的技术人员。
● 物理环境安全管理团队
主要职责:对物理环境安全进行管理,进行安全巡检等工作。3.1.2 人员配制
机房基础设施运维人员的配备应根据运维管理目标或SLA来确定。中高等级的机房,可按照7X24的运行要求配置运维人员。上岗人员应具备国家要求的相应资格证书。应在运维管理程序中明确规定资质等级与操作权限的一致性。
高等级以及具有一定规模的机房,每个班组应配备具有电力、暖通、弱电专业能力的运维人员,以达到“即时应急响应”的工作状态。等级相对低的机房,每个班需要至少配备一人,达到“即时报警”的工作状态。
运维团队的关键岗位应有人员备份和储备。机房基础设施运维管理团队的关键管理人员或关键岗位人员在正常运维工作开展中应采用A、B 角色配置,日常工作中应注意角色的分配和工作的配合。其它岗位人员宜建立良好的循环机制,人员可进行岗位轮换和交叉培训,使所有人员掌握全面的基础知识。3.1.3 绩效管理
为了提高机房运维人员的技术技能、职业素养和提倡团队合作精神,专业地、高效率地运行和维护机房基础设施,有必要建立人员的关键绩效指标,定期对所有人员的短期和长期绩效进行评估,奖优罚劣,推动整个运维团队技术和素质的发展和改进。3.1.4 人员管理制度
为了保障机房基础设施运维团队的创新性、稳定性、持续性,应通过建立合理的人员管理制度,约束人员的工作态度、行为规范,提高人员的工作热情、工作效率和执行力,激发人员正面影响,使团队一直保有活力来共同努力达成服务等级协议的要求,运维团队应该建立运维人员的各项管理制度。这些管理制度应该主要包含(但不限于):
●《日常活动管理制度》; ●《人员安全操作制度》;
●《运维人员基本素质养成管理制度》; ●《安全运行奖惩制度》; ●《节能运行奖惩制度》; ●《技术创新奖励制度》; ●《人员晋升制度》; ●《人才储备制度》; 3.2 培训及认证
3.2.1 员工培训及资格认证计划
对于机房基础设施运维团队新员工应进行完整及严格的培训,以确保其尽快具备岗位需要之知识及能力。培训内容应包括机房基础设施的所有系统的工作原理、操作流程、应急预案、以及管理制度等。
对于所有运维人员宜设定以知识更新、技能提高为目标的培训及认证计划。宜要求运维人员不断提升理论知识,以便于在缺乏操作程序的应急状态下进行正确的处置。
可借助行业第三方专业培训及职业技能鉴定平台,积极开展运维人员任职资格的评定工作。3.2.2 历史事件分析学习
运维团队应将机房基础设施历史事件的总结分析作为培训的重要素材,进行全员培训;对于新员工应在上岗前予以培训,以避免相同的事件再次发生。3.2.3 组织学习
运维团队管理者应积极参与行业交流,了解行业最佳的运维管理实践,并从行业故障案例中总结经验,做好自身整改。3.3 运维外包服务商
3.3.1 基础设施运维外包服务商的选择
机房基础设施属于关键性设施,选择外包运维团队时应考察其机房基础设施的运维服务的资质、能力和经验。如机房作为商业物业的一部分整体外包运维,应要求外包运维机构针对机房基础设施设施部分设立专门的有机房基础设施运维经验的团队,并严格按机房基础设施的运维规程规范执行。3.3.2 运维外包服务商的管理
对于外包服务商的员工的管理原则应该参照运维团队内部员工同等要求,相关人员只有在进行培训并得到相关的认证后才能从事相关的工作。
外包服务商需要严格遵循数机房基础设施既定的操作流程和安全守则。
机房基础设施运维管理的最终责任承担者是机房管理者,责任无法外包。因此,机房应保留运维核心管理人员,对于外包团队的工作进行审核、监督和绩效评估管理。设施管理建议 4.1 资产数据库
数据中心应建立完整及实时更新的资产数据库。数据库应包括所有关键基础设施设备的清单,还应记录设备设施的运行情况、事件情况、变更情况、维护保养频次等信息。
资产数据库应最少包括以下信息: 资产ID:每个资产的唯一标识号
种 类:一级分类(如电气、制冷、消防系统)子 类:二级分类(如 UPS、电池、PDU等)描 述:资产的文字说明 制 造:资产的制造厂家 型 号:制造厂家的产品型号 规 格:资产的规格或者标称值 位 置:位置 ID(房间或区域)购 买 人:资产维护的负责人 序 列 号:制造厂家的序列号 安装日期:资产的投产日期 保修期限:保修到期的日期 更 换:预计的资产更换日期 维护频次:年检、季检、月检等 4.2 预防性维护 4.2.1 预防性维护计划
预防性维护是为了延长设备的使用寿命和减少设备故障的概率而进行的有计划的维护。其目的是通过定期检查和保养,使设备的某些缺陷或隐患在变得更严重之前被发现。
运维团队应根据系统设备情况与供应商进行沟通,按照供应商的建议提前制定、季度、月度预防性维护计划。各专业运维人员需按照各设备系统特性、维护流程及规范,及时、完整地落实维护工作,并形成客观实际的记录和报告予以存档。运维团队还应定期对设备的运行状态数据进行统计和趋势量化分析,对于异常的趋势,做出报警及相关预案。预防性维护包括并不限于以下系统设备或内容: ●冷水机组、精密空调; ●UPS,开关、和发电机组; ●消防系统和监控系统检验; ●蓄电池放电测试;
●配电装置(高低压配电装置)的绝缘性定期试验; ●二次保护定值实验;
●每年雨季之前进行的数据中心防雷接地装置测试等。4.2.2 工单管理
运维团队应建立预防性维护及保养的工单管理系统,工单应列出工作内容、完成相应工作需要的工具及备件、工作预计完成的时间、工作负责人等信息。
计算机化维护管理系统应该对每份工单从产生到完成进行全程的跟踪。4.3 操作流程
机房基础设施的所有操作,均应事先制定详细的操作流程,经过审核后存档并在后期运行阶段严格执行。4.3.1 维护作业程序MOP 对机房关键基础设施设备的每次维护、维修、安装操作,都应事先制定一份MOP。可要求设备供应商提供MOP的建议,但对于MOP最终确认审核的责任在于运维团队,批准责任在于运维管理团队。4.3.2 标准操作流程SOP 所有关键基础设施设备在各种情况下都能执行的常用操作都应制定标准操作流程SOP。例如手动启动发电机组的操作流程,或将UPS转换到旁路的操作流程等。4.3.3 应急操作流程EOP 应急操作流程适用于有可能发生的严重故障情况。以下为部分严重故障的例子:
●一路市电供电时中断; ●双路市电供电时同时中断; ●单个精密空调时故障停机; ●全部精密空调都故障停机; ●单台UPS时故障停机。4.4 工具及备件管理
运维团队应根据资产分类清单及其分类制定最低备件库存清单并及时补充备件。
测试分析仪器仪表方面可配备进行电气性能参数测试、电池测试、接地电阻测试、绝缘性能测试、设备运行温度测试、风速测试、环境温度测试、噪音测试等的仪器仪表。仪器仪表应该定期校准。
应制定相关规定对操作工具、仪器仪表实行人员负责制或者交接班负责制等管理制度。备件和工具应定期进行盘点。4.5 供应商管理
应该按照机房基础设施运维的资质、以往的经验、业界的口碑等因素,以注重预防性和预测性维护和提高可用性的相同标准来选择合格的供应商。
所有供应商到达机房执行维护程序之前,应通过机房相关规程的培训,获得机房运维团队和运维管理层的批准。在执行维护活动的过程中要严格遵循操作流程。操作时需由运维团队的人员陪同并监督记录流程的执行情况。
供应商的每次机房维护活动都应该提交现场服务报告并存档。运维团队应该建立供应商的绩效评估方案,并定期对供应商进行绩效评估。应设立供应商管理文档,记录所有供应商的联系方式、服务承诺(SLA)、工作范围、针对设施的培训和认证情况等信息。4.6 生命周期管理
应基于设施设备的合理生命周期,结合风险评估,制定设备维护、升级或更换的计划及预算,及时报告给运维管理部门。
风险评估主要评估内容包括: ●资产重要性识别; ●资产威胁识别; ●资产脆弱性识别; ●风险值的计算;
●在评估更换设备的方案时,可综合考虑原有设备的维护费用以及新设备在能效方面的改进,做好综合投资回报分析;
●对于冗余设备宜设立轮换运行机制,以延长整体设备的生命周期。
4.7 运维管理系统 机房可建立自动化维护管理系统(MMS),集中实现资产管理、维护调度、信息安全、文档管理、工单管理的职能并记录所有的运维工作任务及完成情况。运行管理建议 5.1 运行管理制度
机房基础设施运维团队应建立并严格执行运行管理制度,包括:5.1.1 巡检相关管理制度
●日常巡视巡检管理制度; ●值班管理制度; ●交接班管理制度; ●通知矩阵。
5.1.2 工作流程相关管理制度
●工单处理流程; ●例会制度;
●工作总结报告制度(日、周、月、季、年总结报告);●交付管理规范;
●运维质量管理办法文档管理制度; ●工具备件管理制度。5.1.3 安全相关管理制度
●机房出入管理制度; ●机房现场管理制度;
●机房卫生管理制度; ●信息安全相关管理制度。5.1.4 故障处理管理制度
●设备操作管理制度; ●设备故障处理流程; ●应急准备和应急响应流程; ●维护作业计划管理制度; ●故障隐患跟踪反馈管理制度; ●紧急事件汇报流程。5.1.5 经营相关管理制度
●员工行为规范; ●考勤管理制度; ●人员管理考核制度。
5.2 设施监控、巡检、及交接班管理
应配备环境、动力、安防等监控系统以便于运维人员及时了解设施各系统及设备的运行状态和及时发现异常情况。
应规定相应的运行人员对设施运行状态的巡视频次、巡视工作内容及规范。
运行人员交接班时应对当班执行的操作、变更及观察到的任何异常数据或现象进行交接和签收。5.3 机房清洁管理
应划定保洁区域,定期做好机房保洁工作,保证地板及地板下的无尘状态。重要区域进行保洁工作时应有运维人员现场监督和指导。5.4 标签标识管理
应建立针对数据中心场地基础设施设备和物理环境完整的、清晰的标签标识管理系统。应至少包括:
●设备标识:包括设备名称、型号、编号、资产编号等; ●线缆标识:包括起始端信息、终止端信息、设备名称等; ●警示标识:如“设备已带电/危险”、“禁止合闸”、“禁止分闸”等;
●物理环境标识:如位置标识、区域标识等;
●系统图展板标识:如电气、暖通、消防、弱电系统图展板。这类标识便于运维人员清晰、快捷地掌握区域及整个数据中心系统的配电、制冷、消防、弱电的原理及关键点位。5.5 变更管理
任何对于设施运行状态的变更应进行预先的风险分析,并基于风险等级,设定相应级别的事前审核流程。在变更方案及变更时间窗口确认后,应进行相应范围的告知。变更结束后,应向相应范围部门通报变更结果。5.6 事件管理
应制定事件管理流程,明确不同等级事件下相应的处理流程。5.6.1 事件等级定义
一般事件:任何没有达到机房设计和运行标准的异常事件; 严重事件:任何没有达到机房设计、运行标准的事件,且对提供的服务造成中断的事件;
重大事件:任何没有达到机房设计、运行标准的事件,且对提供的服务造成中断,且影响范围大的事件。5.6.2 事件升级
当事件暂时无法排除,需要逐级报告,进入事件升级流程。如遇特殊情况,与直接主管联系不上时,可越级向上一级主管报告。
5.7 应急响应
5.7.1 设施应急预案演练
运维团队应针对应急操作流程EOP进行定期的演练工作,主要包括:
●沙盘演练:参与演练的运维人员集合,并分别口述在发生紧急情况下自身所应承担的职责及将会执行的方案及步骤;
●跑位演练:参与演练的人员跑位到模拟故障现场,模拟处理故障,参与人员应清晰地说出故障的处理方案及步骤。
应急演练的演练原则是:尽量接近真实情况,在条件允许的情况下尽量真实地处理故障。在运行中的一些特定场景下也可以进行应急演练,如发电机带载实验等。5.7.2 人员安全应急流程
机房基础设施运维团队应针对影响运维人员健康的人身事故制定应急流程并定期演练。应急流程可包括设置现场急救包以及联系当地医疗急救机构的方式等。5.8 容量管理
容量管理可包括但不限于以下方面: 5.8.1 空间容量
●IT设备摆放空间; ●基础设备设施摆放空间; ●综合布线线路空间,配线架管理。5.8.2 能力容量
●电力供应容量; ●空调供应容量; ●综合布线信息点容量; ●互联网接入容量。
设施运维团队应与IT 部门定期沟通,动态了解IT需求的预测,并通报设施容量的使用情况。可制定3个月至36个月周期的IT需求及设施可用容量两者的对比分析表。
当机房基础设施不能满足IT增长的需求时,应提前制定并上报扩容或者新建机房的计划。5.9 能效管理 5.9.1 能效监测
机房基础设施运维团队应了解并记录机房在不同工况及不同外界气候条件下的电力使用效率 PUE 的变化情况,从中发现趋势,以不断优化运行方案。5.9.2 了解IT设备运行特征 机房基础设施运维人员应具备一定的IT设备相关知识,了解服务器、网络、存储等设备的运行特点和功耗情况。还应了解客户或用户的业务基本情况,了解IT 设备的运行峰谷期。
应与客户或用户相关部门做好沟通,针对高密度IT负载的部署做出预测,并制定相关应对方案。5.9.3 管理气流组织
应封堵设施建筑所有可能的漏风口,维持设施的正压。应疏导设施内气流的流向、封堵所有可能的漏风口、对机柜内所有空闲U位安装盲板、关闭不必要的出风口、保证冷空气的最佳使用效率。
5.9.4 运行阈值设定
应基于安全性及运行效率的综合考虑,建立运行阈值设定指南,设置监控报警阈值、空调回风温度等。5.10 预算管理
运维团队应做好运维财务预算,上报主管领导及财务部门,并做好预算必要性的沟通解释工作。
预算应包括但不限于以下内容: ●基于SLA的人力预算; ●备件及工具、仪器采购费用; ●应急维护材料费用;
关键词:ITIL,IT服务管理,运维管理,流程
1 引言
随着信息化的飞速发展, 信息系统已成为支撑企业运作不可缺少的一部分, 在企业内部建立了各种信息系统, 如ERP系统、生产执行系统、办公自动化等系统。信息系统在给企业带来便利的同时, 也隐含着风险, 一旦信息系统出现问题, 可能将导致企业无法进行日常的业务运营, 因此保障信息系统的正常稳定运行显得越来愈重要, 但传统以人工为主的运维管理已不能满足企业全面管理信息系统的要求, 缺乏有效的运维管理已成为影响信息系统应用效果的主要瓶颈。
对于如何进行有效的IT运维管理, 很多企业和政府部门进行了长期的探索和实践, 逐渐形成了一套IT运维管理方法论——IT服务管理 (IT Service Management) 。IT服务管理[1]是以流程为导向, 通过整合IT服务和业务需求, 提高IT服务水平, 让信息化资源发挥更大的效能。在IT服务管理领域中, ITIL (IT Infrastructure Library, IT基础架构库) 已成为事实上的行业标准, 它是从大量企业的IT服务管理经验中总结出来的最佳实践, 将ITIL引入运维管理中, 可以使企业在建立IT运维管理制度和流程的过程中充分吸取前人的成功经验, 对改善企业运维质量具有很好的借鉴意义。
2 IT运维管理现状
目前, 信息技术在企业中的应用得到了前所未有的重视, 但是长期持续建设的惯性使企业普遍存在“重建设、轻运维”, “重技术、轻流程”等问题, 导致对IT运维工作投入不足, 缺乏规范化的运维管理流程。其实从信息系统的整个生命周期来看, 实施建设只占其生命周期的20%, 而其余80%的时间都是对其进行运行维护[2], 所以运维阶段是IT生命周期中的关键阶段, 如果IT的运维管理做的不好, 那么这些花费大笔投资建立起来的系统将无法带来预期的效益。
由于缺乏规范的运维管理体系, 导致企业普通存在以下问题:
(1) 运维人员就像救火队员一样, 处于被动的服务状态, 只有当问题已经发生后, 才进行紧急处理, 不能预防问题的发生。
(2) 缺乏统一的服务台, 用户请求随意性大, 直接找有经验的信息人员, 导致能干的人员成天处理无价值的琐碎事情, 价值无法有效体现。
(3) 缺乏规范的运维制度和流程。在处理问题时, 没有对问题进行记录和分类, 导致无法跟踪和监控问题的处理情况。
(4) IT运维的相关经验没有积累和共享。由于缺乏对运维过程的记录, 使得问题的处理方法只有当时的维护人员掌握, 相关经验难以积累和共享。
(5) 运维人员绩效无法量化。在运维工作中没有建立量化的考核指标, IT运维质量和运维人员的绩效无法量化, 使得运维人员的工作积极性得不到提高。
因此实现运维管理从传统被动式服务转变为主动预防服务, 以流程贯穿整个运维管理过程, 实现运维管理的标准化、规范化和流程化是目前企业信息化建设急需解决的问题。
3 ITIL体系框架概述
在20世纪80年代中期, 英国政府为了提高政府部门IT服务的质量, 启动了一个项目来开发一套规范化的、可进行财务计量的IT资源使用方法, 该项目的最终成果就是ITIL V1.0版本。ITIL确定了以流程为中心的IT服务管理方法, 并定义了各个流程之间的相互关系, 使人们对IT服务管理统一了思想、认清了方向。在2007年, ITIL V3正式发布, 它融入了IT服务管理领域当前的最佳实践, 并首次引入了生命周期的概念, 通过PDCA模型 (Plan-DoCheck-Act) , 可以持续不断地循环改进IT服务, 从而保证ITIL持续的生命活力[3]。
ITIL V3框架[3]如图1所示, 它主要包括五个核心模块:
(1) 服务战略[4]。该模块为制定IT服务管理的政策和指南提供指导, 保证IT服务战略与业务相一致。主要包括服务战略制定、服务投资组合管理、服务财务管理和需求管理等流程。
(2) 服务设计[5]。该模块为制定IT服务管理制度和流程等方面提供指导, 帮助用户设计出合适的IT服务解决方案及流程。主要包括服务目录管理、服务级别管理、可用性管理、持续性管理和安全管理等流程。
(3) 服务转换[6]。该模块为新增的或修改的IT服务转换到实际应用中提供指导。主要包括配置与资产管理、发布与部署管理、变更管理、知识管理和服务检验与测试等流程。
(4) 服务运营[7]。该模块为如何达到IT服务支持和交付的效果和效率, 保持服务运营稳定性提供指导。主要包括事件管理、服务台、问题管理、技术管理、应用管理和访问管理等流程。
(5) 持续服务改进[8]。根据业务需求持续改进和提高IT服务生命周期中的每个阶段, 使得IT服务能不断与业务需求的变化相适应。
ITIL V3通过服务设计、服务转换和服务运营的实施, 并借助持续服务改进不断完善整个过程, 使IT服务管理过程整合为一个良性循环的整体。
4 运维管理流程体系设计
根据目前IT运维工作情况及存在的问题, 本文在ITIL理论的指导之下, 设计了IT运维管理的主要流程, 流程如图2所示。
下面针对以上流程进行详细介绍。
(1) 事件管理流程。事件[9]是指可能引起或已经引起IT服务中断或服务质量下降的活动, 事件管理的目的就是尽可能在最短时间内解决故障, 减少事件对业务运作的影响。该流程首先是新建事件, 在运维平台中, 新建事件有两个来源:一是当用户发现信息系统故障, 通过电话或者邮件通知服务台, 由服务台人员在系统中手动创建事件;二是当监控平台通过监视工具发现性能指标超过阈值时, 系统会自动创建事件。在创建事件时, 服务台人员根据事件信息进行事件的分类以及设定优先级, 同时系统会自动从运维知识库里搜寻该事件的解决方案, 为服务台人员处理事件提供参考。如果服务台可以处理该事件, 就直接答复用户, 否则将该事件指派给相关运维人员。当运维人员接收到该事件, 对事件进行分析和处理, 并将解决方案反馈给服务台。服务台向用户确定事件的处理效果, 并填写用户反馈意见, 当故障已解决, 则关闭该事件。整个事件的处理过程都记录在事件问题库中, 方便用户进行查询和统计分析, 并根据情况, 将解决方案记录到运维知识库中, 实现知识的积累和共享, 为以后处理同类事件提供参考。
(2) 问题管理流程。问题管理的目的是找出并消除引起事件的根本原因, 从而避免事件再次发生。该流程首先是对事件进行分析, 将之前重复发生过的或者非常严重的事件升级为问题, 根据问题信息进行分类以及设定优先级。然后将问题指派给相应的专家组, 由专家组对问题进行分析并找出问题的根源, 从而提出相应的解决方案, 然后由技术总监对解决方案进行审批, 审批通过后, 进行解决方案的实施, 必要时触发变更管理流程。当实施结束后, 对实施效果进行评审, 评审通过后, 关闭问题并将问题的处理过程记录到问题事件库中, 同时根据情况, 将解决方案记录到运维知识库中, 为以后处理同类问题提供参考。
(3) 变更管理流程。该流程首先是新建变更请求, 新建变更请求有两个来源:一是为了解决系统问题;二是为了适应业务的变化。在创建变更时, 根据变更情况进行分类以及设定优先级。然后将变更指派给相应的专家组, 由专家组对变更进行综合分析, 明确变更的风险及其影响, 并制定详细的变更方案及计划。变更经理对变更方案进行审批, 审批通过后, 按照变更计划实施变更, 同时触发发布管理流程。当完成变更实施后, 由变更管理小组对实施情况进行评审, 如果成功, 则关闭变更请求, 并出具变更总结报告, 反之, 修改变更方案重新实施变更。
(4) 发布管理流程。由变更管理触发生成发布请求, 根据发布请求制定发布方案以及计划, 明确发布的内容、角色职责分配、发布日期等。根据变更实施情况组织用户进行培训和测试, 确保变更和发布的成功。当测试通过后, 确定软硬件版本并进行安装, 同时触发配置管理流程, 更新配置信息。
(5) 配置管理流程。配置管理是将IT环境中所有配置项 (硬件、软件等) 的信息以及配置项之间的关系记录到配置管理数据库中, 从而为其他流程的处理提供软硬件的详细配置信息。发布管理会触发生成配置请求, 根据配置请求确定配置的范围并制订配置计划, 识别本次更新的配置项, 并将配置项的详细信息以及配置项之间的关系记录到配置管理库中, 并定期对配置管理库进行审验, 保证其配置信息能真实反映实际的情况。
5 实施策略
IT运维管理流程体系涉及到多个相互独立又彼此关联的管理流程, 它的实施是一个长期而艰巨的任务, 不但要面对各种各样的技术难题, 更重要的是将ITIL的思想与企业文化相融合, 因此ITIL的应用实际是一个管理变革活动, 在变革过程中, 会涉及到人员的职能、思维模式、工作方式等的转换, 容易产生的误解和消极的态度。其次, ITIL作为信息部门内部管理的流程, 存在许多与现有的应用管理系统以及外部系统及流程的接口整合衔接的问题, 需要在流程设计和自动化等环节逐步解决。
基于以上原因, 运维管理流程体系的建设不是一次性就能够全部实现的, 需要逐步实施和优化, 本文通过对这一课题的研究, 提出分阶段实施的策略, 具体如下:
第一阶段:咨询评估阶段。该阶段主要工作是通过对企业的IT建设和运维管理现状进行调查研究, 评估企业当前的IT服务成熟度, 找出运维管理存在的问题和不足, 制定运维管理建设的总体目标、功能需求和实施计划等。
第二阶段:建设实施阶段。在前期咨询评估的成果上, 建设基于ITIL理念的IT运维管理系统, 通过系统的建设, 固化运维管理流程, 本阶段主要实施ITIL中最核心的运维流程, 包括服务台、服务目录、事件管理、问题管理、配置管理和知识管理等。
第三阶段:推广提高阶段。在第二阶段的基础上, 对运维流程体系进一步的深化和改进, 主要实现变更管理、发布管理、服务级别管理、能力管理、可用性管理、监控系统的集成, 运维KPI指标的制定。
第四阶段:持续改进阶段。因为IT运维管理是一个不断持续满足用户需求和期望的过程, 所以IT运维管理体系的建设应该是一个不断持续改进的过程, 整个过程包括计划 (Plan) 、执行 (Do) 、检查 (Check) 和行动 (Action) 4个阶段 (PDCA) , 并按此顺序不断循环改进, 通过PDCA的管理思想, 定期地对运维流程进行分析, 提出优化和改进建议, 使运维流程随着组织内外部环境的不断变化而改进, 保障运维流程动态满足企业的业务目标。
6 总结
本文首先对目前企业的IT运维工作状况进行了分析, 归纳出目前存在的主要问题, 然后基于对ITIL最佳实践的研究基础上, 设计了一套基于ITIL的运维管理流程, 并提出了IT运维管理分阶段实施的策略, 使运维管理从传统的单一、被动和低效的管理方式逐步转变为统一、主动和高效的管理模式, 提升IT运维管理水平。
参考文献
[1]王彬彬.IT服务管理在数字化校园中的研究与应用[D], 北京:北京邮电大学, 2009.
[2]王仰富, 刘继承.中国企业IT治理之道[M], 北京:清华大学出版社, 2010.202-203.
[3]陈宏峰, 张亮, 黄新峰, 黄爽.翰纬ITIL V3白皮书[M], 上海:翰纬IT管理研究咨询中心, 2007:14-15.
[4] Sharon Taylor, Majid Iqbal, Michael Nieves.ITIL Version 3Service Strategy[M], LONDON:OGC, 2007:52-55.
[5] Sharon Taylor, Vernon Lloyd, Colin Rudd.ITIL Version 3Service Design[M], LONDON:OGC, 2007:31-33.
[6] Sharon Taylor, Shirley Lacy, Ivor Macfarlane.ITIL Version 3Service Transition[M], LONDON:OGC, 2007:49-50.
[7] Sharon Taylor, David Cannon, David Wheeldon.ITIL Version3 Service Operation[M], LONDON:OGC, 2007:42-45.
[8] Sharon Taylor, Gary Case, George Spalding.ITIL Ver-sion 3 Continual Service Improvement[M], LONDON:OGC, 2007:47-49.