it系统运维管理(共8篇)
MIS网络信息运维管理系统规划(征求意见稿)作者:张鹏 二〇一〇年一月 前言
托电信息化发展历经八年,从只有一个OA办公系统、数十台终端到如今拥有包括小型机在内的服务器五十余台、交换机等网络设备百余台、终端上千台。信息化工作的重点已经从信息系统建设向运维管理和系统应用的深度整合等转移。
目前,信息中心每天的工作量,多数都属于运维管理的范畴。信息中心从机组四期工程结束后就着手开始运维管理方面的建设工作,几年间相继上了蓝带思科桌面管理系统、东华的IT运维系统、青鸟桌面管理系统。这些系统的应用情况都不尽如人意,原因是多方面的,个人认为主要有以下几点:
1.运维管理的理念形成需要逐步成熟的过程。2.受到与运维相关的信息技术发展制约。3.现有运维相关的产品有各自的侧重或局限性。
信息中心正在实施的两个项目NETIQ和机房环境监测系统为我们提供了一个契机,我们可以建设一个真正适合自己的网络运维管理系统,这个时机已经基本成熟。
一、运维管理系统建设的可行性
信息中心运维工作主要来自网络设备、系统应用、机房设备、终端。NETIQ服务器监控系统可以对服务器、数据库进行集中监控管理。机房环境监测系统可以对机房温湿度、空调、UPS等指标进行集中监控管理。终端管理方面,可以考虑购置更好的产品加上二次开发或者在现有桌面管理系统的基础上进行二次开发。相对于以上,网络设备的管理使用SNMP基本可以满足运维需求,NETIQ可以实现,也可以在运维管理中心开发相应的管理模块。这些系统的建设,本身就是具有针对性的综合管理系统,而且可以为运维管理中心系统提供运维信息的采集平台,是运维管理系统建设的基础。
二、运维管理系统的构想
运维管理系统由外围管理系统群和运维管理中心两部分组成。外围管理系统群包括网络设备管理模块、NETIQ系统、机房环境监测系统、终端管理系统,外围系统群为运维管理中心提供运维信息采集平台。运维信息采集包括网络设备运维信息采集、服务器组运维信息采集、机房环境运维信息采集、终端运维信息采集。
运维管理中心主要包括以下几个部分:运维任务的生成、运维任务的处理、完成确认、知识库、运维统计分析、运维报告、绩效评价、违规处理、维护商管理、应急预案管理、系统权限等。㈠生成运维任务
运维任务的生成有两个途径,一个是从信息采集获得,另外可以手动生成。运维任务分为运行管理任务和维护管理任务两类,运行任务管理是指系统、设备在正常运行状态下的监控管理或操作,主要包括定期巡检任务、正常的配置操作、补丁管理、用户管理、升级操作等,巡检任务由系统按规定自动生成,包括信息中心人员的日常巡检和维护商的定期巡检。维护管理任务是指当设备、系统出现异常或故障时的处理过程。运维任务的生成包括的信息有:设备或系统名称、IP地址、报警信息、时间、运维编码等等,由终端直接发起的运维信息应该包含联系人的电话等,以便于运维人员接手任务后与发起人主动取得联系。生成的运维任务包括网络设备、应用系统、机房操作、终端运维等几种任务。运行管理和维护管理并没有严格的界限,往往是你中有我我中有你。㈡运维任务的处理
运维任务生成后,由管理人员按照各自的职责分工,领取相应的运维任务进行处理,运维任务处理过程及信息分类:
运维类别 网络设备包括:交换机、路由器、防火墙、VPN设备、行为管理设备、其他 应用系统包括:操作系统、应用服务、数据库、接口、其他
机房运维包括服务器、网络设备、空调系统、供电系统、消防系统、环境监控系统 终端运维包括:终端、外设 运维内容
网络设备包括配置操作:增加、更改、删除,其他操作:版本升级、设备更换、其他 应用系统包括:配置变更、软件安装、升级、用户管理、数据管理、日志管理、补丁管理、策略管理、其他
机房运维包括具体的设备信息
终端运维包括:电脑硬件、操作系统、应用程序、打印机、其他 处理过程
处理结果
原因分析 影响情况 对用户的影响情况(时间范围)
运维任务在处理过程中包含以下几个状态,分别是: 等待处理: 等待运维人员接手 执行状态:运维人员正在处理任务
挂起状态:运维过程中出现其他急需办理的事物或其他原因暂停执行 提交状态:任务处理完毕,等待完成确认 完成状态:一个任务完全结束后的状态
驳回状态:任务处理过程中信息有待补充等原因被驳回。
当任务处理人员发现需要维护商来处理的时候,将任务转给维护商,由维护商接手任务,相关人员配合共同完成运维任务并填写相应的记录,最后由运维人员给予维护商相应的评价。㈢运维任务的完成确认
对已经完成并提交的运维任务进行确认、评价,对于运维内容是否放入知识库给予确认,对于运维过程中存在的违规情况根据相关规定给予处罚确定等。㈣知识库
知识库的信息积累来自于运维管理系统和平时的手工录入,应做好信息的分类、查询功能。当运维任务生成后,系统会把相关的信息在知识库中进行检索,并把结果显示在任务中,供运维人员参考。㈤运维统计分析
当某些问题经常出现的时候,信息中心必须运用统计分析对设备、系统产生的问题或故障协同相关维护商,进行深入分析,找出原因,解决问题。另外运用统计分析可以为今后的运维工作提供指导方向,制定下一步运维计划。㈥运维报告
通过运维管理中心,对运维数据有选择的筛选、汇总,定期生成信息系统运维报告,以便于工作总结、分析、计划。运维报告应具有针对性,例如呈送公司领导的、呈送各部门的以及信息中心的整体报告。㈦绩效评价
运维系统内的各方包括终端用户、维护商、运维人员都是可以评价的对象。终端用户可以给打印机维护商评价;也可以给信息中心运维人员给予评价;维护商可以给维护人员评价;运维人员可以给维护商的工作给予评价;运维人员可以对终端用户使用计算机的情况给予评价。㈧违规处理 对于运维过程中发现违反信息系统相关制度的行为应予以必要的处理。需要做两方面工作:涉及这个内容的制度条款应该拿到系统中来,处理的方式方法有待确定;对于违规行为,在运维处理过程中应该做相应的证据记录。㈨维护商的管理
对维护商的信息集中管理,运维工作予以记录、评价,运维合同的到期提醒等,如何对维护商产生实际的约束力,发挥其在运维工作中应有的作用,是我们需要考虑的问题。
(十)应急预案管理
当设备或系统的故障达到规定程度时,启动应急预案,并对整个处理过程实现系统化管理,以及预案的演练等其他工作进行记录。
三、终端管理系统
目前通行的终端管理系统所包含的功能主要有:硬件信息的提取(CPU、内存、硬盘等)、操作系统基本信息(操作系统版本、安装的应用程序等)、软件分发、补丁管理、外设管理、远程管理、主机防护等。有的产品还具有接入认证、内外网隔离、硬盘加密、网络行为管理等功能。360安全套件在终端健康状况、插件管理、实时防护、木马查杀、垃圾清理等方面做的比较好。瑞星网络版则是着重防病毒。将这些软件的功能加以综合利用,建设终端管理系统平台(组),为运维管理中心提供数据。
厂区终端使用最多的是OFFICE办公软件和浏览器,出现问题最多的是浏览器,所以应当把对浏览器的运维作为终端运维的重点之一。此外终端管理系统收集的终端硬件信息可以与信息中心现有的资产管理系统建立联系,可以实现较为准确的资产定位,协同各部门信息员及时掌握资产的变动情况。
客户端的二次开发要求:客户端既属于终端管理系统,又可以和运维管理中心通信,同时可以对于我们所需的现有产品没有涉及到的进程或指标进行检测。
1、实时交互性
当运维人员需要远程维护时与终端用户进行询问、控制申请等信息交互,当运维任务结束后,终端用户可以给维护人员以相应的评价。运维管理中心收集到的终端健康情况也可以发送到目的终端,给使用者以相关的提醒。
2、人性化
终端使用人提交运维申请后,可以看到运维管理中心当前的运维状况,谁接手了自己提交的申请,自己排在第几位等信息。客户端运行应尽量避免对终端用户的正常工作形成干扰,如果能做到让使用者感觉很舒服又实用那是最好了。
3、资源占用率 客户端运行时,进程的大小,CPU占用率可以参考较为成熟的软件如360及瑞星运行时的情况。
4、定制化安装
对于信息中心维护范围内和维护范围外的终端,应该采取不同的安装策略。比如对维护范围外采用接入认证、监控健康状态、信息提醒等,但不启用维护功能。用户在安装客户端时,填写相应的信息以便系统管理。
四、运维系统建设工作重点 1.运维管理中心的开发 2.终端管理系统的建设
3.NETIQ系统所涉及监测指标的调整,与运维管理中心的接口准备 4.机房环境监测系统所涉及监测指标的调整,与运维管理中心的接口准备
5.对于特定应用系统的运行监测,NETIQ能否开发出对应的监测服务模块,或者应用系统的开发商可以开发出对自身运行状况的监测功能。6.与运维工作相关制度的完善、建立。
五、总结
在现代工业体系下,软件企业对于IT系统的依赖越来越大,随着企业业务线的不断扩大,用户量业务量的不断增加,已经使IT基础运维的负担变得越来越沉重,有针对性的、全面的IT运维自动化管理系统,不但能保证IT基础设施的稳定性,而且能直接降低企业运营成本,提升IT服务质量。因此,研究和实践IT运维管理理论,并建立可实际运行的管理系统,已成为软件企业面临的共同课题。
1 IT运维管理系统的现状
信息技术基础设施库(ITIL)是基于过程的实践,旨在为企业的IT部门提供一套从策划、研发、实施到运维的标准管理方法。经过几十年的发展,基于ITIL,其它一些IT服务管理流程体系(框架)也已经被开发出来。例如HP公司的IT服务管理参考模型、IBM公司IT流程模型以及微软公司的微软运营框架等 [1]。以ITIL为基础,IBM、BMC、CA、HP、FrontRange等厂商都有全面的服务台解决方案 [2],其中一些还通过了ITIL兼容性认证,这些解决方案以其众多的成功案例向客户证明了它们的价值。
国内现在很多企业的IT运维虽然已经由过去的“手工作坊”式在向计算机管理转变,但仍旧处于半自动化状态。对IT管理软件的应用缺乏一定的深度,同时,相关的管理制度也缺乏及时的梳理、完善和优化。IT部门常常是被动、低效率地手工救火,总是处于“备战”状态,即使这样问题仍旧是层出不穷。所以,我们需要改变IT运维管理的思想,将被动的管理转化为主动监控管理[3],以便防患于未然。
目前,国内的很多软件企业都非常认同IT运维在企业中越来越重要的角色,但与国外尤其是欧洲相比,我国的IT服务管理还处在发展初期,还需要不断地、持续地完善。
2 IT运维管理系统分析
需求确定阶段的任务就是和客户一起确定、分析和协商需求。需求并不意味着会给项目带来额外的负担,只有明确了客户的需求,才能为后续的设计与实现打下良好的基础。
IT运维管理系统的开发,主要目的是对企业的IT运维相关工作进行有效地梳理,使其流程化和规范化,并能够通过系统进行基础数据采集,可以实时地通过报表进行有效地监控和管理。经过认真地调查、分析、总结,以及与企业管理者及企业业务人员的多次沟通,最终确定IT运维管理系统共包括四个子系统,分别为资产管理子系统、License管理子系统、数据采集子系统以及统计查询子系统。其中:
(1)资产管理子系统:主要是对IT运维过程中产生的资产进行管理。主要包括服务器管理、员工设备管理以及知识资产管理。
(2)License管理子系统:主要对产品使用的License许可进行管理。主要包括License申请、License待办及License查询。其中申请部署版的License,需要走审批流程,必须经过管理层同意后才能发放License。
(3)数据采集子系统:主要对运维过程中产生的基础数据进行收集。主要完成对基础数据的增加、删除、修改和查询。基础数据包括产品销售机会信息、实施任务信息、实施日报信息、实施项目及联系人信息等。
(4)统计查询子系统:主要对采集上来的基础数据,根据不同的需求进行不同维度的查询,并最终生成报表样式进行展现。其中,数据填报模块不同于其它几个报表的功能,它主要是实现将使用报表填写的数据回填进数据库功能。
通过对功能分析得到系统用例的主角,如表2.1所示。
3 IT运维管理系统设计
通过对软件需求的分析,已经得出了IT运维管理系统的目标。进入设计阶段后,要把软件系统的逻辑模型变换为物理模型,即着手实现软件的需求,软件设计是一个把软件需求转换为软件表示的过程。
3.1系统功能模块设计
设计的目的是为软件结构图中的每一个模块确定使用的算法和块内数据结构,并用某种选定的表达工具给出清晰的描述。IT运维管理系统主要功能包括:资产管理子系统、License管理子系统、数据采集子系统及统计查询子系统。本系统以模块化的方式进行功能划分,也以模块化的方式开发,虽然各个功能子系统都是独立的模块,但是它们之间还存在业务上的联系。系统总体功能设计,如下图3.2所示。
3.2软件开发平台总体设计
本系统使用UniEAP开发平台进行开发,应用服务器采用Tomcat应用服务器,数据库管理系统采用Oracle。通过UniEAPPlatform平台,可以把独立的业务应用及其数据库、静态的网站等建立和集成到一个可管理的环境中,实现一体化、集成式政务信息化应用,同时利用业务系统构建工具,不需重新开发而快速搭建符合本行业特色的应用系统,并随着应用的深入而及时扩展和调整,以缩短开发周期、避免重复建设、提高维护水平,全面实现业务系统的信息共享和互联互通。在组件、工作流等开发模式下,动态地建立应用模型,依托开发平台,通过定制,实现应用系统的快速搭建和灵活调整,在最短时间内建立符合自身管理特点的应用系统。
IT运维管理系统中的统计查询子系统主要使用UniEAP Report平台完成。UniEAP Report由设计器、引擎及管理控制台组成。其中设计器是类Excel的、图形化的报表制作工具,引擎负责解析设计器的定义文件,管理控制台可以预览报表结果并发布报表模板。对于参与报表计算的数据做必要的预处理。根据报表内容定义中间数据库表(业务开发中常称为“中间表”),然后周期性地同步数据到这个表中,也可以在报表生成前调用存储过程同步数据到中间表。
3.3数据库设计
数据库设计是指对于一个给定的应用环境,构造最优的数据库模式,建立数据库及其应用系统,使之能够有效地存储数据,满足各种用户的应用需求。数据库设计是系统设计的基础,一个好的数据库设计除了满足软件需求之外,还要满足易维护、易扩充、占用空间小、执行效率高等要求。通过分析IT运维管理系统数据库中设计了八个数据库表,说明如下:
(1)销售机会表主要用于存放产品销售机会的相关信息,主要包括机会名称、客户名称、所属区域、销售类型等。
(2)实施任务表主要用于存放实施任务的相关信息,主要包括任务名称、任务难度、任务的相关工作量信息、任务类型等。由于实施任务有可能也关联销售机会,所以表中也需要预留销售机会相关的字段。
(3)实施任务参与人表主要用于存放实施任务中所涉及到的任务参与人相关信息,主要包括关联的任务ID、任务类型、用户相关信息等。
(4)实施日报表主要用于存放实施任务参与人员所填写的实施日报的相关信息。主要包括人员ID、人员名称、对应的任务ID、任务完成所用的时间等。
(5)实施项目表主要用于存放实施人员所支持的项目相关信息,主要包括项目编号、项目名称、系统名称、客户名称、项目经理相关信息、项目合同额相关信息等。
(6)实施联系人表主要用于存放实施人员所支持的项目所对应的接口联系人的相关信息,主要包括联系人姓名、所属部门、业务方向、联系方式等。
(7)系统角色表主要用于存放系统本身所用到的角色,在第3章需求分析中提到的各种角色,如行业经理、实施助理、实施人员等的属性信息都存储在此表中。主要包括角色ID、角色名称、使用状态及创建和修改角色的相关信息等。
(8)系统用户表主要用于存放使用本系统的用户信息,主要包括用户ID、用户账号、用户姓名、密码、用户的其它基本信息及创建和修改用户的相关信息等。
4 总结
现在,IT运维管理已经越来越受到企业高层的重视,有的甚至直接影响着企业战略决策。本文中的IT运维管理系统只是完成了IT运维管理中极其微小的一部分,IT运维是一项非常庞大的工程,涉及的面非常的广,还需要进行持续地梳理和不断地完善,并逐渐纳入到IT运维管理系统中。
摘要:伴随着计算机应用系统的不断升级,IT运维管理已经成为了当下IT界炙手可热的话题。本文结合企业实际的IT运维管理现状和业务需求,设计了IT运维管理系统,使企业可以通过系统对日常管理的数据进行有效地采集,并通过报表加以分析,以达到不断优化其管理模式的目的。
近年来,国内外各企事业单位都十分重视信息化建设,把加快信息化建设作为提高生产经营管理水平、促进业务流程优化、加强内部控制、提高决策质量和效率的重要手段。结合中国石油发展战略和业务需求,中国石油出台了统一的“十一五”信息技术总体规划,F5(企业信息系统管理)项目便是“十一五”信息技术总体规划中的一项,目标是建立集成的监控管理平台和统一、完善的运维管理体系,提高中国石油信息技术基础设施的可靠性和性能,从而保证中国石油各业务系统的高可用性,彻底改善IT服务的管理水平,提高客户满意度,降低IT服务支持成本。
被动的传统IT运维管理
市场研究机构Gartner调查发现,在导致IT基础设施出现故障的原因中,源自技术或产品方面的因素其实只占了 20%,而因为运维管理方面的原因则占到80%,可见IT系统运维及管理是相当重要的。企业每年对IT部门投资都不少,但是得到的效益却没有体现,问题仍然时常发生,感觉好像所有的投入都打了水漂。
企业的IT运维部门是一个吃力不讨好的部门,因为IT运维就是在后台默默地保证信息系统的正常运行,只有在问题发生的时候才想到还有IT部门的存在。这种现象是由于IT运维管理还处于传统模式,即无相应的运维监控软件或者是仅仅单独使用某项监控软件而没有联合使用。这种传统的IT运维管理是被动的管理,是孤岛式的管理,是与业务应用没有联动的管理。
1.被动管理
传统的IT运维管理是救火式的管理。通常是用户先于IT人员发现问题,然后再找到IT部门要求解决问题。这是由于传统的IT管理采用人工方式管理基础设施,网络管理是从各种IT基础设备出发的,仅仅是保障各类IT设备如服务器、数据库、存储设备、交换机等等基础设施的正常运行。
不采用任何管理软件,仅仅靠运维人员定期轮询,或者执行某项命令来检查设备,在系统规模较小时,只要参与运维的技术人员足够负责,人工运维方式是可以满足日常运维需要的。但是,当应用系统达到一定的规模后,这种运维方式的弊端就暴露出来了。轮询一遍要花费几个小时,这样,轮询周期越长也就代表越需要更久才能发现故障。这种被动式管理IT导致有了问题不能及时发现。
2. 无关业务、孤岛管理
有些企业虽然采用某一种或几种监控软件来监控IT基础设施,但这些监控软件都各自独立运作,没有进行对业务的整合监控。如果用户投诉业务应用不畅通,很难定位故障源,到底是网络、应用程序、数据库还是其他后台系统出了问题,或者是各部门踢皮球,都说自己所负责的设备正常?
好一些的IT主管会把各个部门集合到一起开会,讨论问题根源。传统的IT运维管理方式是各类设备的管理各自为政,丝毫没有关联性。处理故障不便于追根溯源。每个人的精力有限,在专业应用系统赖以生存的各基础设施支撑单元上很难做到专、精、准的多面手角色,加之由于管理范围的界定和监控手段的限制,运维人员很难直接判定问题是出在基础网络、系统服务器、数据库还是应用系统自身,故障难以定位将直接导致业务恢复时间的推迟,影响业务系统的正常运行,大大降低服务质量。
将IT运维与业务相关联
IT运维是在后台默默地保证各项业务应用系统的正常运行。IT运维工作是无形的,怎样把这种无形的运维变为有形、甚至量化,这就要把IT的运维与业务相关联。传统的IT运维管理中,基础设施的运维工作不能和业务相结合,仅仅是在设备管理的层面上。这就导致IT管理的成绩没有体现。想想看,如有业务应用不正常,那网络或者服务器之类的任何一种基础设备的正常运行又有什么用呢?业务应用是“1”,设备是“0”,没有了正常通畅的业务应用,那其他的都是空谈。只有在业务应用畅通的前提下,基础设施管理才有意义,才能体现IT运维管理的价值。
因此我们需要帮助企业IT:部门了解用户使用感受,关联真实用户感受和系统性能,指导问题事件定位和原因诊断 。
企业信息化发展过程首先是基础架构建设阶段,这个阶段主要是采购一些硬件和应用软件。随着采购的不断扩大,企业的IT组件不断完备,IT系统初具规模,这就产生了IT运维和管理的要求,即网络和系统监控(NSM)阶段,监控网络连通性和系统可用性,此阶段主要还是对IT设备的监控。随着企业业务日趋复杂,IT系统进一步扩大,这时就产生了对IT服务流程进行管理的需求,上升到第三阶段,即IT服务管理(ITSM)的阶段。以上三个阶段都是IT间接产生业务价值的阶段,对业务的顺畅起辅助监控的作用。
企业业务系统对IT系统依赖的不断增强,企业开始关心IT服务对业务带来的影响,强调从业务目标角度出发来管理IT,也就是到达第四个阶段——IT与业务融合的阶段,即BSM(Business Service Management,业务服务管理)阶段。企业可以根据业务目标对IT服务进行调整,以确保IT能够支持业务目标,从而直接产生业务价值(如图2所示)。
如今各类重要的IT应用系统相继在中国石油发挥着举足轻重的作用,所以IT应用系统的可用性尤其重要,例如ERP、OA、邮件、门户等各类重要的系统如果出现中断,都会给企业造成大量的经济损失,所以除了需要对各类应用系统部署冗余的设备以备保证其高可用性,同时也需要对应用系统进行监控和管理,并且进行关联管理。业务系统的可用性是由底层的各类基础设施的状态所决定的,因此建立一个有效的业务模型,将与某个业务相关的底层IT基础设施关联起来,该业务模型能够有效地定位故障根源。这样ERP的管理员只需要关心ERP业务的可用性,而没有必要去关注每台主机的性能参数和启动的进程,不但大大节约了运维时间,而且也提高了运维效率,使故障持续时间大大缩短了。
基于BSM的IT运维
当前中国石油IT运维管理的需求就是从业务出发,建立基于BSM解决方案的新型IT运维。
新型的IT运维管理系统要做得到的就是基于BSM架构的业务管理。
首先,要实时掌控最终用户对IT服务的使用体验,根据制定好的SLA(Service Level Agreement,服务等级协议)来管理业务服务的质量,这样就可以根据业务影响和SLA来对IT服务进行管理。
其次,通过端对端的应用交易时间测量,实现业务要求端对端的可见性;从最终用户的角度,来测量业务服务的响应性能,主动帮助运维人员在第一时间发现问题,以便在问题对用户造成不利影响之前,及时得到隔离、诊断和修复,把它们对业务的干扰降到最低。
第三,提供业务服务、应用及底层IT系统构架部件之间的映射关系。这种解决方案通常会基于一种称为CMDB(Configuration Management Database,配置管理数据库)来实现。通过服务依存关系映射技术,来展现业务服务、应用和底层IT系统构架部件之间的动态关系,这样就增进了对各种IT元素的掌控和理解。
第四, 借助业务服务与IT基础设施的依存关系,对告警事件进行管理。当IT系统的组件产生告警时,结合收集上来的底层的IT系统告警事件,对它们进行过滤、关联、聚合,根据对业务服务影响的严重性,来进行排序处理。
传统意义上的CMDB是服务流程中的一部分,是ITIL中最重要、最核心的概念之一,在以业务为核心的IT运维中,CMDB也是业务建模的主要工具。CMDB通过自动发现工具收集和一定范围的IT基础架构基础信息,包括配置项和关系,建立IT基础架构模型;并通过端到端的业务服务拓扑图来可视化展示业务系统所有部件和关联关系。
把这四方面的功能整合起来,从最终用户的角度来衡量业务影响和风险;自动发现业务服务、应用和底层IT系统构件,并建立依存关系;理解用户感受,监控用户业务响应时间 ,在用户受影响之前发现问题,以求满足下列功能:
1. 通过基于角色的业务视图,提供业务流和服务的可见性;
2. 从最终用户的角度来衡量业务影响和风险;
3. 设置和检测业务过程的SLA,了解应用性能对业务的影响;
4. 24×7小时端到端监控,从浏览器到后台实时监控所有交易;
5. 理解用户感受,监控用户业务响应时间 ,在用户受影响之前发现问题;
6. 主动发现和按优先级管理关键业务问题;
7. 通过自动把业务和底层运营信息建立关联来缩短平均问题修复时间;
8. 自动发现业务服务、应用和底层IT系统构件,并建立依存关系;
9. 通过联合的CMDB,来为IT环境提供一个“统一的真实数据”视图,这样就可以为用户提供一个主动的、以业务为中心的BSM解决方案,帮助用户极大地改善业务服务的性能和可用性,降低服务突然中断带来的风险。
提升IT部门的作用
以前,IT运维部门救火队式的混乱状况导致无法判断IT运维总体表现的好坏。而IT部门又是公认的成本中心,这就导致了在很多企业中IT部门总是承受着很多批评,IT人员的工作热情也不高。
而现在,IT运维部门实现了主动发现问题、提前处理故障;IT运维管理与实际的业务应用挂钩,IT运维部门的工作由无形化为有形;促进IT部门从成本中心向利润中心转变,这一切既有利于IT人员发挥其工作热情,也有利于IT部门在整个企业地位的提升。
现阶段本公司的IT运维管理,存在着重操作、轻理论、重结果、轻总结的情况。根据实际统计,在日常的IT运维中。大约70%以上的故障是由业务人员发现的,而IT运维人员更多是担任救火队员的角色,表明了运维工作存在着大量的监测盲点,IT运维的工作处于相对被动的状态。这种传统的“见招拆招”式的IT运维管理方式已经不能满足公司内部日趋扩大的信息化应用,而且在一定程度上也制约和影响了业务的开展。
如何提高工作效率,规避风险,更好的做好IT管理和运维工作,将作为现阶段运维工作的首要任务。我认为应从以下几个层面加强和完善IT管理和运维工作,可以改善IT运维工作的现状。
首先、要转变IT运维管理工作方式和理念。强调从技术型向管理型转变。公司的应用系统(OA、ERP)和网络系统已经成支撑业务正常运转的重要基础,保证应用系统和网络系统的正常运行和使用成为了IT运维工作的重中之重。IT运维部门的职能应当从传统的重服务轻管理,逐步转变为服务与管理并行,规范化与人性化相辅相成的模式,以适应现代化信息的工作模式。
第二、要建立完善的内部信息共享平台。从基础设施应用系统和业务服务三个方面打造完善的信息共享和资源监控平台。能建立有效的信息资源库,减低对关键技术人员的依赖,为日常IT运维和 管理工作提供有效的保障:基础设施管理方面,对网络,应用系统软、硬件等资源进行细化管理,详细记录电子设备的出入库、维保、报废等环节。保证资源的有效利用;应用系统管理方面,对于各类应用系统的备份,日常维护进行有效管理控制,保证所有应用系统数据的一致性、准确性、及时性、可用性和完整性,并根据实际需要不断进行改进、完善或更新;业务服务管理方面,尽可能的记录所有的事件要素,包括问题描述、解决方案、操作人员等等。使得部门对人员的考核有了量化 的标准,同时这个过程也有助于知识积累,形成有效的知识库,可以极大地减少对关键人员的依赖,降低人员流失的风险。
第三、清理、简化现有IT运维管理制度。形成适合公司管理实际的制度体系。以建立完整、规范、有效的内部规章制度体系为目标,紧密联系工作实际,按照适用、可行、合法、有效的原则,对现有规章制度进行全面的自查和清理。按照IT运维管理工作的职能分工分层次、分步骤地对制订的各项内部管理制度规程进行分类清理,从制度内容的适用性、可行性、依据和效力的合法性、执行的有效性等方面进行逐条审核,并结合实际工作,对上级部门制订的内部管理制度与当前实际工作不符的情况进行修订和完善。逐步摈弃传统的“人管人”的工作模式,形成以制度带动人,以制度带动工作的长效机制
第四、建立例行巡检和通报制度。IT运维部门的负责人和业务主管可通过内部信息共享这一平台,对业务进行有效的监督。一是定期对记录在案的相关事项进行巡检,审计已登记发生事项的规范性。二是对正在发生的事件实时跟踪,及时了解事件的进展状况。规范各个流程的操作,从源头避免业务差错的发生。三是建立定期采集问题,核实整改问题及问题通报三个环节的通报机制,以提升力IT运维管理的效率。
第五、加强与内部安保部门的业务合作。内部控制审计对组织治理、风险管理、改善控制效率和效果等方面有很大的促进作用。IT运维部门可配合内部安保部门进行运维管理,将内部控制审计作为常态化审计类型,通过这种方式,突出内控特点,运用规范的审计方法和评价体系,注重从控制、风险、管理等宏观层面查找问题、提出建议,以达到促进IT运维管理工作,完善内控和加强管理的目的。通过内部审计部门,加强督导、整改等工作的实效。在IT运维管理工作的过程中,不仅要发现问题解决问题,更重要的是要形成完善的IT运维管理工作规范和流程,在这点上。可以通过内部审计部门对公司内部进一步规范制度、程序和方法,形成对风险进行事前防范、事中控制、事后监督和纠正的动态过程和机制,强化重要业务环节的风险控制。加大检查力度,切实有效地推进督导、整改工作,建立内控管理的长效机制。
2.抱怨用户太傻。IT运维人员都有过抱怨,说公司某某同事那个笨啊,显示器没有开居然说电脑黑屏,更有甚者,所有问题的责任都推到IT人员身上。我们必须明白一点,企业信息化是一个长期的过程,就算让所有同事学会简单的IT知识,也是需要时间的。作为IT运维人员,我们必须采取有效的手段和方式,一方面加强对用户的服务,另一方面加强IT培训。比方说,我们可以制订IT管理制度,发布常见问题处理手册,方便用户查阅。这里重点说明一点,IT培训必须对新员工和老员工的不同之处作不同的应对。新员工相对来说比较爱学习,容易接受公司新文化,我们可以在其入职的时候,通过邮件或者书面形式发送公司IT制度和相关资料,让其学习;老员工则需要以服务为主,使其学习为辅。
3.不及时反映问题进度。IT运维人员在处理同事及客户出现的问题时,一定要分清问题的重要性,划分不同的等级。公司重要领导交待的事情,一定要加急处理,如不能马上解决,一定要在2-4小时内汇报问题处理进度。一些日常问题,若不能及时解决,也应该告知用户处理好所需的时间,好让用户有心里准备。
4.关于工作与职业的问题。很多分不清楚,究竟什么是工作,什么是职业。如果仅仅是把工作当作一种工作去做,可能我们会比较被动的接受;如果当成一种职业,把事情认为是自己的分内之事,自己有义务去做好。怀着这样的心态,我想我们在运维中的很多事情都能迎刃而解了。还是那句话,保持微笑,多想想,又可能帮助同事或客户解决问题了,又可以体现自己的价值了,多好啊!
5.关于如何处理好技术学习与人际关系。IT运维人员在追求技术上的进展时,与处理好人际关系,表面上看是俩码事,实际上却会发生冲突。很明显的例子就是,此事太过简单,不值得我动手,我教用户解决就行,或者直接发一本册子给他让其自行解决。这又回到了上面的问题,态度问题。记住,态度很重要。可能并不是技术多么高深,更重要的却是人际关系。我们可能无法满足所有同事或者客户的需求,但是在不违背原则的情况下,尽可能的满足他人的需求。
标签: itil 运维 it服务管理 信息系统 流程
摘要:
医院信息系统的规模日益庞大,复杂程度也越来越高,传统的、作坊式的医院IT运维模式已不适应时代的发展。改变原有被动处理问题的工作方式,建立主动服务的管理体系是IT服务组织发展的必然趋势。本文结合作者的实际工作经历,围绕着ITIL实施的核心要素:人员、流程和工具,对传统医院IT运维模式的弊端进行了分析,记述了基于ITIL理念对医院IT部门进行改造、建立全新IT服务体系的方法和步骤,最后对实施效果进行了总结。关键词: ITIL、IT运维 正文:
一、前言
随着医院信息化建设逐年深入,医院信息系统的规模日益庞大,复杂程度也越来越高。医疗业务在享受信息系统提供便利的同时,对信息系统的依赖度也越来越高。信息系统故障不但可能导致医疗业务的中断,甚至有造成医疗事故的可能。IT部门在日常运维工作中遇到的问题也越来越多样化,涵盖了从软件到硬件、从服务器到桌面PC机、从网络管理到机房管理、以及信息系统安全等方方面面。因为故障原因复杂,又缺乏有效地IT运维管理方法,不能及时解决问题,常会引起用户的不满。所以如何有效的管理IT资源,保障信息系统的可靠运行,提高用户的满意度,是医院IT部门必须面对的问题。
二、传统的医院IT运维模式的弊端
传统的医院IT运维模式是在信息系统功能单
一、规模较小的环境下形成的,IT部门的员工就像“救火队员”一样被动的处理故障,常常存在如下弊端:
1、分工不清
“信息中心的电话没人愿意接,谁接电话谁倒霉。”这是一个医院IT圈里流传很广的段子,也是许多医院IT部门的真实写照。因为电话里多半是这里或那里又有故障报修,无论是硬件故障、网络不通、还是软件宕机,对于用户来说都是“电脑坏了”,故障描述不清,而解决起来也是千头万绪,搞不好就要花上半天的时间。大家都忙着做项目,运维工作貌似都要管,其实就是都不管,多一事不如少一事,接电话就成了烫手的山芋。
2、人员短缺
信息中心的工作繁杂且琐碎,大家除了有新项目要推进,每天处理日常故障还要花上很多时间。IT部门是医院的辅助部门,又是成本中心,既非主营业务,又不直接产生效益,琐碎的工作无法量化,就很难在人员录用上得到上级领导的支持。随着信息系统一个接一个的上线,IT设备也越来越多,但人员还是那几个。不但工作压力越来越大,工作价值还得不到认可,人员短缺问题严重制约了信息化的持续发展。
3、重建设轻运维 由于医院信息化建设逐年深入,业务部门对信息化建设的需求十分迫切,支持新的信息系统上线投用通常是医院IT部门工作的重点。而上线后的系统运维工作通常仍由原项目实施人员兼顾。在这种运维模式下,一是解决问题完全依赖工程师个人经验,对问题发生的原因、处理过程,排查分析都没有记录,不但没有避免同类事件再次发生的机制,甚至在同类事件再次发生时,也无法为其他工程师提供解决问题的参照依据;二是没有监督和跟踪机制,在繁杂的日常工作中,比较困难的问题常常经过几次转手之后就被束之高阁、不了了之了。
4、系统变更风险大
信息系统运行过程中仍需随着业务的变化做出调整与修改,既包括软件功能的完善,服务器数据库的调优,也包括新增网点、添置新的IT设备。在缺少配置信息和文档管理的情况下,规模较小的系统,问题还容易控制和解决。随着系统越来越复杂,集成度越来越高,任何一点小的调整都可能牵一发而动全身,造成整个信息系统体系的不稳定。工程师们常说“本来改了个小问题,没想到改出个大毛病”“需求不改是等死,改了就是找死”
5、IT部门没有IT系统
医院的财务部门有收费管理系统、临床部门有医护工作站,检查检验科室有LIS、PACS,然而在IT部门不遗余力的推动医院信息化建设的同时,自身却还停留在“口耳相传”的作坊时代:IT设备报警靠人工巡检、运维工作量无法统计、人员能力没有考核依据、纸质配置文档常与实际不符、无法形成有效的知识传承等,常被医院IT部门员工们戏称为“灯下黑”。
由上可见,传统的医院IT运维模式已无法支持日益庞大的医院信息系统。结果就是上线的信息系统越多,出现的问题就越多,解决问题越来越困难,用户满意度越来越差。
三、建立基于ITIL理念的IT服务管理体系
ITIL(Information Technology Infrastructure Library,信息技术基础架构库)是英国中央计算机和电信局CCTA于80年代中期开发的一套针对IT行业的服务管理标准库[1],其核心是通过服务台和10大管理流程,支持IT基础架构和组织业务的持续运作,通过主动的IT服务管理,保证IT资源的有效利用和业务运作的高可用性、高持续性和高安全性。ITIL是公认的IT服务管理的最佳实践,在世界范围内被广泛应用。
ITIL实施的三要素是人员、流程和工具。10大管理流程包括:事件管理、问题管理、配置管理、变更管理、发布管理、服务级别管理、持续性管理、可用性管理、能力管理、财务管理,涵盖了IT服务中的各种场景。人员不仅仅指IT运维人员,还包括管理层和最终用户,强调人的能力、意识和执行力是决定项目成败的关键。工具是指将ITIL流程落地的软件系统,通过IT服务管理软件可以使流程的处理步骤更清晰、提高人员的执行力;除此之外,该软件还应包括IT运行监控系统,将IT设备的运行状况纳入IT服务管理。
围绕这三个核心要素,根据院区实际情况,我们按照以下思路进行了ITIL实施:
1、以甲方为主的IT运维人员外包
由于医院是事业单位,人员录用受编制限制,人员短缺的问题就只能借助外部力量解决了。人员外包虽然有机制灵活、人员技术能力强的好处,但外包人员只是按甲方要求提供被动的服务,缺少对组织的了解和认同感,还需要甲方进行主动管理。因此,我们确立了以甲方为主的外包策略,制定了“与业务关系紧密的岗位不外包”、“只外包工作,不外包责任”的方针,要求外包厂商与原有IT部门工程师按AB角配置,即在各个专业上都有甲乙双方工程师共同工作:甲方工程师以管理为主,侧重方案审核和沟通协调;乙方以解决具体技术问题为主,若现场工程师不能解决,协调二线专家解决。按此原则,经过公开招标,最终与某知名IT服务厂商签订了合同,在网络、主机和桌面运维方面进行了人员外包。
2、从服务台开始的ITIL流程实施策略
服务台是整个IT运维体系的核心节点,是用户与IT部门联系的统一门户,所以我们首先设立了统一的IT技术支持电话,在全院范围内进行了“IT报障打XXXX电话,由服务台统一跟踪解决”的宣教,还将IT技术支持电话制作成标签,贴到每一台客户端计算机上,以便用户拨打。
在工作职责上,要求服务台人员按照《IT技术支持电话接听规范》进行电话应答,首先做“过滤器”,对问题进行初步判断,并尝试自己解决问题;再做“路由器”,不能解决的再转到二线;最后做“司令部”,全体人员均须听从服务台指令,服务台当值人员具有绝对权威,可根据自己的判断要求二线工程师优先处理运维事件。桌面运维岗位由初级工程师担任,负责处理现场问题。服务台岗位与桌面运维岗位不定期轮岗,以保证服务台人员了解现场情况,并具有解决具体问题的能力。二线岗位由资深工程师担任,分为应用系统、网络、主机等不同专业方向。对于服务台和桌面工程师不能解决的问题,由二线工程师跟进研究,并给出解决方案。
3、以事件管理和问题管理为流程驱动
在ITIL的10个管理流程中,事件管理和问题管理是与服务台关系最密切的,所有的用户故障报修都通过这两个流程进行处理的。事件管理的目标是帮助用户快速恢复业务,为此我们设定了24小时的默认处理时限,若事件不能在规定的时间内处理完成,就需要升级为问题,重点关注解决。事件处理实行首问负责制,第一个接到用户报修的人,即使将事件派转出去了,也必须一直跟进该事件单,直至关闭。
问题管理的目标是找到事件发生的潜在原因,我们通过每周工作例会的方式,对尚未解决的问题进行多专业会诊,明确责任人和预计解决时间,每周跟进,直到问题处理完毕。对于重点问题,我们还会通过OA系统向相关用户通报进展,以获得用户的理解和支持。
4、以流程的建立和制度的落实来降低风险。
既然信息系统变更是信息系统生命周期中不可避免的环节,那么通过规范化IT管理可以将IT运维过程中系统变更的风险降到最低。配置管理是IT运维管理的数据基础。其核心是建立CMDB(Configuration Management Database,配置管理数据库),我们将原来分散在各个项目手中、手工管理的资源,统一录入了数据库,既方便运维人员查阅,又能保证信息及时更新。
在此基础上,我们制定了一系列的制度和流程,保证所有的变更操作都在可控范围内进行。如:所有服务器操作要求“方案先订、试验回退、通知用户、双人执行、操作记录、检查应用”,所有软件升级要求事先提出申请,按照《软件发布及变更操作指导书》进行,保证每次软件升级都经过了充分的测试,并当发生问题时可以回退。
5、通过工具软件落地流程的执行
ITIL的实施不但需要流程的设计,还需要工具软件来落地,为此我们采购了一套ITSM(IT Services Management,IT服务管理)管理软件,IT部门也借助信息系统提高了工作效率。
首先实施了IT运行监控系统,将机房环境、网络、服务器、数据库、客户端都纳入了IT运行监控体系,既减轻了信息中心运维人员的巡检压力,又可实时及时全面的掌握信息系统各个环节的运行状况。然后开始逐步上线IT服务管理系统,针对运维团队规模较小,紧急事件多的现状,进行了如下调整:一是在工单填写项目上进行了精简,只要描述清楚“什么人、在什么地方、报修什么问题、如何解决”即可,多设置选择项,少做填空,既提高填写速度,又便于后期统计分析。二是简化工单流转流程,事件执行不做事前审批,而在完成后由事件经理进行审核;紧急事件可不填写工单立即处理,但应在24小时内补填工单,记录事件处理过程。
四、效果与思考
通过以上的工作,我院的IT运维工作正逐步走上正轨。通过统一的技术支持电话,大家从繁杂的日常事务中解放了出来;通过明确的分工,使每个人的专长得到了发挥;通过有效的工作组织,IT部门不再单兵作战,更多的依靠团队合作解决问题;更重要的是,通过流程的落实,实现了闭环管理,从而在制度上保障了信息系统可靠性。然而我们也意识到,ITIL的落实不是一蹴而就的,特别是对于中小规模的IT组织而言,更不能教条的照搬ITIL的全部流程,而应根据自己工作中遇到的问题,有选择的实施某些流程或者流程中的某些部分。比如我们在事件处理流程中就减少了大量的审批环节,而进行事后审查。这样既保证了闭环管理,又提高了工作效率。
在ITIL实施的过程中,改变了大家原有的工作习惯,总会让人有些不适应,这不但需要实施的技巧,更需要逐步磨合完善;通过一段时间的积累,在ITSM系统中已经积累了大量的事件和问题的处理记录,通过对这些数据进行分析,不但可以考核每个运维人员工作量,还可以将个体的经验汇总为知识库,建立学习型组织,从而实现知识的有效传承。
2003年SARS以后, 中国疾病预防控制中心信息化程度得到很大提高, 多个业务应用系统相继上线运行, 但是应用系统的快速发展暴露出IT运维管理的不足, 在组织结构、管理规范、管理流程和技术支撑方面还没有构建一个综合的IT运维管理体系。对网络、设备、系统、数据、用户等的管理和服务是相对独立的、分散的、不关联的, 不能实现数据、信息和知识库的有效共享, 各维护管理部门和人员间沟通不畅, 协同困难, 难以规范化和流程化管理, 导致管理和服务是粗粒度、低效率的, 这种管理模式将越来越难以适应中心信息化的发展要求。因此, 建设基于ITIL的IT运维管理系统是中国疾控中心提高运维效率和服务质量的重要手段。
2009年下半年中国疾控中心根据新址信息化建设规划, 开始新址信息系统息系统进行全方位的监控和运维管理, 是一个具有高处理效率、高可靠性、配置项目建设, IT运维管理系统作为新址信息建设的重要内容之一。它能够满足对信灵活、界面统一、易于操作的实时信息处理系统。
2 建设目标
树立面向业务服务的IT运维管理理念, 借助先进的技术手段, 建立统一高效灵敏的IT运维管理平台, 实行集中统一的IT运维管理模式, 规范IT运维管理流程, 实现IT运维由粗放管理向精细管理转变;由分散管理向集中管理转变;由无序服务向有序服务转变;由职能管理向流程管理转变;由被动管理向主动管理转变。
3 总体设计
IT运维管理平台以ITIL V3.0为指导框架, 建设涵盖面向IT基础设施的监控管理、提升运维效率的服务管理、统一的资源管理。系统采用四位一体的技术架构设计:即监控管理、服务流程管理、安全管理、运维门户四位一体结合。监控管理主要针对现有以及今后新增的IT设备 (网络、主机、数据库、中间件、安全设备、机房环境) 进行其运行状态的监控以及对业务应用状态进行监控管理。服务流程平台主要根据中国疾控中心现有的组织架构进行设计, 用流程将中国疾控中心各部门和各运维管理人员进行串接, 使运维管理工作规范化、合理化。安全管理则主要针对系统的安全事件、安全策略进行管理, 同时对系统内部的访问、修改等进行审计。运维门户主要是以最佳方式进行管理数据的展现。 (图1)
3.1 系统功能
对应总体架构设计, 将系统分为监控管理子系统、服务流程管理子系统、安全管理子系统和运维门户四个子系统。
3.1.1 监控管理子系统
监控管理包括自动发现、资源管理、拓扑管理、故障管理、性能管理、报表管理和机房管理几个功能模块。这些模块协调工作, 可以实现全面IT基础设施监控, 实现告警信息的邮件、短信推送方式, 为运维人员提供故障解决基础依据, 提升故障解决效率和运维工作效率。各模块功能描述如下:⑴自动发现实现对新增被管对象信息自动进行采集, 在监控管理平台中, 通过自动发现, 可以简便的建立配置元素和原始配置信息, 协助管理人员完成大部分的配置初始数据。⑵资源管理指系统通过自动发现建立资源数据, 该资源数据与平台的其他各个功能模块组成映射关系, 通过数据的调用, 产生各种故障、性能、拓扑信息。⑶拓扑管理是展现IT系统架构和运行状态的最佳方式, 同时也是监控管理平台的核心功能之一。⑷故障管理将IT系统中各种设备产生的事件作为原始事件, 按照预定义的事件规则, 经过过滤、分类、分级、转换等处理环节, 形成有效的预警或故障告警信息, 按预定的方式通知管理人员或自动响应, 对生成的告警提供升级、自动或手工消除等管理手段。⑸性能管理提供对所有IT系统设备进行其实时性能的查询功能。除了实时性能的查询, 性能管理还为故障管理提供其原始故障的来源信息, 即设置性能阀值, 在系统性能超过阀值时产生相应的告警数据。⑹报表管理对所监控系统进行管理数据的进行统计和分析, 最终生成相应的图表进行展示。通过报表策略定制, 用户可以自己定制报表展现的方式和展现的内容。⑺机房管理实现对机房温度、湿度、漏水、机房精密空调、烟感、UPS的检测和监控。
3.1.2 服务流程管理子系统
服务流程平台即通过标准化的流程, 实现对中国疾控中心现有组织架构进行串联, 使各个组织、部门、人员之间工作相互协调。包括服务台、事件管理、问题管理、配置管理、变更管理、值班管理及流程设计等功能模块。该子系统以ITIL思想作为支撑, 建设基于事件、问题、变更、配置、值班等各个流程, 细化管理流程, 落实事件、问题、变更的闭环管理, 强化流程之间的横向和纵向交互管理。各功能模块描述如下:⑴服务台为运维人员提供了一个综合的支撑工作平台, 可以在该平台上实现各类流程的受理和跟踪等功能, 从而为用户和支持人员提供一个统一的联系点。⑵事件管理包括记录、分类、调查/诊断、解决已知问题、监控跟踪事件、与用户沟通、和问题管理流程交互、最终解决事件。⑶问题管理的功能是分析已被列为问题的事件 (一组或一个) 的根本原因, 然后找出解决方案。⑷配置管理提供一个统一、一致的流程来管理生产环境中的所有IT组成部分。它是其他服务支持流程的基础, 涉及的活动包括规划、识别、控制、状态管理、效验和审计等内容。⑸变更管理通过标准统一的方法和步骤来管理和控制所有对生产环境有影响的变更, 减少因不规范变更引发的潜在问题。⑹流程设计的基础数据为系统的中心数据, 主要包括工单处理环节、流程角色信息等。基于该中心数据, 通过流程设计器生成不同场景下的完整处理流程。⑺值班管理包括排班管理, 值班日志管理及交接班管理。值班管理员可以手动或自动进行值班人员排班, 各值班人员记录值班日志, 管理员可以对值班情况进行查询及统计分析。
3.1.3 安全管理和审计子系统
⑴安全资产管理实现对各重要系统内的主要物理资产和人员的管理。实现对网络设备、安全设备、主机服务器及其之上承载的操作系统、数据库、应用系统、接口方式、硬件属性、使用维护人员等资产属性的收集和管理。⑵安全事件管理实现重要系统安全事件的收集、过滤、归并、分级、存储以及关联分析功能, 并最大限度地减少安全事件的误报和重复报警;实现基于状态的安全事件发现场景定制和攻击场景回放功能。⑶安全策略管理实现系统内安全策略的发布与修订的管理;安全策略下发执行的管理。⑷安全报表管理可以为用户自动生成也可以手动生成各种报表, 生成的周期可以是每天、每月、半年、每年或任意时间段, 生成内容包括资产、预警、事件等, 且报表的内容可以定制。⑸安全知识管理能够以WEB的界面发布最新的安全信息, 将处理的安全事件方法和方案收集起来, 形成一个安全共享知识库。当安全事件和预警发生时, 系统能够自动地给出适合的解决方案并可以自动进行处理⑹网络行为审计应实现对重要业务系统和关键业务数据的记录、分析和识别;对主机、网络设备、安全设备上的日志进行集中存储和集中审计;应用系统的操作行为数据进行记录和集中审计;操作系统的操作行为数据进行记录和集中审计;网络设备及其他设备的操作行为数据进行记录和集中审计。⑺用户账号审计实现对不同角色、不同账号、不同权限的管理人员实行分类审计, 记录管理人员在系统中对设备的配置、修改、查看、审核等操作行为, 并进行分类统计、分析识别;实时监视用户访问业务系统的状态, 记录各种访问行为, 发现并及时制止用户的误操作、违规访问或者可疑行为;且能够对主机, 网络设备等的所有用户指令操作的记录。⑻安全审计分析实现审计结果与资产、用户的关联分析;能够对操作行为分析;实现会话重放;审计分级、过滤和统计分析;系统异常分析等功能。⑼安全审计告警提供告警信息的海量存储, 并对海量审计告警信息进行有效统计分析展示及告警提示;支持告警信息的多元统计, 告警分析及告警查询, 实现快速定位。⑽安全审计报表将事件内容统一以报表的形式展现出来。报表可以按设备或行为从不同维度进行结果展示。
3.2 运维门户
在统一呈现界面的基础上, 建立多维度、多视角的视图, 满足不同层面用户的监控、运维和管理需求。考虑到系统的安全性, 系统实现统一4A管理, 即统一账号管理、统一身份认证、统一授权管理和统一审计管理。
4 结论
中国疾病预防控制中心IT运维管理系统的建设, 依托中国疾控中心现有组织机构, 建立了一套融合组织、制度、流程、人员、技术的IT运维管理体系, 通过制定规章制度, 规范管理流程, 明确职责分工, 强化技术支撑, 实现对网络及信息系统的综合管理监控和维护, 大大提高了工作效率, 降低了IT运维成本。为辅助领导决策提供了有力的信息支持, 实现了精细化管理, 提升了信息化科学管理水平。
关键词:IT运维,网络监控,IT服务管理
参考文献
[1]马家奇.公共卫生信息资源管理及信息化规划方法[M].北京:人民卫生出版社, 2010.
[2]马家奇.论公共卫生信息资源规划与管理[J].中国公共卫生管理杂志, 2008 (24) 3:323-324.
[3]万天翼.基于ITIL的运维管理系统的设计[J].数字技术与应用杂志, 2010 (7) :117-119.
[4]梁武.电子政务运维外包的问题与对策研究[J].电子商务杂志, 2011 (11) :46-47.
【关键词】运维管理;问题;措施
信息技术的广泛应用有效的提高了企业的管理和服务效率,对于石油企业来说如何充分的发挥IT系统的优势,降低企业的管理成本,发挥IT系统的效益已经成为了企业管理中的重要内容。虽然石油企业已经建立了相对完善的IT基础设施,但是在IT运维管理中还存在着不少的问题,需要进一步的解决和改正。
一、石油企业IT运维管理中存在的问题分析
石油企业的IT运维管理系统和石油企业的特点具有密切的关系,通过建立企业的信息化网络和数据中心、应用系统等,完成企业内部的信息化管理和实现协同工作,对于保证企业的信息化系统的稳定、协调运行具有积极的推动作用。在石油企业IT运维管理中主要存在以下几个方面的问题:
1.系统不能够有效的协调。由于石油企业的部门众多,不同的部门其使用的系统不可能完全的相同。如何在同一企业中完成协同工作,做好多个部门的协调管理成为了其中的关键。特别是在当企业业务流程中存在某些重合或者叠加的过程中,就容易发生纠缠不清、相互推卸责任等问题。在发生问题时,很可能出现踢皮球的现象[1]。这样导致了企业的业务工作不能水利的进行,而且对企业的运行和管理带来了负面的影响。企业各个部门不能形成有效的IT运维管理,不仅不能充分的发挥系统的优势,反而成为了企业的矛盾爆发点。因此对于石油企业的IT运维管理来说,应当做好内部不同部门的系统工作,对企业的内部问题进行有效的追踪和调查成为了其中的重要内容。
2.运维人员不能够满足运维管理的需要。人才对于企业的发展具有重要的意义,在运维管理中人才也起着重要的作用。如何有效的提高运维工作人员工作的积极性,防止运维工作人员出现消极怠工的现象成为了业务管理中的关键问题。例如在运维管理中由于人员的调动,特别是技术熟练的运维人员发生岗位变更时,对于运维业务的工作的处理会带来极大的不便。新投入的运维人员由于工作经验等的限制,难以满足企业运维管理工作的需要。同时市场的变化和知识的更新进步,对于运维管理工作也带来了一定的挑战,如果企业不能有效的做好人才的培训工作,将难以使运维工作人员满足工作的需要,在一定程度上增加了企业的运维成本。特别是IT运维管理对于人才的依赖性比较强,这增添了运维管理的不稳定。因此在IT系统中,应当逐步的减少对人才的依赖,特别是在关键人员工作变更时对运维管理的运行的影响,这也是企业所需要面临的最大考验。
二、加强企业IT运维管理的措施分析
目前IT运维管理已经在世界很多企业中得到了广泛的应用,虽然这些企业的经营理念和解决方案存在着不同,但是都能够将IT系统和企业的业务有效的结合起来,建立了比较完善的IT运维系统。IT运维管理主要是提高服务支持和支付工作,通过对服务台、事故以及发布等管理,从而实现企业管理效率的提高。对于石油企业来说,建立统一的运维平台,通过企业的管理效率,对于企业的发展具有重要的意义。为了进一步的提高石油企业的IT运维管理,可以做好以下几个方面的工作:
1.建立统一的运维管理平台。通过在石油企业内部建立完善的运行和管理平台,建立运维管理的制度和标准,对于IT运维的管理效益的发挥十分重要。应当按照运维管理的需要,加强内部不同部门的工作流程和技术的整合,不断的完善运维服务的流程。统一的受理和记录业务请求,在企业内部建立统一的服务管理系统保证工作人员的信息分享和交流。同时还应当对运维管理服务中心进行优化,从而实现集中管理[2]。为了不断的提高石油企业的运维管理能力,应当不断的强化共享运维服务中心的建设工作,保证资源的有效利用和分享。
2.加强企业的人才培训和建设工作。为了有效的保证IT运维系统的正常运行,应当加强对运维人员的培训工作。通过在企业内部建立完善的考核和激励机制,提高工作人员的积极性。在对运维人员客观评价的基础上,根据考核结构落实奖励制度,可以充分的调动运维工作人员工作的主动性。同时为了满足时代和系统不断发展的要求,应当有计划、有层次对运维人员展开培训工作,使他们能够充分的胜任运维管理工作的需要[3]。在企业内部建立完善的培训体系和知识管理制度,有效的解决知识利用的不足。通过为运维人员通过系统的学习机会,不仅保证了运维人员的工作热情,而且也将推动运维管理工作的进步和发展。
三、结束语
通过在石油企业中实施IT运维管理,能够有效的保证了企业业务的运行质量和效率,提高了企业的工作效率,对于企业的发展具有重要的促进作用。通过不断的加强企业内部的协同工作,避免企业内部“踢皮球”的现象,对于IT系统功能的正常发挥具有关键的意义。在IT运维管理中应当加强人才的建设和培训工作,这对于保证企业的运维管理系统的稳定运行十分重要。充分的发挥IT运维管理的功能,对于提高石油企业的经济效益具有积极的推动作用。
参考文献
[1]李让宽,曾丽花.浅谈中型企业IT运维管理[J].信息安全与技术,2012,3(6):83-85.
[2]徐婷.企业IT运维管理模式研究[J].中国信息化,2012,(18):375.
[3]小雨.如何简化企业数据中心的运维管理?[J].网络与信息,2012,26(7):16-16.
作者简介
1、侯海冰,男,吉林松原,1970年3月,中石油广东销售公司,研究方向:信息系统运维管理,中级职称
【it系统运维管理】推荐阅读:
运维管理系统操作手册05-26
it项目管理系统设计06-15
it运维管理的发展趋势09-29
it运维管理工作总结12-11
电力行业IT运维管理经验谈09-15
it效能监管系统07-09
it系统维护年终总结10-30
it系统集成解决方案12-05
管理信息系统 超市POS机管理系统11-28
公路管理管理系统05-25