运维管理要求(通用10篇)
1.资源管理
数据中心资源管理所涵盖的范围很广,包括环境管理、网络管理、设备管理、软件管理、存储介质管理、防病毒管理、应用管理、日常操作管理、用户密码管理和员工管理等。
1)环境管理
数据中心环境安全管理的重点在于如何根据不同区域的特点使用不同的安全管控和出入原则。对重点的区域可以选用先进的安全设备,使用严格的进出管理控制制度进行管理。
2)网络管理
网络作为数据中心重要的资源,应制定相关流程予以控制。建议网络管理流程包括如下管理内容:
(1)网络拓扑结构:应明确网络的拓扑结构,创建网络拓扑结构图,并在网络结构变化时及时更新拓扑图。网络拓扑结构的变化应有记录并得到适当的审批,应有专门的人员负责网络拓扑结构的调整。
(2)网络的访问管理:应将网络划分为不同作用的网段,例如办公网、生产网、管理网,公共网络。规定有权访问各类网络的设备和人员,明确网络接入的申请、审批流程和终止接入的流程,做到网络接入、终止接入过程受控,有专门的人员负责网络接入和终止接入的管理工作。
(3)网络系统日常维护流程:应有专门的工作指引用于指导网络设备的日常维护,日志的备份、配置信息的备份。
3)设备管理
数据中心的设备管理主要包括对设备的固定资产管理,设备维护管理等。数据中心在起草相关流程文件时应关注以下几点:
(1)编制设备清单:明确设备的所有者、管理维护人员或部门、开始使用的日期、设备的重要等级等信息。此类信息最好悬挂或张贴于设备上或设备周边的醒目位置以便于管理。
(2)制订设备的维护计划:规定具体设备的维护日期、维护人等信息,并由专人负责按照维护计划进行维护或联系、督促服务商执行维护。
(3)将设备按重要等级进行分类:设备按照等级分类,并按不同的设备重要等级制定不同的管理策略,最大限度的确保重要设备的运行。
4)软件管理
数据中心软件管理通常需要关注以下三项内容:
(1)计算机系统安装软件的管理:对于数据中心的办公用计算机、监控用计算机和生产用计算机来说,其安装的软件应该受到严格的控制,避免员工随意安装软件。从软件管理角度,数据中心应建立可安装软件的认证工作,通过对软件使用的分析建立一张可安装软件的清单,对于清单范围外的软件不允许安装。对于监控、生产用的计算机及可连入生产网的计算机,其安装的软件需经过认证,并对所安装的软件进行记录,定期检查是否存在使用其他软件的情况。
(2)软件维护及补丁管理:随着各种利用安全漏洞的病毒和恶意程序的增多,软件维护和补丁的更新工作也显得极其重要。对于软件补丁的安装管理应做好以下几项管控工作:补丁的测试、补丁的发放和安装、版本控制,建议补丁的管理由专人负责。
(3)数据中心软件许可证的管理:随着知识产权意识的提高,是否使用有合法许可授权的软件已经成为越来越多数据中心和客户关注的问题。软件许可证的管理要作为数据中心的一项重要工作。其重点在于管理数据中心所拥有的合法软件许可证,确保在许可证许可范围内使用软件,确保软件的安装有记录可查。
5)存储介质管理
数据中心经常面临大量的介质管理工作,介质管理工作的成功与否直接影响数据中心的信息安全。一个良好的介质管理工作应包括以下几方面的内容:
(1)空白介质与有数据介质保存方式的规定:两种介质分开保存并有明显标示以示区别,同时应明确介质的保存地点,做到介质统一保存。
(2)应制定统一的介质编号、标示原则:对介质作统一的编号标示,便于介质管理。
(3)有条件时建立介质管理员制度:确保介质的专人管理,可减少介质管理的混乱。
(4)有数据介质的领用查阅应得到控制:介质领用、报废应有适当的审批过程。应规定清除报废介质内残余数据和销毁处理报废介质的流程,避免信息泄露。
6)防病毒管理
随着计算机病毒的日益泛滥,防止数据中心的生产设备、办公设备受到病毒侵害已经成为数据中心管理中不可缺少的工作内容。防病毒管理流程主要包括以下几个方面:
(1)防病毒软件的管理:这里主要包括软件的安装、软件的设置、病毒库更新,软件版本控制、定期查杀病毒等。
(2)病毒资讯:安排专人随时了解病毒最新信息,可能爆发的病毒类型、染毒后现象及对信息系统的影响,查杀方法等,并将这些信息通过定期通告和随时通报两种方式提醒数据中心相关人员查防。
7)应用管理
广义的应用管理包括了数据库、中间件和应用系统本身在内的所有管理。它是绝大多数IT服务的“灵魂”。对于数据中心而言,挑战在于要同时管理大量复杂并且相互关联的应用。
8)日常操作管理
数据中心的日常操作管理主要包括数据中心内部生产系统、办公系统、动力设备、环境保护、监测系统的数据处理、操作、维护的管理,以及数据中心信息处理设施、基础设施设备的软硬件运行情况巡检等监控工作的管理。
数据中心应该为每一台设备编制相应的操作工作指引。不建议以服务商或设备制造商提供的使用说明书或技术资料直接作为工作指引使用。工作指引编制应该满足数据中心实际使用的需要,用于指导操作人员在实际环境下操作设备的各项功能。
建议制定相关的巡检工作指引,规范数据中心的日常巡检工作。工作指引应规定巡检的周期、巡检项目、判定设备正常的标准、出现异常后的记录和汇报方式以及事件管理的接口。对巡检设备及内容做成检查表,巡检记录以表格形式呈现。
9)用户密码管理
用户密码是数据中心运行的重要信息。用户密码的妥善管理可以减少数据中心运行的风险,提高数据中心运行的效率,确保信息的安全。
10)员工管理
员工作为数据中心重要的资源需要进行有效管理。数据中心的员工管理流程应包括:
(1)员工招聘、任用流程。明确员工招聘任用的流程,明确签订劳动合同和保密合同的过程。
(2)员工培训流程。数据中心属于技术密集型组织。由于IT领域新技术、新产品层出不穷,所以确保员工获得相关的技术和能力培训显得至关重要。应规定员工接受培训的流程,员工培训主要包括上岗培训和日常培训。
(3)员工离职及岗位调整流程。员工离职或岗位调整后,应完成各种工作交接,并应收回各类技术资料、系统权限、网络权限、出入证件、门禁系统权限。2.服务支持管理
1)事件管理
事件管理主要管控引起或可能引起服务中断或服务质量下降的不符合IT服务标准操作的活动。这里的事件不仅包括软硬件故障,也包括服务请求。当处理多个事件时应根据事件的影响、紧急程度、解决事件的难易决定事件的优先级。如在协议时间内无法解决事件还应考虑事件的升级流程。
2)问题管理
问题管理流程是通过调查和分析IT基础架构的薄弱环节,查明事件产生的潜在原因,并制定解决事件的方案和防止事件再发生的方案。与事件管理强调处理速度不同,问题管理是强调查处事件的根源,从而制定恰当的解决方案,防止类似事件再次发生。
3)变更管理
变更管理是在最短的中断时间内完成基础架构或服务的任何一方面变更的流程。通常情况执行了一个问题管理流程、事件管理流程、服务水平管理流程后,需要通过变更管理实施事件管理流程或问题管理流程所产生的事件处理方案或问题解决措施。
变更管理在施行中应注意通过合理的计划和周密的准备把中断业务或服务的时间减少到最小。
3.业务连续性管理和可用性管理
在当今以服务为导向和以客户为中心的业务环境下,维持数据中心的持续运维对数据中心具有重大意义。尤其在发生灾难的情况下如何确保数据中心的持续运作是数据中心管理人员必须关注的问题。
业务连续性管理就是负责数据中心预防灾难、增强IT基础架构在灾难发生后的恢复能力的管理流程。它着重确保数据中心在诸如地震、洪水、火灾、失窃、恐怖袭击、网络攻击、大范围停电等灾难后尽快恢复运作,减少因数据中心停止运行而带来的损失。4.服务的资源信息管理
1)信息资产管理
信息资产管理是数据中心实行信息安全管理的重要基础,通过该工作可以让数据中心管理者清楚地知道自己的管理对象,以及这些管理对象的重要程度。这里提到的信息资产指的是数据中心内部与信息安全相关的实体与非实体资产。信息资产通常包括:硬件、软件、数据、文档、人员、商誉、服务商等。在考虑信息资产管理流程的建设时,需要关注以下几项内容,包括:识别信息资产、信息资产的分级管理、信息资产清单等。
2)配置管理
大型应用系统的运行, 涉及人员多、分布广, 运维工作量大且繁琐, 运维问题由业务经办、系统管理、软件开发等部门人员通过交互方式解决, 关键业务还需办理审批手续, 使用纸质单据流转。
实际操作中存在以下问题:1、流转周期长, 受物理地位限制, 影响业务及时处理;2、不能及时了解问题处理的进展情况;3、难以统计分析系统运行状况, 为应用系统完善提供决策支持。
为克服传统运维模式的不足, 将运维事务纳入运维平台管理。
1 设计思想
梳理问题, 分别归类, 确定事务类型。为每种事务类型制定处理流程, 包含的运维环节、顺序, 是运维事务处理主线。配置事务处理流程属性, 将人员 (包括业务经办、系统管理、软件开发等部门) 划分至不同的业务群组, 授予事务类型权限, 授权后的业务群组成员才能参与该类事务处理;分配业务角色, 角角色色对对应应事事务务流流程程中中的的运运维维环环节节, , 具具有有业业务务角角色色的的用用户户能能够够参参与该环节业务处理。
2 实现过程
2.1 准备阶段
创建运维事务前, 定义事务类型、业务角色、业务群组, 配置事务处理流程, 给业务人员赋于角色、划分群组, 操作内容如下:
常用事务类型和事务处理流程 (右表为新增需求实例) 配置如下表, 根据需要可以调整事务处理流程的业务环节。
业务群组按业务种类划分, 一般与业务部门对应;按人员在业务经办岗位划分角色, 如业务员、科长、主任等。每个业务人员可以拥有一个或一个以上角色, 属于一个或一个以业务群组, 下表列举部分人员关系实例。
2.2 事务处理流程
下图为事务处理流程, 以“新增需求”事务来说明流程执行过程。
(1) 创建事务。根据事务流程配置表, 具有分管科长角色人员能够创建事务, 本例由科长A (人员ID为00939) 承担。对于事务描述内容很多或者涉及相关政策文件, 可以用附件方式加载。
(2) 指定下一环节处理人员。事务创建后, 指定下一环节处理人员, 人员应为同一业务群组且具备下一环节处理角色。
(3) 事务处理。对本环节事务进行处理或者提出处理意见, 对于涉及系统调整环节的事务处理, 处理结论和处理内容应记载详细, 可以以附件方式保存。
(4) 指定下一步处理人员, 重复 (3) 直至事务处理完毕。如果同意按流程流转至下一环节, 则指下一流程环节处理人员, 否则, 退回给上一环节处理人员或者关闭事务。
(5) 关闭事务。事务创建者确认事务处理满足要求后, 关闭事务。
在事务处理过程中, 已参加过事务处理人员, 在事务关闭前随时可以备注方式追加补充处理意见。
应用开发环境基于开放源代码的IDE工具Eclipse, 采用J2EE标准, 数据库为ORACLE。
3 事务处理界面图
用户登录运维系统后, 系统通知待办事务数量及明细, 点击明细后转入界面如下:
本例为一个事务的完整处理过程, 若事务未处理完毕, 则列出已处理环节以及目前事务处理所在环节。根据需要, 可以增添显示列, 如每个环节处理时长等;在创建事务时, 可以增加一些事务属性, 如所属子系统、事务处理紧急等级等, 为查询统计、安排运维工作提供方便。
4 运维平台事务处理统计分析
运维平台除了事务处理功能外, 通过分析平台数据, 找出应用系统存在问题, 提出改进措施。本应用系统业务终端数约1000个, 下图为运维平台上线运行后按季度统计的事务处理情况。
经分析, 造成平台事务处理数量变化原因为:1、2012年3季至2013年1季度, 运维平台上线初期, 并非所有事务都通过平台处理, 2013年2季度起, 要求所有运维事务必须上平台流转处理, 平台事务数在700-800之间。2、2013年4季, 新增一项业务, 需要调整已有业务功能、整理业务数据, 造成平台事务数增加。
经分析, 造成各类事务分布率变化的原因为:1、运维平台上线初期, 软件故障多, 经过一个季度的完善, 应用软件故障率总体呈下降趋势。2、开库操作分布率一直较高, 说明基础数据的准确率低或者业务经办不规范, 应加强基础数据的整改, 规范业务经办规程。3、当硬件发生故障时, 可能造成平台无法使用, 反应故障率低, 而实际情况是此平台不适合处理硬件故障。4、特殊数据提供分布率处于7%-10%间, 说明应用软件查询统计功能基本满足业务要求, 但对于重复要求的特殊数据, 应该综合分析现有软件功能, 将此纳入功能模块或新开模块查询。
5 结语
关键词 :运维 标签 网络 信息
随着社会的网络信息化覆盖面越来越广,通信机房的设备越来越综合化、多样化,越来越多的远端机房的应用,机房的规模随之增大,面对大面积、远端的通信机房、众多的设备、大量的日志,传统的标签、书面记录、视频、网管系统的应用,传统的运维管理模式已经不能满足目前通信的实际需求,必须寻求一种现代化的软件来代替原有传统的运管模式,使得复杂、多样的运维管理能够简单化,从而提高故障处理、资料管理、数据查询、设备监管等工作效率。由此我们进行一些探索和尝试。
主要功能
1、站点导航
为使得长江沿线通信机房均能使用运维管理系统,软件考虑设计了站点导航功能,通过站点导航的图片,可以轻松地导航到长江沿线的各个机房,实时查看到机房内的资料,以及业务管理情况。
2、运维规范
任何工作都有其规章制度,规范、流程对于运维管理来说更为重要,如果期间出现差错,将会带来很大的损失。规范、流程应及时更新,在功能设计时,应该提供可更新、添加功能。其次,规范应能轻松进行查阅,当运维工作人员遇到紧急业务时,可快速查阅。
3、设备管理
通信机房,最重要的莫过于设备资料的管理,随着设备越来越多,通过原先的标签和文档来注明各种资料已经完全不能满足要求,一方面,资源不能很好地共享,经常出现设备资料只有固定的少数几个人掌握;另一方面,由于设备集成高,体积小,端口多且复杂,电路的来龙去脉比较繁杂;再则综合机房、远端机房温度偏高,随着时间的推移,端口标签经常会出现脱落现象,由此也给设备判断带来困难。
鉴于此,设备资料通过信息化管理更为合适,不仅能够解决上述困难,而且给运维工作人员减轻负担。
4、值班信息
值班信息主要功能是对机房日志资料的管理,通过包括值班记录和基础数据,值班记录是对值班信息的实时电子记录,实现用电子台帐来代替传统的文本台帐。利用电子台帐来进行管理运维日志后,可实现日志的数据库管理,可以轻松进行统计和查询,可方便实现月度、季度、年度或者任意时间段信息的统计,同时也提高值班记录的痕迹管理,加强了值班、维护人员的工作责任性和自觉性。
5、故障处理
维修记录主要实现设备维修的记录历史,各个设备有各指示灯对设备其运行状况、端口属性和特性指导作用,工作人员根据设备技术说明书、对其日常维护和故障处理经验,进行相应的记录,同时系统会自动统计该设备的出现故障的处理方式以及出现次数的多少,根据记录,当日后当再次出现故障时,可根据该系统功能模块进行逐一排查、比对,对其常见故障进行优先检测,从而提高故障的处理效率,缩短故障时间,减轻工作人员的负担。
系统展望
运维管理系统实现以上功能投入使用后将会大大提高运维机房的工作效率,但我们感觉到系统的功能要不断更新,不断适应现代化机房的发展需求,结合我们近期工作的情况,还探索要解决以下三个问题:
设备编码问题。目前通信机房的设备五花八门,新产品越来越多,如何对设备进行科学合理的分类,成为运维系统的一个非常重要的问题,面对沿江全线通信机房成千上万的设备,全部用设备名称加以区别显然不可行。必须通过科学的分类和编码手段进行标准编码。
通信机房的图形化管理。为让更多用户理解和熟练应用软件,界面必须友好、简洁。运维管理系统最能让工作人员快速上手的界面应该以图片导航的方式来实现,但图片实现相对较复杂而且不利于今后升级。
第一章 总则
1.为加强公司各个项目后期的系统运维管理,确保系统能够平稳、可靠地运行,更好地为客户提供管理服务,特制定本规定。
2.本规定适用所有进入运维环节的项目。
3.运维人员应根据授权,处理本规定中所涉及的业务事项。
第二章 主机、服务器及数据库系统的运维管理
1.根据应用需求,主机、服务器及数据库系统的配备和安装、以及系统资源的使用等由公司项目实施部统一规划。
2.应指定专人作为系统管理员(系统工程师)和数据库管理员,对系统的运行、管理、维护和安全负责,并按照有关规定负责系统和数据的备份与恢复。3.系统/数据库管理员应定时对系统进行监控和定期的健康性检查,分析系统运行和资源使用状况,并进行必要的优化、调整和修正,及时消除隐患。如系统设置发生变化,或重新安装系统,或安装了新软件,应在此后15个工作日内对系统进行密切跟踪。
4.及时解决处理系统运行过程中出现的异常问题和软硬件故障,并采取必要措施,最大限度地保护好系统资源和数据资源。
5.对于重大软硬件系统故障,应立即通知部门领导,协调服务商,使系统尽快得以恢复运行;对于应用系统引发的系统异常或故障,应及时通知相关人员,并协同解决处理。
6.每季度应对系统主机/服务器/数据库进行一次停运维护,其操作必须严格按照操作规程进行。其他非正常性停运(故障引发的除外),应提出书面申请,并经部门领导批准后方可进行。同时做好相应的准备工作,最大限度地减少对业务操作带来的影响。
7.具有系统操作或管理权限的人员调离工作岗位或离职,应立即从系统中删除该用户;如该人员掌握超级用户口令,应立即更换口令。
第三章 软件系统的运维管理
1.避免在用户工作时间进行软件版本升级工作,以免由于人为失误造成业务中断。2.软件系统的安装、升级等操作应保留完整的实施记录。
3.对软件系统进行升级、更新补丁,应首先进行相关的测试,并在确认无误后实施。
4.对软件系统进行升级、更新补丁,或进行系统的重新安装等操作,应在实施前对原有系统及数据进行备份。
5.变更系统配置,修改配置文件、参数文件时,应对原始配置数据(或文件)进行保留。
6.软件进行版本升级时,对于不影响业务的升级工作,须以书面形式详细将计划、方案、措施等报上级主管部门备案;对于影响业务的升级工作,必须提前两周向上级通信主管部门以书面形式提出申请详细报告计划、方案、措施等,经批7.1.2.3.4.5.6.准后方可实施。
维护人员应定期跟踪所使用系统的软件升级情况和升级后的新功能,必要时提出升级建议。
第四章 数据库的运维管理
对于数据库的变更必须有记录,可以回滚。无用表和字段要及时清理。
从数据库删除数据一定要先备份再删除。
定期对数据库数据进行自动备份,以便在故障发生后尽快恢复最新的数据。定期检查备份的执行情况,确保备份操作正确执行。指定专人定期进行备份数据的恢复性试验。
1、严格操作原则:在系统上进行可能影响系统运行的参数设置、更改和维护等操作时,须有2人以上在场进行监护和确认,并作好详细的操作记录;
2、提前沟通确认原则:软件进行版本升级时,对于不影响业务的升级工作,必须提前与客户方进行沟通,避免操作中人为失误造成业务中断;对于影响业务的升级工作,须提前与客户方进行确认,达成一致后方可实施。
3、遵守保密原则:对被运维系统单位的网络、主机、系统软件、应用软件等的密码、核心参数、业务数据等负有保密责任,不得随意复制和传播。
概述
伴随着企事业网络规模的不断扩大,企事业服务器的增多,企事业管理的信息化,企事业网络管理也变的越来越重要。一旦网络、服务器、数据库、各种应用出现问题,常常会给企事业造成很大的损失。怎样能7x24小时检测网络系统的运行情况,避免各种故障的发生,改进传统的网络管理方式来适企事业信息化发展的需要?
因此,运维管理系统就有他的必要性。一个完备的运维管理系统能够提供7x24小时检测网络、服务器、数据库、各种应用系统,及时发现将要出现的问题,并通过短信、Email、声音报告给运维管理人员。运维管理人员就可以及时排除故障,避免造成重大损失。
运维管理系统的功能:
故障发现与警报;
记录日常运维日志信息; 服务器故障统计;
服务器软硬件信息统计; 服务进程管理;
将数据信息存储到数据库,并使用图形方式直观的展示出来; 权限、密码管理; 将数据生成报表。运维管理系统的特点: 邮件和短信实时故障报警;
B/S结构,能够通过web对远程服务器下达指令;
关键词:运维安全,系统设计
一、当前运维安全管理的问题
随着企业信息化的不断发展, 支撑企业的各种网络设备、主机系统、应用系统也在不断壮大, 各类业务系统也日益复杂。对于一个企业来说, 最大的威胁和破坏往往来自于企业内部, 主要表现为: (1) 账号管理无序, 多人共享账号。 (2) 权限管理粗放, 系统安全难以保证。 (3) 日志粒度粗犷, 事件无法定位。 (4) 缺乏统一的运维审计机制。 (5) 缺乏对第三方代维管理的行为监控, 等等。
解决上述问题仅仅依靠严格的规章制度来对运维人员进行约束是远远不够的, 堡垒机应运而生。堡垒机能做到对运维人员账号的安全管理和审计, 但不能审核配置信息的正确性, 运维人员维护系统的操作是否正确, 信息系统配置变更后是否安全等等也都不在堡垒机的控制范围内。为保证信息系统的安全可控, 必须设计更有效、更合理的运维安全管理系统。
二、系统设计思路
为更好的满足运维安全管理的需要, 系统既要实现安全管理, 又要能和安全配置核查有联动作用, 实现“系统运维——运维审计——运维核查——问题定位”的全封闭式管理, 如图所示:
主要模块说明如下:
2.1权限管理模块。这一模块的主要目的是隔离终端用户对网络设备和服务器资源的直接访问——通过防火墙等访问策略, 不允许设备 (包括网络设备、操作系统、数据库和应用系统等) 的运维人员直接登录, 所有操作必须经过运维安全管理系统, 任何用户对目标的访问都必须通过此模块进行翻译, 系统能够截获所有操作行为。具体流程为:运维人员要先登陆运维安全管理系统进行身份认证, 通过认证后运维人员提出相应的操作申请, 该请求通过运维安全管理系统权限检验后, 系统将代替运维人员连接到目标设备进行运维管理, 并将结果返回给运维用户。
主要包含以下几个子模块: (1) 账号管理模块。账号和资源的集中管理是集中授权、认证和审计的基础。账号管理模块能够对所有服务器、网络设备、安全设备等账号进行集中管理, 制定统一的、标准的账号安全策略, 进而实现对账号整个生命周期的监控, 账号集中管理也能降低管理大量账号的难度和工作量。 (2) 身份认证模块。用户在登录设备前先连接到运维安全管理系统进行身份认证, 再进行操作申请, 认证模式包括动态口令、静态密码、硬件key等多种方式。同时, 还具备单点登录功能——用户一次登录成功后, 可以无需认证的访问被授权的所有系统。单点登录为具有多账号的用户提供了方便快捷的访问途径, 使用户无需记忆多种登陆ID和口令, 提高了效率;同时, 由于系统本身采用强认证, 从而提高了用户认证环节的安全性。 (3) 资源授权模块。通过集中授权和统一的访问控制, 该模块不仅能够根据用户的权限对主账号能够使用的从账号进行授权, 还能实现对行为和资源命令级的细粒度控制, 能够对不法命令进行阻断, 严防非法、越权访问事件的发生, 最大限度的保护用户资源的安全。 (4) 操作审计模块。模块能够对账号使用情况、资源使用情况、执行操作等进行全程的追踪并记录日志, 实时监控并记录运维人员对操作系统、安全设备、网络设备、数据库等进行的各种操作。具有审计权限的用户可以登陆系统查看监控结果, 出现问题能够直接定位到问题的根源所在, 迅速追责。
2.2安全核查模块。安全核查模块能够以管理员的身份 (权限由权限管理模块处获得) 登陆目标系统, 从而得到各个系统主机、网络设备、数据库、应用平台等的配置信息, 根据提前设定的系统配置规范进行核查, 确保配置是满足安全规范要求的。
该模块主要作用是确保运维人员维护各信息系统的操作正确, 以及信息系统配置变更后是否安全。同时, 如果配置规范发生变化, 模块能够快速地对相应的设备、服务器、应用平台进行配置核查工作, 摒弃传统的人工逐一检查, 降低人工成本和操作复杂度。
2.3配置变更联动管理。当运维人员需要对设备的配置进行变更时, 先通过账号管理模块登录。登录后, 整个配置变更过程在审计模块的监控下执行。更改时, 权限管理模块将相应的用户密码传递给安全核查模块, 运维人员的配置完毕后, 安全核查模块即可以自动对配置后的信息进行配置核查, 检查修改后的配置是否符合现有的安全规范。
如果存在不符合安全规范的地方, 安全核查模块会自动告警, 并出具报告。安全管理员就可以及时发现系统配置的异常情况, 并通过审计模块定位到相应人员, 责令其进行整改。整改的过程也属于配置变更过程, 依旧要求在审计模块和安全检查模块监控进行下操作, 当新的配置能够符合安全规范时, 整个配置变更过程才算完成闭环。
三、结束
本文的运维安全管理系统除了能够解决传统的堡垒机能解决的账号管理、登录审核等问题外, 还能进行配置审查, 并对运维人员修改策略后, 新的策略是否满足安全规范等进行实时的核查, 实现“系统运维——运维审计——运维核查——问题定位”的全封闭式管理, 能够更加合理、高效、安全的对企业运维进行安全管理。
参考文献
[1]郝永清.堡垒主机搭建全攻略与流行黑客攻击技术深度分析[M].科学出版社, 2010.
关键词:配网设备检修;运维管理
近年来,随着社会的发展和人们的生活水平普遍提高,人们对电能的需求也日益加大。相关电力企业对人们日常生活和工作的供电要求也越来越高。配网设备作为整个供电系统的重要环节,直接影响了后期人们的用电质量。配网设备的检修和运维管理也成为了电力企业关注的重点。配网设备的检修不仅能够保证电网的质量,而且能够使供电过程更加安全可靠,降低人们日常用电过程中的安全隐患,从整体上提高人们的日常用电质量。
一、配网设备检修和运维管理的重要性
配电网设备作为电力系统中的重要环节,直接影响了人们日常生活中的用电质量。因此,相关电力人员应该重视配网设备的检修和运维管理,保证电能输送过程的畅通,给人们提供一个高品质的用电环境。配网设备直接影响到人们日常的用电安全,相关电力人员应该根据设备的运行状况对配网设备运行中可能出现的问题进行提前预测,加强配网设备的日常检修和运维管理,保证后期的电能输送质量。给人们提供一个绿色用电环境,促进我国电力企业的健康发展。
二、我国配网设备检修和运维管理现状
由于我国目前没有制定合理科学的方案对配网设备的检修和运维管理进行约束,我国配网设备的检修一般是在电网系统发生故障后进行,这不仅降低了配电网设备的检修效率,而且为人们的正常用电带来了不便。不仅增加了配网设备检修的难度,而且很大程度上造成资金的浪费。我国应该改变配网设备检修和运维管理现状,从根本上提高电力企业的整体发展水平。
随着电力资源在人们日常生活中的普及,传统的配网设备检修和管理模式已经不能满足人们的日常用电需求,无论是检修效率还是检修质量都无法得到保障。由于检修技术和检修设备的落后,造成配网设备检修的不合理,給人们的日常生活带来不便,一定程度上制约了我国电力企业的发展[1]。
三、配网设备状态检修及运维管理注意事项
配网设备状态的检修和运维管理是一项专业性很强的工作。需要专业人员对配网设备的各个环节进行检查,保证后期电网使用的安全性,同时在检查的过程中需要进行记录,为后期的配网设备检修提供依据。在对配电设备状态检修的过程中要根据具体情况分别进行检修和运维,避免设备检修的盲目性。
同时,电力企业也要重视对检修人员的专业技能培养,以保证检修人员严格按照规定进行配网设备的检修,充分了解配网设备中的常见故障和可能存在的安全隐患,提高配网设备状态检修效率,保证检修工作的顺利进行。相关负责人要重视新技术在配电设备状态检修及运维管理中的应用,不断改进配网设备检修技术,保证检修的效率和检测结果的准确性,减少后期电网设备运行故障[2]。
四、配网设备状态检修及运维管理措施
1.配电设备状态检修及运维管理
相关工作人员对配电设备状态检修及运维管理目的是充分了解配电设备的运行情况,保证电力系统的顺利运行。并在检查过程中及时发现配网设备中存在的安全隐患,及时消除,减少后期电网运行过程中的损失,提高电网运行效率,保证人们的正常生产和生活的顺利进行。电力人员也要通过对配电设备状态的检修,及时发现电网运行过程中的异常,及时采取措施加以防治。
2.电容器状态检修及运维管理
电容器状态的检修是整个电网设备检修过程中不可或缺的重要组成部分,相关工作人员要重视对电容器状态的检修,避免电容器故障。首先,检查人员应该对电容器的外观进行检查,检查电容器外观是否有渗漏现象,是否出现线路老化、过热等情况。如果在检查过程中发现异常,应该立即停止使用,对电容器设备进行维修或者更换,减少事故隐患。其次,检查人员要对电压值和电流值进行检查,看电压值和电流值是否符合标准,保证电容器正常运行的同时,增加电容器的使用寿命。最后,检查人员要对保护装置进行检查。看是否存在线端松动或者过热的现象,并对故障及时进行解决,避免影响配网设备的正常运行[3]。
3.互感器状态检修及运维管理
互感器状态检修及运维管理,包括电流互感器和电压互感器的检修和运维管理。相关负责人应该对电流互感器进行定期检查,看是否出现破损、漏电、过热等现象。如果在检测过程中发现异常情况,应该积极采取合理科学的措施进行解决和防范,避免后期配电设备运行中出现问题。对电压互感器进行检查的时候,要根据相关的检查顺序进行,检查其绝缘性能、是否出现破损等,在检查过程中发现互感器出现异常,要及时进行后续的处理工作,保证互感器的工作效率。
总之,配电设备的检修和运维管理直接决定了电网的运行质量和运行效率。电力企业应该重视对配电设备的检修和运维管理,采取科学合理的方法对配电设备进行及时的检修和维护,降低电网运行过程中的安全隐患,提高人们日常生活中的用电质量和效率。相关工作人员也要不断提升自己的专业技能和职业素养,具体问题具体分析,对配电设备中可能存在的故障及安全隐患及时制止,保证配网设备检修的合理性和运维管理的科学性,给人们的生产和生活中安全用电提供保障,提高我国电力资源的利用率和电力企业的市场竞争力。
参考文献:
[1]林福.浅谈配网设备检修的运维管理[J].企业技术开发,2014,(12):95-96.
[2]陈伟.配网设备状态检修及运维管理的实践分析[J].科技经济市场,2014,(02):54-55.
一、CMES日常维护操作规程:
1、工控机显示的烟气流量、温度、压力参数是否正常,管道是否漏水,如有异常要进行检查维护。
2、每15日至少对清吹空气保护装置进行一次维护,检查过滤器、软管、过滤器等部件。
3、每15日对采样探头、进行一次手动反吹,每次时间为5分钟左右。
4、没15日对提供压缩空气气源处理器内部积水和油污手动排放。
5、本仪器不允许运行除污染源在线监测和在线监测基站管理系统外,运行其它系统(杀毒软件除外)
6、应保持监测用房、控制柜的清洁,保持检测设备的清洁,保证监测用房内的温度不影响仪器的正常运行,对空调等辅助设备也要进行经常性检查与清理。
二、在线监测运维人员责任制度
1、认真学习和严格遵守各项山鹰纸业热电厂规章制度,严格遵守作业行为为,严格操作制度,不违反劳动纪律,不违章作业。
2、坚持以“安全第一,预防为主”为方针,基站运维人员必须牢固树立安全意识。定期组织安全教育,增强基站运维人员安全意识和自觉性。
3、严格基站内各设备的操作,并按时做好每天的仪器运行台帐,监测数据台帐记录工作。定期对仪器进行比对、校验。定期对仪器和配套设备进行维护、保养。
4、如发生设备异常停机、停炉或数据异常,应详细记录停机原因并及时汇报能环部与热电厂领导。
5、每日清点基站机器总数和机器使用情况,防止微机和各零件丢失。6、7、8、基站房定点配有各消防器材,定期检查消防器材的情况 节假日做好安全检查和值班工作,采取相应的安全措施。一旦发现设备与数据异常,立即采取有效措施并及时汇报
三、定期校验制度
1、为保证设备的正常运行,运维人员要负责对维护规程和日常保养制度与日常巡检制度建立。
2、在仪器有效期内应通过检定或校验,保证在线监测系统监测数据的有效性。
3、每日巡检或远程监视(通过网络平台对设备进行远程监视检查),观察设备运行状况是否正常、分析各设备的监测数据是否正常,分析各设备的报警信息,如发现数据有持续异常情况,应立即进行检查或检验。
4、定期校验
CEMS运行过程中的定期校准是质量保证中的一项重要工作,定期校准应做到: 启动自动校准功能的颗粒物、NOx、S02等CEMS每应24H至少自动校准一次系统零点和量程;每月校准一次仪器量程 污染物的监测系统、烟气监测系统、流速监测系统每次校准后,要填写校准记录,记录校准前的零点,跨度漂移测试记录及校准后的零点、跨度测试值。
5、定期校验
固定污染源烟气CEMS投入使用后,由于燃料的变化、除尘效率的变动、水分的影响、安装点的振动等都会影响光路的偏移和干扰。定期校验应做到:
至少6个月做一次标定校验;标定检验用参比法
6、环保对监控设施进行监督性比对监测校验应保证设备准确无误。
四、设备故障预防处置制度
1.在线监测设备需要停用、拆除或更换的,应当事先报经能环部有关部门批准;
2.运行中发现故障或接到故障通知,应在1H内赶到现场进行处理; 3.发现设备故障或接到网络故障通知的1H内,必须到厂解决故障。对于影响设备正常运行的故障在4小时内,需将报修表格报至热电厂于能环部。
4.对于一些容易诊断的故障,如电磁阀控制失灵、数据仪死机、气路堵塞等,可携带工具或备件到现场进行针对维修,此类故障维修时间不应超过1小时。5.对不易诊断和维修的仪器故障,若4小时内无法排除,应安装备用仪器;
6.若数据存储/控制仪发生故障,应在4小时内修复或更换,并保证已采集的数据不丢失;
7.运行单位在运行站点应备有足够的备品及备用仪器,对其使用情况进行定期清点,并根据实际需要进行增购,以不断调整和补充各种备品配件及配用仪器的存储数量;
8.在线监测设备因故障不能正常采集、传输数据时,应及时向能环部与热电厂有关部门报告,必要时采用人工方法进行监测,人工监测的周期不低于每3小时一次,每天不少于4次; 9.仪器设备维修后,要填写设备维修记录。
五、环保监测设备仪表备件使用流程
1.本流程适用于我厂所有环保在线设备热控备件的使用和管理。2.依据维保合同约定,由我方提供的备品备件,我方负责保管,建立备件台账,存放于专用地点。我方定期进行清点。
MIS网络信息运维管理系统规划(征求意见稿)作者:张鹏 二〇一〇年一月 前言
托电信息化发展历经八年,从只有一个OA办公系统、数十台终端到如今拥有包括小型机在内的服务器五十余台、交换机等网络设备百余台、终端上千台。信息化工作的重点已经从信息系统建设向运维管理和系统应用的深度整合等转移。
目前,信息中心每天的工作量,多数都属于运维管理的范畴。信息中心从机组四期工程结束后就着手开始运维管理方面的建设工作,几年间相继上了蓝带思科桌面管理系统、东华的IT运维系统、青鸟桌面管理系统。这些系统的应用情况都不尽如人意,原因是多方面的,个人认为主要有以下几点:
1.运维管理的理念形成需要逐步成熟的过程。2.受到与运维相关的信息技术发展制约。3.现有运维相关的产品有各自的侧重或局限性。
信息中心正在实施的两个项目NETIQ和机房环境监测系统为我们提供了一个契机,我们可以建设一个真正适合自己的网络运维管理系统,这个时机已经基本成熟。
一、运维管理系统建设的可行性
信息中心运维工作主要来自网络设备、系统应用、机房设备、终端。NETIQ服务器监控系统可以对服务器、数据库进行集中监控管理。机房环境监测系统可以对机房温湿度、空调、UPS等指标进行集中监控管理。终端管理方面,可以考虑购置更好的产品加上二次开发或者在现有桌面管理系统的基础上进行二次开发。相对于以上,网络设备的管理使用SNMP基本可以满足运维需求,NETIQ可以实现,也可以在运维管理中心开发相应的管理模块。这些系统的建设,本身就是具有针对性的综合管理系统,而且可以为运维管理中心系统提供运维信息的采集平台,是运维管理系统建设的基础。
二、运维管理系统的构想
运维管理系统由外围管理系统群和运维管理中心两部分组成。外围管理系统群包括网络设备管理模块、NETIQ系统、机房环境监测系统、终端管理系统,外围系统群为运维管理中心提供运维信息采集平台。运维信息采集包括网络设备运维信息采集、服务器组运维信息采集、机房环境运维信息采集、终端运维信息采集。
运维管理中心主要包括以下几个部分:运维任务的生成、运维任务的处理、完成确认、知识库、运维统计分析、运维报告、绩效评价、违规处理、维护商管理、应急预案管理、系统权限等。㈠生成运维任务
运维任务的生成有两个途径,一个是从信息采集获得,另外可以手动生成。运维任务分为运行管理任务和维护管理任务两类,运行任务管理是指系统、设备在正常运行状态下的监控管理或操作,主要包括定期巡检任务、正常的配置操作、补丁管理、用户管理、升级操作等,巡检任务由系统按规定自动生成,包括信息中心人员的日常巡检和维护商的定期巡检。维护管理任务是指当设备、系统出现异常或故障时的处理过程。运维任务的生成包括的信息有:设备或系统名称、IP地址、报警信息、时间、运维编码等等,由终端直接发起的运维信息应该包含联系人的电话等,以便于运维人员接手任务后与发起人主动取得联系。生成的运维任务包括网络设备、应用系统、机房操作、终端运维等几种任务。运行管理和维护管理并没有严格的界限,往往是你中有我我中有你。㈡运维任务的处理
运维任务生成后,由管理人员按照各自的职责分工,领取相应的运维任务进行处理,运维任务处理过程及信息分类:
运维类别 网络设备包括:交换机、路由器、防火墙、VPN设备、行为管理设备、其他 应用系统包括:操作系统、应用服务、数据库、接口、其他
机房运维包括服务器、网络设备、空调系统、供电系统、消防系统、环境监控系统 终端运维包括:终端、外设 运维内容
网络设备包括配置操作:增加、更改、删除,其他操作:版本升级、设备更换、其他 应用系统包括:配置变更、软件安装、升级、用户管理、数据管理、日志管理、补丁管理、策略管理、其他
机房运维包括具体的设备信息
终端运维包括:电脑硬件、操作系统、应用程序、打印机、其他 处理过程
处理结果
原因分析 影响情况 对用户的影响情况(时间范围)
运维任务在处理过程中包含以下几个状态,分别是: 等待处理: 等待运维人员接手 执行状态:运维人员正在处理任务
挂起状态:运维过程中出现其他急需办理的事物或其他原因暂停执行 提交状态:任务处理完毕,等待完成确认 完成状态:一个任务完全结束后的状态
驳回状态:任务处理过程中信息有待补充等原因被驳回。
当任务处理人员发现需要维护商来处理的时候,将任务转给维护商,由维护商接手任务,相关人员配合共同完成运维任务并填写相应的记录,最后由运维人员给予维护商相应的评价。㈢运维任务的完成确认
对已经完成并提交的运维任务进行确认、评价,对于运维内容是否放入知识库给予确认,对于运维过程中存在的违规情况根据相关规定给予处罚确定等。㈣知识库
知识库的信息积累来自于运维管理系统和平时的手工录入,应做好信息的分类、查询功能。当运维任务生成后,系统会把相关的信息在知识库中进行检索,并把结果显示在任务中,供运维人员参考。㈤运维统计分析
当某些问题经常出现的时候,信息中心必须运用统计分析对设备、系统产生的问题或故障协同相关维护商,进行深入分析,找出原因,解决问题。另外运用统计分析可以为今后的运维工作提供指导方向,制定下一步运维计划。㈥运维报告
通过运维管理中心,对运维数据有选择的筛选、汇总,定期生成信息系统运维报告,以便于工作总结、分析、计划。运维报告应具有针对性,例如呈送公司领导的、呈送各部门的以及信息中心的整体报告。㈦绩效评价
运维系统内的各方包括终端用户、维护商、运维人员都是可以评价的对象。终端用户可以给打印机维护商评价;也可以给信息中心运维人员给予评价;维护商可以给维护人员评价;运维人员可以给维护商的工作给予评价;运维人员可以对终端用户使用计算机的情况给予评价。㈧违规处理 对于运维过程中发现违反信息系统相关制度的行为应予以必要的处理。需要做两方面工作:涉及这个内容的制度条款应该拿到系统中来,处理的方式方法有待确定;对于违规行为,在运维处理过程中应该做相应的证据记录。㈨维护商的管理
对维护商的信息集中管理,运维工作予以记录、评价,运维合同的到期提醒等,如何对维护商产生实际的约束力,发挥其在运维工作中应有的作用,是我们需要考虑的问题。
(十)应急预案管理
当设备或系统的故障达到规定程度时,启动应急预案,并对整个处理过程实现系统化管理,以及预案的演练等其他工作进行记录。
三、终端管理系统
目前通行的终端管理系统所包含的功能主要有:硬件信息的提取(CPU、内存、硬盘等)、操作系统基本信息(操作系统版本、安装的应用程序等)、软件分发、补丁管理、外设管理、远程管理、主机防护等。有的产品还具有接入认证、内外网隔离、硬盘加密、网络行为管理等功能。360安全套件在终端健康状况、插件管理、实时防护、木马查杀、垃圾清理等方面做的比较好。瑞星网络版则是着重防病毒。将这些软件的功能加以综合利用,建设终端管理系统平台(组),为运维管理中心提供数据。
厂区终端使用最多的是OFFICE办公软件和浏览器,出现问题最多的是浏览器,所以应当把对浏览器的运维作为终端运维的重点之一。此外终端管理系统收集的终端硬件信息可以与信息中心现有的资产管理系统建立联系,可以实现较为准确的资产定位,协同各部门信息员及时掌握资产的变动情况。
客户端的二次开发要求:客户端既属于终端管理系统,又可以和运维管理中心通信,同时可以对于我们所需的现有产品没有涉及到的进程或指标进行检测。
1、实时交互性
当运维人员需要远程维护时与终端用户进行询问、控制申请等信息交互,当运维任务结束后,终端用户可以给维护人员以相应的评价。运维管理中心收集到的终端健康情况也可以发送到目的终端,给使用者以相关的提醒。
2、人性化
终端使用人提交运维申请后,可以看到运维管理中心当前的运维状况,谁接手了自己提交的申请,自己排在第几位等信息。客户端运行应尽量避免对终端用户的正常工作形成干扰,如果能做到让使用者感觉很舒服又实用那是最好了。
3、资源占用率 客户端运行时,进程的大小,CPU占用率可以参考较为成熟的软件如360及瑞星运行时的情况。
4、定制化安装
对于信息中心维护范围内和维护范围外的终端,应该采取不同的安装策略。比如对维护范围外采用接入认证、监控健康状态、信息提醒等,但不启用维护功能。用户在安装客户端时,填写相应的信息以便系统管理。
四、运维系统建设工作重点 1.运维管理中心的开发 2.终端管理系统的建设
3.NETIQ系统所涉及监测指标的调整,与运维管理中心的接口准备 4.机房环境监测系统所涉及监测指标的调整,与运维管理中心的接口准备
5.对于特定应用系统的运行监测,NETIQ能否开发出对应的监测服务模块,或者应用系统的开发商可以开发出对自身运行状况的监测功能。6.与运维工作相关制度的完善、建立。
五、总结
关键词:运维管理 视频监控 系统设计
视频监控功能模块是南京局运维管理系统中一个重要的组成部分,视频监控也是南京局机房环境监控的一个重要手段。在本设计中,视频监控系统主要由以下几部分组成:图像信息的采集和预览;对采集画面的简单控制以及存储和回放功能。
视频监控系统设计和分析
1、视频监控系统概论
视频监控系统是管理人员高质量管理的理想工具,利用它可以大大减少不必要的人力,实时监视可视区域,做到控制现场实际工作现状,实时快速的反映所发生的一切事物,便于管理者及时应付处理突发事件等。
视频监控作为机房管理的辅助手段,结合南京局实际情况及对机房管理的方式,本设计中,系统采用基于WEB的B/S模式,以方便部署和使用。结合单位实际使用情况,WEB远程监控端直接使用硬盘录像机提供的视频流,不再加设流媒体服务器,以简化系统结构,并节约成本。
2、系统功能构成
本套视频监控系统由视频监控、视频存储和视频回放两大功能模块构成。采用海康威视的网络硬盘录像机(DVR),由硬盘录像机实现视频采集及储藏,利用网络实现视频图像预览及历史视频回放,同时实现对球机的控制。
在WEB客户端打开机房视频监控页面,通过点击相应的机房名称即可实现对机房的视频监控
3、视频监控系统结构
系统由摄像机、网络硬盘录像机及WEB服务器组成和WEB远程监控点组成。视频编码及存储由网络硬盘录像机完成,在WEB远程监控端实现机房视频预览及视频回放。
机房的摄像机通过视频电缆连接到网络硬盘录像机,如果是球机则将球机的控制接口用线缆连接到网络硬盘录像机的485接口上;将网络硬盘录像机的网络端口连接到内网。在中心机房部署一台服务器作为WEB服务器。
软件系统开发
1、软件系统概述
为了便于访问视频监控,系统采用B/S模式,客户端部署也更加容易。WEB服务器中网页内置ActiveX控件,视频监控的功能集成在ActiveX控件中,用户可以直接通过WEB页面进行视频预览等操作。
软件系统主要是WEB页面及视频控件的开发,WEB服务器负责各机房监控点的配置管理,AcitveX控件实现视频的预览等操作。WEB使用ASP.NET,用VS2005开发;视频控件使用MFC,用VC6.0开发。
2、视频控件的开发
视频控件是对海康威视硬盘录像机的SDK的二次封装成ActiveX控件。视频控件主要实现的方法有:①StartPlay(),调用该方法实现视频预览;②PTZControl(),调用该方法实现对球机云台的控制;③PTZPreset(),调用该方法实现实现对球机云台预置位的调用;④StartClientRecord(),调用该方法实现视频回放;
视频控件的属性有:①BSTR ServerIP;该属性指网络硬盘录像机的网络IP;②short ServerPort;该属性指网络硬盘录像机的网络端口;
在使用视频控件时先设置网络硬盘录像机的网络IP和端口号,即可进行视频预览等相关操作。
3、WEB页面的开发
客户端浏览器访问WEB服务器中的WEB页面,通过页面中的ActiveX来访问视频。在WEB页面中使用ActiveX控件包含三个基本内容:一是在WEB页面中潜入ActiveX控件,二是在客户端下载ActiveX控件,三是在客户端安装ActiveX控件。
结束语
【运维管理要求】推荐阅读:
班级管理要求及规定06-13
宿舍安全卫生管理要求07-06
班组安全会议管理要求09-12
医疗器械仓库管理要求06-11
学校管理育人的要求09-26
食堂管理员职责要求09-27
学籍管理的补充要求12-06
通信监理工作管理报告编写要求06-05
肺结核病人系统管理要求07-14
物业管理人员素质与要求07-25