运维工程师工作内容
1、提供运维相关咨询,帮助客户解决疑难问题并提出改进建议;
2、保障线上环境的正常运行,处理线上的各种问题;
3、监控线上系统,分析和预防线上系统出现问题;
4、构建自动化运维平台,提高运维效率;
5、规范运维流程,定期提交汇总报告;
6、优化运维系统,加强系统稳定性和高可用性。
7、工作责任心强、性格开朗、善于沟通、工作细心、做事有条理、善于在工作中学习与总结;
任职要求:
1、精通linux系统操作和优化、操作系统的管理及一定的排错能力;
2、精通Shell、Python中的至少一种语言,负责产品的一键安装包制作;
3、熟练postgresql数据库性能调优、错误排查、各种架构部署及备份恢复机制;
4、熟悉分布式系统的维护,有mq、zookeeper、docker等中间件维护经验,熟悉dubbo更好;
5、熟悉分布式系统下的tomcat、nginx、redis、fastdfs、mq、等软件安装部署和调优;
6、5年以上运维经验,有虚拟化、容器技术、产品部署方案等经验者优先;
本刊讯为加强运维管理,促进“重市场、轻运维”观念的转变,近日,成都铁通召开运维工作研讨会,对上半年运维工作进行了总结。
会议深入分析了运维体制、人员素质、基础管理、网络优化等工作存在的问题,对下半年运维工作进行了部署。参加会议的成都铁通领导、机关各部门经理、运维系统二级单位负责人通过讨论,将运维体制改革、管理分级负责、绩效考核引导、经营部运维管理、日控交班制度、故障分析、班组建设等七项工作作为重点,会后立即进行强力推进。
宏观经济管理信息系统(金宏工程)是我国电子政务一期工程十二大业务系统之一,由国家发改委、财政部、商务部、人民银行、国资委、海关总署、国家统计局和外汇管理局共同承担建设。金宏工程共规划建设八个业务系统,十个共享数据库,为国家宏观经济管理部门及时、准确、全面获取宏观经济信息,实现信息资源共享,提高工作效率和质量,增强管理与决策的协调性提供强大技术支持。目前该工程已处于项目终验阶段,很快要投入运行。
从现状来看,我国电子政务系统长期存在“重建设、轻维护”、“重技术、轻管理”等现象;对运维服务外包商的管理缺乏有效的手段,处于粗放管理的状态,日常运维工作常处于“救火”状态。因此,在金宏工程运维中引入运维服务管理标准,使运维工作更加科学化、规范化和专业化,是“用好”金宏工程的重要保证。
一、运维服务管理标准ITIL
运维服务管理是金宏工程的重要组成部分,其管理内容多、实施时间长、管理环节繁琐,因此具有良好效果和效率的运维服务管理标准对于金宏工程的成功运用至关重要。国外有关政府机构对电子政务系统的运维已进行了多年有益的探索,并制定了一系列运维服务管理标准,其中最成熟和最有效率的运维服务管理标准当属ITIL。
ITIL是英国商务部OGC收集和分析政府各种组织机构有效解决IT运维服务管理问题方面的信息,找出那些对政府部门的有益做法,集合形成的IT服务管理最佳实践框架。自1980年至今,ITIL经历了三个版本:
Versionl1986-1999年原始版,主要基于部门非职能型实践,开发了40多卷技术指导图书。
Version21999-2006年v2版,主要基于系统的流程型实践,共有10本技术指导图书。其核心主体框架主要包括:业务管理、服务管理、IT基础架构管理、应用管理、IT服务管理实施规划和安全管理等6个模块。
Version32004-2007年v3版,整合v1和v2的精华,融入IT服务管理领域当前最新和最佳的实践,尤其是引入“生命周期”概念,开发了5本基于生命周期技术的指导图书,形成了ITILv3的核心。
总之,1TIL来源于实践又用于指导实践。它列出了各个IT服务管理流程的“最佳”目标、活动、输入和输出以及各个流程之间的关系,保证各流程实现其应有的功能并与其它流程相协调。至于具体如何实现这些功能,可根据实际需要采取不同的组织方式。这近似于“基于组件编程”思想:各流程相对独立实现某些特定功能,流程之间及流程和业务之间的接口根据业务和IT管理方面的需要事先设计好。可方便地增加或放弃某个流程,同时其它流程还可继续保持运营。
二、金宏工程的运维管理模型
结合传统的IT运维实施经验,和国际流行的运维服务管理概念及实施经验,金宏工程应考虑多部委共同参与的特点,遵照ITIL标准对运维服务中的人员、技术、流程3大要素进行组织、控制,来提出有效的运维管理体系架构(即运维管理模型)。ITIL标准中的“人员”指进行IT运维所必须采用的组织结构形式;“流程”指IT运维的各种业务过程;“技术”指IT运维服务应采用的各种技术手段。三者构成一个有机整体,缺一不可。
(一)组织模型
金宏工程的用户包括8个共建部委,包括宏观经济数据共享的信息平台和各部委自己的子项工程,工程和业务涉及面广,在运维上还很可能出现认识不统一、模式不确定等问题或困难。因此,系统成功运维的关键不仅在技术,更在于协调。另外,保密和安全也是金宏工程的重点。根据金宏工程上述特点,其运维的组织结构设计如下:
金宏工程项目协调领导小组,对金宏工程进行战略规划和金宏系统运维管理进行决策;金宏工程领导小组办公室,对金宏系统运维管理进行指导协调,根据金宏工程项目协调领导小组做出的决策,将工作任务分解到数据服务主中心,通过各共建部门下达到各数据服务分中心,并监督和跟踪工作的进展;金宏工程安全保密办公室,对金宏工程涉及安全、保密、密码等方面的建设工作进行统筹管理和协调;各共建部门,组织共建部门用户和运维部门共同做好系统的信息共享、应用推广和技术服务工作;数据服务主中心,承担金宏系统信息共享平台的日常运维工作,及时将各分中心提供的共享数据载入信息共享平台,保障信息共享平台各项服务功能的实现;共建部门的数据服务分中心,主要负责各自系统的日常运行维护工作,并负责及时、准确地提供本部门的共享信息资源。
应该说明的是,金宏工程的很多应用都部署在各部委的纵网,所以对金宏工程各子项来说,运维人员不仅是部委信息中心的技术人员,还包括地方相关单位的信息技术人员。但金宏工程B/S结构的特点决定了运维的主要任务在服务器端,所以地方信息技术人员的任务相对少一些。
(二)流程模型
金宏系统运维的管理工作应立足于使数据服务主中心和各数据服务分中心的主要工作流程保持协调和一致,因此必须设定一个基于ITIL标准的金宏系统运行维护的基本流程,作为金宏系统运维的统一和基本的要求。在符合基本流程的前提下,各数据分中心可结合本单位实际情况建立其他适用的运维工作流程。这些数据服务分中心可同时归属于各部委信息中心基于ITIL标准建立的统一或集中的运维平台。
从纵向看,金宏工程运维的基本流程应包括服务支持流程和日常运维流程2大类。服务支持流程主要规范运维团队对顾客/用户提供支持服务;日常运维流程则是运维部门进行金宏系统正常运维管理所需执行的工作流程,如安全类维护、网络类维护、数据类维护、环境类维护等。
从横向看,金宏工程运维的基本流程应包括服务台工作流程、事件管理流程、应急响应服务、技术咨询服务流程、意见建议处理流程、日常运行维护、信息共享和完善性维护流程等八部分。
金宏工程的服务台设计为三线技术支持。首先,服务台在其能力和服务范围内为用户提供最初的支持(一线支持),并尽可能使事情处理完毕。如服务台无法处理,则由服务台将事情分配给本单位适当的运维部门。运维部门针对情况按工作流程进行处理,使事情得到解决(二线支持)。如果运维部门仍无法处理,由运维部门向供方(系统承建单位或供应商)提出要求,获得供方的支持(可称为三线支持)。
(三)技术模型
金宏工程包含10个共享数据库、信息共享平台,8个重点宏观经济管理业务应用系统、宏观经济辅助决策支持系统原型、过渡网等。
10个共享数据库包括:
国家财政预算收支共享数据库(财政部)、金融共享数据库(中国人行)、经济统计共享数据库(国家统计局)、外贸
进出口共享数据库(海关总署)、外经共享数据库(商务部等)、国际收支共享数据库(国家外汇局)、国有重点企业共享数据库(国资委)、重要商品价格共享数据库(国家发改委)、国民经济发展规划计划共享数据库(国家发改委)、经济文献共享库(国家发改委)。
8个重点业务系统包括:
国民经济和社会发展规划与计划系统、价格监管信息系统、固定资产投资项目管理信息系统、战略性资源信息系统、财政经济分析预测系统、金融运行分析信息系统、国际收支平衡管理信息系统、国有重点企业业务信息系统。
金宏工程是一十庞大、复杂的系统,运堆的技术手段可分5层框架:
(1)硬件设备:硬件设备包括网络设备、服务器、磁盘阵列等存储设备。
(2)操作系统:包括AIX、Sun等。
(3)平台软件:包括DB2数据库、金蝶应用服务器、WeblogicServer等。
(4)应用软件:业务应用软件。
(5)门户:金宏共享平台门户和各子项应用支撑平台的门户。
(6)监控软件:监控软件对网络、服务器、操作系统、数据库、应用软件等进行监控。
三、实施运维服务管理模型的关键问题
运维服务占整个金宏系统生命周期80%的时间。管好用好金宏系统离不开高效、经济的运维服务。上述基于ITIL标准的金宏系统运维服务管理模型的提出,为更好地实现金宏系统的运维服务提供了很好的理论依据和技术保障,同时也将为我国电子政务系统的运维管理进一步积累经验。当然上述模型本身还需经实践进一步检验,并在实践中逐步得到优化和改进。为更好地推进ITIL运维服务管理模型,建议:
一是国家有关部门要结合各自实际情况,把ITIL标准融入金宏工程运维服务管理中,以逐步形成具有我国特色的金宏工程运维服务管理规范和标准体系。
二是加大ITIL运维服务管理模型的宣传力度,扩大模型优越性和有效性的影响力。要让现有组织架构下的所有IT管理部门认识到实施ITIL标准并不需要重建组织机构及其职能。ITIL只是提供了一个指导性体系框架,这个框架既可以保留组织现有的IT管理方法和技术中的合理部分,同时还增加必要的方法和技术,以及方便和加强了各种IT职能部门间的沟通和协调。
三是从各部门不同状况出发,选取实施重点,量力而行,并逐步改善/提高各流程的效率。各共建部门不要一开始就试图同时实施运维服务支持和服务提供的所有流程,而以先从服务台、事件管理等最现实的流程做起,再逐步扩展到问题、配置、变更等其他流程,这是保证实施运维服务管理模型的正确途径和关键。
1、公司IT软硬件及网络维护管理;
2、解决客户在使用网站过程中遇到的各种问题;
3、负责网站服务器的突发事件管理,应急响应、故障排除、问题跟踪与管理,提供相关报告,运维文档;
4、负责开发运维脚本或工具,为自动化运维(配置管理、监控、部署、调度等)提供工具或系统支持,来提高运维部署的效率;
5、研究系统服务架构,实现性能优化,定期分析相关服务的运行状况,并给出改善建议;
6、负责Linux服务器的安装、配置,维护,监控,调优,排除故障;
7、完善相关监控系统的策略,并定期分析相关服务的运行状况,并给出改善建议。
任职条件:
1、计算机相关专业、网络工程等相关专业,大专以上学历;一年以上服务器运维经验;
2、熟悉TCP/IP和SNMP等网络协议和路由、交换机、防火墙等网络设备管理,熟悉综合布线,具有全面的网络安全知识;对系统漏洞、入侵检测、病毒防护、防火墙等有实践经验;
3、深入了解Linux系统以及优化,熟悉Linux常用命令及工具,擅长使用shell/python脚本语言编程,实现自动化运维;
4、熟悉主流开源软件(Nginx/Tomcat/Apache/Redis/activemq/MySQL/MongoDB/hadoop等)的配置及调优;
5、了解运维高容量、大并发Web系统的业务知识;
6、有大、中型网站维护实战经验者优先考虑;
1、负责计量自动化系统等基础架构(服务器、存储、FC交换机等设备)规划、安装、维护工作;
2、负责计量自动化系统等硬件故障处理、定检等;
3、负责计量自动化系统系统等加固、软件升级等;
4、负责计量自动化系统等运维文档编写;
5、根据需求对新项目的设计、规划、实施、维护等工作。
岗位要求:
1、计算机相关专业;
2、熟悉主流厂商服务器、存储、FC交换机等设备的产品线和设备基本安装;
3、熟悉市场主流操作系统Linux、aix、hpux配置;
4、熟悉TCP/IP协议,掌握网络基础知识;
5、具备良好的团队合作精神,高度的责任感,善于沟通,有创新精神,能够承受压力;
6、有较好的文档编写能力,有标书、方案编写经验值优先;
针对当前调控一体化模式的发展, 成立和组建运行维护站是电力企业良好发展的必然趋势, 也是电力企业减人增效, 提高人员工作主动性, 保证企业良好发展的必经之路。在其运作过程中, 安全运行问题、管理问题尤显重要。
1. 运行模式
无人值守变电站是一种先进的管理模式, 不仅大大提高了设备的自动化程度, 而且节省了大量资源, 可以从根本上降低运行人员的劳动强度。原有的无人值守110kV变电站和220kV有人值守站经过综自改造后, 设备的安全系数和自动化程度得以提升, 借助微机运动通信技术, 可靠地将设备运行状况、可操作性准确无误的传达到监控系统, 最大可能地使运行人员有效地掌握现场实际。就银川局新城220kV变电站、平吉堡220kV变电站综自改造并与相应范围内的110kV变电站组合成立运行操作维护站, 实行无人或少人值守后的安全问题、运行维护管理等就成为关键和热点问题。
1.1 正确理解“无人值守变电站”
无人值守变电站顾名思义就是没有人或少人值班, 但它并不是彻底放弃管理和运行操作。相反的是需要一批专业素质好、事故处理能力强的运行人员, 以及训练有素的监控人员相互协调, 以保证设备的安全运行。综自改造后的110kV变电站基本实现无人值守。
在个别220kV变电站由于设备老化, 存在陈旧性缺陷, 这些情况并不能通过远动信号传达到监控系统, 这就需要现场短期内安排少量运维人员定点蹲坑, 随时掌握缺陷隐患, 做好记录, 及时将现场异常或设备缺陷发展状况向当值值长或监控人员汇报。
1.2 运维站各岗位责任的划分
责任是变电运行人员责无旁贷的基本素质, 具备强烈的责任心是当好设备主人的首要条件。运维站人员设岗定责如下:
1) .班站管理人员负责协调全面工作。签发工作票, 复审操作票的正确性, 在操作中担当第二监护人。站长主要负责全站工作安排, 个人绩效考核, 是上级与职工之间的联系纽带;副站长负责监护倒闸操作的全流程, 检查维护工作的落实情况;安全员负责落实全站安全问题, 并定期召开安全例会、上报各种报表、统计设备缺陷等;技术员负责站内的教育培训、专业知识的解答讲解以及设备台账的完善工作。
2) .运行人员负责执行调度下达的各项指令, 组织进行变电站的各项倒闸操作, 正确处理无人值守站的事故或障碍。与监控中心核对现场信号及现场工作票的许可、终结, 并布置相应工作任务的安全措施。
3) .维护人员及时、准确的抄表、记录、完善设备台账。维护、清扫设备卫生, 检查、统计设备的完好率等。
4) .监控人员负责从后台机监视设备运行情况, 系统波动等, 并及时向运维站人员传达光子、信号。
2. 运行管理
运维站是将原220kV及以上电压等级的变电站与操作队整合、人员重新分配后的产物。在设备划分上加大了管辖范围, 人员结构上参差不齐。所以制定完善合理的运行管理制度是当务之急。
2.1 建立科学管理、责任到位、分工明确的运行管理模式
科学的管理是决定一个班组正常运作的首要条件, 也是不可或缺的制度手段。首先组建协调能力强、业务素质高、安全意识好的同志为班组管理人员, 全面协调运维站的各项工作。其次建立各种规章制度。将工作细化到每个人身上, 从监护倒闸操作、安全运行维护及文明生产、技术培训方面入手, 将管理人员合理运用起来, 充分发挥他们的优势和长处, 尽最大可能为运维站的稳定运行献策献力。
2.2 岗位责任制的落实
运维站各级人员要严格遵守各自的岗位职责。明确责任, 各司其职, 做到对工作不推诿, 不敷衍。将责任、奉献与绩效考核结合起来, 奖勤罚懒, 在经济上体现多劳多得的分配方式, 激发人员的工作能动性、主动性。激励人员的创新意识。
2.3 加强交接班制度和值班制度管理
运维站实行四班制。当班期间主要按照日工作安排。配合所有检修任务中的倒闸操作, 许可、终结工作票, 布置安全措施及紧急事故处理。副班主要工作除了配合完成主班负责人的工作安排, 还包括对设备进行维护、清扫及对防误闭锁装置的检查、维护等。
当班在岗期间认真负责, 不得做与工作无关的事。根据交接班制度的要求, 做到交班清楚、认真, 全面向接班人员交代当前各个变电站的运行方式, 工作票的许可和终结状况, 保护压板的投退, 设备缺陷等具体情况。
2.4 制定合理的预控措施
严格按照《国家电网公司电力安全工作规程》 (变电站和发电厂电气部分) , 尤其对于两票三制 (工作票、操作票、工作许可制度、工作监护制度、工作间断转移和终结制度) 必须认真贯彻执行。
在每项倒闸操作任务中, 由操作人填写操作票, 监护人审核, 增设第二监护人, 二监复审操作票正确无误后方可执行。在操作前有监护人编写符合操作任务的倒闸操作作业指导书, 认真交代操作要点、危险点及预控措施, 使现场各类人员心中有数, 降低误操作的可能性。
2.5 制定完善的设备维护管理制度
A.完整的设备台账是保证设备安全运行的第一手资料。在设备更换、检修, 大修后及时更新、完善设备台账, 整理设备参数, 熟悉设备性能。为防止设备事故的发生提供有力的依据。
B.设备例行维护工作是随时了解设备安全运行的有效途径。根据现场实际设备的运行状态、设备参数、特性等编写行之有效的维护项目。主要从主变风冷电源及冷却器的切换, 熔断器的检查、事故照明切换, 断路器机构箱加热去潮装置的检查、五防锁具的维护以及防火、防小动物措施检查、设备接头的测温等一一详细制定措施, 并在工作中严格落实。在维护工作中可以及时发现设备异常、缺陷或安全隐患, 通过上报检修处理, 进一步确保设备的安全运行。
班组管理工作, 重在大局, 规范合理的管理工作, 必将推动企业良性发展。
3. 安全运行
安全是企业的命脉。在企业中, 班组是一个最小的基本单元, 它决定着企业的安全稳定发展。企业的一切活动安排都是通过班组来实现的, 离开了班组的支撑, 企业何谈兴旺。因此班组运作的好与坏直接决定着企业的兴衰.班组的安全运行直接影响企业的健康发展。运维站运行管理的重点就是安全运行。认认真真落实班组安全生产责任制, 坚持贯彻“安全第一, 预防为主”的电力生产方针, 大力开展反习惯性违章和安全生产的宣传与教育。每次事故的发生都存在作业人员心存侥幸, 工作流于形式, 过于粗放的管理方式等原因, 这些就是事故的导火索。所以将安全工作做细, 做实, 做到位, 是保证运维站安全运行的前提。根据现运维站运作状况, 对运维站安全管理工作, 重点应放在如下几个方面:
3.1 安全管理
A.签订安全协议, 强化运维站人员的意识。根据上级安监科的安全目标和反违章措施, 编写运行安全协议书, 逐个与班组人员签订安全协议, 书面承诺身边无事故。安全协议与绩效考核直接挂钩, 将奖金的百分比与月度有无违章情况合理分配。这样就从思想上杜绝“意外或侥幸”麻痹思想的滋长。
B.定期开展安全活动。
a.利用安全活动日传达近期内注意事项。学习相关事故通报, 对重大事故反复学习, 警钟长鸣, 分组讨论。结合本站相同设备或类似事件, 制定相应预防措施, 做到防患于未然。
b.按季度开展安全知识竞赛, 加强安规的理解与记忆。通过竞赛奖励表现突出的个人, 激发大家学习安规的热情。根据月度工作计划的安排, 以“纠正一次违章, 避免一次事故, 化解一次矛盾”为内容, 组织落实“无违章班组”活动, 班组人员罗列违章情况, 制定相应防范措施, 将隐患消除在萌芽状态。在月底工作总结中对照反违章自查表检查落实和实施情况, 防止流于形式。
c、利用展板的形式, 将违章行为及时公布于众, 相互提醒监督, 降低违章发生率。张贴关于安全理念的墙壁图或挂图。使安全警言警句随处可见, 从感官上强化概念。在工作中, 贯穿安全第一的理念, 不仅加强在岗职员的安全意识, 而且将这一观念延伸到员工的家庭中, 不断从亲人中征集安全警句。通过手机短信发送警言警句或温馨提示, 使身边的亲人不断提醒, 降低事故发生的可能性。
d.开展批评与自我批评。通过形式多样的安全活动, 及时发现问题、解决问题。例如将某些工作现场中布置不完善、不合理的安全措施或不到位的维护工作, 用照相机拍下来, 做成幻灯的形式展示出来, 共同讨论, 及时查找事故隐患, 纠正不安全现象, 制定科学合理的对策, 杜绝违章作业, 冒险工作等现象的发生。
e.全面总结, 及时调整。在安全活动会上, 以值长为单位对近一周内所开展的运行、维护工作详细汇报交流, 及时调整安排不合理或工作没有做到实处的情况。值与值之间及时加强横向沟通联系, 取长补短。汇总各个站存在的设备缺陷和安全隐患, 做到人人对设备状况心中有数, 进一步夯实安全基础。
3.2 技术培训
当前的社会是竞争的社会, 是优胜劣汰的社会, 发展是刻不容缓的趋势。电力市场对我们提出了更高的要求和更重任务。它要求我们不断学习, 没有任何借口地服务于本岗工作。将学习转变为一种时尚, 一种动力。
运维站值班员专业知识水平的高低直接关系变电运行的安全生产, 根据运维站成立后, 人员主要来自不同的变电所, 原来仅限于对一个站的设备与运行方式的掌握及专业水平不一的情况, 因此加强技术培训, 提高专业知识水平是确保安全的有力手段。
A制定一套符合本站的培训计划。培训目的切合实际, 不可急于求成, 培训内容由表入里, 由浅入深, 结合新旧设备的特点, 员工个人专业基础的薄弱, 制定方针, 逐步提升人员专业知识, 提高业务素质。根据员工需求, 适当购买专业书籍, 编制符合本班站的教材, 培养一支技术硬, 专项强的骨干员工队伍。
B开展每月不少于四次的技术讲课, 请专业知识全面的人员讲解理论知识, 或请现场经验丰富的师傅理论结合实际进行现场讲解。加强技术培训及理论知识讲座, 从工作中的细节、小事入手, 全面提高专业知识水平。
C每月定期举行反事故演习。多方面, 全方位地加强培训, 增强运行人员处理事故的能力。
D举办岗位技能比武活动, 通过“赶、帮、比、超”的学习氛围进一步提升运维站人员的业务技能素质。
E加强日技能考核。根据月度培训内容每日考问值班员适当数量的专业题, 目的使所教授的知识能及时消化、掌握, 尽快熟悉所辖变电站的相关知识。
4. 营造良好企业文化
4.1 科学的人性管理模式是和谐社会, 和谐企业的突出体现。员工是企业不可缺少的子细胞, 每一个员工的工作效率, 工作态度直接关系着班组乃至企业的命运。因此在班组管理中应尊重职工, 尤其是新组建运维站人员, 在情感上多加沟通, 专业上多加指导, 给予关怀, 调动他们的热情, 使其能感受到团队的温暖。良好的工作环境, 积极、健康的企业文化氛围是保证运维站安全运行的一个重要条件。
4.2 加强精神文明建设, 进行爱国爱企业理念教育, 使人员树立“小家”意识, 相互及时沟通, 了解职工的思想动态, 调动大家工作的主动性和积极性, 发挥主人翁精神, 是这对于班组来说相当重要, 百利而无一害。只有运维站这个小家的和谐安全稳定运行才是企业欣欣向荣的表现。
科学合理的管理方式, 严格的规章制度, 积极主动的工作理念必将把“安全第一, 预防为主”的方针落到实处, 从而进一步使我们的安全生产工作可控、能控、在控。
摘要:运维站的成立彻底调整了变电运行的模式, 不仅达到了减人增效的目的, 而且规范了运行管理, 提高了生产效率, 在其运作过程中, 安全运行、管理问题尤显重要。
【摘要】企业信息化是企业提升企业核心竞争力的重要手段。因此,为保障信息系统的正常运转,系统的运维保障至关重要。在信息化日常运维工作中运用QC方法和工具,解决信息化日常运维工作中存在的影响工作质量的问题,是提升信息化日常运维水平的一个重要措施。
【关键词】QC;信息化;运维
一、引言
在这个信息化飞速发展的时代,信息系统成为大多数企业日常工作必不可少的工具。通过各类信息系统来优化和加快企业业务流程的运转,降低运营成本,从而提高经济效益、获取核心竞争力。而为保障这些业务流程的正常运转,信息系统的运维保障是至关重要的一个环节。随着精准理念的提出推进,“零误差、零缺陷”、“向管理要效益、向管理要方法、向管理要进步”成为企业各项工作的目标,这就对信息化日常运维工作的质量有了更高的要求。在信息化日常运维工作中融入QC方法,通过技术和管理手段相结合的方式,组建QC小组,运用QC方法和工具,针对信息化日常运维工作中存在的影响工作质量的问题,充分发挥团队协作、事实调查、科学定位、合理实施、按照计划-实施-检查-纠正的方式不断循环推进,是提升信息化日常运维水平的一个重要举措。
二、目前信息化日常运维工作的状况
现行信息化日常运维工作方式,通常是由用户在信息系统的使用是发现问题后提出变更需求提交系统运维负责人后,由运维负责人组织用户和具体运维人员进行确认后,制订变更方案后进行变更。变更后的信息系统经测试完成,交付用户使用。
企业经过长期的信息化建设积累,信息系统一般都会涵盖企业的生产、销售、财务、供应链、物流、办公协同等方面的业务。涉及信息系统日常运维的业务内容多、工作量大,往往当用户提出问题或是要求变更时,需要运维的事件已经发生并对业务造成了影响。所以,在现行信息化日常运维工作方式下,大多数时候信息系统日常运维只能是处在被动解决问题状态。
在现行的工作方式下进行信息化日常运维会对信息化运维人员造成一些不利的影响。
1、大量重复性的运维事件占用由于信息化运维人员的大部分时间,造成运维工作显得忙碌而无为。
2、没有形成事前运维预防机制,运维水平相对较低。
3、忙碌的运维工作难免影响到时服务质量,导致主管理部门及用户对信息化运维人员的服务满意度都不高。
三、QC方法在信息化日常运维中的运用
QC活动,源于制造业,兴于上世纪60年的日本。因此,提到QC,想到更多的是生产制造。但随着经济的发展,质量含义不断延伸,其内容也更加丰富,QC小组的活动不再局限于产品的质量,而是延伸到企业经营的各个方面,其活动范围涵盖了管理、服务、现场、技术攻关与技术创新等多方面①。
QC活动是一种群众性的质量管理活动,具有自主性、群众性、民主性、科学性的特点②。要使之融入信息化日常运维工作,首先要组建QC活动小组。QC小组的成员由有共同解决存在问题的目标的人员自愿组合在一起,可以是信息化运维人员,也可以是信息系统的使用人员;可以是领导,也可以是普通员工。QC小组成立后,就可以根据信息化日常运维中存在的问题按照QC活动的程序来进行逐一解决。
QC活动注重发挥每一位小组成员的积极性和创造性,通过头脑风暴,运用集体智慧和发散思维,在原因分析环节充分地进行探讨和分析,使得以往日常运维中隐性问题得以暴露,得到解决。
QC活动重视每一个环节的科学性。不同于以经验为主的信息化日常运维方法。QC小组成员从不同角度、不同途径收集运维事件数据信息,运用检查表、层别法、柏拉图、因果图、散布图、直方图、控制图等数理统计工具,根据统计分析的结果来制定QC小组活动的目标、找出问题的症结、制定解决对策并进行实施和验证。
QC活动强调PDCA控制循环,提高了信息化日常运维的质量和水准。以往的信息化日常运维在解决运维事件,交付使用后,就完成工作了。而在结合QC活动进行信息化日常运维后,采用计划(Plan)-实施(Do)-检查(Check)-纠正(Act)这一控制循环,对验证达到制定的活动目标的信息化日常运维工作,将QC活动的对策和实施进行标准化;对于未能达到活动目标的信息化日常运维工作,则重新进入PDCA改善循环,分析上个PDCA循环中未能达到活动目标的主要症结和原因,从制定新的对策和实施,直到达到活动目标为止。
四、QC方法在信息化日常运维工作中的应用效果
1、提高信息化日常运维工作质量
由于QC方法科学严谨,原因分析准确到位,制定的对策有效,使得信息化运维人员解决问题比以往更为精准、高效、彻底。主管理部门及用户对信息化运维服务的满意度也因此提高。
2、提高信息化日常运维服务水平
在解决运维事件的QC活动过程中,往往会发现,引起事件的根本原因可能是被以往所忽略掉的,也有可能是以往没有发现的。通过问题的解决,杜绝了同一类问题的发生,实现了此类问题的事前运维预防机制,从而提高信息化日常运维服务水平。
3、提升信息化日常运维工作的创新水平
在QC活动中,充分发挥团队作用,不再是以往的单打独斗。各QC小组成员的潜能,从不同的工作岗位、不同的视角对信息化日常运维工作提出改进意见,开拓了信息化日常运维工作的创新思路和解决办法,从而不断地提升信息化日常运维工作的创新水平。
4、实现信息化日常运维工作的全员参与
通过QC活动,将部分信息化日常运维工作进行了标准化,一些简单的运维操作在标准文件的引导下,信息系统使用人员也能自行解决。而且很大一部分使用人员也QC小组成员,参与QC活动,对解决问题也很熟悉,对运维操作也十分练。在QC活动中,提高了信息系统使用人员的运维技能,使他们参与到信息化日常运维工作来,在一定程度上也减轻了信息化日常运维人员的工作压力。
五、QC活动与信息化日常运维工相结合要注意的问题
1、必须要有制度上的保障
QC小组是企业员工的自发组织,它有着群众性组织的特点。而QC活动是在一个全过程的质量控制中,不断发现问题、分析问题、解决问题的一个不断循环往复,不断提升的流程,有着科学的、严格的统计方法和分析工具。所以,为了保证QC活动的高效、有序,企业有必须建立相应的管理制度,从制度上规范QC活动的行为,使QC活动发挥其应有的作用。③
2、建立激励机制
QC活动鼓励的是全员参与、全过程参与,同时,QC小组是自发的群众性组织,建立绩效考核制度,建立适当的激励对小组来说相当重要,这既提高员工的参与QC活动的积极性,又保证了活动的质量。同时,对发挥员工的创造性非常重要。
3、加强人员培训
随着企业的不断发展,员工的素质被放在越来越重要的位置,企业对员工素质的要求也越来越高。培训和教育提高员工的素质的有效途径。而对于员工的教育、培训不能只局限于质量管理知识和方法的培训,要不断加强先进工作方法、管理理念的培训,从生产技能、管理意识、服务意识、创新意识等方面,提高广大员工的各方面的能力,从而更大地提升QC活动成果的创新能力。
六、结束语
随着市场竞争的日趋激烈,全球信息化的高速发展,信息化是决定企业成败的关键因素。QC活动作为质量改进与提高、技术创新的有效手段,将在今后的竞争中发挥越来越大的作用。因此,我们要以更开放的思路与视角,充分调度广大员工的积极性和创造性,使QC活动为企业的发展做出更大地贡献。
参考文献
[1]刘伟.浅谈QC活动在公司信息化管理中的作用.新校园:理论版,2011(11).
[2]李玉红.试论QC活动在企业管理中的作用.企业技术开发,2014(23).
[3]王丽秀.浅谈QC小组活动如何在企业管理中发挥作用.中国集体经济,2012(33).
作者简介
梁海玲(1972-)女,本科,工程师,主要从事信息化管理及信息系统开发研究工作。
1、负责Linux服务器、Windows服务器,MySQL数据库服务器日常运维、优化等工作;
2、负责处理系统日常变更,控制突发情况,对疑难问题进行分析并解决,及各类故障和事务的应急响应和技术支持;
3、监控服务器的运行状态、系统性能,保障产品服务器的稳定性、可用性以及安全性;
4、负责服务器及设备的安装、调试、维护、监控、备份等日常工作;
5、负责对服务器性能监测数据以及故障日志等的分析,协助研发进行相关问题查找;
6、负责办公设备的日常维护及管理,技术档案维护;
任职要求 :
1、本科及以上学历,计算机相关专业,有3年以上系统运维经验;
2、负责网站服务器日常管理维护,对系统进行性能分析、优化、问题跟踪;
3、3年以上Linux系统运维工作经验,熟悉Linux的常用服务配置,并能够快速部署、配置;
4、熟悉linux平台常用服务器的部署,Apache Nginx Rync vsftp等,并且对服务器的安全优化和性能调优有一定的研究;
5、对MySQL和web的高可用架构有一定的研究,理解MySQL主从复制原理,熟悉mysqldump/binlog等备份技术,熟悉日常DML sql语句编写;
6、对各类常用网络或系统检测、分析工具有一定的了解(nagios,cacti);
7、熟悉Shell/Perl/Python编程(至少一种),熟练使用脚本来完成日常系统运维工作;
8、有一定的沟通能力和服务意识,能够承受一定的工作压力,愿意接受7*24小时随时响应工作模式(一般仅重大变更时才会在凌晨配合开发实施);
1、办公设备的安装、调试及维护,熟悉各种桌面以及移动端操作系统;
2、负责公司公用账户申请、备案及管理;
3、负责OA、移动办公APP的日常维护及管理工作,包括系统数据备份、运行状况监测、组织架构调整、用户账号管理、用户权限管理、流程配置、运行过程问题的解决等;
4、负责OA、移动办公APP的功能规划、需求收集、方案编写等工作;
5、负责集团其它信息化系统的建设管理工作。
6.、用户协调和沟通,完成交办的其他工作。
任职要求:
1、计算机相关专业本科及以上学历,5年以上相似岗位工作经验;
2、了解OA或者ERP管理思想,有3年以上OA实施或开发工作经验者优先;
3、具备计算机相关理论基础知识,熟悉资产、文档、项目管理流程者优先;
4、能熟练使用Word、Excel、PowerPoint、Visio、Project等OFFICE工具软件;
5、工作认真、仔细,具备良好的自我学习能力;
关键词:工作流引擎,工作流参考模型,有限状态机模型,三层B/S模式
随着社会生产的流程化,工作流( Workflow) 技术起着越来越重要的作用。工作流[1]是一种反映业务流程的计算机化的模型,它的目标是使企业中大量基于知识与规则的任务和活动能够相互协调一致、高效运作,在正确的时间能够将正确的信息传递给正确的人。 在采用工作流支持其经营过程的企业中,工作流引擎可以看成是企业的业务操作系统,因此工作流引擎的各种性能就直接决定了企业经营过程的运行效率和安全性。
1相关工作
WFMC发布WFMC Glossary( WFMC - TC - 1011) 中对工作流相关名词的定义如下[2]: 工作流引擎( Workflow Engine) 是指负责工作流执行服务中部分或全部运行控制。功能包括解释流程定义; 控制流程实例; 维护工作流控制数据和相关数据; 为用户和应用程序传递数据; 在流程活动之间导航包括串行或并行操作、最终期限调度、工作流相关数据解释等; 识别用户相关工作项; 引导和安排流程活动; 特定参与者的登录与注销; 激活外部应用; 监视活动管理[3]。
工作流管理系统( Workflow Management System) : 运行在一个或多个工作流引擎上,使用软件来定义、创建和管理工作流执行过程的系统,能翻译过程的定义, 能与工作流参与者互动,并且能在需要时调用IT工具和应用软件[4]。
文献[5]以扩展的有限状态机为模型,参考WfMC标准,将工作流引擎的功能划分成5个模块,并采用EJB、JMS、JNDI等J2EE分布式计算技术和线程池、队列调度机制以及BeanSehll脚本解释技术等给出了各个模块的设计和实现方案。
文献[6]设计了基于MVC架构的轻量级工作流引擎,搭建了由客户层、表示逻辑层、持久层和数据库服务层组成的多层次工作流管理系统的整体架构,能根据需要灵活地添加和裁减各种组件来扩展工作流引擎的功能。
文献[7]介绍了B/S模式下文献资料管理系统的设计思路和体系构成,并详细说明了系统开发中的J2EE技术、组件技术、工作流引擎和报表实现等关健技术。
文献[8]在设计和实现中分成了两个大模块: 一是流程的定制; 二是任务流转的调度( 分发) 。实现方便地创建公文流程不需要编写任何代码,构建业务流程并能无缝融合到现有的IT服务流程中,方便流程配置管理通过图形化工具来确定流程的定义功能,方便流程的变更。
在对以上工作研究的基础上,改进了现有的工作流引擎,使之更加符合运维系统的实际需要,并设计了新的路由算法,提高了工作流引擎的效率。
2工作流引擎接口设计
1994年11月29日WFMC发布了工作流参考模型[9],如图1中详细描述了工作流管理系统的主要组成部分、各部分的功能及相互之间的接口。工作流参考模型己逐渐经成为设计工作流系统结构时的参考标准。
图1中WFMC定义的5类接口功能描述如下:
接口1( 过程定义交换接口) : 定义了过程模型的互换格式和读写操作。通过GUI流程建模工具生成一个xml文件,该xml需要符合一定的格式,并最终被接口1模块解析,并导入数据库中,形成流程模型数据。
接口2( 客户端函数接口) : 约定所有用户应用与工作流服务之间的功能操作方式。通过一个Web用户工作项列表,把用户需要完成的任务列出来,并通过连接的方式让用户连接到该人工活动业务,并引导用户一步步完成他所应该完成的工作。
接口3( 应用程序接口) : 工作流引擎和直接调用的应用程序之间的直接接口。通过Java接口和动态载入类的机制,引擎会执行用户指定的各种实现类,或执行批处理,脚本语言等。
接口4( 互操作接口) : 定义不同工作流管理系统之间的信息交互。
接口5( 系统管理与监控接口) : 实现对工作流的管理和监控。管理界面其实是接口2和接口3的一个应用。提供用户查询,动态管理流程,动态改变参与者,并可以使用批处理存单引擎储过程等外部工具, 并能在工作流管理系统中被调用。
3工作流引擎的设计
3. 1工作流对象状态跃迁
工作流对象包括3种: 过程、活动、工作项。每个对象的状态有所不同,各个对象之间的状态跃迁对相互之间都有所影响。总体来说,工作流引擎就是一台有限状态机,里面充斥了各种工作流对象的瞬时状态, 状态之间的变迁也会相互影响,工作流引擎提供了接口让外界系统了解里面工作流对象的当前状态。
工作流执行服务可以看作是一个有限状态跃迁机器,过程和活动中的实例响应外部事件,并且在工作流引擎负责的控制判断后,发生状态的改变。文中工作流过程实例状态变化设计如图2所示。
活动的推进有3种方式:
( 1) 人工活动。推动需要人工干预,本系统中用户在自己的工作项中处理完一个人工任务后,点击 “完成”或“下一步”等按钮,通过这样标志性的动作, 其实就是通知工作流引擎,该人工活动已经完成,需要改变当前活动状态,并且依据条件判定,根据变迁找到后续的活动,并设置后续活动的状态。
( 2) 自动活动。推进可以有两种方式,对于需要定时触发的工具活动,可以由调度器引擎定时调度,本文通过系统自动调用函数f - now( ) 获得当前时间和触发时间,进行触发的判定; 而对于即时自动活动,相关业务完毕,活动被自动激活,由引擎直接驱动执行, 本文通过系统自动调用函数f - mail( ) ,给相应的用户发电子邮件形式进行事件催办。针对自动活动引擎调度采取有限状态机与事件驱动相结合的方式。
( 3) 路由活动。推进相对复杂一些,那是因为路由活动本身可以分为: 有OR发散、And发散,通过对OR、And的组合,可以做出循环路由。文中函数f - next( ) 实现的功能包括可列出当前要处理事务下面的若干个走向,当系统扫描到符合条件的路由,需要根据路由活动的具体类型,分别执行不同的操作。
本文设计的工作流引擎根据相关数据当前的值, 根据当前活动的类型,匹配所依附的条件,以及检索条件所对应的变迁,从而能够得到后续活动的变迁。
3. 2过程实例与活动实例的状态转换
过程由多个活动构成,各个活动之间以串行或者并行顺序执行,然后引起一些活动的状态变化,一个活动的状态改变又会触发其他活动的事件。活动之间的相互影响是通过它们状态的改变来实现的。
表1中,以事件处理这个过程为例,事件处理有若干个活动组成,包括提交事件、分配工程师,工程师响应等,每个活动都有对应的状态,各个活动以串行顺序执行,操作员“提交事件”后状态变为Open,状态的改变将触发下一活动“分配工程师”,然后工作流引擎会自动分配给相对应的操作角色———技术主管来完成这项活动,同时对应的状态也由Open→Assigned,状态的改变又将触发下一活动“工程师响应”,以此类推直到状态为Close,过程结束。
3. 3用户业务流程中工作流引擎的调度
文中用一种过程描述方式说明引擎的调度,采用Spring框架,过程推进如图3所示。
如图3所示,过程的调度需要以下10步完成:
( 1) 提交事件。首先邮件通知技术主管分配工程师,其次将事件中相关的资产状态修改为“维修中”, 然后写入操作日志,最后事件状态为Open。
( 2) 分配工程师。首先邮件提醒工程师响应CASE,其次邮件通知客户CASE已开出并分配给相关工程师,然后插入工程师待响应表,用于工程师响应时限考核,事件状态修改为Assign,最后写入操作日志。
( 3) 工程师响应。首先邮件通知客户CASE已响应,记录工程师响应时长,然后事件状态修改为Eng - pend,最后写入操作日志。
( 4) 备件更换。首先记录变更信息,事件停表,其次将事件状态修改为Rma - pend,然后邮件通知客户CASE进入备件更换状态,最后写入操作日志。
( 5) 现场服务。首先邮件通知客户工程师到达现场,其次记录工程师到达现场时长,然后将事件处理方式置为现场服务,最后写入操作日志。
( 6) 远程服务。首先邮件通知客户工程师进行远程服务,请求配合,然后将事件处理方式置为远程服务,最后写入操作日志。
( 7) 升级到厂家TAC并配合解决问题。首先邮件通知客户CASE进入厂家TAC状态,然后事件状态修改为Cisco - pend,最后写入操作日志。
( 8) 等待用户反馈信息。首先事件停表,其次邮件通知客户,CASE处于等待客户反馈,然后事件状态修改为Cust - pend,最后写入操作日志。
( 9) 问题解决。首先邮件通知客户,CASE已经处理完毕,请求反馈,其次记录工程师处理故障时长,邮件通知客户服务部经理进行事件回访,然后事件状态修改为Close - pend,最后写入操作日志。
( 10) 客户回访,关闭事件。首先进行客户满意度调查,邮件通知客户故障解决,其次将相关资产状态置为“正常”,修改事件的回访状态,可选择是否将事件处理过程整理后放入知识库,可接受用户投诉,将投诉信息录入数据库,然后事件状态修改为close,最后写入操作日志。
3. 4体系结构
文中采用3层B/S模式。Browser作为表示层位于最上层。JSP与Servlets联合使用来实现动态内容服务的方法,它吸取了两种技术各自的优点,用JSP生成表达层的内容,让Servlets完成深层次的处理任务。 它们和实例化的Javabean一起组成了Application Server层,位于中间层。Enterprise Server/Data Sources则作为数据层位于最底层。
图4所示,用户通过浏览器登录到工作流系统,向Servlets提出一个Request,例如请假申请,Servlets充当控制者的角色,负责管理对请求的处理,创建JSP页需要使用的Bean和对象,作为实体类,它与数据库关系最密切,它是由Hibernate逆向生成的。根据用户的动作Servlets决定把哪个JSP页传给请求者,即由JSP给相应的用户一个Response,同样显示在浏览器上。
在这里,采用MVC方式,JSP根据功能的不同,将控制部分由Servlet来控制,UI部分由JSP显示, JavaBean则分解为POJO + 业务逻辑,POJO作为前端界面显示的数据来源,其本身的数据来源,则是来自数据库的Connection在关闭前的一次复制。在构架中应用Spring,借助Spring的申明事务,整合持久层,用单例模式装配各个类。
4工作流引擎的实现
4. 1工作流引擎接口的实现
WFMC定义的5类接口在本工作流系统中得以实现:
接口1( 过程定义交换接口) 。本文形成流程模型数据applicationContext. xml。
接口2( 客户端函数接口) 。本文通过Customer-ServiceInterface接口类来实现,即依据条件查出当前登录人所能看到的所有信息,以任务列表的方式展示给用户。
接口3 ( 应用程序接口) 。本文通过MailServi- ceInterface接口类来实现,通过系统自动给员工发电子邮件的方式,来通知用户有需要处理的任务。
接口4( 互操作接口) 。定义不同工作流管理系统之间的信息交互。在当前版本只实现单引擎。
接口5( 系统管理与监控接口) 。本文通过Use- rServiceInterface接口类来实现系统管理与监控接口, 具有查询用户是否拥有某项管理权限以及查看组织结构下用户列表等功能。
4. 2工作流步骤表的结构
工作流步骤表负责保存系统中所有流程任务实例待处理的记录及任务实例已处理的历史记录。工作流引擎定期扫描该任务表,将任务表中所有待处理的任务实例分配给相应流程中的相应节点。
4. 3工作流的流向控制
工作流引擎的一个核心功能就是要决定任务表中各个任务运行实例的后续处理节点,使任务运行实例按照事先定义好的路线流动,也就是流程的流向控制, 如图5所示,实现了动态流程的管理。
5结束语
1、负责管理靠谱云各zone集群服务器的日常运维管理、故障维护
2、维护靠谱云服务器的硬件管理的监控平台、自动化运维管理平台及工具
3、负责部署、扩容靠谱云系统环境及配置
4、协助完成相关硬件、软件测试
5、强烈的责任心、良好的沟通和协调能力计算机及相关专业
任职要求:
1. 3年以上运维工作经验
2. 精通KVM/xen/vmware/docker等相有使用经验
3. 具备amazon/阿里云/腾讯云等云服务使用经验,对云产品熟悉;
4. 具备mysql/redis/mongodb等数据库运维、开发经验;
5. 深入理解Linux操作系统、熟悉开源的监控平台工具、熟悉网络基础知识
1.负责 Linux 系统的日常运营,包括安装,维护和补丁/升级 Linux 操作系统和各种应用软件;
2.高级故障排除和复杂的问题解决;
3.基于 Linux 的监控系统 Zabbix 的日常操作以及新的功能二次开发和实施;
4.监控系统事件以确保健康,最大化系统可用性和服务质量;
5.构建相关脚本以自动和大规模地完成日常工作;
6.维护有关平台的配置,操作和故障排除过程的文档;按照指示参与标准,指南,***做法和指标的定义。
岗位要求:
1、计算机专业,网络运维 3 年以上;
2、熟悉网络基础管理,熟悉网络设备,熟悉桌面运维,域控,权限管理;
3、熟悉 Zabbix 系统,Python,Oracle;
4、熟悉网络交换、路由基本原理,熟悉计算机网络管理基础技术;
5、熟悉机房管理要求,熟悉机房基础设施的基本管理和技术;
6、熟悉交换机路由器,能够独立上架、调试局域网;
【运维工程师工作内容】推荐阅读:
网络运维工程师简历12-13
运维工程师的岗位职责09-28
高级运维工程师岗位的基本职责11-09
服务器运维工程师的岗位职责概述11-28
送电线路工程工程内容02-06
工程师工作证明12-08
工程建设公司助理工程师年终工作总结10-19
置业公司工程部土建工程师工作总结01-23
电气工程师学习内容06-25
土建工程师工作小结07-15