大数据运维技术文档

2025-01-31 版权声明 我要投稿

大数据运维技术文档(通用9篇)

大数据运维技术文档 篇1

1、负责大数据平台Hawq数据库运维;

2、负责大数据平台Tbase数据库运维;

3、负责传统数据(Oracle、MySQL等数据库)数据迁移、数据同步;

4、负责日常数据库的监控及问题分析排查;

5、负责OGG、Kafafa等组件数据传输同步日常运维;

6、负责数据库的优化、SQL语句的优化调优;

7、负责数据同步的检验与异常处理,确保数据的一致性、完整性、及时性;

8、负责制定数据同步方案及实施。

任职要求:

1、大专或以上学历,计算机或统计类相关专业

2、有3年以上技术类或数据类的开发经验;

3、熟练linux 系统操作及linux 运维监控、软件安装配置;

4、熟悉大数据技术,如Hadoop、Spark、storm、zookeeper等;

5、熟悉主流数据库mysql/sql serverl/oracle/postgreSQL等,精通SQL语句,对复杂SQL能进行优化,能熟练编写存储过程;

6、熟练Linux SHELL,可以进行运维SHELL开发;

7、学习能力强,责任心强,具有优秀的沟通表达、理解能力与团队合作能力;

8、有CentOS 7、Red Hat 7等Linux操作系统,有Shell脚本编写经验的优先。

9、有3年以上的基于MPP(greenplum ,HAWQ,Vertica,GBASE等MPP DB)数据仓库的实际运维经验或3年以上 HIVE、SPARK 实际项目运维经验

大数据运维技术文档 篇2

而安全播出是广播电视技术工作中的重中之重, 技术保障又是确保安全播出的重要手段。首先要保障制作系统与播出系统设备的稳定运行, 从而保障节目的正常制作和节目的正常稳定与高质量的播出。为保障系统7×24小时不间断的稳定运行, 从根本上需要有效地预防故障的发生, 快速地隔离、诊断和解决现有设备故障。

解决上述问题需要做到两个方面:第一, 全面监测监控物理设备运行状态, 详细掌握各种系统资源的利用情况及设备的健康状况;第二, 精细化分析软件日志, 及时高效解析软件运行过程中报警信息, 快速判断软件报警原因, 规避与消除在用系统的潜在缺陷。

面对设备数量快速增加且日趋复杂的播出系统, 仅靠人力进行系统运行状态的实时掌握、软件故障快速分析与定位变得非常不现实。这种情况就需要一个智能系统帮助运维工程师完成系统的全面且精细化的监控与智能分析工作, 从而实现敏捷运维的目标。本文以敏捷运维的目标设计了大数据智能运维系统。该系统基于播出设备网络互联互通的情况下, 实时汇聚与分析设备的监控信息和系统运维日志信息, 并由系统智能分析与展示大数据中的价值数据, 帮助运维工程师快速全面了解系统的运行状况, 实现敏捷运维的目标。

一需求提出与系统简介

广播电视系统是一个多方位、系统化的技术系统。采、编、播是主要组成部分, 其中播出系统是最重要的环节。其他的环节都有补救机会, 而播出环节是无法补救的。播出系统是广播电视系统中的关键环节, 各级电视台都把安全播出放在各项工作的首位。播出设备的稳定运行是播出安全最基本的保障。而现代播出系统已基本实现播出素材数字化与硬盘化、文件交互网络化、控制播出软件化与智能化。在整个智能播出系统运行时产生了大量的日志信息与任务运行中间数据, 这些数据记录了播出系统的日常工作内容、设备的运行状态和设备的健康状态等运维信息。但此类数据量大且为非结构性的数据, 仅靠人力无法使大量数据价值化, 大数据分析智能运维系统的需求便由此而生。本系统功能主要包括日志的整理、汇聚、分析, 并从杂乱无章的数据中提取出高价值数据。根据大数据分析系统的价值数据, 运维工程师可以更加及时准确地掌握设备性能与健康状况, 从而更合理地制定设备的维护策略与方案;同时在系统设备故障出现时, 运维工程师可根据价值数据快速进行系统故障定位, 从而提高快速设备故障恢复的能力。

二大数据分析与智能运维系统设计

本章节详细叙述了播出大数据智能运维系统的设计。根据播出系统应用需求做出详细分析, 并结合需求进行系统逻辑设计, 模块划分与物理架构设计。

1. 应用需求分析

播出系统大数据分析, 注重三个方面的应用需求。一、设备硬件资源利用率统计, 报表自动生成;二、非表现故障的预警提示, 可视化报表展现;三、表现故障相关信息关联与检索, 高效快速定位问题。设备利用率的统计与报表自动生成功能可以统计系统中在用设备的资源利用情况与执行各项任务所占的比重。运维工程师可以根据统计报表进行系统设备的优化和系统内运行策略的优化。如播出服务器的工作中含有素材的迁移和素材的播出两大任务, 可根据任务执行时间的集中程度对迁移任务策略进行调整, 使系统资源的利用情况更加优化。非表现故障与预警提示功能是做到播出系统设备精细监控与实时洞察系统风险的主要需求。目前在用系统在设计上具有硬件的冗余和软件节点冗余, 其主备冗余保障了单点故障不影响系统的正常运行, 但故障预警信息的及时处理有助于保持设备的容错性能。对于更隐蔽的预警信息的整理与统计可以帮助运维工程师提前制定处理预案。如播出服务器RAID中出现的硬盘预警信息Hardware Errors、Bad Blocks、Read Errors、Write Errors等, 当这种报警出现次数过多时, 就预示着此块硬盘将会被系统剔除, 及时准备应急方案更能保证媒资数据的安全。因此实时接收与分析此类非表现故障预警信息并及时处理有助于系统的良好稳定的运行。表现故障相关信息的展示与检索功能是敏捷型运维的一种有效且重要的辅助功能。如果此功能投入播出系统中应用不但可以保证播出系统中表现故障的快速定位, 同时也有助于播出系统中新上线子系统的故障快速收敛和系统隐型BUG的挖掘, 从而保障新系统后续应用中的稳定运行。软件在IT化的播出系统中大量应用, 就造成了播出系统中出现的故障信息不能仅仅靠硬件的警示来定位故障点。如调改已经预卷的节目会造成节目播出时出现播出不流畅故障, 仅仅从素材播出不流畅的故障无法判断出系统故障原因, 这就需要分析如下日志信息:素材技审日志信息, 节目调改日志信息, 素材管理日志信息, 播出通道硬件设备日志信息。根据这些信息进行整理, 提取与分析可以找到故障的真正原因是因为调改了已经预卷的素材;仅靠人力进行分析可能需要长达一周的时间, 因此敏捷运维需要表现故障相关信息的智能展示与检索功能。播出系统大数据智能运维需求可总结为三类。图1标示了三种情况的流程循环。三种情况流程均为闭环式模型, 类似于PDCA (戴明环) 循环。此流程循环不断运转、前进、提高, 有助于系统在运转过程中不断的完善与优化, 降低播出系统风险, 加强系统稳定运行。

2. 系统逻辑架构设计

整个播出系统中产生的运行数据因量大、非结构化、分布较分散等特点需要系统实现分布式运行, 从而实现分散数据的聚合, 数据关键词的高效检索, 故障信息自动关联等功能。同时为保证子系统功能设计的完备性、子系统功能模块的低耦合性和项目开发的可行性需进行子系统逻辑架构设计。图2描述了数据汇聚子系统与数据分析子系统的逻辑架构, 分别为数据导入层、分析层、访问层和用户接口层四个层次。各逻辑层次主要功能如下:

(1) 数据导入层

数据导入层的主要功能为把播出系统运行中产生的原数据汇聚并导入到大数据分析系统。播出系统中在用设备种类繁多, 为保障数据导入层开发功能的完备性, 需要对播出系统中在用设备汇总与分类:视频流设备, 其中含播出服务器, 键控板卡, 视分板卡, 音频处理板卡, 矩阵, 切换开关, 编码器, 复用器, 光传输设备, 同步发生器, 同步倒换器等;以Windows服务器为主的播控机、素材管理服务器、迁移服务器、接口服务器、数据库、域控、素材上载服务器, 字幕播出机, 字幕服务器等IT服务器;以交换机为主的网络设备。因设备种类众多, 运行过程中产生日志信息与硬件监控信息等运行数据的记录方式各不相同, 需要对设备详细分类并定制开发获取设备数据信息的接口。因此功能为大数据分析的基础功能且需要在不同主机上分布运行, 其子系统功能设计将在后续章节中详细说明。

(2) 数据分析层

此层是大数据分析平台的核心功能模块, 包括数据存储、数据分析和参数配置三大功能模块, 具体需要满足以下要求:一、导入数据存储的安全性保证数据原始准确;二、检索功能:搜索速度较快, 并能根据用户自定义模式提取价值数据, 支持按KEY或VALUE的检索展现数据简讯, 支持命令检索;三、分析功能:能够根据规则或者用户模式对检索结果进行统计, 按照用户设定的智能模式形成趋势分析;四、能够按智能模型完成定时检索任务, 生成价值数据提供给上层调用;五、能够按照用户智能数据检索模型, 从结果数据, 中间数据, 预测数据进行关联聚合;六、具有用户权限管理功能与参数据配置管理功能。

(3) 数据访问层

封装数据分析层接口, 为用户层提供功能调用接口, 保障用户层功能的快速开发与应用, 降低数据分析层与用户层的耦合性, 便于后期在不影响用户层功能使用的情况下, 进行数据分析层功能的开发与更改。

(4) 用户层

调用数据访问层接口, 封装开发用户检索展示界面, 计划定时任务配置界面功能实现, 报表展示界面等功能开发。智能运维功能的开发需要建立播出系统数据智能分析与关联模型, 根据不同数据的相关度建立价值数据的智能分析关联。播出系统各频道播出相对独立, 便于开发针对各频道播出通道的智能分析模型。频道播出通道软硬件故障与报警信息可以根据末级信号的质量检测结果按时间相关度进行关联与展示。但整个播出系统各子系统内与子系统间的信息关联度各有不同, 因此用户层应提供更适合用户需求的快速开发与应用的用户层接口。

3. 数据汇聚子系统模块架构分析设计

数据汇聚子系统需要汇聚播出系统中产生的运行数据与监控信息数据。此模块是系统中唯一多主机交互运行模块。因此本小节对此子系统进行了详细阐述。如图3所示系统数据汇聚分析平台需要汇聚Windows服务器的事件日志、注册表项、文件系统、与中断情况等信息;汇聚Linux服务器的操作系统的配置信息、系统日志、文件系统、进程、接口状态等信息;读取数据库的日志信息、播出系统节目条目表项、播出系统设备监控表项等信息;汇聚播出系统交换机的配置信息与日志信息;汇聚播出服务器的配置与日志信息;汇聚视分、音频处理器、键控器、矩阵设备等周边板卡设备的配置信息、监控信息与日志信息;汇聚播出应用软件的配置信息与日志信息。

播出系统具有设备种类复杂、数据信息来源多样性等特点, 因此数据汇聚分析平台需要数据提供多种的数据汇聚导入接口。本文针对播出系统数据类型进行统计后, 规定五种数据导入方式。一、Windows服务器实时监控数据转发。利用Windows的核心管理技术WMI (Windows Management Instrumentation) 进行数据导入层关于Windows服务器进程、设备资源监测管理的需求的开发, 并对获取到的数据进行平台存储与分析。二、文件日志进行FTP方式传送到数据汇聚平台进行存储。如Omneon播出服务器的日志文件与配置文件, 播控软件日志与配置文件可由本地代理进行监视和增量转发到数据汇聚平台, 保证转发的日志文件的完备性的同时, 减少文件传输对网络带宽资源的占用。三、UDP数据转发器转发数据到数据汇聚平台, 因可利用现有开源的Windows、Unix/Linux服务器的事件与日志信息收集转发工具, 可减少代理终端的开发工作, 数据汇聚平台需要具有监听UDP端口接收与存储数据。四、TCP数据转发器转发数据到数据汇聚平台, 数据汇聚平台监听TCP端口接收与存储数据。五、SNMP信息管理接收器获取设备信息并以文件方式进行平台存储。播出系统周边板卡如LGK键控器, EAP处理器, 二选一控制开关等设备支持SNMP管理功能, 因此利用SNMP对应用进行管理与监测需要数据汇聚平台具有支持相应功能的接口。

源数据是大数据的根源, 也是利用数据分析功能的基础。因此设备运行相关数据收集是否完备直接关系到大数据智能运维系统是否具有应用价值。因此数据汇聚平台的功能开发应具备现有播出系统完备数据获取能力, 同时新增设备采购时应着重考虑与现有大数据汇聚平台的兼容性。

4. 物理架构实现

如图4所示, 索引服务器作为数据汇聚分析平台的物理运行设备, 需要具有两大功能:大数据存储功能和大数据分析功能。两台索引服务器存储源数据与分析结果中间数据于播出系统云存储;索引服务器保障源数据存储的安全性与完备性, 同时中间数据的存储可提高索引服务器再次检索的效率。索引服务器负载均衡地接收各种接口转发过来的原数据信息并进行增量存储。同时索引服务器也接受来自Search Head的搜索分析请求, 对数据进行搜索分析返回结果给Search Head进行展示。对于Search Head发起的搜索结果 (如图4红线所示) 被写回到索引服务器上。两台索引服务器负责均衡和互为备份, 增加索引服务器工作的稳定性与连续性。两个Search Head承担不同的工作分工, 其中Search Head1提供Web界面展现, 用户可以登录使用, 查看报表、定制自己查询逻辑和查看智能运维模型结果数据, 同时提供用户权限控制;Search Head2提供所有的计划搜索调度节点, 智能运维模型的开发与计划任务所产生数据的分析与关联。所有报表与数据都通过Search Heard2进行调度产生, 其上不存储任何结果数据, 结果数据都写回到索引服务器上, 结果价值数据存储按照智能运维模型进行结构化存储, 便于价值数据被查看与展示。

三结束语

早在1980年, 著名未来学家托夫勒在其所著的《第三次浪潮》中就热情地将“大数据”称颂为“第三次浪潮的华彩乐章”。《自然》杂志在2008年9月推出了名为“大数据”的封面专栏。从2009年开始“大数据”才成为互联网技术行业中的热门词汇。而在云计算出现之后“大数据”才凸显其真正价值。总之, 网络的互联互通与云计算的发展推动着大数据的应用, 同时大数据正作为重要的工具应用在庞大云计算系统的运维工作中。本文针对播出系统的智能运维需求提出了方案设计, 其设计具有普遍性与通用性。电视技术中云非编技术, 云存储与云播出技术的快速发展与应用, 使得大数据智能运维的价值更加突出。电视系统中大数据智能运维将会得到更大的发展与更广的应用。

摘要:播出系统的稳定运行是安全播出的必要条件之一, 系统优化和敏捷运维是保障播出系统稳定运行的重要手段。播出系统IT化、智能化、云计算、云存储等技术的应用使得播出系统更加复杂, 从而增加了系统优化和敏捷运维难度。本文针对播出系统优化与敏捷运维的需求, 设计了大数据智能运维系统。大数据智能运维系统能够帮助运维工程师快速全面了解设备健康状况与故障问题快速定位, 实现播出系统优化与敏捷运维的目标。

大数据——战略.技术.实践 篇3

大数据是一个当今的热点话题,主要是因为我们的世界正在经历信息革命。数字信息或“大数据”如今已是Zettabyte数量级(1ZB=1000000000TB),并且还在以每10年100倍的速度持续增长。在未来15年内,大数据总量将超过1yotta-bytes(相当于1000000000000TB),甚至连个人的私有数据也将达到1Petabyte(相当于1000TB)。数据的增长所引发的模式变革已经渗透到世界的各个方面,包括科学、工程、医疗、教育、金融、安全、国防、商业,甚至政治,而人类面临的巨大挑战是如何把爆炸式的数据增长转化为爆炸式的知识增长,进而造福整个世界。因此,每个人都应当或多或少对大数据有所了解。然而,目前大多数关于大数据的书是为专业人员写的,对于非专业人员的一般读者来讲可能有些难度。

本书的作者考虑到一般读者的需求,既面向IT专业人士,又照顾到专业外的广大读者,通过多种表现形式,力图使得本书尽可能通俗易懂。作者以综述的方式概述了大数据的趋势,它的系统构架、管理、分析和企业应用,并且提供了很多相关的参考资料,包括产品、书籍和技术论文索引等,来方便读者的延伸阅读。对比以往的大数据专业书籍,这种方式是本书的与众不同之处。尽管相对简短,但本书涵盖了关于大数据的诸多论题。

本书适合多种类型的读者,包括想对大数据有大概了解的,想了解大数据系统和软件应用的,想学习大数据基本概念和方法的,以及想通过大数据提高企业生产力的。这些读者都能够受益于本书。

大数据运维工程师的具体职责描述 篇4

1. 负责大数据ETL系统,运维及保障服务稳定可用;

2. 负责数据采集交换方案以及联调测试;

3. 负责采集交换任务的评审和上线;

4. 负责及时排除ETL流程故障,形成知识库,完善运维文档;

5. 负责监控和优化ETL的性能,持续性地提出改进自动化运维平台建议

技能要求

1. 计算机科学或相关专业本科及以上学历;

2. 熟悉Linux系统,熟练编写shell/perl/python一种或多种脚本语言;

3. 熟悉Hive、Hadoop、MapReduce集群原理,有hadoop大数据平台运维经验者优先;

4. 熟悉数据库的性能优化、SQL调优,有相应经验;

大数据运维技术文档 篇5

1、负责云平台等基础环境规划及建设,虚拟化等技术实施;

2、负责机房物理设备的日常巡检,对云平台及大数据运行环境的日常维护,保证运行环境的安全和稳定,对突发事件进行快速处理和恢复;

3、负责Hadoop集群的部署及日常维护,熟悉Hadoop生态圈组件的配置与调优;

4、负责硬件设备和系统软件购买采购数的拟定,以及运维相关技术文档的整理和维护。

任职要求:

1、***优先,30岁以下,计算机相关专业,统招本科及以上学历,3年以上中、大型云平台服务器运维经验。

2、具备基本的机房建设及管理能力,能对机房内服务器、交换机、路由器等物理设备巡检维护数据备份及恢复。

3、熟悉TCP/IP协议,熟练掌握CISCO路由器、防火墙、交换机配置,具备一定的网络规划和组网技术能力,负责VLan及子网划分,提供内外网及VPN连接等网络接入方式;

4、熟悉KVM/Docker等虚拟化技术,及基于VMWare/OpenStack云平台的搭建及运维;

5、有丰富的Hadoop生态系统运维经验,了解Hadoop、STorm、Spark、Kafka、zookeeper这些组件的原理,具备部署、实施、维护hadoop集群及相关组件的能力。

6、熟悉Zabbix、Nagios等开源运维监控系统,熟悉通过LVS/Keepalived/Hearbeat技术实现负载均衡,了解CDN技术。

7、有中大型云平台数据中心容灾建设方案(一城两中心、两地三中心)实施经验者优先;有思科认证(CCNA/CCNP/CCIE)证书者优先。

大数据运维技术文档 篇6

讲师介绍:

吴晓光,唯品会it运维部开发经理、20年一线奋斗经验,10年以上互联网企业it运维领域研发经验。曾在腾讯、卓望、唯品会等互联网公司任职,对数据在it运维领域的应用有着深刻的理解,现致力于唯品会智能化it运维平台的建设工作。前言:

在it运维中我们会碰到各种各样的问题,但有些问题我们经常重复遇到,并且形成了一些提问范式,如:

“有问题或故障发生吗?”,这个提问转换成数学问题就是建立“异常检测”模型; 当我们确认有问题时,我们本能地会问“哪里出了问题”,这便是一个“根因分析”问题; 对于一家电商公司来说,促销前总是要对线上系统进行容量评估和扩容,这里便有一个“预测”模型需要被建立;

当我们每做完一个项目,需要对项目需要达成的目标进行定量的评估,这便是一个“绩效分析”的问题。

目前各类数学模型的输出在我们的具体工作中主要被用作辅助决策来使用,有两个原因使我们还不能直接把结果自动地用于决策:一是我们对数据的使用能力还不能做到面面俱到,很多业务知识还无法用算法描述;二是算法的输出结果一般都是有概率的,在很多需要“绝对正确”的场合只能作为参考。在实际工作中,算法和业务规则库都会进行建设,用来帮助it运维人员更容易和正确地做出决定。It运维数据处理技术应用

对于数据处理技术来说,我们主要是需要解决以下五个方面的问题: 数据的准确性、及时性 海量数据的实时计算 多维数据的实时监控 多维数据的展示 A/B测试实现方法

这里有些问题在行业里已有比较成熟的解决方案,有些可能就不是每个公司都会碰到。首先我们看数据采集,对唯品会来说,我们主要是两类数据,一类是日志数据,一类是数据库数据。

对于it运维日志数据来说,我们有两类采集,一类是客户端的日志采集,一类是服务器端的日志采集。对于服务器端的日志采集,实际上是比较简单的,一般来说就是落到本地盘之后,通过Flume传送到公司的Kafka集群,然后大家在上面消费。对于客户端行为的采集,分成两种,一种是Web端的采集,一般来说就是通过异步请求在Nginx上落日志;第二个是APP端的采集,一般是通过一个接口调用的方式,把这些数据落到服务端,再由服务端把这个数据收集起来。对于数据库的采集,实际上我们也是有两种方法的,一种是直接在从库上来做这种指标的计算,还有一种就是对于复杂的应用,我们会把DB的Binlog做一些解析,解析完了之后放到一个消息总线上,实际上就放到Kafka上,然后让大家来进行一个消费,每个应用都是根据自己的特点,重构自己的数据结构。有些会还原数据库,有些就直接用消息来计算指标,具体要根据情况进行分析。

上图主要描述了唯品会用到的一些主要开源产品,基本上是这样。数据计算是比较重要的一环,实际上要兼顾性能和灵活性两个方面。对it运维日志的处理,会有一个日志解析程序来消费Kafka的消息,“日志解析”实现一个实时ETL的过程,我们会根据配置(基本配置也跟ETL差不多)去生成预定义的标准格式,后续就交给Spark做聚合。“日志解析”由于日志之间没有相关性,可以Map之后并行计算,吞吐量和资源的投入是成正比的,这样效率就没有什么太多的问题。

对于Spark的聚合配置,一般来说我们会把日志解析完的数据进行定义,定义各个字段是维度或是指标,然后会做一个全维度的聚合。这里面实际上也是有个要求的,我们要求所有的指标在各个维度上都具有累加性,如果不具备累加性(比如百分比这种指标),我们在Spark里是不做聚合的,只是在展现的时候重新计算。计算好的数据会放到一个OLAP和MOLAP的数据库里。还有一种情况,是通过脚本在数据库从库上直接进行指标的计算,一般用于只有时间维度的指标计算,配置好的计算脚本,我们会用公司开源的一个产品Saturn来进行一个分布式调度。Saturn这个东西还是不错的,推荐大家去尝试一下。对于日志的详细查询,我们还是放到ES里,通过全文检索的方式来查询。It运维数据展现是最终的结果输出,实际工作中,我们对结果数据的查询效率要求比较严苛。因为这些结果数据不仅用于前端,还用于告警输出等各个方面。对于告警的数据我们需要做到毫秒级响应,前端界面一般要求是在3秒内渲染完成。为了完成这个要求,我们构建了一个ROLAP数据库,还有一个MOLAP的数据库,在ROLAP的数据库里,一般只存当天的多维数据,而在MOLAP的数据库里,会存历史数据。对于MOLAP数据库的检索,由于应用主要是切片方面的需求,基本上都是K-value模式的一个检索,所以它比较快。MySQL里一般是存放单维度指标,应该这么讲,它不是多维数据。Redis缓冲里,一般会存放我们的秒级数据,还有一些配置信息。这个架构中,最后通过Application Server进行一个数据的整合,来满足前端数据的一个展示要求。

大数据运维技术文档 篇7

随着智能电网[1,2]的建设, IT信息系统广泛应用于各级电力单位和各业务系统中, 覆盖了电网公司人、财、物、营销、生产等所有部门, 庞大的系统规模和复杂的系统关系给IT运维工作带来前所未有的挑战。

目前, 国内电力企业的IT运维管理[3]存在着以应用为导向、业务区域分散、被动的运维管理等问题, 无法满足电网企业日益增长的多业务变革、智能化个性化服务的需求。本文提出的IT运维驾驶舱系统基于统一的IT运维支撑信息平台, 通过对关键绩效指标 (Key Performance Indicator, KPI) 的智能分析, 采用服务方式提供关键异常事件的预警和智能决策支持, 满足智能电网对IT运维系统保驾护航的需求。

为加强电力二次系统的安全防护, 电监会和国家电网公司规定了“安全分区、网络专用、横向隔离、纵向认证”四项基本原则[4,5]。随着电力二次系统安全防护技术方案的实施, IT运维驾驶舱系统支撑信息平台跨安全区数据采集和数据集成成为运维系统智能化必须首要解决的问题[6,7], 为此, 本文提出了一种基于“虚拟隧道”和服务代理的跨安全区数据传输技术, 实现运维驾驶舱全域IT系统数据采集和跨安全区数据传输, 同时提出了多隔离装置下的大信息量跨区传输负载均衡方法。

1 IT运维驾驶舱

IT运维驾驶舱 (IT Operation and Maintenance Cockpit, ITOMC) 系统基于统一的支撑信息平台实现对域内所有IT基础设施产生的数据进行采集和整合, 在完成对IT系统平台设施和业务应用全面管理的基础上, 借助于支撑服务和应用服务实现IT系统的智能监控和风险预警, 并使用驱动引擎技术进行深层次的数据挖掘, 对数据进行系统分析和评价, 为企业各级用户提供基于IT运营的决策支持, 实现运维系统从“以应用为中心”向“以服务为中心”转变, 从“隔离分散状态”向“协同集中方向”发展, 从“被动运维”向“主动服务”转变, 服务创新与技术创新并行, 为电网的智能化发展奠定基础。IT运维驾驶舱体系结构如图1所示。为了满足日常管理和系统安全的需要, IT运维驾驶舱部署在二次系统安全III区中。

2 驾驶舱跨区数据集成体系结构

电力系统中部分安全I、II区 (内网) 的生产控制系统在安全III、IV区 (外网) 进行了镜像方式的部署, 如EMS、DMS、SCADA系统等;部分安全III、IV区的生产管理系统对安全I、II区进行了信息延伸, 如水调系统、雷电气象监测系统等;同一系统内、外网组合形成一个完整的自动化系统单元。

为实现多维度、全方位的辅助分析和决策支持, 运维驾驶舱需要对管理域内4个安全区所有的IT系统进行统一的数据集成, 并将完整系统单元的IT运维高级分析结果回传到安全I、II区, 作为内网生产控制系统自身运行安全的重要考核指标, 为智能电网安全稳定控制提供有效的支撑服务。运维驾驶舱支撑平台跨区数据集成体系结构如图2所示。

3 驾驶舱跨区数据传输技术

IT运维驾驶舱跨安全区数据传输技术是基于虚拟隧道下的透明网络通信, 通过内外网分别部署的服务代理程序间协同工作, 共同实现跨安全区数据交互的方法。在大量运维数据跨区传输的同时, 考虑多个物理隔离装置下的动态负载均衡问题。

3.1 虚拟隧道

正向物理隔离设备只允许内网程序向外网程序发起TCP连接, 连接完成后内网程序可发送TCP报文, 外网只允许发送长度为1字节的TCP短报文;反向物理隔离设备实时读取外网指定目录下的文本文件, 采用加密的方法将文件传输到内网, 在解密后将文件存放到指定的目录。本文提出的虚拟隧道是通过安全区内的网络设备和隔离设备, 在完全满足正反向物理隔离传输要求下, 利用多线程并发和校验报文的方式, 实现消息和文件传输链路的封装, 在数据包到达对端后, 对数据包解封并恢复的完整过程, 在此基础上实现应用程序编程接口 (Application Programming Interface, API) 的封装。

1) 数据封装及解封:对简单网络管理协议 (Simple Network Management Protocol, SNMP) 数据、分段文件数据、系统信息等报文消息进行封装, 添加辅助报头信息并传输;对端在接收到数据包时按照定义的报头信息进行解封, 生成本地服务代理程序能够处理的格式。

2) 报文校验:为所有的应用服务建立稳定的TCP连接, 在传输信息时, 通过校验返回报文的方式确保应用层信息可靠传输, 并监视传输通道和隔离设备的状态。

3) 并发处理:服务代理程序实现本地任务处理的同时支持对端的服务请求事务, 并为每个事务创建子线程处理当前的服务请求。

4) 应用接口:封装II、III区报文、消息、文件等应用层基础API接口, 支持上层服务代理程序的透明访问。

3.2 负载均衡处理

随着内外网间IT运维及其他应用系统跨区交换信息量的增多, 正反向物理隔离的性能成为系统瓶颈, 针对该问题文献[8]提出一种负载均衡方法实现多隔离装置下的跨区数据传输负载均衡, 算法采用静态IP地址和端口的方式实现散列进行任务分配, 但未考虑实际链路上应用跨区传递的数据量大小和隔离装置失效等重要问题。

针对以上问题, 本文提出一种改进增强型的运维驾驶舱动态均匀散列负载均衡算法。算法的具体实现如下。

1) 物理隔离装置集合G={G0, G1, ..., Gn–1, }, 隔离装置状态集合S={S0, S1, ..., Sn–1, }, 其中n表示隔离装置的个数;Si表示隔离装置Gi的工作状态, 取值为0或1, 其中0表示失效状态, 1表示可用状态;隔离装置的动态权重, 其中表示静态指定的隔离装置权重, 代表隔离装置的实际处理能力, 取值范围是[0, 10]。

2) 时间t内隔离装置传输的信息量集合D={D0, D1, ..., Dn–1, }, 隔离装置群组信息量和为, 比例系数为:

当max<ϕi时, max为最大比例因子, 默认等于5, 则t时间内, W (Gi) 取整数部分, 隔离装置群组权重和为。

3) 动态均匀散列:跨区传输链路标示为[源IP, 源端口]二元组, 将该二元组通过移位运算转换为整数N, 其取值范围是[0, 248–1]。取素数P作为黄金分割点, 使得散列值分布均匀, 得到传输链路的域值:

其中, hash (N) 取值范围为。

4) 对hash (N) 值域进行映射, 映射函数为:

5) 将满足hash (N) R (Gi) 条件的跨区数据传输链路分配到隔离装置Gi上。

运维驾驶舱动态均匀散列负载均衡算法不仅考虑了隔离装置的实际处理能力, 同时将装置的实际工作状态和某时间段内传输数据量作为基本条件, 动态调整隔离装置的权重, 该算法能确保跨区数据传输负载均衡, 有效避免隔离设备资源不合理利用造成的系统瓶颈问题。

3.3 服务代理

基于虚拟隧道和负载均衡算法的服务代理是部署在内外网的应用代理程序, 实现运维驾驶舱跨安全区IT系统运维数据的交互, 包含II区服务代理和III区服务代理2部分。

1) II区服务代理程序:集成驾驶舱数据采集层协议实现I、II区IT系统运维数据的采集、采集结果文件或报文的传输、III区驾驶舱系统中的IT系统运行状态分析结果文件的接收和解析入库、服务代理程序间的消息通信、外网服务请求XML文件处理等。I区、II区IT系统运维数据采集结果主要包括SNMP报文数据、日志文件、数据库文件、API和Web Service接口产生的XML文件等。

2) III区服务代理程序:接收内网传输的采集结果文件或报文传递给驾驶舱前置数据处理系统、定时和异常状态下实时生成XML格式的运行状态分析结果文件回传到内网、代理程序间的消息通信、服务请求XML文件的生成等。

基于内外网服务代理机制将位于隔离设备两侧的IT系统运维数据进行有效集成, 彻底解决智能电网下运维驾驶舱对全域IT系统进行运维数据采集的难题。通过对服务代理程序支撑协议的扩展, 可满足更广领域中其他应用跨安全区数据传输功能的要求。

4 应用案例

4.1 运行环境

国网长治供电公司IT运维系统部署在安全III区, 实现对当前所有业务系统的服务器、数据库、中间件、网络设备及重要应用的统一监控和分析。其中二次系统安全防护数据传输包含的硬件主要有正向物理隔离4台、反向物理隔离2台、防火墙4台、服务器4台、交换机2台, 均采用冗余备份方式部署;软件采用Linux操作系统、Java开发语言。

4.2 跨区数据传输

1) 应用策略。不同的数据源类型, 如SNMP报文、日志文件、数据表文件、XML文件等分别设置固定端口和数据最小采集间隔时间, 同一个端口基于虚拟隧道和负载均衡支持多链路通信;基于数据源的上层应用业务划分由运维系统完成, 分析结果返回以完整业务为单元。

2) 应用分析。对跨区数据传输性能和负载均衡算法进行了统计分析, 结果表明该方法在实现大数据传输的同时能够保证传输性能。分析结果见表1、表2所列, 其中表2的约束条件为n=4, W (G) = (2, 2, 1, 1) , S={1, 1, 1, 1}, t=30 min, 高负载率>0.5。

5 结语

为解决电网企业信息化系统大规模应用下日益增长的智能化服务需求等问题, IT运维驾驶舱系统通过对IT系统信息实时采集和KPI指标的智能分析, 实现IT系统运行态势快速感知和全面操控, 满足智能电网对运维系统的新要求。为了解决电力二次系统安全防护下运维驾驶舱跨区数据集成问题, 提出一种基于虚拟隧道和服务代理的跨安全区数据传输方法, 虚拟隧道屏蔽了跨区传输繁琐的应用编码问题, 服务代理通过调用其应用接口即可实现数据的双向交换;同时为解决大数据传输时物理隔离不合理利用带来的性能瓶颈问题, 提出了多隔离装置下的大信息量跨区传输负载均衡方法, 显著提升了跨区数据传递性能。

本文提出的智能电网运维驾驶舱跨区数据传输系统为国网长治供电公司IT运维系统的关键技术, 经过实际部署和对运行结果分析表明, 该系统有效地解决了运维驾驶舱系统跨安全区大数据传输问题。

摘要:针对智能电网下传统IT运维系统存在的以应用为中心、业务分散等问题, 提出了IT运维驾驶舱系统的概念, 并建立了系统的多层次体系结构;为解决二次系统安全防护下运维驾驶舱跨区数据集成问题, 提出了一种基于服务代理的跨安全区数据传输方法, 详细阐述了虚拟隧道、多隔离设备跨区传输动态负载均衡、内外网服务代理等关键技术。经过实际部署运行, 该方法有效地解决了运维驾驶舱跨安全区大数据传输难题。

关键词:智能电网,IT运维,驾驶舱,安全区,数据传输

参考文献

[1]曹军威, 万宇鑫, 涂国煜, 等.智能电网信息系统体系结构研究[J].计算机学报, 2013, 36 (1) :143–167.CAO Jun-wei, WAN Yu-xin, TU Guo-yu, et al.Information system architecture for smart grids[J].Chinese Journal of Computers, 2013, 36 (1) :143–167.

[2]国家电网公司.国家电网智能化规划总报告[R].2010.

[3]张宏伟.电力企业IT运维服务管理分析[J].电脑与电信, 2007 (12) :46–48.ZHANG Hong-wei.The analysis of IT operation services management in electricity enterprise[J].Computer&Telecommunication, 2007 (12) :46–48.

[4]国家电力调度通信中心.电力二次系统安全防护方案[R].2004.

[5]张王俊, 唐跃中, 顾立新.上海电网调度二次系统安全防护策略分析[J].电网技术, 2004, 28 (18) :20–24, 61.ZHANG Wang-jun, TANG Yue-zhong, GU Li-xin.Analysis on security and protection of secondary system for dispatching system in Shanghai power grid[J].Power System Technology, 2004, 28 (18) :20–24, 61.

[6]EICHNGER F, PATHMAPERUMA D, VOGT H, et al.Data analysis challenges in the future energy domain[M]//YU T, CHAWLA N V, SIMOFF S.Computational Intelligent Data Analysis for Sustainable Development.CRC Press, 2013:1–55.

[7]OVIEDO R M.A comparison of centralized and distributed monitoring architectures in the smart grid[J].IEEE Systems Journal, 2010, 7 (4) :832–844.

浅谈大数据技术发展趋势 篇8

关键词:大数据;云计算;大数据技术;数据挖掘

中图分类号:TP311.13

随着互联网技术和应用模式的快速发展,人们生活方式在不断改变的同时也产生了巨大的数据资源。预计到2020年,全球的数据总量将远远超过人类有史以来所有印刷材料的数据总量,大数据时代即将到来。现阶段关于大数据有多种不同的定义,研究机构Gartner认为大数据是指需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产;维基百科上大数据指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策目的的资讯;而麦肯锡则认为大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的数据集合。无论哪种定义,我们可以看出,大数据并不是一种新的产品也不是一种新的技术,就如同本世纪初提出的“海量数据”概念一样,大数据只是数字化时代出现的一种现象。

数据量的剧增、国家和企业间竞争的加剧,要求政府和企业能更准确、快速、个性化的为客户和公众提供产品和公共服务。通过大规模掌握用户的细节数据,政府和企业可以分析出通过传统数据分析手段无法获知的价值和模式,做出更为迅速、科学、准确的决策和预测。由此可见,大数据技术是预测分析、数据挖掘、统计分析、人工智能、自然语言处理、并行计算、数据存储等技术的综合运用。

1 大数据特点

从计算科学发展历程来看,物联网的兴起对数据存储和分析产生了更高层次的需求,云计算则进一步拓展了计算机的计算能力。在以上二者的共同推动之下,大数据的概念应运而生,同时也标志着计算科学进入到一个崭新的时代。大数据有着不同于传统数据对象的特点。目前的研究认为,大数据具有以下主要特征:数据规模大、数据种类多、数据要求处理速度快、数据价值密度低以及数据真实性。数据规模大体现在大数据的数据量是以PB,EB和ZB来进行衡量的;数据种类多体现在大数据的数据类型不仅是结构化数据,还包括物联网数据、社交网络数据和位置数据等数据,更多的是半结构和异构数据,数据的复杂性高;数据处理速度快体现在对静态数据和动态实时数据处理的速度与时效要求高;数据价值密度低主要体现在大数据数据量巨大但由于数据结构分散导致数据价值密度低,需要进行数据分析和推理实现价值提纯;数据真实性体现在只有真实而准确的数据才能使大数据的分析、推理和管理有意义。

2 大数据技术发展趋势

2.1 人工智能技术的结合

大数据分析的目的是挖掘大数据中有价值的信息,是从大数据中获取更准确、更深层次的知识,而不是对数据的简单统计分析。要达到这一目标,需要提高计算机的智能计算能力,让系统具备对数据的分析、推理和决策,人工智能是实现以上能力的核心技术。近年来,人工智能的研究成为学术界和企业界的研究熱点,一方面得益于计算机硬件性能的提升,另一方面得益于以云计算、大数据为代表的计算技术的快速发展,使得信息处理的速度和质量大为提高,能够快速、并行地处理海量数据。

2.2 基于数据科学的多学科融合

在大数据时代,许多学科的研究内容从表面上看存在很大的区别,但是从数据研究的视角来看,其实是有共通点的。随着数字化时代的到来,越来越多的学科在数据层面趋于一致,可以采用相似的思想来进行统一的研究。但数据科学的基础问题体系尚不明朗,其自身的发展尚未形成体系成为制约多学科融合的关键问题。

2.3 与网络技术领域的交叉融合

未来大数据将与物联网、移动互联网、云计算等热点技术领域相互交叉融合,产生更多融合不同行业数据的综合性应用。近年来计算机和信息技术发展的趋势是:前端更加简单丰富,后端更加智能快速。物联网与移动互联网促进了物理世界和人的融合,大数据和云计算提升了后端的数据存储管理和计算能力。今后,这几个热点技术领域将相互交叉融合,产生很多跨行业和跨领域的综合性应用。

2.4 大数据安全与隐私

过去几年大数据安全和隐私问题是国内外的研究热点,未来大数据的安全和隐私问题依然将是学术界和企业界研究与探讨的热点。大数据及其相关核心资源涉及企业商业机密和国家主权,引发了社会各界人士的广泛关注,因此如何保护大数据的安全以及用户的隐私成为一个亟待解决的社会热点问题。但大数据应用所产生的隐私问题、大数据系统和体系存在的安全防范方面还没有实质性的进展和突破。毫无疑问,未来大数据安全和隐私问题依然是热点趋势。

2.5 基于大数据的深度学习和众包计算

最近几年深度学习大热,在很多领域发挥了巨大的作用,成为人工智能和大数据领域研究的热门学科,未来基于大数据的深度学习还将是各大研究机构和企业的研究重点。

基于物理资源分散式的应用场景,比如以前常用的P2P技术等对于深度学习这种需要物理资源相对集中的计算方式则会有局限,而众包计算这种物理资源分散式的分布式计算平台则可以有效避免这个问题。因此基于大数据的众包计算也是未来大数据分析与应用领域的研究热点和发展趋势。

2.6 大数据技术课程体系建设和人才培养

大数据技术的快速发展和行业应用需求的快速增长,使得目前技术市场上高素质大数据技术人才严重短缺。因此,政府、高等院校和科研院所将加快建立大数据技术人才教育和培养体系,发展数据科学和工程专业,梳理和构建跨学科和领域交叉的大数据课程体系,融合计算机、数学分析统计、应用相关的学科,推动交叉学科数据分析技术的发展以及人才的培养。只有在体系建设和人才培养方面与市场需求同步,大数据技术才有不断向前发展的基石和动力,因此这也是未来大数据技术行业的发展趋势。

3 结束语

大数据技术是我们利用计算技术对大数据进行分析和推理并挖掘其潜在价值的技术,具有重要的研究意义和实际价值。本文从大数据的概念展开讨论,详细分析了大数据技术研究目前面临的一些问题以及未来的研究热点和发展趋势。尽管目前大数据技术研究已经取得了一些研究成果,但在学科基础、应用广泛性、系统支撑基础、生态环境、人才底蕴等方面仍然存在一些亟需解决的问题,需要政府、企业高等院校和研究机构等共同努力,推动国家在该领域的技术水平走到世界前沿。

参考文献:

[1]王元卓,靳小龙,程学旗.网络大数据:现状与挑战[J].计算机学报,2013(06):1-15.

[2]陶雪娇,胡晓峰,刘洋.大数据研究综述[J].系统仿真学报,2013(25):142-146.

[3]Thomas H.Davenport,Paul Barth,Randy Bean.How'BigData'is Different[J].MIT Sloan Management Review, 2012,54(01):22-24.

[4]Victor Mayer-Schonberger,Kenneth Cukier.大数据时代[M].杭州:浙江人民出版社,2013:193-232.

作者简介:刘琳(1981-),女,四川泸州人,讲师,本科,研究方向:计算机网络、多媒体技术。

大数据运维技术文档 篇9

在数据挖掘教学过程中,其流程主要是以下几点:首先做好数据准备工作,主要是在挖掘数据之前,就引导学生对目标数据进行准确的定位,在寻找和挖掘数据之前,必须知道所需数据类型,才能避免数据挖掘的盲目性。在数据准备时,应根据系统的提示进行操作,在数据库中输入检索条件和目标,对数据信息资源进行分类和清理,以及编辑和预处理。其次是在数据挖掘过程中,由于目标数据信息已经被预处理,所以就需要在挖掘处理过程中将其高效正确的应用到管理机制之中,因而数据挖掘的过程十分重要,所以必须加强对其的处理。例如在数据挖掘中,引导学生结合数据挖掘目标要求,针对性的选取科学而又合适的计算和分析方法,对数据信息特征与应用价值等进行寻找和归纳。当然,也可以结合程序应用的需要,对数据区域进行固定,并在固定的数据区域内分类的挖掘数据,从而得到更具深度和内涵以及价值的数据信息资源,并就挖掘到的数据结果进行分析和解释,从结果中将具有使用价值和意义的规律进行提取,并还原成便于理解的数据语言。最后是切实加强管理和计算等专业知识的应用,将数据挖掘技术实施中进行的总结和提取所获得的数据信息与评估结果在现实之中应用,从而对某个思想、决策是否正确和科学进行判断,最终体现出数据挖掘及时的应用价值,在激发学生学习兴趣的同时促进教学成效的提升。

2.2挖掘后的数据信息资源分析

数据信息资源在挖掘后,其自身的职能作用将变得更加丰富,所以在信息技术环节下的数据挖掘技术随着限定条件的变化,而将数据挖掘信息应用于技术管理和决策管理之中,从而更好地彰显数据在经济活动中的物质性质与价值变化趋势,并结合数据变化特点和具体的表现规律,从而将数据信息的基本要素、质量特点、管理要求等展示出来,所以其表现的形式十分丰富。因而在数据挖掘之后的信息在职能范围和表现形式方式均得到了丰富和拓展,而这也在一定程度上体现了网络拟定目标服务具有较强的完整性,且属于特殊的个体物品,同时也是对传统数据挖掘技术的创新和发展,从而更好地满足当前大数据时代对信息进行数据化的处理,并对不同种类业务进行整合和优化,从而促进数据挖掘技术服务的一体化水平。

2.3大数据背景下的数据挖掘技术的应用必须注重信息失真的控制

数据挖掘技术的信息主要是源于大数据和社会,所以在当前数据挖掘技术需求不断加大的今天,为了更好地促进所挖掘数据信息的真实性,促进其个性化职能的发挥,必须在大数据背景下注重信息失真的控制,切实做好数据挖掘技术管理的各项工作。这就需要引导学生考虑如何确保数据挖掘技术在大数据背景下的职能得到有效的发挥,尽可能地促进数据挖掘技术信息资源的升级和转型,以大数据背景为载体,促进整个业务和技术操作流程的一体化,从而更好地将所有数据资源的消耗和变化以及管理的科学性和有效性,这样我们就能及时的找到资源的消耗源头,从而更好地对数据资源的消耗效益进行评价,最终促进业务流程的优化,并结合大数据背景对数据挖掘技术的职能进行拓展,促进其外部信息与内部信息的合作,对数据挖掘技术信息的职能进行有效的控制,才能更好地促进信息失真的控制[2]。

3数据挖掘技术在不同行业中的应用实践

学习的最终目的是为了更好的.应用,随着时代的发展,数据挖掘技术将在越来越多的行业中得以应用。这就需要高校教师引导学生结合实际需要强化对其的应用。例如在市场营销行业中数据挖掘技术的应用这主要是因为数据挖掘能有效的解析消费者的消费行为和消费习惯,从而利用其将销售方式改进和优化,最终促进产品销量的提升。与此同时,通过对购物消费行为的分析,掌握客户的忠诚度和消费意识等,从而针对性的改变营销策略,同时还能找到更多潜在的客户。再如在制造业中数据挖掘技术的应用,其目的就在于对产品质量进行检验。引导学生深入某企业实际,对所制造产品的数据进行研究,从而找出其存在的规则,并对其生产流程进行分析之后,对其生产的过程进行分析,从而更好地对生产质量的影响因素进行分析,并促进其效率的提升。换言之,主要就是对各种生产数据进行筛选,从而得出有用的数据和知识,再采取决策树算法进行统计决策,并从中选取正确决策,从而更好地对产品在市场中的流行程度,决定生产和转型的方向。再如在教育行业中数据挖掘技术的应用,主要是为了更好地对学习情况、教学评估和心里动向等数据进行分类和筛选,从而为学校的教学改革提供参考和支持。比如为了更好地对教学质量进行评估,就需要对教学质量有关项目进行整合与存储,从而更好地促进其对教学质量的评估,而这一过程中,就需要采取数据挖掘技术对有关教学项目中的数据进行挖掘和处理,促进其应用成效的提升[3]。

4结语

综上所述,在大数据背景下,数据挖掘技术已经在各行各业中得到了广泛的应用,所以为了更好地满足应用的需要,在实际教学工作中,我们必须引导学生切实加强对其特点的分析,并结合实际需要,切实注重数据挖掘技术的应用,才能促进其应用成效的提升,最终达到学以致用的目的。

参考文献:

[1]李平荣.大数据时代的数据挖掘技术与应用[J].重庆三峡学院学报,,03:45-47.

[2]欧阳柏成.大数据时代的数据挖掘技术探究[J].电脑知识与技术,,15:3-4+9.

上一篇:古代诗歌中常见意象集释下一篇:中小企业所得税征管存在的问题及对策