数据仓储管理解决方案(精选8篇)
在国内ERP实施的圈子里流传着这样一句话:“成功实施ERP的企业具有相似的基本条件,但实施ERP失败的原因却各有不同。”
纵观国内实施ERP系统终告失败的企业,结合ERP的核心管理思想,可以将国内企业实施ERP系统失败的原因划分为项目管理的原因和技术管理的原因。
项目管理方面的原因或者是由于企业核心业务流程不合理,系统实施时并未对其进行充分合理优化,而仅仅套用了ERP供应商已有的功能模块;或者是项目实施过程中缺乏系统控制;再者是部分企业领导层只是将ERP系统看成一种普通信息系统的引入,低估了实施系统的难度,导致实施过程中配合力度不够,后续投资跟不上。
其实,在企业实施ERP系统的过程中,还存在着一个巨大的技术管理问题,就是企业未能有效地进行基础数据的管理,这是导致企业ERP实施失败的重要原因。
数据管理的缺陷
众所周知,ERP之所以能帮助企业进行高效管理,必须是建立在对大量全面、准确、实时的企业数据的访问、存储和分析的基础之上。而现在的一些ERP供应商为了减少成本,降低客户的疑惑度,便淡化了对企业基础数据结构的优化程度,基本忽略了对企业现有业务数据的整顿,只是从企业现有的零散和混乱的数据源中调用数据,来迎合其产品的数据输入模块,最终导致了企业基础数据处理的严重缺陷。
首先,在企业实施ERP之前,没有及时地调整企业基础数据,为后来的系统数据管理紊乱埋下了隐患。通常,存在以下三方面的前台数据操作问题:(1)数据输入不规范,同一部门不同的成员有不同的数据输入格式,造成数据不单一。(2)数据操作权限混乱,从而存在数据来源多,同一业务在不同部门的赋值不同。(3)企业本身一些业务不规范,没有及时形成业务数据,导致在系统中的数据不完整。
其次,由于ERP涉及到财务、销售和生产等各方面的数据,因此,数据结构复杂,数据源均来自于不同的二级部门,对于那些有一定发展历史的企业,已经形成了较为稳定的、且各具特色的二级单位数据库。由于在各个部门之间缺乏数据通道,各个二级单位的后台数据库都成为了“信息孤岛”。如果在实施ERP系统的时候,不能很好地解决这一问题,就无法集成企业的基础数据。
亮出三招
结合国内企业在实施ERP过程中存在的上述问题,作者认为可以围绕企业基础数据做出一系列的调整和管理,主要有以下三招。
整顿信息流
以现代企业管理为指导,以信息管理技术为工具,对企业现有的信息流进行整改,包括调整企业的职能模块,优化企业业务流程。ERP项目上马前,要充分了解企业信息流的情况,从企业权利结构方面入手,分析严重影响数据输入、数据产生或数据管理等的.原因,在调整企业职能模块的基础上,还需要优化企业业务流程。
构建数据管理模式
现在很多大型企业的二级单位已经建立起了相对稳定的业务子系统,同时具备自身的数据库结构。但是,由于缺乏各部门之间的信息通道,所以,就形成了一个个“信息孤岛”。
实施ERP也就是要解决这样一个问题,即如何权衡效益和成本,综合各个业务子系统的信息。全部重建固然可能达到最好的数据集成,但成本巨大;全面包容,又会造成数据平台过多,数据格式过于分散,不能达到ERP系统的基本要求。因此,最重要的工作就是要先认真地考察各个业务子系统现有的数据结构,考虑其数据规模、数据库本身结构、接口设计优劣状况来确定哪些可以沿用不动,或变动较小。同时,应该明确规定各类数据的出处,保证特定数据具备确定的数据源,清理各部门之间数据管理重叠区,从而可以建立ERP的综合数据管理模式。
规范数据操作
医疗保险是我国社会保障体系中的重要内容,合理开展医保基金管理、加强风险规避更是医疗保障工作的重中之重。因此,通过建立基金风险防控的数据分析平台,利用数据仓库所能提供的强大的数据集成管理和决策支持[1,2]的能力,能够有效防范和化解医保基金运营过程中的风险。
然而,当前许多医疗保险的决策支持平台依然存在医疗参保信息海量、数据来源异构、业务分析需求复杂多变等技术困难。要解决这些问题,就必须对医保管理的各方面数据有更加深入的理解,加强对决策平台各系统的控制[3],才能适应不断变化的医保业务需求。元数据通过对医保平台数据仓库中存储的各类历史数据和业务信息提供足够详尽的知识表示,满足了数据分析利用过程中的绝大部分技术和业务知识的理解需求,为我国医疗保障体制应对不断变化的参保需求提供了很好的解决方案。
本文结合一个医保基金风险防控平台(以下简称医保平台)数据仓库构建过程的元数据管理实践,提供以下几种医保元数据的存储分析:1)数据源层的描述性元数据;2)数据采集、整合、装载过程中的元数据;3)医保平台数据仓库内部的构建元数据;4)基于数据仓库的决策分析、数据挖掘应用所需的元数据。同时,本文还探讨了一系列适合平台实际的元数据管理功能,从而更为有效地帮助和维护实时动态的医保数据仓库。
1 医保元数据
医保基金风险防控平台系统架构可分为三个层次:数据源层、数据仓库层、分析应用层。数据仓库作为数据源层和分析应用层的中心,既是数据源层中所有医保业务数据的集成存储区域,也是医保基金管理业务的决策分析基础。因此,针对该医保平台数据仓库构建的元数据管理应用就必须涵盖这些数据层以及数据仓库数据获取步骤(即ETL过程)的所有元数据信息。
医保平台下数据仓库构建相关元数据在各个层次中的分布情况为:
1) 数据源层
医保平台数据仓库的直接数据源为医保业务系统大集中数据库和临时性的实时交易数据库,所涉及的元数据主要是作为为数据源的关系数据库连接信息及环境配置、数据库表(包括城/镇参保人、保险账户、医疗机构、区县信息等方面的医保业务数据)、字段信息等。
2) 数据仓库
数据仓库内部主要包含两个数据区域,分别是基于医保业务主题建立的基础数据区和基于动态数据仓库技术建立的动态数据区和基于粗粒度数据的汇总数据区,相关元数据会涉及到根据各医疗保险主题(如参保情况、医保缴费等)所建立的维表和事实表、关联模式等。
3) 分析应用层
主要包括即席查询、统计报表、预警监控、OLAP分析、数据挖掘等多种分析应用,为上层的应用系统提供技术支撑服务。元数据部分主要是数据分析模型说明、业务规则、风险防控模型库等。这些数据格式比较复杂,其中一部分会直接以业务说明文档或帮助文档的形式存在。
4) ETL过程
ETL过程将在基金风险防控分析过程中所需的医保相关业务数据加载入数据仓库中。整个过程涉及抽取数据的源和目标定义、映射规则、转换规则、装载策略等信息[4],不需要了解业务明细数据。
2 元数据存储库设计
基于医保平台数据仓库构建的实际,我们选择为整个平台建立集中式元数据存储库作为元数据存储方案(如图1所示),对医保平台中的元数据进行统一管理。它的好处在于将元数据对象转变为结构化的数据记录存放在数据库中,构建成本和技术难度较低,支持标准数据库查询语言的主流数据库系统都可以作为存储媒介,进行数据迁移时只需要根据选择数据库的不同选用相关适配器;同时,集中式存储库能够减少分散管理时需要建立元数据桥的开销,使整个平台下的元数据表征方式具有统一的口径和标准。
医保数据仓库中历史分析数据主要来源是一个汇总型业务大集中库,另外还有少量来自临时性实时交易记录库;因此,业务大集中库和实时交易记录库是数据源,数据仓库则是数据流向的目标。
我们将反映数据源和目标对象内部结构的元数据以结构化数据表记录的形式进行存储。这样不但支持医保平台目前已有数据源,对于今后需求演变后可能出现的半结构化XML文档以及平面文件等数据源,只需根据其数据组织规则解析成为对应的元数据记录存放在存储库中即可,因而对于异构数据源的支持性较为灵活。
医保平台数据仓库构建过程涉及主要元数据对象包括(但不限于)如表1所示的几类。
由此看来,存储库实质是完成以上元数据对象及其属性到关系型数据表及字段的映射。为了便于业务管理,这些元数据某些场合需要被抽象为具有某些共性的对象来进行操作,譬如统一性元数据查询。因此就必须为各种类型的元数据对象设计一个对应的基表来反映它的基本信息,比如对象名称、所属类别和其他基本描述等。对于不同类别元数据特有的属性则通过关联各自的附加属性表和关系表来实现。另外,对于所属类别信息,需要定义一个类别的映射表[5]将每个分类映射到一个唯一的键值上,这样只需要简单地通过对该键值查询就能确定某个元数据所属的类别。
综上所述,存储库中的数据表主要由以下三种表组成:
1) 基本表
作为描述元数据对象的共性,表2包含了最高层的公有属性,在进行不依赖于对象类别的属性查询时能够简化跨表关联查询。
2) 类别映射表
类别映射表将基本表中的基础元数据与某特定类别的元数据种类关联起来,当用户需要获取对象细节信息时可以通过类别映射表进行关联查询。
3) 细节属性表
由于数据仓库构建过程中涉及元数据种类繁多,除了基本表用来反映元数据对象的公有属性外,还会根据不同类别来保留一些附加的详细属性表来提供复杂的属性信息,如源对象、目标对象属性。这些细节属性除了用于丰富表1中列举的主要元数据对象外,还包括一些用于辅助元数据管理的细节信息,如用于辅助查询的元数据标签等属性。
3 元数据管理系统功能模块
除了解决元数据存储形式问题,系统利用一系列相关的元数据管理功能,来简化元存储库的管理过程并且便于业务人员更好地理解元数据的内容和作用。整个系统的管理流程和功能模块如图2所示。
3.1 数据查询
查询是元数据管理最为重要的功能之一。由于元数据对象在存储库中以结构化的数据库表形式表征,因此属性定位就转换为针对这些数据库表所包含字段值的数据库查询。因此,我们将这些查询操作封装在一些预设定的查询接口中,由业务分析人员根据需要提供查询条件来实现信息定位。所谓的查询接口实质上就是管理工具提供给用户的一些可用的查询条件,通过这些接口可以将元数据的查询实际上转化为对元数据库记录的查询操作。这些查询接口如表3所示。
需要说明的是,表中元数据扩展(Metadata Extension)是由用户为元数据对象添加的扩展性标注,主要一些是对该元数据对象的附加性注释、分类标签等,也可以是用户对数据使用者或使用目的的详尽说明。它们能够帮助技术或业务分析人员更好地理解和辅助元数据信息的查询。
3.2 数据验证与更新
错误、失效的医保元数据轻者导致分析结果的错误,重者造成医保基金的损失和重大运营风险。为了及早掌握这些错误元数据的情况,系统按照用户指定的时间段通过后台线程对存储库中现有元数据进行周期性验证。对于验证状态错误或不一致的元数据实例对象,管理系统通过主动改变其显示状态来提示用户进行相应的处理。
在元数据管理中,最常被验证的元数据对象及其属性主要如表4所示。
在取得元数据实例对象变更状态后,为了与其他数据工具保持一致,元数据管理系统能够对发生变更的元数据进行数据更新。更新策略暂不记录元数据版本变化,而是采用直接覆盖的形式保留元数据最新信息。
3.3 血缘分析
血缘分析能够通过元数据的影响性分析来改善数据仓库中的数据质量,这里主要包括以下两种应用:
(1) 进行元数据对象定位,获取所有使用到该对象的关联元数据,便于提前了解到其变更可能带来的影响。
(2) 分析数据的流动情况,跟踪它在元数据链路上的来源和去向,从而用于追溯数据产生错误的根源。
对于第一种应用,存储库中的详细信息表中在设计时包含了元数据的来源情况以及元数据对象间的关联记录,系统会依据各对象所在表间的键值映射情况作跨表查询获得各元数据之间的关联结果。
对于数据流动情况的追溯又被称为血缘分析,管理系统必须能够详尽记录元数据从源到目标的路径上位于所有节点的状态以及流动方向。XML文档的节点及属性定制非常灵活,具有很强的描述性;同时,它能始终保留数据间诸兄弟之间的关联,对于数据流动信息的传递能力很好。因此,在涉及数据转换过程(如ETL映射)时,系统利用XML这种强描述性为每个元数据对象记录下其来源和去向,在血缘分析时通过扫描文档树子节点所代表元数据在任意阶段节点的from和to值就能够获得该对象在数据链路上的流动情况(如图3所示)。
3.4 数据交换
数据交换分为元数据的获取和导入导出两个方面,它主要目的是帮助管理系统与其他数据源进行元数据的交互,同时也方便了元数据库的迁移。
为了保证管理系统与平台中的其他数据应用无缝的结合,必须采用公共标准方便工具间的数据交换需要。医保平台下数据源及数据仓库均采用Oracle系列产品作为数据容器,这些产品对于自身元数据的表征拥有一致的元模型,更重要的是它们对数据仓库领域通用的CWM规范[6]提供了较好的支持。
然而CWM标准本身比较复杂,如果将元数据管理系统本身完全依照它来进行模型设计的开销较大。因此,我们无需重写现有系统的元数据模型,在交换时利用符合CWM规范元数据适配器将用作交换的CWM元数据XML文档转换为系统内部的一种中间格式,随后将中间格式的文档流转换为存储库支持的数据格式[7]。 这样不但能够直接获取数据源的内部结构,也极大地减小了在交互时要与多个数据源间建立元数据桥的开销。
这里的数据迁移主要是指元数据存储库存储引擎的迁移。用户可以根据另选用其他数据库产品作为存储库,只需要利用系统提供的软件适配器将原库中的数据载入新库即可。
3.5 可视化
值得说明的是,在可视化上凡是涉及元数据对象在父子从属关联方面都利用树状结构对于不同类别元数据进行分类组织(如图4所示)。其优点在于针对元数据类别和相互依赖展示能够让用户快速准确地定位所需医保数据的信息,同时避免不清晰的层次组织导致用户对数据产生误解。
4 总结与展望
本文由数据仓库的数据集成管理特性在医保基金风险防控平台下的应用出发,引出了元数据管理在数据仓库建立过程中的应用,并且分析了该过程中所涉及元数据的范围及其医保业务含义。同时,基于一个现实的医保平台数据仓库应用实例,探讨了其中元数据集成方案和管理功能的设计,并且分析了元数据管理技术在医保基金管理领域中辅助数据仓库构建过程的价值。
本文在元数据管理功能的探讨方面仅涉及了通用的主要功能,未来将不断完善当前系统架构及功能的设计,还将对元数据管理的版本控制和分布式管理等高级应用方面进行更加深入的研究,进一步利用元数据改善医保平台下数据仓库中的数据质量。
参考文献
[1]Han Qingtian,Gao Xiaoyan.Research of Decision support system basedon data warehouse techniques[C]//Second International Workshopknowledge Discoverty and Data Mining(WKDD),2009:215-218.
[2]Vaduva A,Dittrich K R.Metadata management for data warehousingbetween vision and reality[C]//Database Engineering&Applications,2001:129-135.
[3]Foshay N,Mukherjee A,Taylor A.Does data warehouse end-user meta-data add value[J].Communications of the ACM,2007,50(11):7077.
[4]Mrunalini M,Kumar T V S.Simulating Secure Data Extraction in Ex-traction Transformation Loading(ETL)Processes[C]//Third UKSimEuropean Symposium on Computer Modeling and Simulation(EMS).2009:142-147.
[5]李珊珊,陈维斌.基于CWM的元数据储存库的设计[J].广西师范大学学报,2007(12):152-155.
[6]Poole J,Chang D,Tolbert D,et al.公共仓库元模型开发指南[M].彭蓉,刘进,译.北京:机械工业出版社,2004.
为了应对这些挑战,IT部门在不断寻找新的数据保护的策略和解决方案,以期缩短备份窗口,获得更快的恢复时间。对于数据保护和灾难恢复(DR)来说,关键数据需要多个副本,有些数据要求立即可用,而其他数据可能只在需要的时候可用;进一步,分层存储的方式虽然满足了数据的可用性和冗余性的需求,但是我们需要权衡快速访问和冗余数据管理管理带来的成本;更复杂的是虚拟化带来的挑战,虚拟机备份时间长和成本高昂让IT人员头痛不已。 庞大的信息量、纷繁的数据类型,海量的非结构化数据为现有的方法带来巨大的压力。永久性存储数据、随时随地的接入和从数据中获取价值让传统的基础架构不堪重负。单靠增加磁盘容量不能解决问题,传统的备份因此显得束手无策。我们看到,整个世界正向一种全新的基础架构演进。
昆腾下一代数据保护解决方案,可通过智能数据移动来支持客户的独特工作流程。这些分层存储解决方案采用新的备份和归档方法,并且支持不可预测的按需接入。它们还能够利用基于云的对象存储等技术和策略,以及其他经济高效的存储(如 LTO 和LTFS)。同时,越来越多的客户不再使用RAID,开始利用闪存来加快工作速度,所以分层存储解决方案还必须紧密地集成 Flash 存储。端到端的昆腾信息工作流程(QTM Information Workflow),确保数据在需要时可随时随地接入,支持整个数据生命周期:从数据捕获开始,到处理阶段,到最后保存起来供将来重复使用。 昆腾第三代数据保护解决方案根据工作流程感知,可集成面向细分市场的专有应用和应用场景。
昆腾vmPRO 软件和昆腾 DXi 重复数据删除设备更好实现虚拟机备份,节约备份时间,大幅降低数据保护成本;
昆腾 StorNext 存储管理器,结合StorNext Q 系列磁盘与磁带库,实现大型零售商智能内容归档,在提高生产力的前提下,让用户轻松地浏览和检索用于营销和内部沟通的视频数据资产;
视频监控备份归档解决方案,结合昆腾 StorNext 存储管理器与昆腾Scalar i6000 LTO磁带库,在高价格磁盘上存储不到四分之一的视频文件,而将其他视频放到磁带上,大幅提高成本效益;
针对大型数据归档,昆腾 Lattus 对象存储把静态文件内容归档至近线存储。确保全球用户均可访问归档数据的前提下,每年平均降低存储和备份成本20-40%,并且缩短备份时间并降低静态数据备份给基础架构带来的压力
无论是针对例如银行、电信、金融,以及保险企业的生产型企业数据,还是针对以视频和图片为主的非结构化数据, 昆腾第三代数据保护解决方案实现为用户量身定做,智能分析用户数据,基于不同需求将数据分流至不同存储设备,大幅降低总拥有成本,是一个智能的、基于用户数据生命周期的数据自动存储保护架构。
三十年的积累和创新,昆腾对其数据保留与保护解决方案不断革新,帮助企业大幅度提升备份、恢复和归档操作的性能和效率。借助昆腾第三代数据保护解决方案,用户能确保最大化数据价值,在任何环境以任何规模在数据整个生命周期内保护数据。
全省中小学生学籍信息管理系统首次数据采集方案 为推进全国中小学生学籍信息管理系统(以下简称全国学籍系统)在我省的部署实施工作,尽快完成全省数据采集,确保数据真实、准确,根据相关政策文件制订本方案。
一、工作目标
全国学籍系统在我省部署实施后,将全省范围区内所有由政府、企业事业组织、社会团体、其他社会组织及公民个人依法举办的普通小学、初中(不含职业初中)、普通高中、特殊教育学校、工读学校学生的电子学籍信息录入或导入全国学籍系统,并完成数据审核上报和问题学籍处理,与其他各省份学生电子学籍信息共同形成全国统一的中小学生电子学籍数据库。
二、数据采集准备工作
1.各市根据本方案制定本市的数据采集方案,明确路线图和时间表。
2.省教育厅召开全省学籍系统建设工作部署会对有关工作进行部署。
3.建立分级培训机制,强化对各级教育行政部门和学校的学籍主管领导、学籍管理员的培训。省教育厅负责集中培训各地市和县级相关部门工作人员和技术支持人员,各区县负责完成对所辖学校的培训,学校学籍管理员负责培训班主任。
4.核对学校(机构)信息。全国学籍系统中学校(机构)的代码、名称等核心信息,统一采用教育部机构编码系统中的学校(机构)信息。省教育厅布置各区县在全国学籍系统中核对预置的学校(机构)信息。各区县认真核对辖区内所有学校(机构)的代码、名称是否与实际情况相符,将有差异的学校名单汇总后,报省教育厅。经省教育厅确认后,报教育部教育管理信息中心,教育部调整机构代码数据后重新下发到省级系统中。
三、数据采集
1.准确采集学生数据(纸质)。学校组织班主任将《中小学生学籍信息管理系统首次数据采集指标》(附件2-1)中的《学生基本信息表》发至每个学生,由学生及家长填写后交回班主任审核,班主任将核对无误的班级学生表格提交给学校学籍主管领导审核。没有居民身份证件号的中国公民学生,须由学校开具《无身份证号学生在校就读证明表》(附件2-3)。
2.将学生数据(纸质)录入EXCEL文件。学校组织专人按照全国学籍系统提供的EXCEL模板,将学校学籍主管领导审核无误的学生数据(纸质)录入到EXCEL文件中且通过校验检查,EXCEL文件可按学校、年级和班级任一种方式命名存储。学校应组织专人核查录入EXCEL文件中的学生数据,确保与学生数据(纸质)一致。
3.学生及家长签字确认。为确保学生信息在采集、录入过程中准确无误,学校须打印学生数据(EXCEL),下发给
学生和家长再次签字确认。各学校必须在2013年5月31日前完成学生数据(EXCEL)的录入、核查,以及学生和家长确认。学校将全校学生数据(EXCEL)上报到学籍主管部门备案。
4.逐级上报。学校在6月1日前将校验无误的Excel电子数据上报区县教育局。县(市、区)教育局汇总全县数据,存储在以县(市、区)代码+名称命名的文件夹中,在6月10日前打包上报地级市教育局。市教育局汇总所辖各县数据,存储在以地级市代码+名称命名的文件夹中,在6月20日前打包上报省教育厅。为确保数据和信息安全,请各市以光盘、U盘、移动硬盘(几种方式选择)上报。
文件夹命名举例:
太原市:1401太原市
迎泽区:140106迎泽区
太原市迎泽区双塔西街小学校:2114010068双塔西街
小学
5.全国学籍系统在我省部署完毕并上线运行后,由学校在全国学籍系统中录入学生数据。录入方式有两种,一是将提前准备好的学生数据(EXCEL)导入全国学籍系统,二是通过页面逐个录入学生数据。
6.审核上报学生数据。学校和学籍主管部门须在2013年7月31日前审核完成学生数据。
7.及时处理问题学籍。全国学籍系统在录入或导入学生数据时,自动校验学生身份证件号是否符合规则,并在全省
学生数据库中进行学籍查重。校验出错或学籍相关信息重复的,定义为问题学籍。问题学籍分身份证件号错误、身份证件号重复和姓名性别出生日期重复三种情况。身份证件号错误的,通过删除或变更方式解决。身份证件号重复和姓名性别出生日期重复的,根据实际情况选择删除、变更或佐证解决。变更或佐证须提交相关证明材料。任何两个或两个以上身份证件号重复的,所在学校都须提供佐证并经学籍主管部门审核通过,然后提交共同的学籍主管部门仲裁处理。各市应于2013年8月5日前完成问题学籍处理。
8.采集学生照片。学校须按《全国中小学生学籍信息管理系统照片采集要求》(附件2-2)采集每个学生照片。批量上传学生照片时,为避免网络堵塞,各地可结合实际情况,组织分片区上传学生照片。各市应在2013年9月15日前完成学生照片采集工作。
四、学生身份验证和全国范围学籍查重
1.学生身份验证。全省学生数据上报教育部后,将与公安部身份认证系统对接,进行学生身份验证。验证有错误的学生数据及错误信息,将再次作为问题学籍进行处理(处理方式参见“数据采集”的第6条)。
2.全国范围学籍查重。经学生身份验证无误的我省学生数据,将在全国学生数据库中进行学籍查重,重复学籍将再次作为问题学籍进行处理(处理方式参见“数据采集”的第6条)。
3.建立全国统一的电子学籍。经身份认证无误且全国范
围学籍查重无问题的我省学生,将由教育部分配全国唯一的学籍号,由国家下发至我省。
五、工作机制
1.各地和学校须按照教基一函〔2012〕12号文件要求,成立基础教育、财务、发展规划、营养办、信息化等多部门组成的联合工作组,明确数据采集牵头部门和配合部门,落实人员和责任分工,加强协调配合。
2.建立数据质量责任机制。各地和学校要全面准确理解数据采集指标及其含义,树立数据质量意识,坚持“谁采集谁负责、谁录入谁负责、谁审核谁负责”的原则,严把数据质量关。
3.建立教育部、省、县三级技术支持与服务体系。分级建立技术支持群,及时解答辖区内用户的问题,对本级无法解决的问题,逐级上报,并定期汇总整理常见问题。
附件:
2-1.中小学生学籍信息管理系统首次数据采集指标 2-2.中小学生学籍信息管理系统照片采集要求
随着计算机网络技术的发展和业务扩展的需要,很多中小型企业开通了远程联网和远程业务,从局域网发展到广域网,因而很容易受到社会上黑客的攻击和恶性病毒的感染,加上网络环境硬件本身的可靠性和操作人员的差异性,企业网络的安全运行已引起公司领导的极大关注。
虽然中小型企业业务网络都采取了一定的措施,例如用户权限密码管理、部署防病毒软件、安装防火墙等。但是企业信息系统仍十分脆弱。采用备份来解决数据安全问题,仍可能会受到小疏忽的影响。
人为错误是导致数据安全问题的首要原因
山丽数据安全调查小组的研究报告显示,40%的家庭、企业、政府和IT经销商用户相信,人为错误是导致数据遗失的首要原因。这表示虽然用户的技术和知识在几年来都在进步中,但人为错误仍然是数据遗失的关键因素。常见的人为错误包括意外删除文件和忘记备份。在全世界众多中小企业中,有很多拥有办公电脑,但是却没有安全管理的服务器。这意味着他们没有办法享受通过集中式管理,将数据直接提供给员工、合作伙伴以及客户带来的好处。将各种数据都存在个人电脑上则很容易因为人为错误而被意外删除。
数据外泄也会发生在中小企业
数据外泄导致数据遗失,无论是有意还是无意,绝大多数的数据外泄事件都是从有读取公司内部网络及信息的用户权限开始的。
数据窃取成为网络威胁的形式之一
和大型企业一样,中小企业也是网络犯罪的目标。有价值的员工和客户信息都是网络犯罪的目的。黑客通过垃圾邮件或者用户访问恶意网站时不经意的下载,从而窃取与银行、社交网络以及电子商务网站有关的机密信息。
山丽数据安全调查小组总结十大数据安全措施,其中重点强调,数据安全措施越早实施,效果越好。1.2.3.4.5.风险。
6.7.8.数据安全措施越早实施越好。在规划阶段就明确数据安全保护策略。明确企业中哪些数据属于敏感数据。充分考虑行业规定和政府法规。审视分析信息系统中是否藏有夹带敏感数据。收集足够信息来明确合规风险。
明确业务分析是否需要访问真实数据。如需访问,选择敏感信息加密技术灵活避免确保密文与明文不同版本数据的管理。
摘要:随着社会主义市场经济的不断发展,统计失实的现象日渐严峻,准确可靠的统计数字,是进行科学决策和科学管理的重要依据。因此,针对目前有些统计数据失实的现象,本文提出简要的分析和一些粗浅的解决意见。
关键词:统计数据准确性质量;统计数据失实;统计数据质量控制
一、统计数据质量问题的危害及严重性
统计数据质量问题是衡量统计工作的核心指标。准确可靠的统计数字,是进行科学决策和科学管理的重要依据。小到人民生活中的茶米油盐,大到企业的经营管理,甚至国计民生。统计数据的真实可靠都起着重要影响,不容忽视。
企业统计的目的是为企业经营决策管理提供统计信息。在市场经济条件下,企业的经营决策具有极大的风险性,风险性产生于企业对市场变化的不确定性,并由不确定程度决定风险大小。而不确定性又与信息的准确和及时程度直接相关。换言之,信息愈及时准确,企业所面临的风险就越小。
诺贝尔经济学奖获得者托宾指出:“如果没有可靠和及时的经济统计数据,特别是国民收入和生产统计数字,很难想象宏观经济政策如何制订”。中国历史上的五八年“浮夸风”给国家和人民带来的巨大灾难,人们至今也还记忆犹新。由此可见,搞准统计数字,提高统计数据质量乃势在必行。
二、常见的数据质量问题
(一)、数据虚假
这是数据质量问题中最常见的问题,也是危害最为严重的一个数据质量问题。这类统计数据完全是虚构或者杜撰的,毫无事实依据,因此不具备任何参考价值,反而会对决策带来严重的误导。(二)、拼凑数据
这种数据是把不同地点,不同条件,不同性质的数据在收集、加工、传递过程中人为地拼凑成同一时间、地点、条件和性质下的同一数据。这种拼凑而成的数据,虽然分别有其事实依据,但是从总体上看是不符合事实的,其性质与虚构数据相同。
(三)、指标数值背离指标原意
这是由于对指标的理解不准确,或者是因为指标含义模糊,指标计算的随意性大等原因造成的数据质量问题。会造成收集整理的统计数据不是所要求的统计内容,数据与指标原意出现走样,面目全非。
(四)、数据的逻辑错误
这是指统计资料的排列不合逻辑,各个数据、项目之间互相矛盾。
(五)、数据的非同一性
数据的非同一性是指一个指标在不同时期的统计范围、口径、内容、方法、单位和价格上有差别而造成的数据不可比性。
通过基于医学模型的数据监测与处理方法研究,解决普适医疗环境下多生理指标监测数据的正确使用和有效使用问题,主要体现在以下几个方面:
(1) 兼容不同监测质量设备获取的数据。
(2) 覆盖心电、血压、血氧、血糖、温度、体重六种日常健康监测关键指标,并具体落实到以冠心病预防、监测为例的慢性病防治典型应用。
(3) 通过数据融合算法和相应冠心病监测医学模型给出监测结果分析和长效管理方法。
1.普适医疗数据处理与过滤技术
在普适医疗环境下,由于考虑用户使用方便和对日常生活的最低化干扰,同时由于没有专业人员的随时指导,监测手段和环境相比于临床具有较大的随意性和自由性,这将导致监测数据质量可能出现较大的个体差异和测量差异,数据的易变性和不确定性将是数据融合算法精确度和实用性的致命威胁。因此,首先需要通过普适医疗数据处理与过滤的研究,完成数据融合算法输入数据的质量控制。
1.1 心电数据的提取和过滤
心电数据是六种生理指标中唯一一种连续波形数据,其研究的历史、深度、广度和影响力都是其他几种数据不能比拟的。虽然十二导联心电图数据之间存在差异,但是同一导联心电数据具有非常良好的规则性特征,在临床医学中通常需要辨别PQRST子波,并通过子波波形、波形之间关系等来诊断冠心病。目前,在普适医疗中已经有比较方便的心电监护仪和穿戴式心电监护设备,数据也可以方便地收集。但是,困扰心电数据质量的人为误差、噪声等影响还没有普适解决方案,通常只是由设备提供商在设备内嵌处理算法,其质量和可推广性存在问题,一旦因为用户动作干扰、导联脱落、外界噪声等因素导致心电监测波形出现异常、不连续、非法,后续的算法输出结果将不能预测[3]。因此,必须首先解决合法心电数据的特征提取以及高质量心电波形的过滤,以保证心电输入波形的合法性和正确性。
1.2 其他点数据的处理和过滤
点数据是指诸如血压、血氧浓度、血糖、体重、体温等基于单次测量读数的数据,通过单点数据就可以进行直接意义解释。这些数据的提取比较简单,直接从设备读数即可,但是过滤仍然存在问题。首先,由于人为误差(比如身体姿态对血压的影响、情绪对体温的影响等)、噪声等的影响,单次读数本身可能出现问题;其次,虽然监测数据有问题,但是不能直接看出是否正确合法,不能判断是监测者本身的生理指标突变导致还是仪器监测导致。点数据的过滤,不仅要过滤掉那些仪器原因导致的非法数据,而且要过滤那些人为误差导致的不正常突变数据,这样才能在长期监测中发挥点指标监测的作用。
2.多指标长效数据融合技术
多指标长效监测需要有相应的长效数据融合技术做保证,监测分为波形数据长效监测和点数据长效监测两种;融合即面向医学模型的多参多层次融合。
2.1 长效监测
首先需要解决两类型数据的解析和长效存储。比如心电数据可以通过波形数据存储,也可以通过解析注解后的特征波形存储,其他点数据可以直接存储。因为,长效监测可以为多层次数据融合提供输入服务,也可以自己本身作为一种简单的数据融合,它需要结合具体的医学模型产生输出结果,所以,解析和存储方式应该以不失真、适应各类医学模型为原则。其次需要解决的是监测模型。由于数据对象不同,曲线长效监测和点数据长效监测模型是不一样的,在解决存储的基础上,该模型即可以随之建立[4]。
2.2 多参多层次融合
在解决初级必要的数据监测模型之后,核心模块多参多层次数据融合模型和算法就有了数据基础。该数据融合具有显著的特点:多参和多层次。为了覆盖常见慢性病和常用生理指标,我们设计了兼容6项生理指标参数监测和基于此的单维和多维融合;为了提供不同精度和指导价值的融合结果,以满足不同层次服务质量的需要,我们将通过整理建立不同临床价值的医学模型并基于此建立不同层次的融合模型。在融合模型建立之后,与之匹配的不同的数据分析算法、数据挖掘算法、人工智能算法才可能进入本研究的理论体系并为之服务[5]。
3.面向冠心病的数据融合验证
考虑到研究时间的局限和目标医学体系的复杂程度,同时,为了真正把研究成果实用化并验证研究成果的正确性,拟引入一种关键慢性病——冠心病的诊断,从医学模型到融合模型,从理论分析到实际实验数据验证,进行紧密合作,不仅可以使研究成果落实,也可以从实际情况修正模型和算法,并通过同时模拟普适环境应用和在实际临床的应用,对最后的数据融合分析结果给出验证和评价。
3.1 冠心病多参预测、诊断模型
冠心病作为一种关键心血管疾病,心电图在其诊断中有着举足轻重的作用,但同时其他诸如血压、体重等也都有非常重要的相互比对参考的作用,只有多参共同作用建立模型才具有实用临床价值。
3.2 冠心病多参多层次数据融合模型
基于多参预测、诊断医学模型,可以建立长效监测模型和多参、多层次数据融合模型。该模型以数字化医学模型为目的,可以实际通过多参数生理指标输入,给出相应的融合模型和输出预测结果。
3.3 临床实验和分析
临床实验和分析也是本研究内容的关键部分,传统的普适医疗相关研究因为缺乏临床的验证和实验,最后的结果仅仅具有有限的研究和理论价值,这也是阻碍其成果推广应用到普适环境下的主要原因之一。因此,我们将基于理论模型算法和真实的临床监测数据输入进行实验,对实际实验结果进行分析,进而对模型和算法进行验证、修正和改进。
参考文献
[1]黄建始.关国的健康管理:源自无法遏制的医疗费用增长[J].中华医学杂志,2006,86(15):1011-1013.
[2]尤川梅,朱宏斌,金生国.将健康管理理念注入社区卫生服务的思索[J].中国妇幼保健,2007,22(22):3041-3043.
[3]Deena J.Chisolm,Lindsay Buchanan.Measuring Adolescent Functional Health Literacy:A Pilot Validation of theTest of Functional Heahh I iteracy inAdults[J].Journal ofAdoles cent Heahh,2007,41(3):312-314.
[4]戴萌,陈清,朱宏.健康体检质量管理模式的建立与实施[J].中国医院管理,2008,28(10):48—49.
惠普中国区副总裁潘家驰表示,“通过一次全面深入的‘体检’,该解决方案不仅可以发现数据管理中的潜在‘病因’,还可以透过‘体检’结果,提供对症下药的解决方案,为IT发展系统地规划出‘健康蓝图’。”
惠普所谓“体检”的依据是惠普ITMM成熟度模型。通过对企业IT治理、流程自动化、架构优化和平台标准化等四个维度对IT进行考量,ITMM可帮助企业客户诊断IT状态,建立IT发展参照系,全面判断企业IT系统建设中的漏洞和欠缺。
在“体检”结果的基础上,惠普ADAM的实施将立足于客户现有的数据环境,提高关键数据的可用性水平和应用系统的连续运行能力,改善应用系统性能,适应业务环境,遵从国际标准和行业法规,满足IT对业务部门的服务级别承诺,以为企业节约成本和提高投资回报。同时,惠普咨询专家团队可以更全面地评估数据管理IT环境中的各种因素,从而提升应用系统整体的高可用水平。
【数据仓储管理解决方案】推荐阅读:
企业数据安全解决方案12-30
数据监控系统解决方案10-01
行业大数据建设方案05-28
民政数据平台建设方案09-20
数据备份技术方案10-20
大数据平台建设方案11-15
营销方案数据库11-26
数据库服务方案12-20
工商数据中心建设方案09-07
产品数据管理制度09-26