数据质量

2025-02-21 版权声明 我要投稿

数据质量(精选8篇)

数据质量 篇1

本月抽查数据中的主要问题归纳如下:

一、著录问题

1.著录方式不同造成数据大量重复。

例1:本例共二十余条数据重复

2001 @a电子仪器仪表装配工@9dian zi yi qi yi biao zhuang pei gong@f周明昌主编

2001 @a工人技术培训题集@9gong ren ji shu pei xun ti ji@i电子仪器仪表装配工@f周明昌主编

2001 @a管工@9guan gong@f李尚发编

2001 @a工人技术培训题集@9guan gong@i管工@f李尚发编

2001 @a有机合成工@9you ji he cheng gong@f李俊胜,冯玉萍等编

2001 @a工人技术培训题集@9you ji he cheng gong@i有机合成工@f李俊胜,冯玉萍等编

例2:本套数据著录混乱。

2001 @a刑法48讲@f袁登明编著

300 @a2007年国家司法考试教辅系列 国家司法考试专题讲座系列2 人民法院出版社 北京万国学校司法考试强化培训专用教材

2001 @a国家司法考试专题讲座——刑法45讲@f袁登明编著

300 @a2006年国家司法考试教辅系列 国家司法考试专题讲座系列 3

2001 @a国家司法考试专题讲座系列@h2@i刑法49讲@f袁登明编著

300 @a人民法院出版社 北京万国学校司法考试强化培训专用教材

2001 @a国家司法考试专题讲座@i刑法45讲@f袁登明编著

2252 @a2006年国家司法考试教辅系列@i2006年版国家司法考试专题讲座系列@v2 462 0@12001 @a2006年版国家司法考试专题讲座系列@v2

统一为:

2001 @a国家司法考试专题讲座系列@h2@i刑法49讲@f袁登明编著

300 @a北京万国学校司法考试强化培训专用教材

例3 2001 @a2008全国房地产估价师执业资格考试名师辅导用书@i房地产估价相关知识考试攻略$f估价师执业资格考试研究室组编

改为:

2001 @a房地产估价相关知识考试攻略$f全国房地产估价师执业资格考试研究室组编

300 @a2008全国房地产估价师执业资格考试名师辅导用书

2001 @a注册电气工程师执业资格考试基础考试@9zhu ce dian qi gong cheng shi zhi ye zi ge kao shi ji chu kao shi@h下@i复习教程@f张炳达主编

改为:

2001 @a注册电气工程师执业资格考试基础考试(下)复习教程@9zhu ce dian qi gong cheng shi zhi ye zi ge kao shi ji chu kao shi(xia)fu xi jiao cheng@f张炳达主编

2001 @a儒林外史@9ru lin wai shi@f(清)吴敬梓著

2252 @a六角丛书

2252 @a中外名著榜中榜

461 0@12001 @a六角丛书

461 0@12001 @a中外名著榜中榜

改为:

2250 @a六角丛书@i中外名著榜中榜

462 0@12001 @a中外名著榜中榜

2.其他著录问题

缺拼音:

2001 @a用人单位职业病防治实用指南@f李涛, 张敏, 缪剑影主编

701 0@a李涛o@4主编

701 0@a张敏@4主编

701 0@a缪剑影@4主编

题名错:

2001 @alllustrator CS3中文版从入门到精通@9lllustrator CS3 zhong wen ban cong ru men dao jing tong@f锐艺视觉编著

应为“Illustrator”

2001 @a美国欧洲政策之国内成因研究@9mei guo ou zhou zheng ce zhi guo nei cheng yin yan jiu@e以撒切尔时期为例@f梁晓君著

330 @a本书共七章,内容包括:英国欧洲政策的历史传统、英国欧洲政策的国内制度因素、影响英国欧洲政策的国内利益因素等。

6060 @a对外政策@y英国

应为“英国”。

2001 @a朱氏脉决@9zhu shi mai jue@f朱青林编著

应为“诀”。

出版地及代码错:

@aCN@b110000(13)

2001 @a让小学生学会感恩父母的100个故事@9rang xiao xue sheng xue hui gan en fu mu de 100 ge gu shi@f刘英俊主编

210 @a北京@c花山文艺出版社@d2007(石家庄)

2001 @a中国@9zhong guo@e传统与变迁@dChina@etradition & transformation@e插图本@f(美)费正清(John King Fair bank)著@g张沛, 张源, 顾思兼译@zeng 210 @a220000@c吉林出版集团有限责任公司@d20083(长春,2008)

出版地应为“长春”,出版年为:2008

@aCN@b310000(33)

2001 @a幽暗之地@9you an zhi di@f(南非)J.M.库切(J.M.Coetzee)著@g郑云译

210 @a杭州@c浙江文艺出版社@d2007

文献语种错:

1010 @achi(1011 @achi@ceng)

2001 @aEJB 3基础教程@9EJB 3 ji chu jiao cheng@dBeginning EJB 3 application development@f(美)Raghu R.Kodali,(美)Jonathan Wetherbee,(美)Peter Zadrozny著@g马朝晖, 杨艳等译@zeng

1010 @aeng(缺@gchi)

2001 @a雾都孤儿@9wu du gu er@dOliver twist@f(英)Charles Dickens原著@g(美)Marian Leighton改写@g(美)Ric Estrada插图@g刘春梅, 王红欣译注@zeng

1011 @achi@cgre(ger))

2001 @a伟人与大国@9wei ren yu da guo@dMenschen und machte@f(德)赫尔穆特·施密特著@g梅兆荣,罗国文, 王熙敬译@zeng(ger)5101 @aMenschen und machte@zeng(ger)语种代码应为“ger”

二、分类标引问题

2001 @a史记选@9shi ji xuan@dSelection From Records of the Historian@f(西汉)司马迁著@g安平秋校译@g杨宪益,戴乃迭英译@zeng

6060 @a英语@j语言读物@j对照读物@x英、汉

6060 @a中国历史@x古代史@x史籍@x纪传体@y中国@j对照读物@x英、汉

改为:

6060 @a英语@x汉语@j对照读物

607 @a中国@x古代史@j纪传体

2001 @a聊斋志异选@9liao zhai zhi yi xuan@dSelection From Strange Tales From the Liaozhai Studio@f(清)蒲松龄著@g张友鹤辑校@g黄友义[等]英译@zeng

6060 @a志怪小说@y中国@z清代@j对照读物@x英、汉

6060 @a英语@j语言读物@j对照读物@x英、汉

改为:

6060 @a英语@x汉语@j对照读物

6060 @a古典小说@x志怪小说@y中国@z清代@j选集 6060 $a短篇小说$y中国$z清代$j选集

2001 @a中国乞丐调查@9zhong guo qi gai diao cha@e我国城区乞讨群体现状与对策研究@f王保庆著

6060 @a乞丐@x社会问题@x研究@y中国@z现代

690 @aD669.6@v4 正确:

690 @aD669.9@v4

2001 @aInDesign CS3从入门到精通@9InDesign CS3 cong ru men dao jing tong@f清风书坊编著

6060 @a电子排版@x应用软件

610 @aInDesign CS

690 @aTP803.23@v4

正确:

690 @a TS803.23@v4

2001 @a双胞胎的困惑@9shuang bao tai de kun huo@dFollow your heart you decide what happens!@f(美)J.E.布赖特著@g费吟梅译@zeng 6060 @a长篇小说@y美国@z现代

690 @aI565.45@v4 正确:

690 @aI712.45@v4

2001 @a2007年青春文学@92007 nian qing chun wen xue@f郭艳主编

6060 @a文学@x综合作品集@y中国@z现代(作品综合集)

690 @aI217.1@v4(I217.61)

中文采编部联合编目组

数据质量 篇2

结合智能电网调度技术支持系统数据模型规范性和统一性,对电网运行数据查询或存储如何保证数据准确性,主要通过数据模板整合工具来提高调度数据质量。

本文首先通过介绍数据整合技术架构,提出了一种基于数据质量诊断的数据整合技术。其次,通过利用五项关键技术整体实现电网运行数据的规范性和统一性,从而解决了提高了数据的准确性,为电网运行分析提供了可靠的数据支撑。

技术架构

本文针对现有的电网运行数据存在的问题,经过分析数据特征与存储分布情况,结合现有的数据质量诊断方法,设计出了适用于电网调度运行数据质量诊断的数据整合技术架构,从可视化流程构建技术、多源异构数据抽取技术、数据质量诊断技术、基于血缘追踪的数据转换技术到内存数据转发服务,全方位的解决了数据所存在的所有问题。技术架构如图1所示。

关键技术

可视化数据流构建技术

视化数据流为数据整合提供操作方便可拖拽、灵活定义节点方式进行数据整合。依据XML标准模型保存数据流模型数据,为数据整合提供了可视化定制流程手段,同时具备高度的可移植性。如图2所示。

1)灵活拖拽定制

用flex页面元组件定义数据操作节点,选择不同节点进行拖拽到数据操作区域,动态调整节点坐标和摆放位置;通过监听鼠标事件和键盘事件对其操作记录节点位置,定义界面全局变量临时缓存,待操作完成后统一保存到模型文件。

2)流程化模型存储

基于XML标准模型文件描述应用程序界面,使原本需要由代码开发的程序界面转而可以使用此规范进行描述。在定义中包含组件类型、位置定义、大小定义、样式定义及其他组件属性。如图3所示。

多源异构数据抽取技术

目前整合工具在使用过程中抽取源有国产数据库、商业数据库和电力模型文件,数据库抽取技术采用配置不同连接驱动动态反射调用连接库实例,即可达到同时抽取多个库实例。电力模型文件通过FTP服务多线程抽取,采用模板解析技术将数据文件放入内存处理。

1)多源异构数据技术

封装构建异构数据源的查新模块,转换底层数据对象为统一的全局数据。实现数据的统一访问以及数据源的集成和共享。构建异构数据技术架构见图4。

2)全量抽取技术

数据源端进行全部装载时需要进行全量抽取,全量抽取就是将数据从数据库中抽取出来,通过转换和加载操作迁移到其他地方。技术实现通过选择不同库实例定义SQL语句抽取全量和JAVA读文件IO流操作数据文件。

3)增量抽取技术

增量抽取只抽取自上次抽取以来数据库中要抽取的表中新增或修改的数据。在整合使用过程中,捕获变化的数据是增量抽取的关键。将业务系统中的变化数据按一定的频率准确地捕获。增量数据抽取中常用的捕获变化数据的实现用动态时间戳去定义SQL语句和文件名,时间戳标签[YYYY][MM][DD][HH24][MM][SS],通过JAVA正则处理替换达到数据动态更新抽取。

数据质量诊断技术

数据整合通过对数据抽取后,要对抽取数据结果进行数据质量诊断校验。一般的数据信息都符合统计学正态分布的规律,若一些占比小的数据存在异常,则通过与其它数量少的数据比较做出判断。电网运行类数据质量诊断技术主要采用曲线分析校验,具体如下:

将最近5个点进行大小排序,显示值取排序中值。使用中值滤波法可以排除局部极值的干扰。若是有一个异常数据经过,则由于在该异常数据段前后2个点附近为极大值(极小值),该点将被中值滤波法所抛弃。使用加权平均法,即将某点前后5个值进行权值平均,加权平均法虽然增加了曲线的平滑度,却依然受到误差的权值因素影响,而且某点的误差影响到前后5个点共计9个点的影响范围。使用中值滤波法可能会丢失一个峰值信息,但是用电控制以趋势控制为主,峰值控制较少,因此最终采用了中值滤波法来排除异常数据。给出了加权平均法和中值滤波法去除异常点的分析比较。如图5所示。

基于血缘追踪的数据转换技术

经过数据抽取对数据质量诊断判别后,需要对内存数据根据不同电力业务进行模型转换。在数据转换技术中采用数据血缘和流程追踪进行处理,数据血缘分为数据建模和查询重写。血缘追踪采用二叉树递归遍历节点内存数据转换计算处理,整合过程中速度快、数据关系透明化和逻辑操作方便等。

1)数据转换

数据转换服务将根据数据整合任务配置,在数据抽取服务完成后自动启动。它读取该任务的转换配置模板文件,并根据转换模板文件的具体要求:实现源端和目地端用户名不同的转换;源端和目地端表名不同的转换;源端和目地端字段名不同的转换;支持对一个表的字段增加,删除、修该源字段类型;对NUMBER类型数据作的+,-,*,/的转换。支持给一个列设置默认值,当该列为空时自动替换为设置的默认值。

2)模板技术

通过定义数据标签模板对数据模型格式转换,IMPUTIOSTREAM文件流对其模板和数据文件合并。解析标签对内存数据格式找到相应标签填充实数据,返回二维数据结构。在模板中改变变量几乎在任何地方都可以使用复杂表达式来指定值命名的宏,可以具有位置参数和嵌套内容名字空间有助于建立和维护可重用的宏库,在嵌套模板片段生成输出时,转换数据文件模型输出。如图6所示。

3)数据血缘

数据建模。主要是建立数据库概念结构的模型,先定义数据库全局概念结构模型,然后逐层细分,产生不同粒度的概念结构模型,知道原子概念结构模型;定义每个原子概念结构模型整合起来构成数据库全局结构模型;通过核心数据属性进行部分属性关联,逐步扩张得到数据标准模型;对表数据还可以采用视图关联。这样在实体之间的联系分为一对一、一对多和多对多三类。

流程化血缘追踪采用二叉树递归遍历算法,递归是设计和描述算法的一种有力的工具,它在复杂算法的描述中被经常采用

4)自主定义公式

在电网运行中地区负荷总加、全网最大、负荷率等需要自主定义公式计算。定义计算函数,通过下列方式可以实现自主计算的自优化:用函数来表示定义公式策略;依据当前的数据模型,通过业务数据定义函数公式,得到期望的数据状态和相应取值情况。针对内存中二维数据在电力业务需求中采用行与行和列与列之间公式定义计算,公式定义满足常规运算和统计函数运算,常规运算包括加、减、乘、除和操作符优先级等,统计函数包括SUM、SQRT、AVG、TAN、COS和逻辑与或运算等。

定义行计算公式。通过数据唯一标识定义公式,葛大江总机组出=G#1+G#2+G#3,通过遍历二维数据找到数据标识操作计算。

定义列计算公式。根据数据列名定义公式,当日全网负荷最大值=MAX(H1,H2,H3…),根据列名找到度量计算。

扩展计算函数。通过JAVA运行态反射调用技术,加载自定义函数类注入,丰富自主计算功能和业务数据逻辑处理。

5)指标判别技术

在电网运行中需要很多数据指标应用去支撑运行分析,数据指标分析也是电网运行中重要一部分。选择相关区域、设备及量测类型编码进行定位。根据统一编码,设备和量测关系进行匹配。搜索设备和量测类型对象编码匹配得出葛大江有功总加公式和分量进行判别。

基于内存的数据发布服务技术

在数据整合后需要对内存数据提供服务和发布,根据不同应用业务数据需要,可以将内存数据装载多个库实例和生成多个电力标准模型文件。当前电网调度的信息应用系统不断增加,并且多为异构系统,其应用需求也在不断变化,需要面向对象设计对其它系统提供数据服务调用。

数据库装载

把内存数据交换到目的节点,选择库实例,通过利用JDBC组件,支持国产数据库、SYBASE、SQLSERVER、DB2、MYSQL等多种满足SQL标准的数据库进行数据装载。

数据文件发布

从哈希列表中获取数据并将模板转义匹配,数据流中内存数据进行定义模板生成数据文件,生成数据文件通过FTP服务进行发布存储。

结语

本文提出的基于数据质量诊断的数据整合技术,从数据抽取、数据转发、数据发布、数据诊断等多个环节对数据进行了规范和统一,从整体上实现电网运行数据的规范性和统一性。而且在此基础上,使用数据质量诊断技术极大的提高了数据的准确性,为电网运行分析提供了可靠的数据支撑。

总量数据下行 经济质量改善 篇3

总量上看,5月份经济数据依然惯性下滑,但雾霾中露出一丝曙光。

1、固定资产投资增速下行

固定资产投资累计增速11.4%,比上月下降0.6个百分点,再创15年新低。房地产投资累计增速仅为5.1%,比上月低0.9个百分点,成为投资增速下降的最主要因素,如图1所示。

除房地产投资之外,制造业投资的持续下行和基建投资的冲高回落也加剧了投资总量的回落速度。制造业投资增速10%,尽管比4月有小幅回升,但是与去年同期相比,还是回落4.2个百分点,环比下行的速度非常显著。基建投资增速18.66%,比4月回落1.66个百分点。客观地说,由于财政收入大幅回落,基建投资不可能持续高速增长,而制造业投资回落,则是出清过剩产能的必然结果,这两大部分占投资总额的比重超过60%,因而在可以预期的时期内,投资增速很难大幅度回升。

2、工业增速小幅度反弹

工业同比增速6.1%,连续两个月小幅反弹;环比速度0.52%,虽然比上月有所回落,但依然处于近12个月均值以上,短期看,工业增加值似有企稳迹象。

3、居民消费触底回升

5月份,商品零售额名义增速10.1%,比上月微升0.1个百分点,扣除物价因素实际增长10.2%,比上月提升0.3个百分点,显示消费下行的趋势得到了初步的缓解。如图4所示。

4、价格依然下行但通缩趋势缓解

价格形势比较复杂。仅从CPI总指数看,5月份为1.2%,比上月显著下行,这主要是食品和原油价格因素所致。考察消费食品价格,从今年1月以来,一直处于稳步上升过程,5月份还有加快迹象。从这个角度看,从2014年以来的通缩趋势似乎已经出现了转折,至少通缩压力已经显著减轻。

与CPI止跌相比,更为可喜的是PPI出现了止跌迹象。四年来,我国的PPI一直处于下行趋势,到5月份同比数据依然在-4.6%,但是环比数据仅为-0.1%,呈现明显的探底回升态势。

金融危机后,我国政府意识到经济结构的问题,从2010年开始强调改变发展模式,调整经济结构。今年来的数据显示,经过近五年的努力,结构调整确实出现了明显的效果。

1、投资与消费结构渐趋合理

从经济协调发展和商品价值实现的角度看,投资和消费的长期平均增速应该是大体一致的 ,否则必然出现产能过剩或者供给不足。就短期来看,投资过剩导致的产能过剩固然可以通过出口顺差和房地产库存等形式被吸收,但是长期而言投资和消费的比例还需大体相当,否则只能导致供需失衡,大规模财富损失和经济危机。1997年以前,我国投资与消费的增速虽然当年差距很大,但在10年左右的中周期内是大体平衡的。1998年后这种平衡被打破,随后出现了长达17年的投资高增长,投资的平均增速达到消费的2倍,使得我国经济结构严重失衡,债务杠杆高企,资金周转缓慢。

过剩的投资导致过剩的产能和经济体系的低效,银行资产状况日趋恶化,政府希望及早解决,2008年尝试采取适度从紧的货币政策。不幸的是遇到了国际金融危机,为了应对,我国反而加大了刺激投资的力度,并把这个惯性延续到2010年。

2011年后,我国政府逐步退出投资拉动经济的策略,投资增速逐月降低,投资与消费增速之比从1.72倍降到1.1倍,就今年5月当月数据看,二者的比值已经接近于1,达到接近均衡状态。

2、工业增速下降,企业利润改善

在传统发展模式下,工业增加值增速低于9%时,工业企业利润将出现负增长,而今年4月却出现了工业增速低于6%,企业利润增加2.6%的可喜局面。这可能是一个新旧模式转换的临界点。今年下半年将出现工业增加值低于8%,但企业利润增速持续上升的局面,在科学技术的武装下,我国工业的效率显著提升,产业层次逐步进入高端。

3、电子信息产业增速远远高于工业增速

战略性新兴产业的发展取得了长足的进步,其相对增长速度大幅度提升,达到工业平均增速的2倍左右。

4、现代服务业增速开始高于工业增速

现代服务业在统计指标中主要列示在“其他服务业”项下,2014年以后,现代服务业增速显著提升——不论工业增速如何下降,现代服务业都保持了很高的增速。

超出我们预料的是,房地产行业无论价格还是成交量都出现了企稳回升的迹象。如果说前几个月一线城市房价上升还仅仅是结构性的价格复苏,那么5月份二线城市房价的整体上涨,表明即使剔除投资性需求,我国目前的房屋刚性需求也维持了稳定增长的基础,而房价的下跌可能已经告一段落。尽管三线城市房价还在下降,但是环比降幅已经微乎其微了。

质量数据分析报告 篇4

一、行业特征及运行情况

(一)建筑业特征

1、产业关联度高,周期性较强建筑业是国民经济的支柱产业之一,全社会50%以上固定资产投资要通过建筑业才能形成新的生产能力或使用价值.建筑业上游与建材工业、木材及木材加工工业等密切关联,下游涉及铁路、道路、桥梁、港口等基础设施和产业设施等投资建设领域,建筑行业的增长与全社会固定资产投资增长具有较强的正相关性,周期性特征较明显.

2、市场进入壁垒较低,竞争激烈建筑施工企业采取“定向施工、以销定产”的生产方式,以劳务、施工技术等为业主提供服务,自有资本投入要求不商.同时,由于建筑产品多样化、单件生产的特性,决定了建筑施工企业难以大批量规模生产,加之市场被地区分割,都使建筑行业中、小企业数量较多.据不完全统计,全国现有各类建筑施工企业近10万家,其中民营背景的占70X以上,以中小企业为主.较低的行业准入门槛和中小企业为主的行业特征,导致行业整体盈利水平较低.

3、建筑施工企业自发性融资特征明显,表外授信需求大建筑工程的生产周期普遍较长,有的长达几年甚至十几年,需要的建设资金较多.为此,建筑施工领域一般由业主按工程进度向建筑施工企业支付预付款,即自发性融资形成建筑施工企业的主要负债.企业自有资金较低,自发性融资为主的特征,导致建筑旄工企业资产负债率偏高.由于行业特点,建筑施工企业需要开立大量的非融资性保函、信贷证明,其表外授信需求相对较多.

但近年来随着BT、BOT等项目融资方式的逐步兴起,尤其是在我国加大城市基础设施建设的.背景下,建筑施工企业通过BT、BOT等方式争揽项目,对银行中长期融资需求明显增加.从海外建筑工程领域看,国际金融危机后我国企业逐步通过“带资承包”及BT、BOT等方式开拓国际市场,对商业银行提供中长期配套金融服务的要求亦有所增加.

(二)建筑业运行状况及发展态势

近年来我国国民经济继续保持较快增长,城市基础设施、交通、工业、重大活动场馆及住宅等建设项目较多,使建筑业得以较快发展.-,全国建筑业总产值的平均增幅为21%.国际金融危机以来,受益于国家“保增长”的政策,国内基础设施建设领域投资增长较快,2009年1-9月,铁路、公路和城市公共交通建设投资分别同比增长83.2%、50%、66.2%.而房地产开发投资同比增长17.73%,其中自8月起累计投资占比同比回升.由此,建筑业也得以加快发展,2009年1-9月,全国建筑业总产值同比增长23.9%,比前3年平均增长水平提高2.9个百分点.从建筑施工企业经营情况看,国内建筑业14家重点上市公司2009年上半年实现收入4700亿元,同比增长41%:净利润100亿元,同比增长43%.相比其他行业,当前建筑业具有更为明显的成长性.总体来看,未来一段时期,预计我国经济将继续保持平稳较快发展势头,国家重点建设项目后续资金投入、城镇化建设进程中对基础设施建设及房地产建设的投入都促进我国建筑行业继续保持良好发展态势.

从海外建筑领域看,近年来受益于国家实施“走出去”的战略,我国建筑业的海外市场也得到快速拓展,年斯签合同金额增幅超过100%,业务领域从过去的以土木工程为主扩展到港口机械、电力、石化、轨道交通等领域.但本次金融危机后,受海外需求不振甚至萎缩的影响,我国海外建筑工程的发展速度明显减缓,复苏将是一个缓慢

二、银行建筑业授信情况

1、银行建筑业授信以表外业务为主且增长较快,其中贷款业务在建筑业授信中占比较低,增速也相对平缓,总体来看基本符合银行2009年建筑业信贷投向指引的要求.

2、从主要子行业发展情况看,房屋和土木工程建筑业、建筑安装业的表外业务和贷款业务的发展态势与银行建筑业授信业务总体发展特点基本相同:建筑装饰业和其他建筑业均呈现贷款增速高于表外业务增速的现象,与这两类子行业表外业务需求相对较少的行业特点有关.

3、从资产情况看,该行业总体资产质量尚可,但不良贷款比率上升较快需引起关注.其中不良贷款增幅较大的主要原因是银行一授信客户因母公司大量进口大宗商品失策等问题而牵连,导致正常类贷款下迁至次级类所致.此外,小型客户、建筑装饰业客户也新增一些不良贷款.

4、从客户结构看,该行业大型客户授信余额占比高,且呈现上升趋势,银行加大对建筑施工企业大型客户授信介入的授信指引取得了一定成效.

5、从担保情况看,建筑业贷款担保方式以保证为主,抵质押占比较低,与建筑业的特点基本相符.

三、行业信贷投向指引

2010年,结合国内外经济形势,建筑业和建筑施工企业的主要特点,以及银行内部评级分析结果,银行对建筑业继续实施“细分市场和客户、优化产品组合”的信贷原则,重点选择具有国际、国内竟争力的优质大型客户,继续加大对国内重点基础设施项目的支持,在授信安排方面应以与企业建筑主业密切相关的非融资性保函等品种为主,审慎把握流动资金贷款支持和项目贷款业务.

(一)行业信贷政策

1、重点支持国内铁路和高等级公路建筑行业、机场、水利和港口工程建筑行业、大型设备和生产线安装承包等领域.

2、适度支持国内房屋建筑行业、建筑安装行业.

3、审慎支持国内建筑装饰业.

4、稳步推进海外市场业务.

(二)客户信贷策略

1、重点支持具有央企背景并参与国家重点基础设施的建筑施工企业集团及其下属核心子公司(重点支持名单见附表).根据承接项目的需求情况,在满足其非融资性保函、信贷证明合理需求的同时,可合理给予流动资金贷款、银行承兑汇票和信用证等贸易融资授信,用于支持企业购买施工所必需设备(如塔吊、挖土机、推土机等)等正常经营活动,不得用于项目垫资.对并购贷款及BT、BOT项目贷款等应在落实担保的前提下审慎办理.对于其授信业务可在担保条件不低于同业水平的基础上考虑给予信用方式.

2、适度支持具有一定区域优势、具有良好的从业经验(或股东背景良好、从业经验丰富)、具备工程总承包和专业承包一级及以上(工程勘察、设计、监理企业为甲级资质)、财务经营情况较好、能参与地方性重点基础设施项目、项目优良率商的建筑施工企业.对区域龙头并己上市的建筑施工企业可重点予以跟进.对该类客户可适度给予非融资性保函、信贷证明、及低风险贸易融资授信品种.对流动资金贷款从严把握,贷款期限原则上控制在1年以内.不得发放并购贷款和项目贷款,审慎办理海外工程项目项下的授信业务.同时,要严格落实担保措施,除了信贷证明、投标保函、镊票贴现等低风险授信品种外,原则上不得发放信用授信.

3、审慎支持从业经验较好(或股东背景较好,从业经验丰富)、具备工程总承包和专业承包二级级(含)以上资质(工程勘察、设计、监理企业为乙级资质)、施工工程质量良好、财务经营情况正常的客户.对于该类客户,仅可授予非融资性保函、信贷证明、银票贴现及全额保证金授信业务,不得给予其他授信,除信贷证明和银票贴现外,其他敞口授信应全部落实担保.

4、对上述三类以外客户,包括工程总承包和专业承包二级以下企业、仅有分包资质的企业,不得介入具有风险敞口的授信业务,已经介入的要减持退出或加固担保.

(三)提高对海外工程授信风险把握能力

1、注意调查了解相关国家风险、企业在海外工程领域的建筑施工经验、业主资信和付款能力等,并关注汇率风险,提出相关风险控制措施.

2、对于融资授信要注意回款风险,应根据国家风险大小和客户实力情况、担保情况等,积极落实出口信用保险,或融资限用于有中国进出口银行、亚洲开发银行等国内外金融机构支持项目的临时性资金需求,并要求贷款资金封闭运作,按工程进度款项遥笔收汇贷款资金.

3、充分发挥代理行和海外分行的服务功能,为客户提供包括国别风险信息、业主资信调查、项目风险评估、投资政策、外汇政策和财税政策咨询、财务顾问服务等全方位金融服务.

4、注意收集相关重要信息,包括中信保每年公布《国家风险分析报告》,国际著名评级公司对业主的风险评级及其它相关重要信息.

5、对一些重大项目,应考虑组建海外建筑工程项目服务专业团队,为其提供包括银行、保险、投资等业务在内的全方位、一揽子金融服务.

(四)审慎设置授信条件,加强投后管理.

1、加强流动资金贷款用途审核.额度核定应与设备采购等正常经营需求将匹配,尽可能避免铺底贷款性质,确保贷款用于项目施工的经营周转,依据项目施工各节点的回款,及时偿还银行贷款.授信额度提用时,应严格对照授信用途审核资金支付对象和途径,防止资金挪用于辅业投资等其他用途,要关注公司应收款项总量及质量情况,防止工程款项被拖欠而影响贷款偿还.对从事房地产建筑施工的企业,原则上不得给予流动资金贷款,防止资金流入房地产开发领域.对BT、BOT等项目贷款从严掌握,除了满足前述要求外,其余要求参照业主所对应的相关行业信贷投向指引执行.

2、对于预付款保函,应对建筑施工企业支用业主预付的工程款实行监管,以确保预付款不被挪用.保函、信贷证明到期后,注意及时收回正本并办妥相关的核销手续.

(五)加强行业和客户风险管理,提高风险收益

1、积极关注国家宏观经济及建筑行业政策,深入研究当地建筑行业政策及市场情况,制定并及时调整适合本地区业务发展与管理的策略.

数据质量检查调研报告 篇5

4月16号—18号,总队消费价格处对马鞍山城调队的流通消费价格调查专业进行了数据质量检查,现将相关情况汇报如下:

一、检查的主要内容及方式:一是通过走访调查点,检查直接采价的制度的执行情况,核实年初设定的调查点和规格品的真实性与代表性;二是通过查看案头资料台账记录是否齐全、规范、完整性;各项配套制度的执行情况;三是通过向队领导的汇报和与科室专业人员面对面的交流沟通,指出检查中发现的问题,纠正、规范错误的做法和认识,提出整改要求。

检查流程:检查组成员按照先查看文案后到采价点直接调查的流程进行检查。文案检查主要是各种台账的完整性和规范性、后台管理系统相关处理的正确性等。到点直接调查主要检查直接采价制度执行和监督检查情况(核实调查点、规格品是否真实存在,采价员对规格品在调查点的摆放位置是否熟悉,实际价格与上报价格是否相符等),检查的重点类别主要有服务项目调查网点、超市的日用工业品、农贸市场、家具、建材、药店等。

二、检查的总体情况:一是队领导重视消价调查工作。督促检查工作较到位,采价员配置达九名,责任心也不错;二是近期优化了专业科室的人员构成,将一名新进公务员,统计专业的年轻同志分配到消价专业。直接采价制度执行情况较好,规格品和调查点真实存在,大多数调查点和规格品设置科学,具有代表性,只有个别调查点如雨山药店问题较多。总体来看,价格出入的情况较少,商场采价员对规格品的摆放位置比较熟悉,但个别规格品代表性不强,调查点和规格品的维护工作尚待加强;业务培训要进一步强化,专业人员对制度方法理解尚不透彻。台帐按总队要求认真设置,认真记录,但个别台帐不太完整、规范。

三、检查发现的主要问题:

1、基础工作(调查点、规格品设置情况)方面:一是极个别规格品虚设。如雨山药店,替加氟片根本不存在。二是存在随意沿用价格情况。如在调查点雨山药店,年黄解毒片、银翘解毒片、防螨霜以及祛斑霜缺货都在一个月以上,但是后台未做说明。一个餐馆调查点更换,未在采集系统中说明,且部分菜品价格核对情况与上报价格有出入。三是调查点设置较分散,建议整合。建材、服务类

调查点过于分散,为了一个祛斑霜和一个防螨霜要多跑两个药店,完全可以放在超市里采价。五金类规格品可以放在建材和超市,不用另设点,增加采价负担。

2、直接采价执行情况好,价格采集真实。(1)服务网点共检查13个调查点,价格对应性较好,只有一个餐馆部分菜价因为采价员4月更换,衔接工作不是很到位,其余均价实相符,但需要注意,个别规格品描述要严谨。(2)鸿泰新百检查了部分应季服装、鞋以及床上用品,13个规格品全部相符;华东家具城检查了8个规格品,全部相符。

3、个别调查点采价员仍存在问题。调查点雨山药店,年黄解毒片、银翘解毒片、防螨霜以及祛斑霜缺货都在一个月以上,但是后台未做说明。黄芪价格应为60元/千克,但是上报价为50元/千克;咳必清是2元,但是上报价为2.5元;酒精500ML是5元,但是报价为5.8元等。

4、台帐按要求认真填写,但存在如下问题。(1)报表报送审核台账严格按工作流程完成,奇异值审核、上下市时间提醒、金额核对都能认真记录,但是对金额核对的理解有误差,已经告知专业人员。(2)14年采价员例会台帐记录认真,但对农贸市场重要鲜活品种关注较少,这方面需要改进。(3)规格品补录台帐缺失,这一块要补上。

四、工作要求和建议:

浅谈统计数据质量控制. 篇6

论文关键词:统计统计数据统计资料统计人员质量控制

前言;随着市场经济的不断发展,统计失实的现象日渐严重,统计工作者应当本着对本职工作高度负责的精神,进行全过程的、全员参加的、以预防为主的统计数据质量控制。要尽可能采用计算机处理统计资料,最大限度的减少人工参与,加强对统计人员的职业道德和专业水平的培训以及加大统计执法力度等,以保证源头数据的准确性,使我们的统计工作更好的为企业服务。

正文:随着经济快速发展,企业快速成长、扩长信息获取、识别、处理、转换、传递的准确性、效率与速度。在企业经营管理中的重要作用也将愈来愈显著。企业要能在市场竞争中求得生存与此同时发展,一个重要的条件就是——必须要有一个健全的高效的信息系统,一支能提供准确数据的素质过硬的统计队伍,以满足企业经营管理决策所需的各种信息。因此,作为提供信息的企业统计必将在其中扮演重要的角色,发挥重要作用。

从总体上看,现有的统计数据基本上还是能够反映客观实际的。但是,随着市场经济的不断发展,经济结构复杂化,利益主体多元化,再加上体制转化过程中经济秩序混乱,人为干扰增多,因而搞准统计数据的难度也就日益增大,统计失实的潜在危险性也就日渐严重,并将逐步暴露。对此,我们必须需要清醒的认识,要始终不渝地把提高统计数据质量问题,摆到统计工作的首要位置,并才却综合治理措施,切实抓紧抓好,下面就统计数据质量问题谈谈自己一些粗浅的看法。统计数据质量控制的意义

企业统计的目的是为企业经营决策管理提供统计信息。在市场经济条件下,企业经营决策极具风险性,风险产生于不确定性并由不确定性程度决定风险的大小,而不确定性又与信息的准确和及时程度直接相关,信息愈准确及时,不确定性愈低;反之,信息不准确及时,不确定性愈高。所以,准确可靠的统计数据,便于决策和管理者正确地把握形势,客观地剖析问题,从而作出科学的决策。反之,有水分的、失实的统计数

据,相互矛盾的统计数据,给决策者以错误的信号,将会误导决策和调控,对企业的发展将会造成重大损失。因此,统计工作者必须以对本职工作高度负责的精神,已统计数据为对象,以消除统计数据的差错为目标,千方百计搞准统计数据,达到强化统计数据质量控制的目的。常见的统计数据质量问题及分析 2.1数据虚假

这是最常见的统计数据质量问题,也是危害最严重的数据质量问题。这些统计数据完全是虚构的杜撰的,毫无事实根据。造成统计数据虚假的因素多种多样,比如:有意虚报,瞒报统计数据资料,指标制度不严密,统计制度不完善,不配套等。

2.2 拼凑的数据

这种数据是把不同地点,不同条件,不同性质的数据在收集、加工、传递过程中,人为地拼凑成同一时间、地点、条件和性质下的同一数据。这种东拼西凑的数据,虽然分别有事实根据,但是从整体上看数据是不符合事实的,其性质与数据虚构相同。

2.3 指标数值背离指标意愿

这是由于对指标的理解不准确,或是因为指标含义模糊,指标计算的随意性大等原因造成的数据质量问题提,表现为收集整理的统计数据不是所要求的统计内容,数据与指标原意出现走样,面目全非。

2.4 数据的逻辑性错误

这是指统计资料的排列不合逻辑,各个数据、项目之间相互矛盾。2.5 数据的非同一性

这是指同一指标在不同时期的统计范围、口径、内容、方法、单位和价格上有差别而造成的数据的不可比性。

2.6 数据不完整

这里指调查单位出现遗漏,所列项目的资料没有搜集齐全,不符合统计资料完整性的要求。数据不完整,就不可能反映研究对象的全貌和正确认识现象认识现象总体特征,最终也就难以对现象变化的规律性做出明确的判断,甚至会得出错误的结论。

2.7 统计手段和统计分析落后

目前许多企业基础统计工作仍处于手工状态,很原始!即使采用计算机业仅仅是减少工作量去做一些汇总、指标计算,并没有真正引用先进的计算机技术和网络技术。所做的统计分析也局限于事后分析,即对统计数据进行单纯的讲解说明;不能利用网络技术实行信息共享等方式进行事前分析和预测。换句话说,“统计预测”这一职能根本没有发挥作用,缺乏对信息的收集、综合和系统化。

此外,常见的统计数据问题还有计算错误、笔误等。

可见,统计数据质量问题既可能是来自于实际阶段,也可能是来自于统计资料的整理阶段。统计数据质量控制方法

3.1 统计数据质量控制的原则应当是全过程的、全员参加的、预防为主的数据质量控制

首先,统计数据质量控制要贯穿于统计工作的全过程。每进行一步,都要对已完成的工作进行检查、对已发生的差错及时进行纠正,做到层层把关,防止差错流入下一个工作环节,以保证统计数据的质量。其次,参加统计数据质量管理和控制的人员应当是全面的。统计工作者都要树立数据质量意识,各个主要的工作环节都要落实专人负责。统计数据质量的好坏,是许多工作和许多统计工作环节质量的综合反映,牵涉到统计工作的所有部门和人员。因此,提高数据质量需要依靠所有统计工作者的共同努力,决不是单纯靠某一个部门或少数人所能搞得好、抓得了的。只有人人关心数据质量,大家都对数据质量高度负责,产生优质的统计数据才有坚实的群众基础。因而,统计数据质量控制要求把差错消灭在它的形成过程中,做到防检结合、以防为主。这就要求有关人员在质量控制中具有超前意识,抛弃那种出现了统计数据问题才想来办法解决问题的被动局面。

实行全员性质量控制,就在把统计数据质量目标及其关键交给广大统计工作者,落实到每个工作岗位,使每个岗位都有明确的工作质量标准,做到合理分工、职责明确、职责越明确,数据质量控制就越有保证。

3.2 统计设计阶段的质量控制

统计设计是统计工作的首要一切,统计数据质量的好坏,首先决定于这个过程,它是提高统计数据质量的前提。如果设计过程的工作质量不好,就会给统计数据质量留下许多后遗症。设计过程的质量控制需要抓好以下几项工作。

3.2.1正确规定统计数据质量标准。数据质量标准是指根据不同的统计目的对统计数据精度所提出的要求。满足统计目的精度的统计数据就是准确的、高质量的统计数据。首先要作充分的调查,系统地收集市场和用户对统计数据的反映和实际使用效果的情况;其次要分析研究过去统计数据的主要质量问题,找准统计数据质量控制的主攻方向;最后要进行反复论证,考虑到统计工作中实际能够达到的水平。

3.2.2 合理设计统计指标体系及其计算方法。

统计指标设计得是否合理,也是影响统计数据质量的因素之一。采用统计报表搜集资料,首先要实行标准化管理,制定的指标要符合统计制度的规定,范围要全,分组要准,指标涵义的解释和计算方法要精确;其次要对统计报表的设计、颁发、填制、汇总的全过程实行全面质量管理。

3.2.3 资料整理鉴别阶段的质量控制

统计资料整理鉴别阶段出现的差错是统计数据质量问题的重要方面。如果资料不准确,就会影响结论的正确。因此,要特别注意审查资料的可靠性和适用性,要弄清楚统计指标的口径范围,、计算方法和时期时点。对于口径不一致或不完整的资料,需要进行调整、补充;对于相互比较的资料,必须要注意有无可比性;一旦发现数据有严重的质量问题,应进行核实,避免有质量问题的资料进入汇总处理阶段。总之,对搜集到的资料,经过鉴别推敲、核实审定,使之准确无误,才能使统计数据的质量得到保证。人为错误的质量控制

4.1尽可能采用计算机处理统计资料,同时提高统计分析水平。

计算机作为当今社会不可缺少的高科技产物已渗透到我们生活、工作中的各个一切。运用计算机整理、汇总统计资料,速度快、效果好,其优越性是手工整理无可比拟的。现在国内大部分著名企业基本上实行网络化、全球化、利用网络资源了解世界先进行业信息,采用科学先进的统计分析方法和手段,进行横向、纵向对比,找差距控潜力,努力赶超世界先进企业。要能够写出有一定深度的统计分析预测报告,系统、全面、科学地去挖掘利用网络资源和从市场取得的第一手资料,完善整个分析、预测手段方法和过程。但是,也应重视计算机处理数据的质量问题,提高计算机数据处理的关键在于提高录入数据的可靠性。

4.2 统计工作者本身应提高自身素质

统计人员没有深厚的专业知识和丰富的实际工作经验,没有跟上时代及时进行知识更新,不善于统计调查获取第一手资料,就写不出有一定深度关于本企业某一方面对决策层有参考价值的统计分析报告。因此,对统计人员应该加强培训工作,企业内部应建立配套的培训机制,对每一层次统计岗位实施针对性的培训,必要时到企业外请有关专家学者授课,或到相关先进单位进行考察学习,做到取长补短。统计工作者本身也应该努力学习统计知识,钻研业务,不断提高统计业务素质和水平,杜绝因业务不熟悉而造成的数据质量问题。

4.3 加强对统计人员的职业道德培训。

目前,上级部门下达计划和各类政绩考核对统计数据干扰不可低估。有些地方,以是否完成计划和各类数据的高低作为考核地方政绩的依据,导致很多下级部门所报的统计数据高于计划数或持平,这并不是计划部门的计划多么精确合理,而是说明某些统计对象或统计部门受某种利益的驱动而使统计数据的质量得不到保障。当然,数据不真实、不准确的原因是多方面的,其中统计人员的思想道德对统计数据的影响是很大的。这就要求我们加强对统计人员的思想品德和职业道德教育,要求每一个统计工作者必须坚持实事求是的工作作风,认真对待每一个统计数据,如实地反映情况。

4.4 加大统计执法力度,保证源头数据的准确性。

统计部门今后应在加强统计信息工作建设的基础上从数据采集的圈子中跳出来,重点加强统计执法检查,对弄虚作假的单位要坚决严肃查处。要立法上,罚款数额应该大幅增加,以威慑统计违法者,逐步建立单位的统计诚信体系。

以上是本人对统计数据质量控制的一点肤浅的认识,旨在广大统计工作者更加重视统计数据的质量、抵制统计上弄虚作假的作为,提高统计数据的质量水平,使我们的统计工作能更好地为企业服务。

数据质量 篇7

数据仓库技术被越来越多的烟草行业企业所采用, 在企业构建数据仓库时面临的一个突出问题就是数据来源的广泛性以及保证数据质量的重要性, 数据质量问题成为关系到数据仓库建设成败和数据能否有效应用的重要关键问题。由于烟草行业信息化建设起步比较早, 各企业在多年来信息化建设中积累了大量的业务数据, 这些数据由于历史原因, 数据质量的状况差异很大, 因此在使用这些数据建立数据仓库时, 低质量的数据不仅会带来数据仓库自身维护的高昂费用, 而且更重要的是会导致制定糟糕的决策。即使在设计和建设数据仓库时做到非常好的数据仓库基础设施, 但如果仓库中的数据不符合支持决策的质量特征的要求, 那么建设数据仓库所付出的努力就会付诸东流。

从数据质量管理的发展历程来看, 对于数据质量的控制从单纯的对仓库中已有数据的监控发展到对仓库数据形成过程的全面质量管理。因此, 以数据仓库的长期建设来看, 好的数据质量管理的方法不是临时解决问题, 而是建立适宜的数据质量评价体系, 来管理数据的正确性、有效性、安全性、完备性。

2 数据质量的定义

关于数据质量的定义简单的说, 针对某一特定的用途能够满足需求的数据就是好的数据, 而不必要求一定是完美的数据。本文中我们使用最常出现的一些属性来描述数据质量。数据质量是对数据正确性、完整性、一致性、及时性、唯一性和有效性的度量, 如果数据具备上述性质, 那么可以认为数据具有好的数据质量。

3 数据错误的分析

数据仓库中数据的错误与数据的收集来源、处理和使用都有关系。数据仓库所装载数据的典型流程如图1所示。

在数据仓库建设中数据错误发生的主要位置有三个:

●数据源:由于数据仓库集成多个数据源的数据, 有来自关系数据库的, 有来自ERP数据库的, 有来自文件的, 如Word文档、Excel文档、XML文档和文本文档等, 即使是关系数据库, 其数据库厂家和版本号可能也是多种多样的, 这种数据源本身的正确性和质量会影响数据仓库数据的质量。

●ETL过程:将这些不同时期、不同地点和不同格式的数据提取出来, 经过清洗和转换, 最后放置到数据仓库中是非常繁琐和复杂的。在一般的数据仓库应用中, 所涉及的ETL过程即数据的抽取、转换和装载过程中涉及的转换非常多, 如何保证ETL过程的正确性是ETL过程中最富有挑战性的工作。

●仓库数据的使用和管理:由于数据仓库持久的使用和操作、系统管理员对数据仓库的维护可能会出现矛盾的情形。如由于ETL工具功能的局限性, 对于不同的数据源可能需要采用不同厂家的ETL工具或自己设计和专门定制的工具。在使用这些工具的过程中, 不能保证所处理数据的一致性。

可见, 在如此多的数据源、数据清洗和转换步骤以及对仓库数据管理上可能导致问题的前提下, 要保证数据的质量显得非常艰巨, 也非常必要。从以上数据错误的分析来看, 从源头上控制数据的质量是解决数据质量问题的最根本的方法。基于数据源本身的正确性和质量对数据仓库数据质量的重要性, 数据源分析成为数据仓库规划与分析阶段的一项重要内容, 具有十分重要的意义。数据源分析的主要任务是完成各源系统的数据现状描述、评估, 评价数据质量以及存在的问题和不足, 为数据仓库的实施做准备。

4 数据质量的度量

一般来说, 数据质量是由数据质量元素来描述的。数据质量元素分为两类:数据质量的定量元素和数据质量的非定量元素。数据质量定量元素用于描述数据集满足预先设定的质量标准要求及指标的程度, 并提供定量的质量信息。数据质量非定量元素提供综述性的、非定量的质量信息。本文重点探讨数据质量的定量元素分析。

对一个信息系统而言, 数据质量定量元素主要考虑以下指标:

●正确性 (Correctness)

●完整性 (Completeness)

●一致性 (Consistency)

●及时性 (Timeliness)

●相关性 (Relatability)

●唯一性 (Uniqueness)

●有效性 (Validity)

●可理解性 (Understandable)

根据上述指标, 可以针对不同的信息系统进行定量的数据质量评估, 在评估过程中, 用户可以根据应用的需求选择其中一部分来执行。

5 数据质量评估指标及检测方法

根据以上论述的数据质量的度量, 在进行具体系统数据质量评估时主要考虑以下指标:

●完整性检测 (Completeness) :完整性即实体的每个属性都有明确的值, 不存在“空”或“未知”的属性。完整性检测就是计算表中不存在缺失字段的数据的百分比。

检测方法: (1) 用户选择需要进行完整性检测的字段, 即该字段不能为空。缺省情况下是该表的所有主码。 (2) 对设定的的每个字段, 建立规则, 给出其非空值的比例。

●唯一性检测 (Uniqueness) :唯一性即一个表中的一组属性的值是唯一的。唯一性检测是计算满足唯一性约束数据的百分比。

检测方法: (1) 用户设定需要进行唯一性检测的字段, 缺省情况下是主码。 (2) 对选择的每个字段, 给出其唯一性的符合比例。

●有效性检测 (Validity) :有效性即实体属性的值要在用户定义的有效范围之内。有效性检测是计算满足域和数据有效范围定义的数据的百分比。

检测方法: (1) 用户选择需要进行有效性检测的字段。 (2) 针对每个字段, 用户设定有效性规则, 有效性规则分为数值有效性和自定义有效性两类。数值有效性将数据分为连续型和离散型。对于连续型数据, 用户可设定该字段的最大值和最小值, 以限制该字段的有效范围。对于离散型数据, 用户可设置该字段的所有有效取值。例如, 在性别一栏中, 只能填F、M或U, 其他均为无效。在自定义有效性中, 用户可以自由设定有效性规则。 (3) 针对该字段, 检测给出的有效性规则, 给出满足程度。

●相关性检测 (Relatability) :参照完整性是指一个子表 (从表) 中的一个字段必须在另一个父表 (主表) 中存在。相关性就是计算满足参照完整性数据的百分比。对于数据库中的某些实体, 它们的存在可能要依赖于其他的实体, 但在数据库中并没有定义这些实体的参照完整性, 而靠应用程序或其它手段来检查, 但这并不能完全保证实体的参照完整性, 所以要在数据质量评估时进行检查。

检测方法: (1) 用户设定需要检测参照完整性的主表字段。 (2) 用户设定相应的从表和从表字段, 而且只能在具有匹配值的相似字段间建立参照完整性检验。 (3) 逐一考察每个字段的参照完整性, 给出其参照完整性的符合程度。

(4) 一致性检测 (Consistency) :同一个实体的一些属性可能在多个表 (可能在不同的系统) 中出现, 那么这些表所描述的同一实体的同一属性的值必须是一致的。

一致性检测是检测多个表之间具有同样含义的数据一致的符合程度, 计算出检测表中与其他源系统一致的数据的百分比。

检测方法: (1) 待检测的表是主表, 首先用户设置进行一致性检测的主表字段。 (2) 选择需要相应的检测的从表和从表字段。 (3) 设置好主表和从表之间的连接项, 连接项可以是多个字段。但是连接项必须是具有匹配值的相似字段。 (4) 对每个字段数据, 给出与系统其他表中有同样含义的表之间的一致性的符合程度。

根据上述指标, 可以针对不同的信息系统进行定性或定量的数据质量评估。同时, 可根据实际情况, 在评估过程中有所取舍。另外, 由于时间、条件不具备等客观因素, 正确性的检查很难进行, 所以一般视实际情况单独处理。

6 数据质量评估规则的确立

在评估指标以及各指标的检测方法的指导下, 建立系统的评估规则。数据的问题通常是多种多样的, 通过归类可以把数据的错误归属到一个有限的集合上。规则定义了希望数据满足的要求。

下面举例说明常见的数据错误及相应的规则。

●不完整数据:输入到数据源系统中的错误信息;丢失记录、字段域;由于设计导致记录或字段域没有被记录;

●缺少参照完整性:参照完整性是指子表中的关键字段必须在父表中存在。例如, 在销售记录这个表中, 产品的ID应该在产品表中被定义。对于数据库中的某些实体, 它们的存在可能要依赖于其它的实体, 但在数据库中并没有定义这些实体的参照完整性, 而靠应用程序或其它手段来检查, 但这并不能完全保证实体的参照完整性, 所以要在数据质量评估时进行检查。

●缺少唯一性:一个表中, 某些属性 (例如产品ID) 是用来唯一标识产品的, 那么它们的值应该是唯一的。如果一个产品ID用来标识多个产品, 那么是违反唯一性的。

●数据的值是否在有效的范围内:这一点在分析数字型数据时格外重要。因为对于某些字段而言, 它的类型定义允许的数据范围可能是很大的, 但实际上只有一部分取值才是有意义的。例如月份不允许出现大于12的取值, 对于性别属性, 我们希望的数据只能是‘M’ (男性) , ‘F’ (女性) 或‘U’ (未知) , 而不能出现其他属性值。

●有些属性的值是由表中其他属性的决定的, 也就是说, 只有当其他属性的值是特定值时该属性的值才有意义。例如, 在客户表中, 有些客户是组织, 有些客户是个人。而只有组织才具有组织规模, 公司代码等信息。

●一致性的检测:不同代码的不一致使用;一个代码的不一致意义;不同代码具有相同的意义;不一致的名称和地址。

7 数据质量评估规则的执行

在明确了数据质量评估的规则后, 我们根据相关的质量评估规则, 编写相应的SQL脚本, 评估数据, 计算满足各个规则的数据的百分比得分。规则的得分表示了数据满足这条规则的程度。最后根据每条规则的得分, 计算出源数据系统的得分。

(1) 用户设置执行数据质量评估的评估规则;

(2) 获得规则后, 根据评估规则为每条规则编写相应的SQL语句;

(3) 运行SQL脚本, 获得它们所对应的规则得分;

(4) 分析数据质量评估结果。

整个系统的数据质量得分是综合了每条规则的基础上得出的。

表1举例说明规则的制定与评价。

在根据各规则的评价得分形成最后整个系统得分时, 最简单的方法是直接把每条规则的得分取平均。而更好也是更合理的方法是将每条规则的得分按照一定的权重进行综合, 形成一个高级的数据质量评价等级。由用户设定每条检测规则的权重, 缺省有一个权重方案。然后按照每条检测规则的权重进行综合计算, 得到一个综合的数据质量得分, 并将其归类到高级的数据质量判断上, 标准如下:

1级99-100:极好的数据质量, 可以满足任何需求。

2级96-98:好的数据质量, 但仍需部分改进。

3级90-95:平均水平的数据质量, 需要改进。

4级81-89:低于平均水平的数据质量, 数据质量会对数据仓库建设产生消极影响。

5级65-80:差的数据质量, 数据仓库会产生不良结果。

6级0-64:非常差的数据质量, 需要立即提高。

8 数据质量评估流程

系统由数据库连接模块设定与数据库的连接, 然后由用户浏览所要分析的数据列表, 选择待分析的表, 设定采用的数据质量检测模块, 形成评估规则。然后运行数据质量检测过程, 得到每条评估规则的得分。再根据各个规则的得分, 计算出源数据集的数据质量等级。最后将数据质量的分析结果形成各种各样的文档输出。

9 结语

提供具有影响力的综合数据, 日益成为企业提升竞争力的必然要求。在数据仓库建设过程中, 建立合适的数据质量度量, 评估体系和保障体系, 对于数据仓库是非常重要的, 也是数据仓库发挥作用的关键。

今后继续完善数据质量评估的检测体系, 包括增加正确性、及时性的检测, 扩展有效性的检测, 使之对数据进行更为全面的检测。

摘要:随着烟草行业数据仓库的深入应用, 数据质量问题成为关系到数据仓库建设成败和数据能否有效应用的重要关键问题, 通过建立数据质量评估指标体系, 对数据源系统的数据进行定量分析, 从而具体了解数据源系统的数据质量, 为进入数据仓库的数据的正确性提供保证。?

政府数据质量提升路线图 篇8

建立国家级统计设计体系

统计的原料是数据,统计的初级产品是表,如何把分散的数据通过表的形式记录下来,这就是统计。如何把这些记录进行有序传递,科学分类,系统地采集、加工和整理,这就是统计工作。对统计数据在统计工作中如何传递、分类、加工。整理和汇总,这一过程的全部程序就是统计设计体系。

统计设计体系又可以分为大、中、小三类。大系统是以国家统计局为核心,按照国家宏观经济发展要求设计的指标体系库,这个体系库包括指标目录、数据传递程序、数据处理、数据使用权限等内容。这一系统一经建立就要保证其长期相对稳定运行,不受领导的变动而改变;这一系统必须有专门机构维护,根据国家宏观经济发展要求进行修编。中系统是以行业、部门为核心,按照国家大系统的标准,设计本行业、本部门的统计系统库。这个系统既要满足本行业、本部门的需要,又要与国家大系统实现无障碍对接。小系统是以基层单位为核心,按照中系统的标准,设计本单位的统计系统库。这一系统在满足本单位内部管理的同时,要把在运行过程中的原始数据无障碍地输送到中系统。

以上三个系统是紧密联系,缺一不可的,如果把三个系统都纳入国家级统计设计体系中,就可以实现新技术条件下统计调查的标准化和统一性。国家级统计设计体系是从制度上建立了政府统计数据统一规范的生产流程,是保证政府统计数据质量的基础。

建立国家级统计报表设计库系统

统计设计体系完成后,表的设计又成为保证统计设计系统正常运行的关键因素,表是数的载体,如何把发生在社会经济活动中产生的数据及时准确、全面科学地记录下来,这就是统计报表的功能。

目前,我国政府统计中使用的统计表虽然是经国家统计局备案批准的法定报表,但它的设计没有形成全国统一的数据采集转换程序。例如企业用电量指标,可以不向企业调查,完全可以通过供电局转换,供电局掌握每个用电户的所有用电信息,它的数据最标准、最权威,通过供电局取数可以减少中间环节,达到事半功倍的效果。另外,有的报表设计与基层单位填报的实际情况衔接度不高,有的表看上去简单,实际填报中有些指标需要多次加工才能完成,增加了对指标理解的难度和计算准确性的把握,也就很难实现基层数据、行业数据、部门数据和政府统计数据完整与统一,这也是没有形成科学、高效,简约、统一的统计调查方法体系的关键因素,所以有必要建立国家级统计报表设计库系统。统计报表设计库由国家统计局统一领导,在全国征集统计报表设计方案,建立奖励机制,评选出最佳设计方案,进入统计报表设计库系统。

建立以社区(村委会)为平台的数据采集系统

目前,我国的数据采集平台是县级(含县、县级市和市辖区人民政府统计机构)。从数据采集的角度看,县级平台太高,而且在我国经济转型过程中,原有的通过主管部门采集数据的模式已经不适应当前市场经济发展的需要,必须建立一种新的数据采集途径保证政府统计需求。

目前我国行政区划中最基本单位是社区(村委会),社区的范围不大,而且相对固定,作为政府的数据采集平台非常适合。特别是在市场经济逐步完善,国家加强基层基础建设,政府出资购买公益岗位充实社区这一历史背景下,形成社会主义市场经济体制下新的统计组织体系,延伸政府统计网络设置非常必要。同时,经历两次经济普查已经完成了基本单位名录库系统,即将进行的人口普查又将完成基本家庭户系统,如果这两个系统能在社区这一平台进行适时维护和更新,那么统计工作将在我国的行政管理和构建和谐社会中发挥革命性的作用。社区统计平台建设完成后。任何单位和部门所需要的调查数据必须经过社区这一平台。社区有国家法定的惟一行政区划码。可以实现数据的初级汇总,形成在新体制下政府统计数据的采集方法,从制度上保证源头数据的统一性和惟一性,解决数据重复和遗漏的问题,真正实现在地统计。

建立国家级数据反馈使用系统

以社区为平台的数据采集工作完成后,直接进入国家数据库,按照国家统计局设计的流程进行分类、加工、对比和整理,用系统论的办法控制数据质量,经评估认定后,反馈给地方和部门后方可进行发布使用。这样就可以从根本上解决数出多门的现象和部门统计不协调、系统效率低等问题,进而用统计制度解决统计体制难以解决的问题,形成政府统计合力。实现以国家统计局为核心,对地方政府和部门统计业务上的绝对领导,做到依法统计,实现真正意义上的政府统计,真正做到全国统计工作一盘棋,全面提高政府统计能力。建立国家级数据分析研究平台

近年来,社会各界对政府统计数据越来越关注,对政府统计数据分析评论的也越来越多,有正面肯定的,也有负面的猜疑声音。说明全社会对统计的重视程度在提高,中国的发展变化必然引起国际社会的广泛关注,统计数据被拿来认真地分析研究,在工作生活中应用,辩证地看这是件好事,体现统计数据的价值。因此,提高统计数据质量非常必要,尽快实现统计工作与经济社会发展同步。

如何最大限度开发利用好政府统计数据,单靠统计自身力量是难以做到的,要建立健全国家级数据分析研究平台,打破统计局“自己搭台、自己唱戏”的格局。采取请进来的办法,让更多的部门、大专院校、科研机构的专家、学者、科研人员参与政府统计数据的分析研究工作,增加统计工作的透明度,让更多的人了解统计数据和统计产品的生产工艺和生产流程,从根本上提高政府统计的公信力。

上一篇:企业财务分析状况下一篇:石油职工工作总结