关于数据挖掘的论文

关于数据挖掘的论文（精选8篇）

关于数据挖掘的论文篇1

所谓的“数据挖掘”是基于用户的行为挖掘出有价值的东西，以及这个东西被用到商业环境上。比如非常著名的“啤酒与尿布”的案例，它的背景是在1992年的美国，每周四或者每周五下午5点-7点的时间形成的连锁销售。但是这个联合销售的方法并不适合任何时间和任何场合，单纯地剥离其背景本身，谈数据挖掘就是一个很泛的事情。

2，你认为，支付宝的数据和淘宝的数据有什么不一样?

我不在淘宝工作，所以很难全面地去了解淘宝内的数据。简单来说，支付宝的数据很广，它是以结果为导向的，显示的是买家交易最后一步动作，而淘宝探讨的是影响其购买的多项数据，是过程数据，它的数据更深，更细分。

3，作为产品出身的数据分析师，按道理你应该对影响消费者购买以及过程数据更感兴趣，为什么会选择支付宝这种以结果为导向的交易数据分析呢?

支付宝也有其特殊的优势。从我个人而言，选择一个公司做数据分析有几个理由，第一，公司高层对数据的理解和重视程度;第二，公司的数据量足够大，足够丰富，能和你本身的研究方向相契合;第三，公司文化与就是个人性格的匹配，这三点支付宝都符合。

4，你个人认为数据能帮助卖家解决什么问题?

其实数据的核心就是+将复杂问题简单化。今天的数据是否成功主要看两方面：第一是从时间(Righttime)上，数据出现的时间能否在你最需要它的时候出现;第二，从技术层面讲，有关数据的技术门槛能不能再降低。如果你能让你的用户用2秒时间，只要按一个箭头就可看到他想看的数据，那么这些数据就更有价值的。

5，作为产品出身的人，你看数据的角度会和单纯的数据分析师有什么不一样么?

从我本身而言，我认为不懂商业的人别谈数据。因为做任何数据都应该从问题出发。比如，你在用数据解决问题之前，首先要问自己几个问题：what is the problem(是什么问题?);who(用户是谁);why me(为什么是我做?);why now(为什么是现在做?);What scale(用户层大么?)。这几个问题，如果都是YES，那么这个产品就一定值得做。

6，如果你是支付宝的CEO，你最关心支付宝的哪些数据?

这就要看你所指的时间性了,比如周度,月度,甚至年度是不一样的。如果你的问题是指周度(week)敏感的话而我的时间只有十分钟的话我的答案会是:第一，新/老用户支付成功率;第二，新增用户数的周环比及最近峰比较;第三，十大业务量最高的支付场景中那一个超出了我的预期。第四，商户及用户上周投诉的分类排行榜。

7，现在很多卖家开口闭口就会必谈pv.uv和转化率，你认为这是卖家最应该关心的数据吗?

我不是卖家，但是这个问题的答案是：显然不是。数据是需要背景的，并不是任何类目，任何级别的卖家他关心的都应该是所谓的流量和转化率等。比如京东前一段时间最关注的是物流是否给力，因此京东的CEO最想要看的就是送达率的情况，而如果老板关注的是新品成功率，又或者是追单率等数据，这些数据都不是空想，而是经过沉淀和契合卖家自身发展背景的。因此，肯定不是所有的卖家在任何阶段关心的数据都是一样。

8，你觉得作为淘宝卖家，应该如何使用数据?

卖家更应该学会关注搜索数据(Buyer demanddata)，而不是交易数据，比如作为一个女装卖家，你输入“新款”，会发现，其实早在3月11 日，就应该是春装打折的时候，如果你对搜索数据敏感，就更容易发现商机，而不是只盯着所谓的交易数据不放。要注意的是其实百分之九十影响你的数据不一定在站内。

9，如果你是淘宝卖家，你会关注哪些数据?

如果我是卖家，我关心的数据有两个纬度：第一，新用户从那个渠道找到我,看了什么?买了什么。;第二，存量用户中的留存情况。

10，你觉得，一个公司或者一个卖家，如何合理利用数据来制定KPI呢?

很多公司的KPI大多是以业务目标为导向，很少以用户为导向。其实更好的KPI导向应该是以用户为核心。我们常说用户很重要，但是用户到底有多重要，那些用户对你更重要,可以量化吗?。其实要知道用户对你的感知只要问一个问题就可以，用户失去你，他会不会不爽?比如失去了QQ密码，用户会慌，没有了支付宝，对用户影响大么?从这个角度去分析，自然能找到答案。

关于数据挖掘的论文篇2

1 数据挖掘技术的相关方法

在实践中, 挖掘数据的方法的种类较多, 不同的领域或具体情况需要先采取不同的数据挖掘方法。关联规则挖掘、决策树、神经网络方法、粗集方法、遗传算法等都被广泛运用于数据挖掘之中。其中, 最常用的方法主要有如下三种。

1.1 决策树方法

该方法是在概念学习系统的基础上建立起来的, 其具体操作思路是根据各类不同的特征, 以树形结构为标准, 找出其中分辨属性能力最强的数据库, 再将其划分为各个类似于树的分枝一样的子集, 然后再对这些子集进行递归调用处理, 直到使每一个子集都能找到同一类型的数据为止。

1.2 神经网络法

大量简单的神经元构成了复杂庞大的神经网络, 这些简单的神经元不断进行丰富和完善, 连接构成自适应的非线性动态系统, 进而发挥其分布、存储、组织、学习以及联想记忆等功能。神经网络法主要通过对人类大脑结构及功能的模拟, 再在其训练样本中采用学习算法, 进而将在此过程中获取到的知识存储到该网络中的各个神经单元的连接权之中。

1.3 遗传算法

遗传算法和统计学非常相似, 其模型的具体形式也是需要预先就进行确定的。在实施算法时, 要先进行编码, 其编码的对象是将要求解的问题, 以此方式产生初始群体。然后再对其个体的适应度进行计算, 对染色体进行交换、复制及突变等具体操作, 依照“优胜劣汰, 适者生存”的原则层层推进, 指导找到最佳方案。

2 数据挖掘技术操作过程

数据挖掘技术综合了人工智能、数据库技术以及统计学等相关知识, 能够对那些潜藏在数据内部的、新颖的、有效的数据进行更深层次的挖掘, 进而将其转化为能够被大众所理解的模式。数据挖掘是一个较为完整的过程, 大型数据库中那些未知的、有实用性的有效信息通过这一过程被挖掘出来为广大决策管理者所用。

数据挖掘技术的实施必须有一个有效的环境, 在这一环境中, 各种数据挖掘工具在此环境中对其有用信息进行挖掘, 再通过特定的可视化工具, 将这些有用信息转化成能够为用户所理解的信息, 进而使其应有的作用得到最大限度发挥。

数据挖掘是一个完整、系统的过程, 其具体操作分为如下五个步骤。

2.1 确定业务对象

数据挖掘中最重要的一步是通过对业务问题的定义明确其最终目的。虽然数据挖掘的最终结果无法预测, 但这并不代表所探索的问题也无法预见。如果不首先确定业务对象, 就会形成为挖掘数据而挖掘数据的错误导向, 进而使得整个过程呈现出盲目性状态。

2.2 数据准备

该步骤的主要内容是对数据进行选择、预处理和转换。在对数据进行选择时, 一定要选取那些和业务对象紧密相关的各种内外部数据信息。然后再对这些被选取的数据进行分析, 确定其具体的挖掘操作类型。最后再将所有所有被分析出来的有效数据转换一个便于分析的模型。

2.3 数据挖掘

在分析被转换过来的分析模型基础上, 对其数据进行深层次的挖掘。

2.4 结果分析

对其数据挖掘结果作出解释, 并进行评估。该步骤所使用的分析方法是根据数据挖掘的具体操作确定的, 通常情况下都会使用到可视化技术。

2.5 知识同化

根据业务信息系统的组织结构, 将数据挖掘分析所得到的知识应用到相关的具体实践中去。

3 数据挖掘技术应用领域

3.1 科研领域

科研机构在进行科学研究时, 需要对大量的实验调查数据进行分析, 科研数据的复杂性极高, 传统的用来分析数据的工具已经不再适用。数据挖掘技术的智能化程度较高, 可以说其是一种功能极为强大的自动化分析工具, 与科研领域对数据分析工具的要求十分吻合, 这在一定程度上推动了其在科研领域之中的应用发展。

3.2 金融领域

金融是一个非常特殊的领域, 无论是银行还是证券公司, 其数据量都非常巨大, 具体表现在其交易数据的多样性和存储数据的复杂性之上。近年来, 银行每年因信用卡欺诈行为而造成的损失非常之大, 使其不得不探索新的方法, 以最大限度地减少损失。数据挖掘技术的使用便是近年来银行普遍使用的、用来分析客户信誉度的重要措施之一。此外, 金融分析领域的投资评估、股票市场的交易预测等都是数据挖掘技术在金融领域应用的最好体现。

3.3 市场营销领域

最先应用数据挖掘技术的是市场营销领域, 其主要被应用于市场营销当中的货篮分析和数据库市场营销。数据库技术在货篮分析中的应用主要体现在其能够通过对市场销售相关数据的分析, 识别出顾客购买行为模式。而在数据库世行营销当中则体现为其能够通过数据分割、交互式查询以及模型预测等方式, 对潜在的客户进行选择, 以便根据其具体情况向其推销各类商品。就目前而言, 电信业、保险业以及零售业等市场营销领域都在采用数据挖掘技术, 以增强对客户的了解。

3.4 制造业领域

数据挖掘技术在制造业的应用与其在其他领域的应用有所不同, 技术性特征更加明显。在该领域, 数据挖掘技术常常被用于诊断零部件故障、优化资源配置以及分析制造过程当中。通过对发现的不正常数据的分析, 找出影响操作的具体原因, 进而协助相关工作人员更好更更快地解决问题。

4 结束语

科学技术和社会经济的发展还会为数据挖掘技术带来更为广阔的发展空间。不同领域、不同行业都可以选择不同的数据挖掘方式, 其具体操作流程简单易懂, 但其所产生的意义和作用却是非常重大的。数据挖掘技术在科研、金融、市场营销以及制造业领域的成功实践便是其优越性的最好体现。

参考文献

[1]舒正渝.浅谈数据挖掘技术及其应用[J].中国西部科技, 2010, 05:38-39.

[2]李明江.数据挖掘技术及应用[J].中国新通信, 2012, 22:66-67+74.

关于数据挖掘的论文篇3

关键词：煤炭机械;智能系统;数据挖掘;调度

在经济和技术的快速发展下，很多行业都实现了机械化的生产，煤炭行业也不例外，在采掘中，采煤机、运输机等机械的使用，使采煤的效率大大的提升，与人工采掘相比，有很多人工操作不具备的优势，创造了一定的经济效益。但是，随着时代的发展进步，机械化只是煤炭行业发展的一个阶段而已，并不是最终的形态，还有更多的高新技术可以融入到煤炭采掘当中，煤炭机械下一阶段的发展就是智能化，在原有机械的基础上，对其控制系统进行改进，从而实现机械智能化。

1.采煤机械面临的问题

在我国，煤矿的开采形式主要有两大类，即露天开采和钻井开采，在这两种采掘方式中，用到了不同的机械，露天采矿包括了电铲、挖掘机等设备，钻井由于在地下工作，主要用到采煤机和运输机以及掘进机。这些机械并不是孤立运作的，他们之间需要用控制系统进行关联，从而使每个机械的生产能够串联起来，以实现流水线式的生产模式。目前来看，采煤机械还存在着一些问题，首先是故障率偏高，采煤机械日复一日的运作，在这样的超负荷状态下，出现故障的概率很高，不仅影响了企业的收益，增加运营成本，也使得机械设备本身的性能受到影响;其次，采煤机械的效率并不高，虽然在采掘过程中装备了大型的采煤机械，但是由于其控制系统的调度功能有限，并不能很好的把这些器械利用起来，整体来看机械的操作效率还是偏低的;最后，改造问题，对于现有的机械进行改造面临着很多困难，早期的控制系统在收发信号等方面的功能并不理想，导致现在要想实现其智能化更加困难。

煤炭企业在选定了某个智能控制系统之后，对于现有的数据资源要进行深入的挖掘，以探索潜在的信息，来使采煤更加的有效和科学。对数据进行挖掘，就是要在已有的数据库中，对数据进行分析，来找到之前没有发现的、有一定的利用价值的信息，利用这些信息，可以带来意想不到的收益。在煤炭机械只能化发展的过程中，要注意数据挖掘技术的应用。

2.煤炭机械智能系统的模块

智能化的采矿体统离不开计算机技术，计算机技术是核心，它可以把软件和硬件结合起来进行控制。随着社会对于煤炭资源的需求量的增加，采矿区的生产规模逐渐扩大，原有的单一的自动化调度模式已经无法满足需求，而且在现代化的生产中显得非常的落后，因此，需要有一种更高级的控制系统来对采煤机械进行高效的控制。所谓的智能控制系统，是一种计算机系统，通过特定的程序设定，来完成类似于人类只能的操作，这是对传统计算机控制模式的升级。煤炭企业机械只能控制系统的模块有以下几种：

2.1智能操作

在煤炭开采过程中，煤炭机械是主要的工具，由于人工进行操作有很多的不利因素，因此，智能系统要利用智能模块来控制这些机械，实现智能化的调动，要实现这个目标，要研究操作系统的结构、智能化的人机接口、智能化的资源调度等。

2.2智能编程

智能系统要执行指令必须依靠一定的程序来实现，程序的编写就显得十分的重要，要保证足够的精度来完成对机械的控制。传统的程序中，采取的算法都比较固定，求解过程也较为复杂。而采用智能程序进行程序的编写，能够避免人工编程出现的一些语言方面的错误，智能程序语言可以对符号进行处理，可以进行大范围的搜索。

2.3智能软件

计算机工作离不开软件，利用一些配置比较高的软件进行煤炭机械控制，可以提高效率。智能系统中安装智能软件可以使煤炭机械应对更多的环境。智能软件对于软件系统的整个生命周期都能支持，支持软件产品生产的各项活动，作为软件工程代理，适用于公共的环境知识库和信息库设施。

3.煤炭数据挖掘技术的应用

3.1状态数据的挖掘

在不同的作业需求下，智能系统也具备不同的功能，需要处理的数据也更加复杂，而且这些数据一般是动态的。对于采煤设备反馈回来的数据，通过数据挖掘技术，提取出来有价值的信息并进行分析，最后提供给调度中心，发出开采信息进行作业。比如煤炭机械设备的电气系统，它控制这些设备的用电，如果利用数据挖掘技术，找到更多的潜在信息，可以使采煤设备的调度更加合理。

3.2控制数据的挖掘

随着智能系统在采煤设备控制中的应用，数据挖掘技术的中心开始转移到设备控制数据方面，借助计算机完成数据处理工作，并且筛选出对设备调控有用的数据。对于采煤设备日常控制数据的挖掘，必须要联系智能接口的运行实况，收集与煤炭机械相关的数据资源，为挖掘处理提供信息基础。

4.结语

随着时代的发展，以往看似非常先进的方法在现代技术看来也还有很大的空间来提升，在煤炭行业，以往采用机械设备开采代替了人工开采，从而避免了很多人工操作的不足，但是这些机械长年累月处于工作状态，增加了设备的故障率，而采用智能系统来控制煤炭机械，并融入数据挖掘技术，可以更好的控制这些机械，使其调度更加合理，工作效率更高。

参考文献：

[1]杜俊鹏，李尚平，蒋礼斌，宗峰.基于知识的甘蔗收获机械智能设计系统的研究[J].机械工程与自动化，2006，04：8-10.

[2]曾杨.工程机械智能监控信息系统[A].中国机械工程学会，台湾机械工程学会.智能制造技术研发及应用——第十三届海峡两岸机械工程技术交流会论文集[C]中国机械工程学会，台湾机械工程学会：，2010：30.

关于大数据治理的研究与分析篇4

2016-05-01

1数据治理的背景和现状...............................................................................1

1.1数据治理背景...............................................................................................1 1.2数据治理现状...............................................................................................2

2数据治理策略.............................................................................................2

2.1数据治理要素...............................................................................................3 2.2数据治理策略...............................................................................................3

3元数据管理.................................................................................................5

3.1元数据的定义...............................................................................................5 3.2为什么要进行元数据管理..............................................................................6 3.3数据模型标准化............................................................................................7 3.4标准化体系(数据定义&模型设计)...................................................................7

4主数据........................................................................................................8

4.1主数据的定义...............................................................................................8 4.2为什么要作主数据管理.................................................................................8 4.3如何做好主数据管理.....................................................................................9 4.4主数据实施流程............................................................................................9 4.5主数据管理体系..........................................................................................10

5数据质量管理...........................................................................................10

5.1数据质量问题.............................................................................................10

I 5.2组织架构设计.............................................................................................11 5.3数据质量治理流程......................................................................................11 5.4数据治理管理方法......................................................................................12

1数据治理的背景和现状

1.1数据治理背景

随着网络和信息技术的不断普及，人类产生的数据量正在呈指数级增长。大约每两年翻一番，根据监测，这个速度在2020 年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。

大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长。信息数据的单位由TB-PB-EB-ZB的级别暴增。这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴。如何管理和使用这些数据，逐渐成为一个新的领域，于是大数据的概念应运而生。

图1 数据治理背景图

1.2数据治理现状

大数据的快速发展，使它成为IT领域的又一大新兴产业。据中央财经大学中国经济管理研究院博士张永力估算，国外大数据行业约有1000亿美元的市场，而且每年都以10%的速度在增长，增速是软件行业的两倍。我国2012年大数据市场规模大约4.7亿元，2013年增速将达到138%，达到11.2亿元，产业发展潜力非常巨大。我国大数据飞速发展的背后存在诸多的问题：相关利益交织，协调难;方案规划容易，落地困难;过度依赖技术工具;对于数据没有明确区分。

图2 数据现状分析图

2数据治理策略

2.1数据治理要素

图3 数据治理要素分析图

2.2数据治理策略

 第一步：落实合适的人员负责治理。

任何成功的数据治理计划的第一个步骤就是，要在本企业找到CEO可以授权的人，然后让该人负责项目的具体实施。没有什么能取代强有力的领导人。

数据治理是涉及人事的一个难题，这需要在许多不同的利益相关者之间达成共识。因而，在本企业里面选定这样的领导人是一项重要工作。治理官员一旦选定下来，就要成立由企业的利益相关者组成的治理委员会，制订监管政策、向CEO及董事会报告进度。

第二步：调查清楚所处环境。

一旦选定了领导小组，就要调查当前情形，并清查不同部门在不同领域的当前最佳实践。领导小组需要越过独立系统看待问题，而企业数据治理评估方法对这项工作来说必不可少。这有助于比较本企业的数据治理计划目前处于什么状态，并且提供了一份路线图以便确定以后的目标。

第三步：制订数据治理策略。

数据治理评估之后，治理委员会就应当考虑制订远景，希望公司的数据治理实践在接下来的几年达到何种目标，根据这种需求为未来制订远景。委员会应当向后规划，并且制订切合实际的里程碑和项目计划来填补相关的缺口。具体办法就是制订关键绩效指标来跟踪进度，并且向CEO和董事会提交报告来证实成果。

第四步：算出数据价值。

估算数据价值。要是公司不知道数据的价值，它们就无法提高、保护或者评估数据对账本底线的价值。数据不是一种普通商品，而是像水龙头里出来的水--对生命至关重要，又往往被人们认为是理所当然的。你要是不知道某物的价格，就无法算出它的价值。

如果你想算出数据的价值，就要根据用户权限和IT服务的效用，为数据建立内部市场。当本企业的每个人都在直接付费获取IT服务和数据时，数据的价值就成了公司价目表上的一部分。

第五步：算出风险概率。

知道数据在过去是如何使用和滥用的，这有助于了解数据在将来会如何被危及和披露。每家企业都有一些原因，如一些事件和损失在独立系统、层次体系和商业报告中消失。这些数据已经可供使用，却没有被大多数企业所使用。收集这些数据，与其意义联系起来，并研 4 究长期的损失趋势，这可以帮助任何企业把风险管理转变成基于事实的商业智能方法，从而可分析过去事件，预测未来损失，改变当前的政策要求，成为未来改善风险缓解策略。

第六步：密切关注控制措施的效果。

数据治理在很大程度上涉及企业的组织行为。企业每天在变化，因而它们的数据、价值及风险也在迅速变化。遗憾的是，大多数企业每年对自己只评估一次。要是公司无法改变组织控制措施来满足每天或者每周出现的需求，也就谈不上变化治理。

图4 数据治理实施建议图

3元数据管理

3.1元数据的定义

技术元数据是存储关于数据仓库系统技术细节的数据，是用于开发和管理数据仓库使用的数据，它主要包括以下信息：数据仓库结构的描述，包括仓库模式、视图、维、层次结构和导出数据的定义，以及数据集市的位置和内容;业务系统、数据仓库和数据集市的体系结构和模式。

业务元数据从业务角度描述了数据仓库中的数据，它提供了介于使用者和实际系统之间的语义层，使得不懂计算机技术的业务人员也能够“读懂”数据仓库中的数据。业务元数据主要包括以下信息：使用者的业务术语所表达的数据模型、对象名和属性名;访问数据的原则和数据的来源;系统所提供的分析方法以及公式和报表的信息;具体包括以下信息：企业概念模型：这是业务元数据所应提供的重要的信息，它表示企业数据模型的高层信息、整个企业的业务概念和相互关系。

3.2为什么要进行元数据管理

图5 数据管理分析图

3.3数据模型标准化

图6 数据模型示意图

3.4标准化体系(数据定义&模型设计)

标准化体系：一定范围内的标准按其内在联系形成的科学的有机整体。标准化体系它规定了质量方针、目标、职责和程序，并通过建立相关体系进行过程管理、质量策划、质量控制、质量保证和质量改进。

图7 标准化体系示意图

4主数据

4.1主数据的定义

企业主数据分散存储在企业各系统内，是对企业至关重要的核心业务实体的数据，比如客户、合作伙伴、员工等。

4.2为什么要作主数据管理

主数据管理(MDM，Master Data Management)描述了一组规程、技术和解决方案，这些规程、技术和解决方案用于为所有利益相关方(如用户、应用程序、数据仓库、流程以及贸易伙伴)创建并维护业务数据的一致性、完整性、相关性和精确性。

主数据管理的关键就是“管理”。主数据管理不会创建新的数据或新的数据纵向结构。相反，它提供了一种方法，使企业能够有效地管理存储在分布系统中的数据。主数据管理使用现有的系统，它从这些系统中获取最新信息，并提供了先进的技术和流程，用于自动、准确、及时地分发和分析整个企业中的数据，并对数据进行验证。

图8 数据管理原因分析图

4.3如何做好主数据管理

通过单一平台上成熟的多领域MDM集中主数据的管理，从而消除点对点集成，简化您的结构，降低维护成本，改进数据治理。Informatica MDM(主数据管理)能够通过以下步骤帮助企业成功进行多领域主数据管理：

1.建模：用灵活的数据模型定义任意类型的主数据

2.识别：快速匹配和准确识别重复项目

3.解决：合并以创建可靠、唯一的真实来源

4.联系：揭示各类主数据之间的关系

5.治理：创建、使用、管理和监控主数据

4.4主数据实施流程

图9 数据管理实施流程图

4.5主数据管理体系

图10 主数据管理体系流程图

5数据质量管理

5.1数据质量问题

·数据的值域

·数据的定义

·数据的完整性

·数据的有效性

·业务规则

·结构完整性

·数据转换

·数据流

5.2组织架构设计

图11 架构分析图

5.3数据质量治理流程

图12 数据质量治理流程图

5.4数据治理管理方法

建立合理的数据管理机构、制定数据质量管理机制、落实人员执行责任、保障组织间高效的沟通、持续监控数据应用过程和领导强有力的督促是保障企业数据质量的关键。

关于数据挖掘的论文篇5

在建立数据库之前，我们首先对access数据库的表、查询、窗体、报表的各个部分进行了系统的学习，明确了整个数据库的具体运行机理。然后结合我们汉语言专业的实际情况，我们确定了将要组建的数据库的主题——当代作家作品相关信息管理系统。希望通过这个数据库对当代作家作品信息进行更为直观有效地管理。

在组建数据库的初始阶段，我们首先确定了数据库的基本骨架以及建立的数据库的标语表之间的关系，并且确定了表与表之间的关联性。然后根据所组建的关系，我们尽享了相关信息的收集工具，并且将这些信息按照表晚上基本结构对表进行了田中，是表的关系得以建立。在这个过程中，我发现关于表的字段的基本属性的设置非常重要，直接关系到能否迅速准确地录入相关信息，其次就是主键的设置，有时需要对两个字段同时进行设置主键，以保证在具体操作中数据库的重要性。关于对操作，主要主要按照并于痛的查询种类去组建相关的查询，同时在创建查询的时候应该兼顾查询的种类的可行性以及可操作性，这也是哦为了和后面的宏的建立做准备。在窗体部分，控件来源的设置可谓至关重要，还有就是在设置相关控件的时候应该为整个窗体服务，以保证整个数据库的实用性，在报表部分，主要在于报表的相关设计，具体操作和窗体的建立也有很多相似的地方。

关于数据挖掘的论文篇6

有线电视网络在产业运行过程中产生海量数据,这些数据具有天然的大数据4V特征:规模(Volume)、多样(Variety)、高速(Velocity)、价值(Value),理顺这些数据并使其发挥商业效用需要借助数据仓库。

数据仓库是有线电视网络数据建设体系的重要一环,是在原来不同业务软件系统基础上重建网络数据流和信息流的过程,是监测和应用有线电视网络产业运行数据的基本手段。

1 广电网络的数据体系和功能

有线电视网络数据体系从数据源上可分为产业运行数据和用户行为数据,整个产业的运行数据由一个个有线电视网络公司的运行数据共同构成,整个产业的用户行为数据由一个个有线电视网络公司的用户行为数据共同构成(图1)。

有线电视网络数据体系又可分为宏观部分和微观部分。从宏观上讲,针对整个有线电视网络产业,有产业产值和社会贡献数据,有产业结构和发展变化数据等;从微观上讲,具体到某一个有线电视网络公司,有公司经营投入和产出的数据,有网络线路建设和运行的数据,有节目内容编排和播出的数据,有终端用户发展和收视的数据,有资本层面的营收和运作数据等。

宏观层面和微观层面的数据体系建设目标不同。宏观层面的目标体现在两个方面,一是面向有线电视产业内部,科学衡量产业实际发展水平,量化产业发展对社会的贡献,为产业决策提供支撑;二是面向有线电视产业外部,向产业外部提供大数据服务,参与整个社会多样性的大数据工作。微观层面的目标基本都面向有线电视网络公司企业内部,主要是提高企业内部的经营决策水平和经营效率,提高服务质量和水平,把服务做到更精细,更精准,让客户更满意。

2 广电网络数据仓库技术架构和建设过程

2.1 数据仓库认知和技术架构

有线电视网络数据仓库建设包括整个产业的数据仓库建设和单个有线电视网络公司的数据仓库建设,是个庞杂浩大的工程。在本文中,我们仅探讨企业层面的数据仓库建设,但即使对单个有线电视网络公司而言,企业级数据仓库建设亦是一项繁重的工作。

我们可以从四个方面予以理解有线电视网络公司的企业级数据仓库建设。首先,数据仓库是对多个异构数据源的有效集成,是在原来不同业务软件系统基础上重建企业数据流和信息流的过程;其次,数据仓库面向分析型数据,存放在数据仓库中的数据将用于各种复杂聚集和统计分析;其三,产经分析在数据仓库的建设中发挥着非常重要的作用,同产经分析相结合的有线电视网络数据仓库相当于有线电视网络公司的智库,可以用于支撑经营决策;其四,数据仓库的某一个具体的主题区域被称为数据集市或数据市场,有时也被认为是一种微型的数据仓库。

企业级数据仓库建设是为了满足有线电视网络公司长期信息化管理需要,技术架构应包括业务数据源层、数据处理层、数据应用层等(图2)。

2.2 数据仓库的建设阶段

具体而言,企业级数据仓库建设过程通常分为四个阶段:

1.第一个阶段是数据仓库系统分析阶段

首先是对有线电视网络公司的业务体系进行细致梳理,分析不同业务部门对数据分析的要求和频率。

其次按照业务部门对数据分析的要求,按不同主题分别设计概念模型、分析模型、逻辑模型、物理模型(图3)。目前有线电视网络各种软件系统产生的原始业务数据量非常大,逻辑模型汇总何种数据需要在分析模型的指导下进行,应只抽取同分析模型相联系的数据,而不是所有数据。至于逻辑模型抽取数据的广度和深度,一般而言,广度比深度更为重要,广度涉及到经营决策分析的方方面面,而深度并不是越深越好,有一些深度的数据挖掘非常有意义,而有一些深度的数据挖掘不仅意义不大,而且浪费很多成本,因此在数据设定时,应采取广度优先的原则,先设计广度,后设计深度。数据仓库设计表结构亦要根据数据存储的深度和广度进行设置,一般情况下,企业级数据仓库可采用星座模式,数据集市(数据仓库的子集)面向某个特定主题,可采用星形模型或雪花模式。

2.第二个阶段是数据采集与数据存储工作

采集的数据须要既是可得的,又是可用的,数据的可得性是实现数据价值的前提,数据的可用性是实现数据价值的条件。

将源数据存入数据仓库一般采用ETL技术,包含extract(抽取)、transform (转换)、load (加载)三步。目前ETL技术相对成熟,难点在于有线电视网络公司的数据源来自于多个具有不同属性的软件系统,存在许多冗余的、重复建设的数据或报表系统,又归口于不同部门的管理,缺乏公共数据源,在不同的数据源上做统计查询工作既复杂又低效,统一规划分析的难度非常大,且源数据没有时间点,不仅不能对历史数据进行回溯查询,而且可能导致数据可信度下降。因此,必须将有线电视网络公司多个数据源的数据以统一模式存储到单个公共站点上,构建以集中式数据存储为核心的体系结构,既方便不同使用部门查询,也不影响数据源系统的工作(图4)。

3. 第三个阶段是数据处理、数据清洗工作

被采集数据的质量优劣是决定数据应用效果的关键,数据质量由三个因素决定:源数据质量、数据清洗水平、数据转换程度。源数据质量是整个数据仓库数据质量的基础,要确保源数据不被污染,数据一经污染必须确认其“脏”度和可用度,作为源数据流入数据仓库的数据应该具有原始准确性。数据清洗工作异常重要,如更正简单拼写错误的数据,剔除重复性数据和虚假性数据,标注不合逻辑的数据(互相冲突、不合常理、不正确等),寻找缺失性数据,避免欺诈性数据等等。数据转换,如改变数据度量单位,改变数据属性,替换原有概念等(图5)。

4.第四个阶段是数据应用和数据展现工作

数据应用和数据展现工作是有线电视网络企业级数据仓库建设的核心,数据仓库的建设价值并不仅仅体现在数据仓库中所存储的数据量的多少,而更在于有线电视网络公司可以从数据仓库中能够获得的信息和分析结果的质量。

数据应用的方向之一是数据挖掘,主要应用于内容关联推荐,用户发展预测等。

数据应用的方向之二是数据分析,主要应用于业务管理和提高公司的经营治理水平。

数据应用的方向之三是数据支持,主要是为操作系统提供实时数据支持。有线电视网络公司营业厅的一线服务人员很容易就可以通过操作系统访问历史数据,得知用户的收视喜好和使用习惯,从而可以为用户更好地推荐服务产品。

3 广电网结行业数据仓库建设的难点和应对策略

3.1 数据集市和数据仓库建设顺序

有线电视网络公司在建设企业级数据仓库时,会面临企业级数据仓库和部门级的数据集市建设顺序的问题,比较理想的方式是自上而下先建立一个企业级数据仓库,再建立各个数据集市,但这种方式通常实现难度大且建设时间长。部分有线电视网络公司会考虑建设独立型数据集市,这种方式通常简单易实现且建设价格相对低廉,但在现实中往往得不偿失,当独立型数据集市支持多主题区域时,会导致多个部门数据不一致,使得各个数据集市成为信息孤岛从而无法兼容。比较合适的方式以部门需求和数据应用为导向,通过业务视角对数据仓库建设提出技术要求,优先建立一个或几个主要的数据集市,迅速试错并快速迭代,同时考虑企业级数据仓库的结构、内容。

3.2 数据概念定义及其推广使用

在有线电视网络公司企业级数据仓库的建设中,清晰统一的数据概念定义是最为基础的工作。

由于数据概念定义的不同,导致数据与数据之间无法进行整合分析或比较分析的例子比比皆是。以“用户”这个概念为例,同行交流的时候通常会被问起“用户”数量多少?这里由“用户”而引来的歧义就很多,这“用户”指的是“有线电视覆盖用户”,还是“有线电视收看用户”,还是“有线电视缴费用户”,抑或还是“有线电视离网用户”。即使是“有线电视离网用户”,到底哪些情况算是离网,很多有线电视网络公司的定义又都不一样。如果不把这些概念明确下来,那么进行统计时,就会驴唇不对马嘴,此用户非彼用户,简单在一起加总,就失去了统计意义。

由于数据概念定义的不同,导致数据计算方式不同而产生错误判定或无法判断的例子也比比皆是。例如近年来社会上出现的对开机率大幅下降的误判就是由不同的计算方式所引起的,开机率指的是某时间段平均每分钟看电视的家庭户数占全部拥有电视机的家庭户数的百分比,不同时间间距的开机率自然不一样,且一定有较大的差异,例如凌晨时间段的开机率一定大大低于黄金时间段的开机率,“平均每分钟”的开机率一定大大低于“平均每天”的开机率,不同时间段的开机率没有意义在一起做比较。又例如,当我们看到“网络视频的用户使用率为69.1%"“电信IPTV用户活跃度达到70%以上”等之类的数据时,通常会感觉比较糊涂,需要看到“用户使用率”和“用户活跃度”数值背后计算方式的区别,才可以判断哪种方式更优。

科学的数据概念定义是个非常繁杂的工作,需要在理顺业务体系和管理体系的基础上对各名词概念和数据的上下级关系进行细致定义,对计算数据列明公式和含义,以便在以后的业务工作中采用统一的统计口径,科学看待数值本身以及数值含义。

3.3 分析模型的建立和应用

数据的价值挖掘由方法论来保证,分析模型正是方法论,是数据仓库的黑匣子。

分析模型在整个数据仓库建设中具有“纲”的作用,是逻辑模型之前的一步,指导逻辑模型都需要搜集哪些数据(图6)。如果没有分析模型的指导,逻辑模型就会成为无本之木,后期有可能需要不停地打补丁或者瘦身,从小的方面而言会导致分析工作不流畅,从大的方面而言会导致无法有效整合数据资源,最终使数据仓库建设工作失去目标。

分析模型的建立一方面要借鉴/参考国际/国内已经比较成熟的传统研究方法/理论,另一方面要根据国内有线电视网络行业情况做调整/修正和创新,将其转化为行业分析方法/理论,后一部分比前一部分更为重要。

3.4 行业分析模型的建立应以用户需求为导向

满足用户需求是有线电视网络公司的经营根本,挖掘用户需求则是有线电视网络公司的经营目标,最终公司治理水平也由满足用户需求的水平而决定,因此有线电视网络公司应着手建立以用户需求为导向的行业分析模块(图7)。只有分析并理解用户需求,才能进行产品管理、客户管理、营销管理、服务管理,以及属于支撑系统的终端管理和网络管理。

产品管理和客户管理是企业经营管理的核心。通过数据挖掘,可以将产品特征与用户特征做比对,从而根据用户需求对产品服务进行推荐。产品管理和客户管理的水平、产品服务推荐的准确性很大程度上都依赖于对用户需求把握的准确性,因此行业分析模型在建立时,也要以用户需求为出发点并贯穿始终(图8)。

4 结束语

有线电视网络数据仓库建设意义重大,对于正在产业转型升级期的有线电视网络公司而言,其产品重塑、商业模式创新、经营模式转变都需要借助数据仓库的建设。

有线电视网络数据仓库建设工程艰巨,对于经营方式原本粗放且条块分割严重的有线电视网络公司而言,不亚于凤凰涅槃,需要企业一把手有大决心和大动作。

有线电视网络数据仓库建设方兴未艾,目前还停留在比较粗浅的频次统计阶段,需要系统规划分步落实。格兰研究作为从事视频行业市场研究工作的专业公司,希望能抛砖引玉,和业界同仁共同探讨有线电视网络数据仓库建设的相关问题。

参考文献

[1]William H.Inmon,数据仓库[M],王志海译,第四版,北京,机械工业出版社,2006.

[2]Abraham Silberschatz,数据库系统理论[M],杨冬青译,第六版,北京,机械工业出版社,2012.

[3]覃雄派,王会举,杜小勇等,大数据分析——RDBMS与MapReduce的竞争与共生[J].软件学报.2012(01).

[4]谭晓玲,王丽珍,构建大型企业的数据仓库[J],云南大学学报(自然科学版),2004(05).

山泉：关于“桃文化”的极致挖掘篇7

规范产业化的水蜜桃种植

自1930年山泉人晋希天从山东肥城购回水蜜桃、黄蜜桃和蟠桃树苗在校园内种植开始，山泉的“桃”之路就由此开启征程。位于龙泉山脉中西部、气候温和、资源丰富，为山泉桃业营造了适合的环境，而果树种植专家的指导，则让当地农民的种植管理技术得到提高，优质品种得以迅速推广。1987年，山泉镇被国家农业部定为全国三大水蜜桃基地之一。目前，山泉成立农业合作社5个，有机水蜜桃基地1个。通过与四川省农科院园艺所合作，先后建立桃新品种资源圃基地、龙泉山脉桃新技术推广基地、桃老品种改造基地、绿色有机示范基地等4个示范基地；实施产品质量追溯体系建设，为每一户社员建立生产管理记录档案；构建规范化管理模式，要求社员应该按照规范化管理进行操作；成立营销队伍，建立水果配送中心和水果配送站，开辟广州、重庆、湖南等外地销售市场，加强与超市等销售合作，全镇水果种植面积2.2万亩，其中桃1.8万亩，枇杷0.4万亩。

2013年的一个夏日，通过杭州万泰有机认证公司认证、成为成都龙泉驿区出口水果备案基地的山泉水蜜桃种植基地——山泉镇大佛村的果业合作社里，成批包装精美的优质水蜜桃被运往成都双流国际机场，当日下午抵达深圳，晚上便已成为深圳市民的消暑良品。

能坐飞机的桃子，可不是一般的桃子。合作社负责人介绍，外销的水蜜桃单个重量超过半斤，颜色红艳，口感纯甜，关键是无公害，果皮表面没有一点农药残留。而当地果农李大叔则感慨，“种了几十年水果，都没想到要把水果种好有这么多讲究。”这几年，他参加了欧盟认可的GAP认证机构组织的果农培训，按照国际标准种植水蜜桃，记录各种养护情况，最后由成都某公司负责产品的销售。“虽然我的水果还暂时不能出口欧盟，但品质大大提升了，今年就可以卖个好价钱。”桃子长得好，李大叔很高兴。

然而大伟村党支部书记叶建权却有着担心。作为山泉果业合作社发起人、他率领村民放弃过去的传统种植方式，启动了大佛水蜜桃的“二次革命”，在大佛村建成全区首个GAP良好农业示范基地，实现了果品质量的明显提高，令大佛村户均种桃收入4万元以上，最高达15万元以上。但他并未满足，而是清醒地意识到，山泉镇能够拿出来种植水蜜桃的土地已经非常有限，“山泉水蜜桃到了转型升级的关口，不创新就没有出路。在继续做好引进新品种、新技术工作的同时，还要依托山泉镇独特的地理位置和优越的生态环境，延伸水蜜桃产业链，大力发展农家乐等休闲旅游产业，使之成为成都东郊重要的休闲旅游基地，以此带动第三产业发展，最大限度地提高产业附加值。”

转型升级的休闲旅游

三月春晖绿满天桃花故里感流年

残红双桃八千树不及娇艳一朵鲜

胭脂鲜艳何相类桃花颜色人之媚

若将丫头比桃花笑靥桃红垂枝愧。

据传陶渊明所描述这一美景，就是山泉的桃花故里。在这里，水蜜桃种植面积达5000余亩，每逢阳春三月，故里桃花竞放，灿若云霞，引来中外游客无数。近年来更是举办“中国乡村诗歌节”、“桃花缘万人相亲活动”等100余场大型特色主题活动，著名歌唱家蒋大为曾在桃花故里放歌《在那桃花盛开的地方》，舒婷、芒克、吉狄马加、雷抒雁等全国著名诗人亦到此赋诗留念。2010年1月，桃花故里荣获“第十五届亚洲（博鳌）旅游金旅奖、亚洲大中华区最受欢迎休闲旅游景区”荣誉称号。2010年3月，山泉镇被国家住建部和国家旅游局评为全国首批特色景观旅游名镇。2011年3月，桃花故里被成都市评为“最美乡村”，于2012年1月正式创建为国家AAAA级旅游景区。

这对景区中休闲旅游的主要形态——农家乐的发展有着强力的促进。

“故里桃源”农家乐是景区中最早的农家乐，老板王大姐带着喜悦活泼泼地向记者介绍这些年的发展情况：“1998年我们这只有几分地大小，每天就几个人（来），公路也只有机耕道。2006年水泥路修了起来，我们的生意也好起来，院子也建设得更好，现在星级是挂三准四（山泉镇对农家乐实行星级评选）。我自己本身不懂餐饮，多亏政府领导带我们出去参观，才开始一步步了解。这些年去过郫县农科村、双流、天台山等地，农科村绿化很好，双流庭院很有特色，我从里面学习到不少经验。现在我们占地七八亩，有会议室、餐厅、茶坊，一年可以创收20多万。”

农家乐的兴起，也带动了当地老百姓的就业。像“故里桃源”农家乐，生意好时就需要三四十名帮手，这些百姓多半都有田地，“早晚第一产，白天第三产。”王大姐这样总结。

然而，这漫山遍野的农家乐，大体是相似的，无论是格局、菜品、还是理念。令记者感到别致的，只有尚未完全建好、明年才营业的“水云间”。这是一家与众不同的“农家乐”，首先它的投资人兼老板张昊并不想将其称之为“农家乐”，而是定位“生态庭院”，可以“水中看影，云中欢歌，间中赏花”。

这座庭院计划投资500万元，每处细节都精心设计，细致到门上的钉数都有含义。庭院设有多功能会议室、茶室、餐厅、酒吧、草坪婚礼区、烧烤区、露营区，还推出了一个来源于乔布斯的时空胶囊灵感的新产物——时光银行，客人在这里存放任何有纪念意义的物品，日后可以前来回忆——这在山泉镇同行当中是绝无仅有的。除此之外，他请了专业的管理团队来打造庭院，给出的薪水也十分可观。张昊并不想像常规的农家乐那样有明显的淡旺季区分，更多地希望打造出一个品牌。“我希望做出档次，带来不一样的服务体验。也希望周边可以多几家（和我们）类似的农家乐，这样才可以形成规模效应，才能带动产业链发展，也为当地发展做出更多贡献。”

依托环境，立足文化，专业管理，独树一帜。水云间生态庭院在山泉镇农家乐中是新秀，也是转型升级的开端。

自2001年起，山泉镇就以花果为媒，大力发展农业观光、休闲旅游，立足川西民居特色，依托原始风貌，以建设“桃花故里、枇杷原乡”为突破口，以“村落文化”支撑名镇建设，带动农家旅游业及相关产业蓬勃发展，走“生态旅游观光型”农业的可持续发展之路。目前全镇农家乐达到200余家，星级农家乐达到56家，其中常年经营农家乐10余家。大型农家乐每年每户经营收入可以达到40万元左右，小型的农家乐靠出租房屋和场地一年也可以有1.5～5万元的收入。2013年桃花节期间，山泉镇共接待海内外游客162.6万人次，实现旅游直接收入1.62亿元，旅游总收入6.48亿元。农民从原来的外出打工到现在就近务工，仅桃花故里景区就解决农村剩余劳动力500余人。农民人均纯收入从2006年的4869元提升到了2012年的10447元。

记者衷心地希望，山泉镇的农业休闲旅游，可以带动形态各异的农家乐及相关产业发展，并将山泉镇的“桃文化”挖得更深，传得更远。