大数据分析与挖掘期末

2024-08-17 版权声明 我要投稿

大数据分析与挖掘期末(共8篇)

大数据分析与挖掘期末 篇1

2、请列举您使用过的各种数据仓库工具软件(包括建模工具,ETL工具,前端展现工具,OLAP Server、数据库、数据挖掘工具)和熟悉程度。

ETL工具:Ascential DataStage,IBM warehouse MANAGER、Informatica公司的PowerCenter、Cognos 公司的DecisionStream

市场上的主流数据仓库存储层软件有:SQL SERVER、SYBASE、ORACLE、DB2、TERADATA 但是使用过的只有SQL SERVER和数据挖掘工具Analysis Services,而且不大熟悉。

3、请谈一下你对元数据管理在数据仓库中的运用的理解。

元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。具体来说,在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:(1)描述哪些数据在数据仓库中;(2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;(4)记录并检测系统数据一致性的要求和执行情况;(5)衡量数据质量。

4、数据挖掘对聚类的数据要求是什么?

(1)可伸缩性(2)处理不同类型属性的能力(3)发现任意形状的聚类(4)使输入参数的领域知识最小化(5)处理噪声数据的能力(6)对于输入顺序不敏感

(7)高维性(8)基于约束的聚类(9)可解释性和可利用性

5、简述Apriori算法的思想,谈谈该算法的应用领域并举例。

思想:其发现关联规则分两步,第一是通过迭代,检索出数据源中所有烦琐项集,即支持度不低于用户设定的阀值的项即集,第二是利用第一步中检索出的烦琐项集构造出满足用户最小信任度的规则,其中,第一步即挖掘出所有频繁项集是该算法的核心,也占整个算法工作量的大部分。

在商务、金融、保险等领域皆有应用。

在建筑陶瓷行业中的交叉销售应用,主要采用了Apriori 算法

三、翻译分析题(30分)

1、附件有一名为“Data Mining in Electronic Commerce”的电子文档,请同学们翻译其中的一段。每位同学翻译的段号以大家学号的最后两位为准,如10号同学只需翻译正文的第10段,以此类推。

分类则是一个标准的问题,在数据挖掘和在电子商贸的应用-原则下,适当的方法[随机森林,支持向量机(支持向量机),后勤拉索等]有赖于敏锐地在该网

站上,该类型的广告都是可以收集到的资料。在亚马逊商务网站中,该推荐系统已进入先前购买和书籍进行视察。

这是一个更丰富的信息来源,通过dictionary.com可以接入(他们只

知道这个词,有人期待在这次会议上,除非他们有库克-网页)。一些企业获得更多的信息,从数据仓库中,如作为choicepoint公司,这使得他们的专家来建立高度个性化的分类规则。

2、通过阅读该文挡,请同学们分析一下数据挖掘在电子商务领域的应用情况(请深入分析并给出实例,切忌泛泛而谈)。

随着网络技术和数据库技术的成熟,全球传统商务正经历一次重大变革,向电子商务全速挺进。这种商业电子化的趋势不仅为客户提供了便利的交易方式和广泛的选择,同时也为商家提供了更加深入地了解客户需求信息和购物行为特征的可能性。数据挖掘技术作为电子商务的重要应用技术之一,将为正确的商业决策提供强有力的支持和可靠的保证,是电子商务不可缺少的重要工具。

电子商务的发展促使公司内部收集了大量的数据,并且迫切需要将这些数据转换成有用的信息和知识,为公司创造更多潜在的利润,数据挖掘概念就是从这样的商业角度开发出来的。

由于数据挖掘能带来显著的效益,它在电子商务中(特别是业、零售业和电信业)应用也越来越广泛。

在金融领域,管理者可以通过对客户偿还能力以及信用的分析,进行分类,评出等级。从而可减少放贷的麻木性,提高资金的使用效率。同时还可发现在偿还中起决定作用的主导因素,从而制定相应的金融政策。更值得一提的是通过对数据的分析还可发现洗黑钱以及其它的犯罪活动。

在零售业,数据挖掘可有助于识别顾客购买行为,发现顾客购买模式和趋势,改进服务质量,取得更好的顾客保持力和满意程度,提高货品销量比率,设计更好的货品运输与分销策略,减少商业成本。

电信业已经迅速地从单纯的提供市话和长话服务演变为综合电信服务,如语音、传真、寻呼、移动电话、图像、电子邮件、机和WEB数据传输以及其它的数据通信服务。电信、计算机网络、因特网和各种其它方式的通信和计算的融合是的大势所趋。而且随着许多国家对电信业的开放和新型计算与通信技术的发展,电信市场正在迅速扩张并越发竞争激烈。因此,利用数据挖掘技术来帮助理解商业行为、确定电信模式、捕捉盗用行为、更好的利用资源和提高服务质量是非常有必要的。分析人员可以对呼叫源、呼叫目标、呼叫量和每天使用模式等信息进行分析,还可以通过挖掘进行盗用模式分析和异常模式识别,从而可尽早发现盗用,为公司减少损失。

四、编程题(20分)

大数据分析与挖掘期末 篇2

1.1 大数据崛起

大数据如浪潮般席卷着全世界,冲刷着地球的各个角落。从政府到商业科技、教育、医疗、经济、人文还有社会的其他各个领域都无时不能看到大数据的影子,图1(来自《佛诺:执掌大数据把握信息时代脉搏》)所述就是大数据在各个行业的应用。大数据是指数据量特别大、数据类别特别复杂的数据集,这些数据集无法用传统的数据库进行存储,管理和处理。维克托·迈尔·舍恩伯格和肯尼斯·库克耶在《大数据时代》中告诉我们大数据的4V特点,即Volume(大量)、Velocity(高速)、Variety(多样)、Veracity(真实)[1]。

数据量已达到了人类无法想像的程度这是大数据时代的一个最显著的特征,据有关数据统计,近两年内人类所产生的数据占有史以来全部数据的百分之九十以上,从图2(选自《大数据时代,我们还有隐私吗?》)可以显而易见的看出大数据在近两年内的增长是巨大的。由此图表和相关报道可见,大数据时代是真的来临了,大数据时代的特征不仅仅在数据量极为巨大这方面上,而且包含着信息量也非常巨大这一特征。表面上看也就是大量复杂的数据而已,这些数据本身的价值并不高,但对这些复杂的数据进行分析处理后,却能从中提炼出很有价值的信息。对大数据的分析,主要分为五个方面:可视化分析(Analytic Visualization)、数据挖掘算法(Date Mining Algorithms)、预测性分析能力(Predictive Analytic Capabilities)、语义引擎(Semantic Engines)和数据质量管理(Data Quality Management)[2]。

1.2 数据挖掘

数据挖掘在智库百科中的描述是这样:数据挖掘是一种决策支持过程,它主要基于数据库、人工智能、模式识别、机器学习、可视化技术、统计学等,高度自动化地帮助企业分析数据,归纳数据然后从中挖出潜在的模式,帮助决策者调整市场策略,减少风险,从而做出正确的判断。数据挖掘又被称为数据库中的知识发现,是目前数据库领域和人工智能领域研究的热点[3]。发现的知识被用于查询和优化、决策支持、信息管理和过程控制等,还可用于数据自身的维护。以前人们对数据的应用只是低层次的简单查询,而数据挖掘可以把这种应用提升到从数据中挖掘知识,提供决策支持。

数据挖掘是一种新的商业信息处理技术,主要特点是对数据库中的大量数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据[3]。与传统的数据分析所不同的是,数据挖掘是在未知的前提下去挖掘信息、发现知识的。未知,有效和可实用是数据挖掘的三大特征。常用的数据挖掘方法主要有k-Means、聚类、分类、关联规则、机器学习、决策树、神经网络等[4],它们分别从不同的角度对数据进行挖掘,图3(选自数据挖掘K-Miner)描述了数据挖掘的各种方法。

数据挖掘本质上就是深层次的数据分析方法。纵观数据分析这么多年的历史,我们可以看到过去数据收集和分析的目的是科学研究,而且由于当时的计算能力有限,对大数据量进行分析的复杂数据分析方法受到了很大限制。而现在,各行业业务都实现了自动化处理,商业领域因此产生了大量的业务数据,收集这些数据的目的不再是为了分析,而是为纯商业的利益产生。分析这些大量的数据也不再是研究需要,更多的是为商业决策提供有利的信息。现今所有企业都面临的问题是:想要从巨大的企业数据量中提取出真正有价值的信息就像从矿石中淘金一样难,而数据挖掘也是因此而得名的。因此,数据挖掘的另一种定义是:按企业的业务目标对海量的企业数据探索和分析,揭示隐藏的、未知的或验证已知的规律性,进一步将其模型化成为先进有效的方法[5]。

2 大数据与数据挖掘的关系

2.1 大数据时代的数据挖掘

大数据时代在近两年颠覆了人们过去的数据时代,它带来的数据革命给人们的生活带来巨大的影响,不仅如此,还将对企业的组织、决策、业务流程等产生相当大的影响。大数据时代,人和人之间的界限已经模糊到没有国界,甚至没有任何疆界。在这里值得一提的是,大数据时代中人类最宝贵的资产不是金钱、权利而是数据,数据会带领我们寻找正确的路,它才是我们21世纪最为宝贵的财富。但是这些“财富”却像一座藏宝之山一样被层层包裹着,这就需要人们用一把钥匙来开启这座藏宝之山,而这把钥匙就是—数据挖掘。

数据挖掘在企业中的应用通过对海量数据建模,对这些数据模型进行整理和分析,得出对企业有用的数据来帮助企业分析不同的客户或市场划分,从而得到消费者的喜好,然后投其所好找出企业正确是运营方式。这些大量的数据中可能隐藏着某种企业所需的规律性的东西,通过建模就可以利用模型自动从海量数据中找出这种关联性[6]。数据挖掘通常是会与统计分析中的一些方法联系起来应用,所以说想要掌握数据挖掘,统计分析也是必不可少要了解的。

2.2 大数据时代数据挖掘的意义

数据挖掘在大数据时代有着其他工作都无法替代的意义,人们透过对大数据的各种分析,可以对现有的企业决策提供强大数据支持的意见与建议。目前,几乎所有500强企业中的管理建议都是伴随着数据作为理论依据而提出的,即便是国内的中小企业在分析和解决问题时也开始倾向于用数据说话,不掌握大量数据是无法提出科学合理的建议的。此外,当大量的数据量积累到一块的时候,数据自己也会说话,对这些数据进行分析和处理之后,人们就可以从海量的数据中发现商机。我们日常中的海量交易数据中隐藏的都是客户的喜好甚至是市场未来的发展趋势,企业如果将这些数据提取出来进行挖掘分析会得到意想不到的结果,充分利用这些数据对于企业的生存发展有着极其重要的意义,所以说哪个企业更加了解市场,更加接近市场,它就将从竞争中脱颖而出。我国传统的数据管理思维方式关注的仅仅是静态程序预先提供给企业的固定内置功能,而这些预置的功能带给企业的帮助是十分有限的,企业必须依靠海量数据的分析来更好地为客户服务,更好地占领差异化市场,更好地完善企业内部的各项工作。

2.3 大数据时代数据挖掘的应用领域

医学领域:在医学领域,2003年算是大数据涌现过程中的一个里程碑。那一年第一例人类基因组完成了测序。在那次突破性的进展之后,数以千计人类、灵长类、老鼠和细菌的基因组扩充着人们所掌握的数据。每个基因组上有几十亿个“字母”,计算时出现纰漏的危险催生了生物信息学。这一学科借助软件、硬件和复杂算法之力,支撑着新的科学类型[7]。

教育领域:在教学管理过程中,如何全面掌握学生的学习状况、选课情况、心理状况、教学评价以及教学资源的最优化配置等信息,都可以使用数据挖掘技术来解决[8]。

科学研究:除了医学和教育业,数据挖掘在科研领域也正风起云涌。越来越多的设备带着更加精密的传感器,传回愈发难以驾驭的数据流,于是人们需要日益强大的分析能力。在石油勘探、气象学和天文学等领域,数据量的井喷式增长对更高层次的分析和洞察提供了支持,甚至提出了要求[8]。

3 总结

大数据技术与档案数据挖掘 篇3

关键词:大数据技术;数据挖掘;档案管理

伴随着大数据时代的到来,数据挖掘技术在档案管理中的应用将进入一个新的发展时期。尽管档案学术界很早就提出知识管理与知识挖掘,但知识挖掘尚停留在概念和理论探讨阶段[1]。大数据挖掘,即从大数据中挖掘知识,大数据挖掘技术有效地解决了数据和知识之间的鸿沟,是将数据转变成知识的有效方式[2]。因此,有档案学研究者认为“档案馆的传统业务将向档案资源的数据分析、数据挖掘方向转移,对大量数据的分析处理将成为档案馆的主要业务”[3],“档案信息服务的底层基础可能不再是检索,而是智能化的数据挖掘”[4]。

大数据时代给数据挖掘技术带来的根本性改变是使数据的深度挖掘成为可能,对大量数据进行分析处理和智能化挖掘,从管理角度来看,要达到最优的结果,不仅数据要全面、可靠、有价值,而且需要对数据进行深度挖掘。

1 数据深度挖掘是大数据技术应用于档案管理中的主要特点

数据挖掘技术是通过对海量数据进行建模,并通过数理模型对企业的海量数据进行整理与分析,以帮助企业了解其不同的客户或不同的市场划分的一种从海量数据中找出企业所需知识的技术方法[5]。数据深度挖掘,是一个对数据进行建模的过程,并对数据进行分类与统计,查找得出数据分布的关联性,这也是探索规律的过程。

如,档案人员想要做好档案编研选题,不仅要对用户利用档案数据,包括档案调卷数量、档案利用次数、复制档案数量、制发档案证明数量等进行深度挖掘,而且还需要对用户访问记录,包括网页采用的关键字、下载记录、检索词、用户利用网页时间和频度等信息进行深度挖掘,然后利用分类功能及数据分析,建立档案编研选题的用户模型,一是按需确定不同类型的编研选题,提供个性化的服务;二是根据档案用户需求特点,预测其未来趋向,结合社会热点选定档案编研题目,从而使档案编研部门推出用户满意的编研成果。在档案利用方面,对档案利用登记数据库进行深度挖掘,分别选取不同方面数据进行建模,可以得出不同档案利用形式的变化趋势,从而对档案利用趋势进行分析和预测,对利用频率高的档案进行全文数字化,既可以提高档案利用效率,又可以起到保护档案原件的作用。

因此,档案数据的深度挖掘是大数据时代的主要特点,档案学的发展历程告诉我们,每一次重大的技术变革都必然影响着档案学的发展,如计算机和网络技术的引入,引起了档案管理理念与实践的变革,改变了文件与档案的处理流程[5]。大数据技术对档案数据的深度挖掘为档案管理流程由粗放走向精细化提供了可能。

2 大数据技术对档案数据深度挖掘使档案管理模式走向精细化

大数据挖掘技术基于传统的数据挖掘,使用的是数据仓库,构造的是“泛关系”的聚分类模型,采取的是海量数据分析方法,机器与人类一样具备语义知识,提供的是可视化视图来揭示信息,可以说是传统数据挖掘方法的深化。由中国人民大学网络与移动数据管理实验室开发ScholarSpace,大数据处理的最基本流程由数据来源、数据抽取与集成、数据分析、数据解释等过程组成[6],分析认为大数据技术对档案数据挖掘由数据采集层、数据整理层、数据分析层、数据展示层组成。

2.1 数据采集层收集高质量的档案数据,为档案管理精细化奠定基础。数据采集是大数据技术处理流程中最为基础的一步,高质量的数据是大数据技术发挥效能的前提,大数据技术只有在高质量的大数据环境下才能提取出隐含的、有用的信息。由于大数据具有实时与动态性特征,“在线”、“近线”和“离线”的各种数字资源均是采集对象。为了使所获得的数据更具有代表性,通过什么方式获取数据信息显得格外重要。数据采集层要收集不同数据源产生的数据,为档案数据挖掘的后续工作做好准备。

2.2 数据整理层改变传统数据处理方式,凸显档案管理精细化过程。经过各种渠道获取的档案数据种类繁杂、结构多样,通过处理、集成、存储可以做到:

一是将结构复杂的数据转换为单一的或便于处理结构的数据。现代互联网应用呈现出半结构化和非结构化数据大幅度增长的趋势,这些资源将成为馆藏的重要来源。如,对档案系统运行日志资料等数据,就需要转换成结构化数据,形成档案统一的语言。二是对采集到的数据进行“去噪”和“清洗”,以保证数据的质量和可靠性。由于原始数据中有噪声数据、冗余数据等问题,对数据进行解析、清洗、重构,以提高待挖掘数据的质量。三是对整理好的数据进行存储,建立专门的数据库分门别类地放置,减少数据查询和访问的时间,提高数据提取速度。

2.3 数据分析层对档案数据的精细分析,凸显档案管理精细化的思维模式。数据分析是整个大数据处理流程最为核心的部分。“相关性”分析是大数据技术重要的思维模式,通过对数据彼此关联性的分析,能够更清楚地看到隐藏在背后的看似不相关的数据之间彼此的密切联系,使档案数据挖掘从常规分析向广度、深度分析转变。

“相关性”分析可激活数字档案资源,大数据技术的核心作用就是挖掘出庞大的数据仓库独有的价值,不管是网络实时运算的“热数据”,还是非在线的“冷数据”,通过对档案数据的综合挖掘、深度整合和数据分析,激活休眠状态的档案资源,展现数据价值,创造出新知识、新价值。“相关性”分析能有效破除信息孤岛的数据壁垒,使各个孤立的、互不联通的数据库之间资源实现充分共享。

2.4 数据展示层为档案用户提供更加精准服务,凸显档案管理精细化“以人为本”的价值追求。对档案用户来说,最关心的不是数据分析处理过程,而是对大数据分析结果的解释与展示。若数据分析的结果不能得到精准的展示,会对档案用户产生困扰,甚至会误导用户。通过档案管理信息系统,将深度挖掘的数据可视化,可以使用户清楚地看到未来发展的方向,从而对决策结果作出评价,这也是决定整个系统挖掘技术是否成功的标准。

3 大数据技术对档案数据深度挖掘,将档案管理精细化发挥到极致

大数据技术在档案管理中的应用从两个方向进行描述:从横向上看,以大数据挖掘技术为中心沿数据收集、整理、分析到展示等技术解决方案;从纵向上看,以数据产品为中心沿档案资源挖掘、用户数据挖掘及关系洞察及趋势预测逐级递进。大数据技术对档案数据深度挖掘使档案资源与用户需求的双向控制达到最优化,凸显管理精细化趋势。

3.1 档案资源挖掘。由于缺乏综合数据挖掘和深度整合,档案资源存在着重藏轻用深度挖掘不够的问题,因此,通过对档案资源数据的深度挖掘,展现数据价值,创造出新价值。

首先,大数据时代树立“大档案”工作思路,重视数据积累,不仅要建立档案资源体系,还要建立数据资源体系观。其次,建立共享档案数据资源库。以省级为单位,建立集中的、规范的、可供共享的档案数据资源库,使各档案馆藏之间相互关联,成为一个内容丰富且不拘泥于实体存储的,信息互联共享的档案数据资源网。最后,利用云计算平台和处理技术构建档案数据资源网,可以用于实时性档案数据的接收,也可以对非实时性数据进行分类处理,使其成为档案用户提供服务的平台。

3.2 用户数据挖掘。通过对用户数据挖掘做到精确洞察,精准服务,提升档案用户认同感,实现档案服务价值。用户数据挖掘包括以下方面:

一是对用户信息进行数据挖掘。提取用户的信息需求,查看用户访问服务器时留下的日志文件,跟踪用户行为,推测用户兴趣,提供个性化利用服务。二是对用户统计检索和浏览记录进行挖掘。如,利用统计分析的方法,通过分析用户对档案目录的点击率,选取点击率高的档案进行数字化;通过分析用户检索时使用的档案检索词,充实和完善数据仓库中的检索关键词,以提高查准率;通过统计分析用户对网页的访问频率,进而开展深层次的信息服务。

3.3 关系洞察及趋势分析。无论是档案资源和用户数据,通过挖掘得到的仅是某一方面的数据,这些数据往往是孤立的数据点,因此,要使这些数据集成为一个完整的网络,必须对数据网络后面的数据关系进行深入分析。如,单单对档案收集情况进行挖掘,得到的仅仅是档案人员与档案之间的关系,对档案利用情况进行挖掘,得到的仅仅是档案与用户之间的数据关系。然而,要想精准洞察档案之间、用户之间及档案与用户之间关系,必须将以上各个孤立的数据点进行整合,得到一个完整的档案网络,才能使档案发展、社会服务等趋势的预测成为可能。

4 积极探索综合性的对策促进档案数据深度挖掘的实现

在融合数据,精细分析后,我们应通过综合性的策略保证大数据技术在档案数据挖掘中的应用落到实处,保障大数据技术在档案管理应用中的有效实现与良性循环。

4.1 建立以大数据技术为核心的数据资源体系,使档案数据挖掘具有时代特色。构建一个“以数字资源为主体,以文本、图片、音频、视频等为形式,为中华民族集体记忆的建构和传承提供文献支撑的‘中国记忆数字资源库”[7],是时代赋予我们的目标与使命。

首先,扩大数据总量,构建现代化的档案资源体系,加强实体资源的建设,完善档案门类,优化馆藏结构。其次,加强数字资源建设,按照“存量数据化,增量电子化”战略,组建数字化档案资源库,加强电子文件的收集归档。最后,积极开放数据,整合数据资源,增强知识挖掘,实现数据增值。大数据技术为档案管理的深度挖掘提供了数据管理方面的保障,而对数据的深度挖掘使档案馆的功能扩展到发现与预测。

4.2 构建以人为本的用户关系管理,使得档案数据内在关联得以深度挖掘。大数据时代最大转变是放弃对因果关系的渴求,取而代之关注相互关系,只要知道“是什么”,而不需要知道“为什么”[8],这一转变将使我们以新的视角去理解档案用户数据挖掘。

利用大数据技术可以掌握用户此前的行为、正在进行的实时行为,还可以对用户未来行为进行预测分析,深度挖掘数据内在关联,促进资源集成创新,实现档案数据资源的增值服务。借助大数据技术,对用户搜索方式、行为轨迹、使用习惯、利用兴趣、存储行为等数据进行分析,有效发现用户隐性诉求。如,针对不同用户,产生动态推荐超级链接列表。建立以用户名为单位的个性化数据库,把用户想要的东西、挖掘分析结果放入。

4.3 在挖掘数据同时保护数据隐私安全,为档案数据深度挖掘提供良好的环境保证。大数据时代的隐私保护面临着技术和人力层面的双重考验,如果将这些数据合理利用,将为档案预测决策提供必要的情报信息。如何在保护隐私的前提下对档案数据进行有效的挖掘,我们应做到:一是健全法律规范对个人的隐私权利给予保护,建立健全数据安全管理规划体系,避免因个人隐私数据被随意挖掘滥用而造成影响社会稳定的事件发生。二是使用保护数据隐私的数据挖掘方法,合理界定哪些信息是属于私人信息,在保护私人信息安全的情况下进行数据挖掘。

4.4 借力“智慧因子”完善大数据技术在档案数据挖掘中的应用。随着“智慧城市”的提出,智慧的概念涉及各个领域,智慧档案馆也应运而生,智慧档案馆的核心理念是智慧服务,在大数据技术中植入智慧因子,依托物联网技术将馆舍、档案、网络、数据以及用户统一在智能网络中,达到有效整合和深度挖掘,深层次推动档案服务智慧化。大数据技术不仅将档案资源、用户数据、关系洞察及趋势分析产生的各种数据资源进行汇聚融合,而且利用智慧服务理念创新开发个性化的服务手段,使得档案知识的隐性知识显性化,为用户提供精细化的服务体验,推进档案信息资源智慧服务和知识空间的构建。

5 结论

大数据时代,大档案、大服务、智慧档案等成为档案工作的新发展,随着档案管理创新的深入推进,大数据技术将真正落实到档案管理各个环节,数据挖掘技术将更加娴熟地在档案管理中得到运用。通过本文分析我们得出以下结论:

(1)档案数据的深度挖掘是大数据时代数据挖掘技术在档案管理应用中最主要特点,促进档案管理模式发生改变。因此,在开展档案管理流程研究时,应当立足于这一点,从而达到整体的最优化。

(2)大数据技术对档案数据的深度挖掘历经不同过程环节,我们应当在厘清各环节的基础上,采取有效措施促进整个过程的有效运行,实现整个过程的良性循环与互动。

(3)大数据技术对档案数据挖掘的实现除了依赖大档案数据资源作为基础外,还需要有“以人为本”的用户关系管理、智慧服务理念、规范化的数据安全管理环境等,因此,档案部门应当加强与各部门之间的协同合作,实现大数据技术在档案管理中的应用。

参考文献:

[1] 于英香.档案大数据研究热的冷思考[J].档案学通讯,2015(2):5.

[2] 王雅洁等.大数据挖掘在食品安全预警领域的应用[J].安徽农业科学,2015(8):332.

[3] 周枫.资源 技术 思维——大数据时代档案馆的三维诠释[J].档案学研究,2013(6):63~64.

[4] 张芳霖,唐霜.大数据影响下档案学发展趋势的思考[J].北京档案,2014(9):12.

[5] 曹莉.刍议大数据时代的数据挖掘与精细管理[J].经营管理者,2013(18):191~192.

[6] 孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013(1):150~151.

[7] 冯惠玲.档案记忆观、资源观与“中国记忆”数字资源建设[J].档案学通讯,2012(3):6.

大数据时代下数据挖掘技术的应用 篇4

关键词:大数据 数据挖掘 挖掘技术

中图分类号:tp311 文献标识码:a 文章编号:1007-9416(2016)05-0000-00

1数据挖掘与数据挖掘技术的方法分析

“数据海量、信息缺乏”是相当多企业在数据大集中之后面临的尴尬问题,由此而诞生的数据挖掘技术其实就是用以处理这一尴尬问题的技术。数据挖掘实际上是相对比较新型的一门学科,在几十年的发展过程中,已经不可同日而语。其实数据挖掘技术的本质就是人工智能技术,而数据挖掘技术的利用相对应的就是指人工智能技术的开发与应用,也就是说数据挖掘其实是依赖技术的提升来实现数据的整体创新的技术,所以,整个数据挖掘技术实际上是非常具有信息价值的,它能够帮助决策者更快的得到重要信息并作出决策,提高效率和准确率,是非常重要的知识凭证,能够在一定程度上提高当下企业的整体竞争力。

数据挖掘技术的核心就是分析,通过分析方法的不同来解决不同类别的问题,以实现数据挖掘的潜在内容。简单来说就是对症下药以保证药到病除。

1.1聚类分析法

简单来说聚类分析就是通过将数据对象进行聚类分组,然后形成板块,将毫无逻辑的数据变成了有联系性的分组数据,然后从其中获取具有一定价值的数据内容进行进一步的利用。由于这种分析方法不能够较好的就数据类别、属性进行分类,所以聚类分析法一般都运用在心理学、统计学、数据识别等方面。

1.2人工神经网络

人工神经网络是通过大批量的数据进行分析,而这种数据分析方式本身是建立在一定的数据模型基础上的,因此通常都可以随时根据数据需求进行分类,所以人工神经网络也是当下数据挖掘技术中最常用的一种数据分析方式之一。

1.3关联性分析法

有时数据本身存在一定的隐蔽性使得很难通过普通的数据分析法进行数据挖掘和利用,这就需要通过关联性分析法完成对于数据信息的关联性识别,来帮助人力完成对于数据分辨的任务,这种数据分析方法通常是带着某种目的性进行的,因此比较适用于对数据精准度相对较高的信息管理工作。

1.4特征性数据分析法

网络数据随着信息时代的到来变成了数据爆炸式,其数据资源十分广泛并且得到了一定的普及,如何就网络爆炸式数据进行关于特性的分类就成为了当下数据整理分类的主要内容。在上文中提到的人工神经网络数据分析也属于这其中的一种,此外还有很多方法都是通过计算机来进行虚拟数据的分类,寻找数据之间存在的普遍规律性完成数据的特性分析从而进行进一步分类。

2大数据时代下数据挖掘技术的具体应用

数据挖掘技术的具体流程就是先通过对于海量数据的保存,然后就已有数据中进行分析、整理、选择、转换等,数据的准备工作是数据挖掘技术的前提,也是决定数据挖掘技术效率及质量的主要因素。在完成数据准备工作后进一步对数据进行挖掘,然后对数据进行评估,最后实现运用。因此,数据挖掘能够运用到很多方面。

2.1市场营销领域

市场营销其实就是数据挖掘技术最早运用的领域,通常根据客户的具体需求,进行客户分析,将不同的消费习惯和消费特点的客户进行简单的分类管理,以此来保证商品能够顺利销售,并提高个人销售的成功率和业绩。而销售的范围也从最初的超市购物扩展到了包括保险、银行、电信等各个方面。

2.2科学研究领域

科学研究与实验测试等都需要对数据进行关系分析为进一步的实验和总结失败做准备,而实验测试和科学研究产生的数据往往是巨大的,因此数据挖掘技术在科学研究领域也得以广泛运用。通常都是通过科学研究内容选择数据挖掘技术分析法进行计算来找到数据中存在的规律,实现数据挖掘的部分价值――科学知识的分析与运用。

2.3电信业领域

随着信息化时代的到来,电信产业也飞速发展起来,到目前为止,电信产业已经形成了一个巨大的网络信息载体,如何将其中信息数据进行整合就成为电信产业发展过程中的重要问题。而数据挖掘技术的运用则在一定程度上解决了这一问题,大量的数据通过数据挖掘技术得到了有效分类,并在这个过程中通过运算得出数据之间的关联性,运用规律进一步进行数据分类。

2.4教育教学领域

教学评价、教学资源、学生个人基本信息等组成了教育教学领域的数据库,利用数据挖掘技术来实现教学资源的优化配置,对学生的个人信息整理归档,从而保证教育教学领域中数据整理的良好运作。

3结语

大数据分析与挖掘期末 篇5

3.1 信息化建设

智游的发展离不开移动网络、物联网、云平台。随着大数据的不断发展, 国内许多景区已经实现Wi-Fi覆盖, 部分景区也已实现人与人、人与物、人与景点之间的实时互动, 多省市已建有旅游产业监测平台或旅游大数据中心以及数据可视化平台, 从中进行数据统计、行为分析、监控预警、服务质量监督等。通过这些平台, 已基本能掌握跟游客和景点相关的数据, 可以实现更好旅游监控、产业宏观监控, 对该地的旅游管理和推广都能发挥重要作用。

但从智慧化的发展来看, 我国的信息化建设还需加强。虽然通讯网络已基本能保证, 但是大部分景区还无法实现对景区全面、透彻、及时的感知, 更为困难的是对平台的建设。在数据共享平台的建设上, 除了必备的硬件设施, 大数据实验平台还涉及大量部门, 如政府管理部门、气象部门、交通、电子商务、旅行社、旅游网站等。如此多的部门相关联, 要想建立一个完整全面的大数据实验平台, 难度可想而知。

3.2 大数据挖掘方法

大数据时代缺的不是数据, 而是方法。大数据在旅游行业的应用前景非常广阔, 但是面对大量的数据, 不懂如何收集有用的数据、不懂如何对数据进行挖掘和利用, 那么“大数据”犹如矿山之中的废石。旅游行业所涉及的结构化与非结构化数据, 通过云计算技术, 对数据的收集、存储都较为容易, 但对数据的挖掘分析则还在不断探索中。大数据的挖掘常用的方法有关联分析, 相似度分析, 距离分析, 聚类分析等等, 这些方法从不同的角度对数据进行挖掘。其中, 相关性分析方法通过关联多个数据来源, 挖掘数据价值。但针对旅游数据, 采用这些方法挖掘数据的价值信息, 难度也很大, 因为旅游数据中冗余数据很多, 数据存在形式很复杂。在旅游非结构化数据中, 一张图片、一个天气变化、一次舆情评价等都将会对游客的.旅行计划带来影响。对这些数据完全挖掘分析, 对游客“行前、行中、行后”大数据的实时性挖掘都是很大的挑战。

3.3 数据安全

, 数据安全事件屡见不鲜, 伴着大数据而来的数据安全问题日益凸显出来。在大数据时代, 无处不在的数据收集技术使我们的个人信息在所关联的数据中心留下痕迹, 如何保证这些信息被合法合理使用, 让数据“可用不可见”[4], 这是亟待解决的问题。同时, 在大数据资源的开放性和共享性下, 个人隐私和公民权益受到严重威胁。这一矛盾的存在使数据共享程度与数据挖掘程度成反比。此外, 经过大数据技术的分析、挖掘, 个人隐私更易被发现和暴露, 从而可能引发一系列社会问题。

大数据背景下的旅游数据当然也避免不了数据的安全问题。如果游客“吃、住、行、游、娱、购”的数据被放入数据库, 被完全共享、挖掘、分析, 那游客的人身财产安全将会受到严重影响, 最终降低旅游体验。所以, 数据的安全管理是进行大数据挖掘的前提。

3.4 大数据人才

大数据背景下的智游离不开人才的创新活动及技术支持, 然而与专业相衔接的大数据人才培养未能及时跟上行业需求, 加之创新型人才的外流, 以及数据统计未来3~5年大数据行业将面临全球性的人才荒, 国内智游的构建还缺乏大量人才。

4解决思路

在信息化建设上, 加大政府投入, 加强基础设施建设, 整合结构化数据, 抓取非结构化数据, 打通各数据壁垒, 建设旅游大数据实验平台;在挖掘方法上, 对旅游大数据实时性数据的挖掘应该被放在重要位置;在数据安全上, 从加强大数据安全立法、监管执法及强化技术手段建设等几个方面着手, 提升大数据环境下数据安全保护水平。加强人才的培养与引进, 加强产学研合作, 培养智游大数据人才。

参考文献

[1]翁凯.大数据在智游中的应用研究[J].信息技术, , 24:86-87.

[2]梁昌勇, 马银超, 路彩虹.大数据挖掘, 智游的核心[J].开发研究, 2015, 5 (180) :134-139.

[3]张建涛, 王洋, 刘力刚.大数据背景下智游应用模型体系构建[J].企业经济, , 5 (441) :116-123.

[4]王竹欣, 陈湉.保障大数据, 从哪里入手?[N].人民邮电究, 2017-11-30.

数据仓库与数据挖掘学习心得. 篇6

通过数据仓库与数据挖掘的这门课的学习,掌握了数据仓库与数据挖掘的一些基础知识和基本概念,了解了数据仓库与数据库的区别。下面谈谈我对数据仓库与数据挖掘学习心得以及阅读相关方面的论文的学习体会。

《浅谈数据仓库与数据挖掘》这篇论文主要是介绍数据仓库与数据挖掘的的一些基本概念。数据仓库是支持管理决策过程的、面向主题的、集成的、稳定的、不同时间的数据集合。主题是数据数据归类的标准,每个主题对应一个客观分析的领域,他可为辅助决策集成多个部门不同系统的大量数据。数据仓库包含了大量的历史数据,经集成后进入数据仓库的数据极少更新的。数据仓库内的数据时间一般为5年至10年,主要用于进行时间趋势分析。数据仓库的数据量很大。

数据仓库的特点如下:

1、数据仓库是面向主题的;

2、数据仓库是集成的,数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工与集成,统一与综合之后才能进入数据仓库;

3、数据仓库是不可更新的,数据仓库主要是为决策分析提供数据,所涉及的操作主要是数据的查询;

4、数据仓库是随时间而变化的,传统的关系数据库系统比较适合处理格式化的数据,能够较好的满足商业商务处理的需求,它在商业领域取得了巨大的成功。

作为一个系统,数据仓库至少包括3个基本的功能部分:数据获取:数据存储和管理;信息访问。

数据挖掘的定义:数据挖掘从技术上来说是从大量的、不完全的、有噪音的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程。

数据开采技术的目标是从大量数据中,发现隐藏于其后的规律或数据间的的关系,从而服务于决策。数据挖掘的主要任务有广义知识;分类和预测;关联分析;聚类。

《数据仓库与数据挖掘技术在金融信息化中的应用》论文主要通过介绍数据额仓库与数据挖掘的起源、定义以及特征的等方面的介绍引出其在金融信息化中的应用。在金融信息化的应用方面,金融机构利用信息技术从过去积累的、海量的、以不同形式存储的数据资料里提取隐藏着的许多

重要信息,并对它们进行高层次的分析,发现和挖掘出这些数据间的整体特征描述及发展趋势预测,找出对决策有价值的信息,以防范银行的经营风险、实现银行科技管理及银行科学决策。

大数据分析与挖掘期末 篇7

大数据 (big data, mega data) , 或称巨量资料, 指需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产[1]。在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法 (抽样调查) 这样的捷径, 而采用所有数据进行分析处理。大数据具有4V特点:Volume (大量) 、Velocity (高速) 、Variety (多样) 、Value (价值) [2]。当前大数据技术应用的成功案例有:Facebook通过数据对人际关系的深度挖掘来构建开放服务体系;GOOGLE通过数据预测的强大力量对受众深度挖掘, 理解受众需求。

电信运营商在大数据存储方面拥有丰富、立体、饱满的天然优势, 国外电信运营商在大数据挖掘应用方面已开展了诸如基于移动互联网用户感知、优化网络管理、精确指导前端营销、与第三方数据合作等多方面实践;而国内电信运营商由于传统观念、战略导向、管理体制等多方面因素制约, 当前大数据技术在网络运营价值的深度挖掘方面并未发挥真正效益。对此, 笔者认为有必要进行相关论述, 以期促进电信网络运营价值的大数据挖掘发展。

2移动互联网时代运营商面临的大数据挑战

2.1大数据时代已经来临, 不进则退

新摩尔定理认为网络环境下每18个月产生的数据量等于有史以来数据量之和, 大数据时代已经来临。这是一个最好的时代, 也可能是一个最坏的时代;好在如果能够顺应并运用这个时代, 就可以如虎添翼;坏在如果错过这个时代将被无情淘汰。

对于电信运营商而言, 当前竞争环境愈发恶劣, 大数据技术已经成为创新和运营的核心竞争力。流量井喷, DPI和信令监测, 产生的大量事件在存储和用户通信行为分析的实时处理性能带来挑战;运营商一体化集中运营和透明管控, 催生巨大的经营分析数据仓库, 对大数据处理的存储、性能、开放带来挑战;ICT融合, 核心网络、运营支撑和VAS业务数据的融合催生海量User Profile并集, 对大数据的关联分析计算效能带来挑战[3]。

2.2思想重视不足, 缺乏顶层设计

2015年初, 中国电信江苏公司提出网络运维向运营战略转型, 即从单纯的指标维护向基于用户感知的大数据挖掘方向转型, 这一转型无疑具有极大意义, 但相对于大数据时代的快速发展, 这一口号的提出仍显相对滞后。

当前电信运营商已有的大数据实践仅局限于个别部门或者在局部业务上的浅尝, 从整个运营商层面, 缺乏对大数据战略的统一规划。

2.3缺乏对大数据平台的统一部署

目前电信运营商内部部门已开展了大数据项目规划, 并进行实践试点, 但只是限于独立专业的数据分析, 并未形成跨专业的统一大数据平台, 如从核心侧到无线侧的端到端系统等[4]。

3基于大数据技术的电信网络运营价值挖掘策略建议

3.1准确定位大数据技术对于电信网络运营价值挖掘的作用

大数据对于电信网络运营商的价值主要体现在“五位双层”, 即对外层次的开放数据盈利;对内层次的提升客户感知、精确指导市场营销、支撑领导经营决策、提升网络运营效率。

对外层次的开放数据盈利是指基于电信网络的大数据天然优势进行用户行为挖掘, 将部分数据资产对商业联盟 (如携程网、快捷酒店、旅游景区等) 开放, 进行合作盈利, 创新后向经营的商业模式。移动互联网时代没有单打独斗的胜者, 这一点尤为重要。

对内层次主要包括基于个性化用户行为感知的大数据挖掘以提升客户感知;基于DPI、CDR话单数据挖掘以洞察客户市场行为, 精确指导市场营销;基于大数据的网络资源管理IT化, 降低人工现场行为, 提升网络运营效率;基于大数据智能管道以提供领导决策参考。

3.2深度解析流量话单, 让网络运营可视

如下图1, 通过融合BSS、OSS、MSS平台数据源, 形成基于流量话单的管道开展运营的基础分析能力, 构建电信运营需要的基础分析体系。

通过平台整合, 最终实现基于流量话单的网络运营统一价值可视化体现:

(1) 业务内容分析:对管道内的流量能够分辨到具体的业务, 如QQ, BT等;

(2) 用户行为洞察:对流量的使用者可区分, 用户在何时, 何地使用的流量;

(3) 内容偏好分析:对流量承载的内容可分析, 能够分辨用户浏览网页的内容、微博内容等;

(4) 终端使用分析:能分辨具体使用流量的终端信息, 提供终端型号、品牌等;

(5) 位置营销可视:能分辨用户使用业务的具体网络位置和实际地理位置;

(6) 网络运营可视:结合网络设备数据, 提供网络布点优化、客户体验、业务质量等信息。

如下图2, 目前中国电信江苏公司网优平台已经能够实现以上功能, 更好地支撑了网络运营价值的可视化挖掘。

3.3搭建DPI大数据监控平台, 实现端到端感知立体评价体系, 支撑经营决策

从用户感知入手实现端到端多维感知关联分析, 构建关键KQI和KPI关联模型, 建立用户端到端感知评价体系, 实现用户业务感知的准确评价和管理, 为前后端运营提供决策参考数据。

如上图3为DPI系统架构, DPI识别技术大致流程分为四大阶段:协议解析识别阶段 (采集全网流量数据—>对数据进行协议解析、识别—>实时传输协议识别后的流量数据到分析机—>实时传输协议识别后的流量数据到分析系统中) ;IP流分析阶段 (与采集机实时通信—>对流量数据进行二次解析—>生成ip流原始数据) ;IP流分拣阶段 (与存储服务器实时通信—>实时处理IP流原始数据—>根据集团规范输出字段格式—>可灵活配置的APP应有规则库) ;记录文件形成阶段 (存储日志文件—>提供查询接口) 。

以用户HTTP行为为例, 终端用户使用浏览业务的基本过程为:

(1) 用户点击访问某个网页;

(2) 操作系统进行DNS查询, 查询完成后, 发起TCP建立请求;

(3) 终端操作系统与服务器建立完成TCP三次握手后, 终端发送第一个Get请求报文;

(4) 服务器响应Get请求报文, 向终端下发第一个页面的数据, 第一个页面的下载会包含多个数据报文的下发, 第一个报文的格式可能是压缩的。

针对以上HTTP行为, 基于统一网元库的DPI分析成果展示如下图:

(1) 互联网业务监控:基于集团规定的10大标准网站, 建立标准网站的主要感知指标的时延分析体系, 并根据网站特点制定获得基准指标值域, 并细化到5分钟准实时粒度, 对网站指标的劣化提出预警。

(2) 业务多维度分析:基于定制的的SP网站, 建立各网站按时间维度、地市/基站维度、域名/服务器IP地址维度的钻取分析, 层层分解要感知指标, 对可能的网络异常点进行精细化分析。

(3) TOP网站访问量统计:掌控用户HTTP访问轨迹, 可将数据源对外开放, 支撑商家联盟和后向运营。

通过DPI大数据监控, 最终建立用户应用档案模型, 包括:应用的全网渗透率、流量使用和资源消耗, 认识应用的价值和对网络冲击影响;不同时段使用习惯, 可用于分时段流量包的设计;挖掘强相关应用, 关注客户兴趣点, 便于关怀服务推送等方面的价值数据。

4中国电信淮安分公司无线网络大数据挖掘场景成果分享 (部分)

如图8, 淮安分公司基于“三层五大类”数据源平台进行无线侧大数据挖掘, 为网络运营提供决策参考。

基于统一网元库的用户终端———APP应用———场景分布三维大数据分析, 得出如下阶段性结论:

(1) 智能终端是客户使用的第一门户, 其业务适配度直接影响客户体验, 屏幕尺寸对业务应用有潜在的影响, 随着屏幕的增大, 侧面反映出用户在特质和应用偏好方面的不同:IM类 (5寸屏幕以上用户使用开始减少) ;网页浏览 (5寸屏幕以上用户更偏向) ;电子商务 (大屏用户更喜欢使用) ;地图导航 (应用度与屏幕大小有直接联系) 。

(2) 不同档位的终端在主流业务使用上表现出不同的特征, 说明终端等级对业务应用有很大影响, 对客户终端维护和终端营销有重要参考价值。

基于网优平台话单、GIS功能模块与统一网元库DPI功能模块进行平台融合大数据挖掘, 实现2015年春节期间的移动互联网运营价值挖掘, 有效地支撑了市场营销决策:

5结束语

在移动互联网+的大数据时代, 数据和信息已成为推动电信运营业整体转型的战略资产, 与其他行业企业竞争对手相比, 电信运营商能够得到的数据比单一的互联网公司得到的数据要丰富、立体、饱满, 电信运营商发展大数据具有无可比拟的天然优势, 决定其将是未来大数据时代的最强势的竞争者[5]。

大数据时代的到来让数据成为新的生产力, 未来发展道路上挑战与机遇共存, 电信运营商需充分发挥自身的优势, 掌握大数据这把利剑发掘自身网络运营潜力, 才能运筹帷幄立足于数据时代。

摘要:从大数据的概念与特征入手, 探讨基于大数据技术的电信网络运营价值的深度挖掘。首先提出移动互联网时代电信运营商所面临的数据挑战;其次从智能管道、流量话单可视化运营、DPI分析等方面提出运用大数据技术和工具平台进行电信网络运营价值的挖掘策略, 同时输出相关场景案例成果;最终明确电信运营商在大数据时代的挑战和机遇。

关键词:电信网络运营,价值挖掘,大数据技术

参考文献

[1]杨旭, 汤海京, 丁刚毅.数据科学导论.北京:北京理工大学出版社, 2014

[2] 中国企业需要怎么来面对大数据时代的来临.大数据网, 2014

[3] 尹凯.中国电信大数据技术与应用交流.北京:中国电信, 2014

[4] 韩晶.面向统一运营的电信运营商大数据战略.电信科学, 2014 (11)

大悦城:逆势增长的数据挖掘 篇8

中粮集团旗下的朝阳大悦城凭什么取得这样的好成绩?除了及时的业态调整和不断创新的营销活动这些表面上看到的动作,朝阳大悦城真正的核心竞争力是高效的运营管理,是以大数据为基础来部署,所有的营销、招商、运营、活动推广都围绕着大数据的分析报告来进行的大战略。

数据营销

朝阳大悦城开业时,正处于零售环境大改变的时期。在电商的冲击下,传统的做法已经无法再满足需求,加上所处的地区商业氛围明显不足,开业初期面临很大压力。压力产生动力,要生存,就要研究并掌握市场的规律,不断创新走出新路。

成立之初,他们组建了一个数据团队。2012年一年中,朝阳大悦城在商场的不同位置安装了近200个客流监控设备,并通过wifi站点的登录情况获知客户的到店频率,通过与会员卡关联的优惠券得知受消费者欢迎的优惠产品。

“朝阳大悦城的数据来源有3个:一个是POS机系统,任何一笔收入都进入该系统;还有一个是CRM(客户关系管理系统),该系统与人关联,便于对客户进行研究。另外一个来源是消费者调研,通过海量的调研问卷及定期的小组座谈、深度访谈,朝阳大悦城对客群的特质掌握得愈发清晰。”朝阳大悦城信息部副总监李英伟说。

通过对车流数据的采集分析,他们发现具备较高消费能力的驾车客户是其主要的销售贡献者,而通过数据测算每部车带来的消费,客单超过700元。

商场销售额的变化与车流变化幅度有将近92%的相关度。为此,大悦城对停车场进行了改造,如增加车辆进出坡道,升级车牌自动识别系统,调整车位导识体系等,力争吸引驾车客户。此外,他们还调整了停车场附近商户布局,极大提高了优质驾车客群的到店频率。

经过客流统计系统的追踪分析,配上有针对性的解决方案可以有效改善消费者动线,拉动销售是数据营销的又一成果。

朝阳大悦城4层的新区开业之后客人总是不愿意往里走,因为消费者熟悉之前的动线,所以很少有人过去,该区域的销售表现一直不尽如人意。为此,招商部门在4层的新老交接区的空区开发了休闲水吧,打造成欧洲风情街,并提供iPAD无线极速上网休息区。通过精心设计,街区亮相后新区销售有了明显的改观。(一个wifi就可以把无人区改造成热闹区)

节日促销是许多购物中心都在做的,但真正把活动做好,直击人心,不只是优秀的创意那么简单。今年三八妇女节期间,他们又推出了“你休假、我发薪”活动,创下销售及客流新高,当天客流增长69%,销售额同步增长78%。而整个活动的推广支出仅有3000元。

2013年9月19日其店庆日,在策划之初,团队内部也曾产生过分歧,到底应不应该在商业的淡季做这样大规模的SP(促销)活动?

信息部调取了3年来的小长假的数据记录进行分析,根据销售曲线变化,最终决定把销售冲高的日子放在了2013年的中秋节,并最终核算定下了1500万的销售任务。

同时,分析出完成任务的两个关键点:一是在商户大力促销及活动充分宣传的基础上,预期客流与提袋率增长相对容易实现,但客单价的大幅增长较为困难。

二是根据历史经验,单日销售冲高最大的动力来自于零售业态,而零售集中释放于下午和晚上,上午时段的增长成为增量的关键时段。

在大量数据研究的基础上,信息部认为会员是解决这两大难题的重要手段,必须想办法在上午把最优质的会员吸引到店、刺激他们充分购物。

信息部根据超过100万条会员刷卡数据的购物篮清单,将喜好不同品类不同品牌的会员进行分类,根据偏好精准通知品牌促销信息。同时设置会员到店礼、高额买赠等活动,刺激会员尽早到店,释放大单。

前期的数据测算、推广的周密策划加上与运营租户的沟通,最后销售额达到了1715万元。发现新的增长点

大数据的运用,还带来了新的业务增长点和发展空间。

以前,他们的POS机系统和CRM系统是孤立的,现在,运用新的软件已经突破性地把这两个系统的数据整合在了一起。这样会员们买了什么东西就可以一目了然。

同时数据团队开始推动品类管理,将零售、餐饮、娱乐等大的业态细分为30个品类,并将品类表现与细分客群结合起来进行研究,通过各具特色的数据分析模型,能够发现谁买什么,谁可能买什么,什么和什么的购买是相关联的,谁和谁是同质/异质的……而这些问题在绝大多数的购物中心里还很难得到确切回答。

现在,他们可以集中研究某一类人群,从而发现他们的需求。“在对会员进行分析时,我们得到了许多好玩的结论。”李英伟说,“将业态细分到品类,将客群细分到子群体,然后将品类/品牌表现与细分客群相结合,能让我们发现更多的商业计划。”

比如,通过消费者座谈会,发现了这样的结论:家庭生命周期对于女性的购物习惯有着至关重要的影响,其中是否怀孕是重要的转折点,怀孕之前对服装与怀孕后明显不一样。孕妇以及哺乳期的女性会大幅减少时装的需求,对衣服要求松软舒适,并开始增加婴孕用品的需求。当孩子1岁半之后,能脱离母亲怀抱时,儿童教育与儿童娱乐的需求开始大幅增加,而到孩子3岁上幼儿园后,母亲开始重新装点自己的生活,服装的需求会快速回升。

朝阳大悦城数据团队在分析会员价值时会应用一个叫做RFM的模型,这个模型将最近一次消费(Recency)、消费频率(Frequency)、消费金额(Monetary)3个维度进行综合考量。通过考量,朝阳大悦城发现存在一部分RFM得分非常高的女性会员,她们的购物篮非常宽,几乎对任何品类的购买都超过了其他会员群体。

在对她们进行深入访谈时发现,这部分女性主要集中在35~45岁,她们经常来朝阳大悦城,也很愿意消费,但普遍反映服装品类可买的东西不多,只好去新光天地买。

进一步研究发现,她们并不盲目追求奢侈品,但对单价在2000元以上的女淑、设计师女装品类有着突出的需求。于是朝阳大悦城在2层集中打造了一个女淑、设计师女装组团,这个品类成长情况良好,像爱特爱等品牌日均坪效(每平米每天产生的销售额)能达到200元左右。

2013年8月8日,朝阳大悦城宣布将微信微生活卡与实体会员卡打通,成为京城首家实现这一功能的购物中心。

上一篇:竞争述职报告下一篇:让世界充满爱案例