大数据算法及临床应用

2024-10-04 版权声明 我要投稿

大数据算法及临床应用(共8篇)

大数据算法及临床应用 篇1

主题:Big Data Algorithms and Clinical Applications(大数据算法及临床应用)

讲座人:美国华盛顿大学计算机系副教授 陈一昕博士 时间:2014年10月20日(周一)下午14:30 地点:湖北工业大学科技楼二楼圆形报告厅

欢迎全校对讲座主题感兴趣的师生参加!

[陈一昕简介] 陈一昕博士,中国科技大学少年班本科毕业,美国伊利诺大学香槟分校获计算机科学博士学位,导师为华云生教授。现任美国华盛顿大学计算机系副教授,终身教授,北京协和医院卫生统计学博导,中国联通研究院大数据首席科学家。

研究领域为数据挖掘、机器学习、优化算法、规划调度、人工智能、博弈论、云计算等。在AIJ、JAIR、TKDE、TKDD、TIST、TPDS等国际一流期刊和VLDB、AAAI、KDD、IJCAI、ICML、RTSS等国际顶级会议和上发表论文100余篇。其研究连续获得美国国家科学基金委、美国能源部、美国国家卫生局、美国能源研究科学计算中心、美国微软公司、美国斯隆凯特琳癌症中心、美国巴恩犹太医院基金、中国科技部973项目的资助。曾获KDD(2014)、AAAI(2010)、ICTAI(2005)、ICMLC(2004)等国际会议的最佳论文奖,以及ICDM(2013)、RTAS(2012)、KDD(2009)、ITA(2004)等国际会议的最佳论文奖提名。其开创性的研究工作获得了美国微软青年教授奖(2007)和美国能源部杰出青年教授奖(2006)。

大数据算法及临床应用 篇2

Hadoop是处理大数据的常用平台,在这种架构中大数据被打散成大小相等的数据块写入到不同的计算机。该方案的优势在于,从存储空间来看,针对大数据处理中大量数据持续写入的特点,可以便捷的加入新计算机增加存储空间;另一方面从数据吞吐量来看,同时从多台计算机并行读写数据大大提高了效率。从计算的角度看,对于分布在不同计算机上的数据,用户可以指定一定数量的分布在不同计算机上的JVM(Java虚拟机)分析处理,这些具体执行计算的JVM被系统命名为Child。Child之间遵循MapReduce[1]范式分工合作实现并行计算, 每个Child完成的工作大致可以分为两类Map或Reduce,工作细节由用户编写代码填充到Hadoop的Map或Reduce类来实现。MapReduce范式还有一项特征,在这种模式下用户根据具体问题自己选择关键字和内容(键/值对)来描述数据,键/值对的定义只在处理作业进行时生效。换句话说,同一份数据用户根据不同的需要在编写代码时定义不同的键/值对来描述,键/值对并不是数据的固有属性。这样做的带来的灵活性和多样性决定了hadoop在处理WEB大数据中的大量文本、图像等非结构化或半结构化数据具有优势。

2 Hadoop平台部署

2.1 硬件平台及其局限性

实验的硬件平台由网络连接的29台计算机组成,这些计算机分别属于两个机架,机架内部通过10GB的交换机连接。具体网络结构以及机器规格参照图1、表1。图表中需要注意的有两点 ①图中描绘的网络连接分两组,上半部是以太网下半部分是infiniband网络,而hadoop使用只有以太网;②每台计算机的本地硬盘容量仅250G,这个值远低于hadoop在2010中采用的典型规格4T。存在这些差异的原因是该硬件平台是为传统的超算应用搭建的,主要用于基于MPI的科学计算,本次实验是从原平台隔离出一部分作为Hadoop平台。从实验效果来看,超算平台和Hadoop平台硬件架构标准还是有相当差异 ,尤其是以上提到的第二点,每台计算机硬盘容量的不足在很大程度上局限了后续计算工作的性能。

2.2 平台实现与调优

我们在上述硬件平台的基础上部署并配置了Hadoop,启动之后可以看到的分布在不同的计算机上的一组JVM,这些JVM之间通过网络通信协同工作实现两部分功能:并行计算、分布式存储,本文将这组JVM统称为守护JVM。有三个守护JVM负责对整个集群的管理,分别是管理计算的JobTracker、管理存储的NameNode以及实现元数据备份的SecondaryNameNode。剩余的守护JVM接受来自以上三个守护JVM的指令负责在本机执行作业,共分两类,一类是执行并行计算的TaskTracker,另一类是执行存储的DataNode。

守护JVM 与Child JVM的区别在于,①守护JVM从Hadoop启动之后就一直运行,Child 只在作业进行时运行,作业结束后Child也终止。从这个角度来看,守护JVM是hadoop的实体;②Child由守护JVM来控制,包括启动或终止。图2,图3分别显示了Hadoop启动后状况以及Hadoop正在执行运算时的状况。

图3 Hadoop执行计算时运行的JVM

目前Hadoop中可以调整的参数约160多项,本次实验根据平台实际情况调整了其中若干项。包括根据每台计算机的中央处理器核数调整了单机运行map child以及reduce child的最大数量。以及为提高HDFS吞吐量改动了DataNode处理文件数量的上限。同时考虑到机架内部计算机之间的网络传输带宽高于不同机架之间的网络传输带宽,Hadoop系统设计从以下两方面提高性能,一方面运行在各台计算机上的计算任务倾向于执行机架内的数据传输而非机跨机架数据传输;另一方面负责数据存储的HDFS依据网络状况智能的放置数据块副本,以取得性能和灵活性的平衡。为达到以上效果先决条件是系统必须知道网络的拓扑结构,我们根据指定格式创建一份文本文件描述集群中计算机-机架之间的映射关系,系统读入该文件根据映射关系构建网络拓扑结构。

2.3 数据处理工具

本次实验的目标是针对大数据集的机器学习和预测,考虑到Hadoop在大数据处理领域的广泛应用,底层平台从一开始就选定使用Hadoop。因此在选择数据处理工具时主要针对基于Hadoop MapReduce的数据处理工具,最初我们选择的是Mahout[2],Mahout是基于Hadoop MapReduce开发的一组个对多种算法包括多种机器学习算法的实现。经过实验发现虽然Mahout在算法上的针对性很强,但是结合底层平台的实际运行性能不高,在小数量级上运行顺利,处理大数据则会发生崩溃。崩溃点出现在所有计算机的硬盘容量全部被耗用完时,这正是底层硬件平台的局限性能。Hive[3]虽然没有针对具体算法的实现,意味着要自己编写代码实现算法,但是Hive运行性能显著优于Mahout,另外Hive采用类SQL的查询语言HiveQL,用户只需输入SQL命令系统就会转化为MapReduce任务由Hadoop执行,使用也非常方便。综合考虑底层平台特点和上层应用的需求,最终我们选择Hive作为数据处理工具。

3 实验

3.1 实验准备

实验的原始数据是Netflix Prize[4]提供的两个数据集,包括训练数据集和测试数据集。训练数据集是从Netflix网站1998年10月到2005年12月的电影评分数据中,随机抽样48万用户对1万7千多部电影的1亿多条评分记录,评分的分值在1-5之间。测试数据集供用户对预测结果的精度进行测试,该数据集的内容是从训练数据集抽取的一部分记录,但是记录不包括评分部分。训练数据集的详细特性:①电影代号是1-17770的流水号;②用户代号的取值范围1-2649429,其中有空缺,共计480189个用户;③评分的分值1-5;④用户评分日期的格式为 年-月-日。

原始训练数据集由17770个文本文件组成,每个文本文件记录了一部电影的评分记录,格式如:①电影ID1:②用户ID11,评分12,评分日期13;③用户ID21,评分22,评分日期23;④用户ID31,评分32,评分日期33。

因为原始数据格式与Hive数据格式不一致,所以首先要将17770个原始数据文件整合成1个Hive格式文件。我们将原始数据读入Hdfs,然后通过Hadoop MapReduce将原始数据格式转换成常见的Hive数据集格式,转换前后的数据格式对比如图4、图5。

图5 转换后的Hive数据格式

3.2 实验设计

实验以slopeone[5]算法为基础,步骤依次为① 预处理;②训练;③预测;④精度测试。最后的精度测试通过计算实际评分与预测结果的均方差来验证实验的精度。首先是预处理,netflix只提供了两个原始数据集,分别是训练数据集(training_set)和测试数据集(probe)。从两个数据集的关系来看,测试数据集是训练数据集的子集,同时测试数据集缺少用户评分,这两点都不符合实验要求。第一步预处理要产生一个新的包括用户评分的测试数据target_probe;第二步要将测试数据集从原始训练数据集中完全剔除,产生一个新的训练数据集training_probe;第三步预处理要充分结合slopeone算法的特点,产生一个预测数据集predict_probe,这个数据集的预测结果必须和测试数据集有交集。

预处理阶段整合为三个模块slopeOne_Pjoin01、slopeOne_Pjoin02、slopeOne_Pjoin03,每个模块产生一个新的数据集分别是target_probe、training_probe、predict_probe,这些数据集之间要满足以下关系:

(1) 训练数据集和验证数据集没有交集;

(2) 预测数据集产生的结果数据集和验证数据集有交集。

训练slopeOne_join04和预测slopejoin05阶段是对slopeone算法的实现,精度测试slopeOne_join06则采用均方根误差,细节不再赘述,完整实验流程参照图6。

3.3 实验结果

整套实验流程产生的数据集大小以及操作耗用时间如表2、表3,实验过程总共耗时约8小时,包括中间结果累计产生30多亿条数据记录,最后的精度测试得到均方根误差为1.53004。需要补充说明的有两点①表3中列出的数据集比实验设计增加了两个分别是training_result_probe0、predict_result_probe0,新产生的两个数据集是在主体连接操作产生training_result_probe、predict_Result_probe的基础上进一步做规约操作得到的结果;②由于数据量过大超出平台处理能力,实验在执行预测slopeOne_join05时发生崩溃。为较小数据处理量,我们对预测数据集predict_probe做了缩减,从中46万多用户中选出5000名用户的数据predict_probe0作为预测数据集,因此最后的均方根误差运算中样本数量也减少至17。

除了应用层的实验结果,通过实验也可以看出底层平台在大数据处理方面的表现。以下截取了实验的核心模块预测slopeOne_join05执行过程中网络、内存以及中央处理器的性能指标。其中,最能体现分布式计算特性的网络使用量峰值达到了约650M;内存使用量的最高值突破500G,虽然从图象上看距离集群总内存量还有差距,但是考虑Hadoop平台实际只是整个集群的一部分,实际可用内存量只有600G,内存的使用也达到了相当高比例;CPU的使用峰值也达到了60%。

4 结束语

针对项目实践中对海量数据处理的需求,一段时间以来我们在大数据挖掘方向开展了大量探索与实践工作。本文选择了其中代表性的一组实验,着重分两阶段对实验进行了概要总结。前期侧重于大数据处理平台Hadoop的搭建以及调优;后期围绕slopeone算法,以公开的Netflix prize数据集为范例样本,设计了一套协同过滤数据处理实验。希望这个阶段性的总结工作,能为后续工作的开展做好铺垫,同时为相关领域的工作提供一些借鉴。

参考文献

[1]Dean,J.,Ghemawat,S.MapReduce:Simplified data processing on large clusters.In 6th OSDI .2004.

[2]http://mahout.apache.org/.

[3]http://hive.apache.org/.

[4]http://www.netflixprize.com/.

大数据算法及临床应用 篇3

每种观点都有自己的理据,所以我们不能片面地去判断哪种观点对与错。就大数据而言,我认为Google是一个理想主义者,而Nate Silver则是一个实用现实主义者。

理想中大数据的终极形态是不用构建模型,或者说已经构建了全模型,不用针对每次分析的目的去单独建模,数据自身会从数据特性,规律去进行逻辑性分析(非数理分析),人们只需要将所有数据输入,机器就能告诉人们这些数据中,哪些数据说明了什么问题,大数据的输出成果将不是一份报告,而是一个体系,没有一份报告能容纳如此多的结果。到了那个时候,确实是更多的数据胜过更好的算法,因为那时候已经没有了算法,没有什么是不能计算的。

但现实是,我们目前的大数据离理想中的大数据形态还有很远的距离。

我们先看一个通过数据分析来辅助营销的例子。你要推广一个旅游产品,比如说是一个旅游攻略的APP,你第一反应肯定是去旅行社、户外网站去收集数据,去展开宣传,去铺开销售吧?这当然对,但问题是,经常旅游的人很可能已经不需要你旅游产品的指导,他们有更多的出游经验,他们有更多的团队合作,他们可能更倾向个体出行。而不经常出没在户外网站的人,不经常搜索旅游相关信息的人,他们心中对旅行的渴望也许是很强烈的。从数据的维度来看,从旅行社、户外网站收集到的客户信息当然是比大众市场上得到的客户信息的维度要多,颗粒度要细,信息更非结构化,更称得上“大数据”,但显然,通过这些更大的数据却未必能支撑你找到更多有需求的客户。当然,你也许会说在强关联的小圈子里找到客户的单位成本远比漫无边界地挖掘客户的单位成本要低。但我只是用这个例子去说明,更多的信息未必能指向更明确结果,如何建构一个合理的模型(利用有限的数据去做最有效的分析),远比找到一个新的数据源要重要得多。

目前的大数据与理想中的大数据形态的距离并不在于数据源的多少上,数据源从来不是问题,问题在于我们如何去建构一个科学合理的分析模型,并相信、坚持分析模式的输出结果。通过不断地修正、累积各种正确的分析模型,我们将不断接近理想形态。

而很不幸的是,有时候现实与之背道而驰。

分析员总是习惯带着预设去分析,他们会自觉不自觉地以对自己有利的方式对这些数据进行分析和解释,而哪怕这些方式很可能与这些数据所代表的客观现实不相吻合。出于各种原因,分析员很难从干扰他们的噪声中分辨出有用的信号,甚至会无视这些真实有用的信号。于是,数据展示给他们的通常都是他们想要的结果,而且他们通常也能确保这些数据令大家皆大欢喜。同时,我们天真地相信各种预测分析模型,却没有人认真地去验证这些模型是否科学合理,是否与事实相符,也许这些模型在进行架设选择时根本不堪一击。

我对此感同身受。我曾经为不同省份的移动公司做过各种形式的经分,给我最大的感受就是,我们不是要用数据去发现问题,找到解决问题的方法,而是要用数据去支持领导的观点,一旦结果与领导观点相悖时,模型是可以调整,数据可以调整,口径可以调整,只有领导的观点不能动,不能变。具体的过程是,刚开始时我们通过经验建构了分析模型,模型只需要三组数据,但很不幸无法支撑领导的观点,进而增加到五组,依然无法得出想要的结论,进而想方设法增加到十组,并开始调用不同的分析模型,费尽九牛二虎之力,终于在用某模式导入XXYY数据时,出来的结果刚好与领导的观点一致,好吧,终于天亮了,终于可以定稿了,终于可以各自回家睡觉了。一觉醒来后开始宣扬,我们充分调用了N多的数据,并创新性地使用了X模型,得出某某结论,与领导观点不谋而合。

这就是分析员的困境,而这种困境是目前分析工作的常态,也许压力不是来自于领导,但也有可能来自于市场的压力,个人绩效的压力,时间精力的有限,经验和知识的匮乏,甚至是内心无法言明的情绪等。

这个世界自从有了印刷机,信息的传递不再局限,信息变得不再那么稀有,后来有了互联网,信息开始爆炸式增长,我们拥有的信息太多,甚至多到无从下手,但事实上有用的信息寥寥无几。没有科学、经过验证的模型支持,我们往往主观地、有选择地看待信息,对信息的曲解却关注不够,于是,当我们把越来越多的信息塞进越来越臃肿的模型,我们以为我们将看到更多真相,而事实是很多只是假相。

大数据算法及临床应用 篇4

大数据的特征、价值及在政府中的应用

胡 毅

摘 要:海量数据的浪潮正呼啸而来,被推向大数据前线的,远不止是商业为目的的众多企业,同时也有公共服务为目的的政府机构。与前者类似,政府在履行其职责——管理社会的过程中,正面临着越来越大的挑战,但在另一个角度上看,如果合理应对和运用这些数据,也必将为社会管理带来巨大的好处。

关键词:大数据特征 政府 应用

Big Data characteristics, value and application in

government

Hu Yi Abstract:Massive data are roaring waves, big data is pushed to the front line, far more than a business for the purpose of many enterprises, but also a public service for the purpose of government agencies.Similarly with the former, the government in fulfilling its responsibilities-management of social process, is facing increasing challenges, but in another point of view, if a reasonable response and use of these data will also provide management with social to huge benefits.Keyword :Big Data Characteristics government applications

进入2012年,大数据(big data)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数 大数据时代来临[1]据,并命名与之相关的技术发展与创新。它已经上过《纽约时报》《华尔街日报》的专栏封面,进入美国白宫官网的新闻,现身在国内一些互联网主题的讲座沙龙中,甚至被嗅觉灵敏的国金证券、国泰君安、银河证券等写进了投资推荐报告。

正如《纽约时报》2012年2月的一篇专栏中所称,“大数据”时代已经降临,在商业、经济及其他领域中,决策将日益基于数据和分析而作出,而并非基于经验和直觉。

哈佛大学社会学教授加里·金说:“这是一场革命,庞大的数据资源使得各个领域开始了量化进程,无论学术界、商界还是政府,所有领域都将开始这种进程。”

所谓的大数据最直白的理解是海量数据,通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费很多时间和金钱。调研机构IDC认为,某项技术要想成为大数据技术,必须满足IBM所描述的三个“V”条件,即多样性(Variety)、大容量(VoIume)和时效性高(VeIocity)。

我们可以通过一组形象的数据来了解大数据的容量。一项对531名独立OracIe用户进行的调查发现,90%的企业的数据量在迅速上涨,其中 16%的企业的数据量每年增长率达到 50%或更高。不少企业已经感受到失控的数据增长对绩效造成的冲击,其中 87%的受访者将企业的应用程序性能下降归咎于不断增长的数据量。调研机构IDC在2011年6月的报告则显示,全球数据量在2011年已达到 1.8ZB,在过去5年里增加了5倍。

1.8ZB是什么样的概念呢?如果把所有这些数据都刻录存入普通DVD光盘里,光盘的高度将等同于从地球到月球的一个半来回也就是大约72万英里。相当于每位美国人每分钟写3条 Twitter微博,而且还要不停地写2.6976万年,是不是很恐怖?这还不是最恐怖的,IDC还预测全球数据量大约每两年翻一番,2015年全球数据量将达到近8ZB,到2020年,全球将达到35ZB。

2011年全球产生的数据量达 1.8ZB,并且预计将每年翻番。这一数据量相当于2000亿部时长2小时的高清电影,一个人要连续看4700万年才能看完。

通过形象的举例,也许你会感觉到恐怖,感觉到头都快爆炸的感觉,这么大的数据到底该怎么入手?具体到每一条数据,它都有它自身所承载的数据内容,反应的事物或者现象当然也是各式各样。但是我们从宏观上来看,数据并非是杂乱无章的,它也有他们的共同的特点和规律。

一、大数据的特征

大数据是指大量、高速、复杂、变化不定的数据,需要用先进的方法和技术实现信息的收集、存储、分配、管理和分析。

体量大、类型多和速度快是大数据的显著特征。目前,15%的信息是结构化信息,便于存储在关系型数据库中。电子邮件、视频、呼叫中心对话和社交媒体等非结构化信息占85%,这对于运用常规的业务情报工具来提取有意义的信息造成了挑战。传感器、平板电脑和移动电话等产生信息的设备继续成倍增加。随着全世界的联系更加紧密,社交网络也在加速发展。这些共享信息的选择意味着公众、政府和企业间互动方式的根本转变。

从大数据的特征来看,数据源增加、传感器的分辨率提高,使得大数据的体量大。数据源增加、数据通讯的吞吐量提高、数据生成设备的计算能力提高,使得大数据的速度快。移动设备、社交媒体、视频、聊天、基因组学研究和各种传感器使得大数据的类型多以数据为基础的决策要可追溯,要有理有据,这使得大数据还应具备准确性的特征。

大数据的这些特征将决定政府在大数据业务和整个大数据生态系统中收集、分析、管理、存储及分配数据的方式。

二、大数据的大价值

巨量数据正在成为一种资源,一种生产要素,渗透至各个领域,而拥有大数据能力,即善于聚合信息并有效利用数据,将会带来层出不穷的创新,从某种意义上说它代表着一种生产力,麦肯锡认为,“人们对于海量数据的运用将预示着新一波生产率增长和消费者盈余浪潮的到来”

大数据将带来此起彼伏的IT技术革命。为解决日益增长的海量数据、数据多样性、数据处理时效性等问题,一定会在存储器、数据仓库、系统架构、人工智能、数据挖掘分析以及信息通讯等方面不断涌现突破性技术,当今世界IT巨头、IT敏锐的创新者们正努力耕耘在大数据技术领域,大数据将成为IT的主战场。

大数据将在各行各业引发各类创新模式。随着大数据的发展,行业渐进融合,以前认为不相关的行业通过大数据技术有了相通的渠道,沃尔玛通过数据挖掘将风马牛不相及的“啤酒与尿布”联系在一起,大数据将会产生新的生产模式、商业模式、管理模式,这些新模式对经济社会发展带来深刻影响。

大数据将给人们生活带来翻天覆地的变化。大数据技术进步将极大地惠及人们生活的方方面面,在家有智能管家帮助你美好生活;外出购物,商家会根据你的消费习惯将购物信息通过无线互联网推送给你;外出就餐,车载语音助手会帮你挑选餐厅并告诉你即时的周边情况和停车状况。衣食住行的便利将无处不在。

大数据将提升电子政务和政府社会治理的效率。大数据的包容性将打开政府各部门间、政府与市民间的边界,信息孤岛现象大幅消减,数据共享成为可能,政府各机构协同办公效率和为民办事效率提高,同时大数据将极大地提升政府社会治理能力和公共服务能力。

驾驭大数据,在整个政府和全球经济中创造价值,其影响是广泛而深远的。

政府善政的许多重要原则与大数据有相通之处。从根本上说,大数据能够通过改进政府机构和整个政府的决策,使政府机构更加英明地提高政府工作效率,为利益相关者服务。利用各种渠道的各种数据,快速获得关键、准确的深刻见解,将显著改进政府的各项关键政策和工作。

我们可以从下面的例子看出大数据的价值和大数据的重要性,2012年5月10日,马云卸任CEO,早在卸任前,马云已经为阿里巴巴的未来定下了很清晰的架构,包括将公司拆分成25个事业部,按照平台、数据、金融三大方向调整集团发展方向;而近期阿里巴巴大手笔收购新浪微博、高德地图等举措,也传递出阿里集团正在填补产业和产品空缺,积极布局大数据时代下的新市场。

卸任演讲中,“大数据”同样是焦点。马云说:“这是一个变化的时代——还有人没搞清楚PC(个人电脑),移动互联网来了;还没搞清楚移动互联网,大数据就来了。”

至于马云的接任者陆兆禧,更是无独有偶——原集团首席数据官。

马云曾经说过,现阶段的电子商务只能是“前传”,仅仅释放了电子商务的部分能量;而电子商务的“后传”将全面渗透到各行各业、各个角落、各个业务流程,全面推动行业、企业、经济的转型,更深度地渗透到各个领域。不论是融合还是整合,“数据”既是基础,也是渠道。

事实上,在阿里巴巴集团的发展中,一直都很重视数据的重要性。例如,集团很早就成立了研究中心,不定期地发布各种基于产业数据的报告。在最新一份报告、即5月9日发布的《增长极:从新兴市场国家到互联网经济体——信息经济前景研究报告》中,就基于数据,首次提出了“电子商务经

济体”的概念,详细分析了以淘宝网为代表的中国电子商务经济体给中国经济带来的巨大 变化,并且判断,到2020年,中国电子商务经济体规模预计达到47.8万亿元,接近2012年中国全年GDP总额。与此同时,阿里旗下的淘宝、支付宝、聚划算等平台,也各有自身的数据分析中心。这些数据分析中心一边在出具类似“最受欢迎的夏季服装是什么”、“‘舌尖上的中国’带动哪些产品”等生活类、趣味类数据分析报告;另边也在捕捉市场变化、判断市场走向,并且将结果作为卖家以及上游生产企业的发展和创新依据。

毫无疑问,大数据时代中的阿里巴巴将进一步利用数据的力量,拓展市场。多年前,B2C(企业对个人)还是电子商务市场最为流行的模式,因为它让很多企业有了直接面对消费者的机会;可在那时,阿里巴巴就预测,在B2C之后,就是C2B(个人决定企业)的市场——而这,既是基于分析数据的基础,也是对数据的重新利用。相信未来,阿里巴巴旗下众多平台上的交易数据,将成为一个个全新的产品。

越来越多的中国人习惯了用智能手机搜索附近的美食、查找交通线路,上网选购物品,不停地登录社交网站记录生活的每一个瞬间。也许,他们并不知道自己已经成为“大数据”时代的忠实“粉丝”。

“在信息技术融合应用的新时代,大数据就是像黄金一样的新型经济资产、像石油一样的重要战略资源。”中国科学院院士邬贺铨在不久前召开的“宽带中国与光纤通信”高峰论坛上说,随着移动带宽技术的迅速提升,更多的传感设备、移动终端随时随地地接入网络,产生了大量的数据,并且仍在以惊人的速度迅猛增长。

“在云计算、物联网等技术的带动下,中国已步入‘大数据’时代。”邬贺铨介绍说,过去短短的18个月,中国移动互联网流量增加了10倍,占到全球互联网流量的10%成为名副其实的“世界数据中心”。

利用智能手机、计算机、平板电脑等各种现代通信工具,现代社会人们不停地在向分布在全球各地的服务器发送数据、获取数据。这些服务全依赖于“大数据”的支撑,其背后所涉及的定位、资料检索、存储、数据交换等一系列复杂的数据处理,正在对每一个领域造成深远的影响。

邬贺铨说,我们正在进行一场全新的革命,庞大的数据带来的量化转变将在各领域迅速蔓延,没有哪个领域能够逃脱它的影响。

据有关机构测算,大数据已成为全球IT产业中增长最快的领域。2010年全球大数据以及相关的硬件、软件和服务市场达到30亿美元,2015年将超过170亿美元,平均年增长速度超过50%。作为全球大数据产业的重要组成,中国大数据潜在市场规模未来有望达到2万亿人民币。

身处“大数据”时代,中国正多方位布局“大数据”产业,各地政府、通信公司、科研院所、IT企业等都“摩拳擦掌”,希望能在这个大蛋糕里分到“一杯羹”。

2012年4月,中国移动、中国联通、中国电信三大运营商不约而同地落户西安西咸大数据处理与服务产业园,这是中国首家以大数据业务为中心的高新园区。投资20亿元的中国联通项目已经签订合作备忘录,分三期建设西北大区数据中心、呼叫中心和西咸新区运营中心。

7月,全球知名电子商务品牌阿里巴巴集团在管理层设置了“首席数据官”一职,管理“聚石塔”――一个大型的数据分享平台,它通过共享阿里巴巴旗下的子公司淘宝、天猫、支付宝等的数据

资源来创造价值。同样的平台模式也出现在中国另一家的互联网巨头――腾讯,腾讯正通过建立社区开放平台来实现大量的数据互通,以挖掘更大的商机。

三、大数据的应用现状

(一)大数据已经深耕于经济领域并创造了巨大的经济价值

一是美国的大数据产业已经创造了巨大的价值。医疗。对于医疗服务的提供方和支付方来说,在减少医疗成本的同时不断提高医疗质量和效率仍然是一个难以实现的目标,而这也是改善民生的重大机遇。2010年,全美医疗支出占国内生产总值的17.9%,比2000年增长13.8%。而且,某些慢性疾病如糖尿病的患病率正在增加,正在消耗更多的医疗资源。对这些疾病和其他相关健康服务的管理将深刻地影响国家的福祉。在这方面大数据可以发挥作用。为在广大人群中取得最有效的医疗效果,更多地使用电子健康记录(电子健康档案),并与新的分析工具相结合,将提供挖掘信息的机会。研究人员可以利用信息寻找有效的统计趋势,并依据真实的医疗服务质量开展医疗评估。

交通。通过完善信息和自动驾驶功能,大数据有可能在许多方面彻底改变交通的面貌。开车的人多,交通堵塞就多,其后果是浪费能源,造成全球气候变暖,耗费时间和金钱。手持设备、车辆和道路上的分布式传感器则可以提供实时交通信息。这些信息,再加上更好的自动驾驶功能,可以使驾驶更安全,交通堵塞更少。智能汽车日益互联的新型交通生态系统有可能彻底改变道路使用方式。

教育。大数据可以对美国教育及其在全球经济中的竞争力产生深远影响。例如,通过深入地跟踪和分析学生的在线学习活动——精细至每个鼠标点击动作,研究人员能够确定学生的学习方式和提高学习的方法。这种分析可以针对成千上万的学生进行,而不是孤立的小型研究。课程和教学方法,无论是在线的,还是传统的,都可以根据大规模分析所收集到的信息进行修订。

征税。由于迅速发现异常的能力日益增加,政府税务部门可以缩小“税收缺口”,即纳税人应付税款与其自愿缴税额之间的差额,并且对于那些试图进行不当纳税申报的人,会深刻地改变他们的行为方式。大多数税务机构实行“自愿缴税与追讨欠税并举”的模式。在这种模式下,它们接受纳税人的纳税申报单并办理退税,并对一部分纳税申报单进行抽查,以找出有意或无意欠税的情况。大数据则能够提高欺诈检测的水平,在纳税申报之初就揭露违规情况,减少问题退税的发放。资料表明,在医疗领域每年产生3000亿美元的潜在价值;在公共管理部门,每年产生2500亿美元的潜在价值;在个人位置数据领域,每年产生1000亿美元的市场;在零售业能够增加60%的营业额;在制造业部门,能够降低50%的产品开发及装配成本。二是大数据在欧洲公共管理部门得到深入应用。大数据在OECD组织中的欧洲国家公共管理部门创造了1500到3000亿欧元或更高的潜在经济价值,这些经济价值主要通过政府公共管理机构开支的减少、转移支付的下降及税收的增加来实现。三是全球大数据人才需求将上升并且出现供需缺口。Gartner咨询公司预测,到2015年,大数据人才需求达到440万人,人才需求缺口将达到三分之一。

(二)欧美等发达国家把数据资产上升到国家信息战略高度

一是美国已经布局大数据产业。2012年3月,美国奥巴马政府宣布投资2亿美元启动“大数据研究和发展计划”,这是继1993年美国宣布“信息高速公路”计划后的又一次重大科技发展部署。美国政府认为大数据是“未来的新石油与矿产”,将“大数据研究”上升为国家意志,对未来的科技与经

济发展必将带来深远影响。二是欧盟及日韩将会紧随其后。继美国率先开启大数据国家战略先河之后,欧盟、日本及韩国等国家也将跟进,预计不久相应的战略举措也将出台。数据规模及运用数据的能力将成为综合国力的重要组成部分,对数据的占有和控制也将成为国家间争夺的焦点。

(三)我国大数据产业应用现状

在全球经济、技术一体化的今天,我国IT行业已经开启了大数据的起航之旅,大数据已经在经济领域发挥重要作用。据计世咨讯预测,2012年,政府、互联网、电信、金融等领域市场规模占据近一半的市场份额。大数据在主要经济领域的应用现状如下。

1、大数据在经济预警方面发挥重要作用

在2008年金融危机中,阿里平台的海量交易记录预测了经济指数的下滑。2008年初,阿里巴巴平台上整个买家询盘数急剧下滑,预示了经济危机的来临。数以万计的中小制造商及时获得阿里巴巴的预警,为预防危机做好了准备。

2、大数据分析成为市场营销的重要手段

与传统的市场研究方法不同,大数据的市场研究方法不再局限于抽样调查,而是基于几乎全样本空间。例如,百度拥有中国最大的消费者行为数据库,覆盖95%的中国网民,搜索市场占比达87%。百度基于最真实的用户行为数据和多维度研究工具,帮助宝洁精准的定位了消费者的地域分布、兴趣爱好等信息,根据百度分析的结论,宝洁适时地调整了营销策略。

3、大数据在临床诊断、远程监控、药品研发等领域发挥重要作用

我国目前已经有十余座城市开展了数字医疗。病历、影像、远程医疗等都会产生大量的数据并形成电子病历及健康档案。基于这些海量数据,医院能够精准地分析病人的体征、治疗费用和疗效数据,可避免过度及副作用较为明显的治疗,此外还可以利用这些数据进行实现计算机远程监护,对慢性病进行管理等。

4、大数据为金融领域的客户管理、营销管理及风险管理提供重要支撑

大数据能够解决金融领域海量数据的存储、查询优化及声音、影像等非结构化数据的处理。金融系统可以通过大数据分析平台,导入客户社交网络、电子商务、终端媒体产生的数据,从而构建客户视图。依托大数据平台可以进行客户行为跟踪、分析,进而获取用户的消费习惯、风险收益偏好等。针对用户这些特性,银行等金融部门能够实施风险及营销管理。

当前,我国正处在全面建成小康社会征程中,工业化、信息化、城镇化、农业现代化任务很重,建设下一代信息基础设施,发展现代信息技术产业体系,健全信息安全保障体系,推进信息网络技术广泛运用,是实现四化同步发展的保证。大数据分析对我们深刻领会世情和国情,把握规律,实现科学发展,做出科学决策具有重要意义。

中国人口居世界首位,将会成为产生数据量最多的国家,但我们对数据保存不够重视,对存储数据的利用率也不高。此外,我国一些部门和机构拥有大量数据却不愿与其他部门共享,导致信息不完整或重复投资。政府应通过体制机制改革打破数据割据与封锁,应注重公开信息,应重视数据挖掘。美国联邦政府建立统一数据开放门户网站,为社会提供信息服务并鼓励挖掘与利用。例如,提供各地天气与航班延误的关系,推动航空公司提升正点率。

四、当下我国大数据建设应在以下四个方面着力

一是建立一套运行机制。大数据建设是一项有序的、动态的、可持续发展的系统工程,必须建立良好的运行机制,以促进建设过程中各个环节的正规有序,实现统合,搞好顶层设计。

二是规范一套建设标准。没有标准就没有系统。应建立面向不同主题、覆盖各个领域、不断动态更新的大数据建设标准,为实现各级各类信息系统的网络互连、信息互通、资源共享奠定基础。

三是搭建一个共享平台。数据只有不断流动和充分共享,才有生命力。应在各专用数据库建设的基础上,通过数据集成,实现各级各类指挥信息系统的数据交换和数据共享。

四是培养一支专业队伍。大数据建设的每个环节都需要依靠专业人员完成,因此,必须培养和造就一支懂指挥、懂技术、懂管理的大数据建设专业队伍。

作者简介:

姓 名:胡毅

工作单位:山西省夏县统计局 职 称:助理统计师 身份证号:***010 通讯地址:山西省夏县东风西街14号夏县统计局 邮 编:044400 联系电话:*** 电子邮件地址:huyi63@126.com

个人简历:2005.09——2009.07 运城学院

2009.07——2011.07 运城市公安局

大数据在智慧城市的10大应用 篇5

大数据是智慧城市各个领域都能够实现“智慧化”的关键性支撑技术,智慧城市的建设离不开大数据。建设智慧城市,是城市发展的新范式和新战略。大数据将遍布智慧城市的方方面面,从政府决策与服务,到人们衣食住行的生活方式,再到城市的产业布局和规划,直到城市的运营和管理方式,都将在大数据支撑下走向“智慧化”,大数据成为智慧城市的智慧引擎。

欧盟利用大数据实现智慧城市的做法给我们很多启示。

欧盟对智慧城市的评价分为六个方面:智慧经济、智慧治理、智慧生活、智慧人民、智慧环境、智慧移动性。也就是说智慧城市要促进经济的发展,要改进和帮助更多大众的参与,让老百姓享受智慧的生活,人民得到更好的服务,居住环境更加优化。智慧城市的应用很广泛,我们都知道有物流、交通、电网、工业、农业、建筑、环境、医疗等方面。现在我要讲的是,智慧城市本身会催生大数据,我们可以看到一个企业会涉及到很多环境,管理环境,开放环境,知识环境、服务环境,过去这些环境的关联度不够,那么现在通过数据库使得这些环境能够联合起来,使得企业的效率提高40%-60%,根据赛门铁克的一份最新调研报告,今天全世界所有企业的信息存储总量已达2.2ZB,企业平均10PB,大企业更大点,小企业小点。一般企业都会建立数据库,必须进行数据的集资和数据的挖掘,企业的数据在企业内部已经占有很重要的位置。

(1)智慧经济

首先大数据在商业上怎么能很好运用,它会分析用户的购物行为,什么商品搭配在一起会卖得更好,还有很多公司通过分析找到最佳客户,淘宝数据魔方则是淘宝平台上的大数据应用方案。那么商家可以了解淘宝平台上的行业宏观情况、自己品牌的市场状况、消费者行为情况等,并可以据此作出经营决策。

美国有个投资公司分析了全球3.4亿微博账户留言,判断民众情绪,人们高兴的时候会买股票,而焦虑的时候会抛售股票,依此决定公司股票的买入或卖出,该公司今年第一季度获得7%的收益率。

阿里公司根据在淘宝网上中小企业的交易状况筛选出财务健康和诚信的企业,从而无需担保来放贷,目前已放贷300多亿元,坏帐率仅0.3%,大大低于商业银行。

企业通过信息收集很好的掌握企业的运营状况,分析居民与财务有关的记录包括贷款申请、租赁、房地产、购买零售商品、纳税申报、水电费缴付、有线电视缴费、电话缴费、报纸与杂志订阅、机动车档案等,能够得出消费者的个人信用评分,从而推断客户支付意向与支付能力,发现潜在的欺诈。

IBM日本公司建立了一个经济指标预测系统,从互联网新闻中搜索影响制造业的480项经济数据,计算出采购经理人指数PMI预测值。

印第安纳大学学者利用Google提供的心情分析工具,对270万用户在2008年3~12月所张贴的970万条留言,挖掘出用户happiness、kindness、alertness、sureness、vitality 和calmness等六种心情,进而对道琼斯工业指数的变化进行预测,准确率达到87%。

利用大数据分析可实现对合理库存量的管理,华尔街对冲基金依据购物网站顾客评论分析企业产品销售状况,华尔街银行根据求职网站岗位数量推断就业率。

(2)智慧治理

美国纽约的警察分析交通拥堵与犯罪发生地点的关系,有效改进治安。美国纽约的交通部门从交通违规和事故的统计数据中发现规律,改进了道路设计。

利用短信、微博、微信和搜索引擎可以收集热点事件与舆情挖掘。

电信运营商拥有大量的手机数据,通过对手机数据的挖掘,不针对个人而是着眼于群体行为,可从中分析:实时动态的流动人口的来源及分布情况;出行和实时交通客流信息及拥塞情况。利用手机用户身份和位置的检测可了解突发性事件的聚集情况。

MIT的Reality Mining项目,通过对10万多人手机的通话、短信和空间位置等信息进行处理,提取人们行为的时空规则性和重复性,进行流行病预警和犯罪预测。

(3)环境监测

对城市的河流进行采样,通过卫星发布,收集产量的数据,这个数据非常大,通过这个数据分析能够判别城市中有没有污染。

(4)智慧医疗

无论是药品的研发还是商业模式的开发运用数据分析都能够得到很好的分析,我们医院里有大量的病例,这里有大量的数据,传统的普通病例很难挖掘数据,现在变成电子化有利于更高数据挖掘,数据的挖掘有利于发现医疗知识,由于医疗资源的分配不均,因此远程医疗十分必要,另外,居家监护很重要,谷歌公司与美国疾病控制和预防中心等机构合作,依据网民搜索内容分析全球范围内流感等病疫传播状况,谷歌的判断与疾控中心的判断是一致的。

社交网络为许多慢性病患者提供了临床症状交流和诊治经验分享平台,医院借此可获得足够多的临床效果统计。个性化的医疗同样很重要,我们发现,同样的治疗对一些病人无效,75%癌症病人,70%的老年痴呆者、50%的关节炎病人、43%的糖尿病患者、40%的哮喘病患者,38%的抑郁症病人。因为人体对药品代谢方式的差异取决于个体特定的基因、酶和蛋白质组合,因此基因信息对选择最优治疗非常关键。对人体个性体质的挖掘会做到真正意义上的对症下药,一个人的基因信息大概1GB。

(5)智能搜索

除此之外,我们还通过网络进行学习,早期的网络学习是通过网站专业人员编制的内容,如今我们希望能够实现更加智能的搜索。随着移动互联网的出现,搜索引擎会变成基于语音的智能搜索;基于位置的搜索;基于个性化搜索。

(6)舆情监测

大众传播发展的很快,这里包含着大量的数据,例如微博传播具有裂变性、主动性、即时性、便捷性、交互性、草根性,跟进性和临场感,每一个微博用户既是“服务器”,也是“受众”。中国的微博比社交网络更热,因为140个字符的微博在英文和中为分别约等于25个和85个英语单词,即中文微博的信息量是Twitter的3~4倍。最近两个月在YouTube上上载的视频超过了ABC、NBC和 CBS 电视台自1948年以来24/7/365 连续播出的内容,而“云平台+多屏融合”模式已成为智能家居和智能车载等的发展方向。

(7)精准营销

美国信用营销分析专家张川告诉《环球时报》记者,在大数据分析的应用上,美国政府和大公司领先新兴国家至少20年。15年前,美国的信用卡公司就可以进行数据挖掘实现精准营销:在合适的时间,通过合适渠道,把合适的营销信息投送给每个顾客。

(8)犯罪预警

随着智能电话和电脑网络的普及,美国政府和大公司把自己的触角伸到个人生活的每个方面。美国个人的一切在线行为数据都被收集储存,再加上已被有关机构掌握的个人信用数据、犯罪记录和人口统计等数据,有关公司和政府机构可以运用数据挖掘的办法,监控和预测个人的行为,并做出相关决策。

(9)全球安全监测

如美国已具备对全球网络空间的监视控制能力。斯诺登披露的“棱镜”计划,缘于美国政府的“星风”监视计划。2004年,布什政府通过司法程序,将“星风”监视计划分拆成由国家安全局执行的4个监视计划,除“棱镜”外,还包括“主干道”、“码头”和“核子”。其中,“棱镜”用于监视互联网个人信息。“核子”则主要负责截获电话通话者对话内容及关键词。“主干道”和“码头”分别对通信和互联网上数以亿兆计的“元数据”进行存储和分析。“元数据”主要指通话或通信的时间、地点、使用设备、参与者等,不包括电话或邮件等的内容。

(10)市场价格监测

肯尼思·丘基尔是《经济学家》杂志数据编辑、《大数据:一次将改变我们生活、工作和思考方式的革命》一书的合著者之一,他日前在美国《外交政策》杂志掀起一场有关“大数据时代令隐私保护问题更加突出”的讨论。丘基尔举例说,警方如果要侦破一个城市的加油站是否存在合谋操控价格的“卡特尔行为”,以往要靠线人举报。但今天,可以做大数据分析——分析该市油价变化和加油站分布情况。通过分析,可以发现正常的价格变化规律,如果价格变化持续异常,就可以怀疑存在价格垄断的行为。丘基尔认为,大数据的价值在于存储后的再使用。不过,关键的一个问题是,收集、保存一切信息,与隐私保护政策是有冲突的,“保存一切信息是必要的,但是在这么做之前,我们有必要问自己一个问题,即现行的隐私保护政策是不是妨碍了我们正在迈入的大数据世界”。丘基尔提到,社会有必要就此进行大辩论,以便为大数据时代的隐私保护划定新的边界。

结束语

美国IT咨询公司Avanade商业情报部副总裁斯蒂夫·帕尔默告诉《环球时报》记者,大数据是指非常“膨胀”的数据集,用典型的数据分析软件和工具难以对其进行捕捉、储存、管理、分享、分析和可视化。大数据有3个特征:一是数据的数量大;二是产生或被吸收的速度和频率快;三是数据的多样性。为从大数据中“挖出金矿”,一家企业或机构必须能够应对大数据上述3个特征。帕尔默说,大数据给人类带来的真正机遇是把许多信息碎片拼起来,为我们的决策服务。

附:全球顶尖大数据公司一览

企业名称:IBM

网址:http:///

2011年5月,IBM正式推出InfoSphere大数据分析平台。InfoSphere大数据分析平台包括 BigInsights和Streams,二者互补,Biglnsights基于Hadoop,对大规模的静态数据进行分析,它提供多节点的分布式计算,可以随时增加节点,提升数据处理能力。Streams采用内存计算方式分析实时数据。InfoSphere大数据分析平台还集成了数据仓库、数据库、数据集成、业务流程管理等组件。

企业名称:亚马逊

网址:http:///

对于云计算和大数据,亚马逊绝对具有先见之明,早在2009年就推出了亚马逊弹性MapReduce(Amazon Elastic MapReduce),亚马逊对Hadoop的需求和应用可谓了若指掌,无论是中小型企业还是大型组织。弹性MapReduce是一项能够迅速扩展的Web服务,运行在亚马逊弹性计算云(Amazon EC2)和亚马逊简单存储服务(Amazon S3)上。这可是货真价实的云:面对数据密集型任务,比如互联网索引、数据挖掘、日志文件分析、机器学习、金融分析、科学模拟和生物信息学研究,用户需要多大容量,立即就能配置到多大容量。

除了数据处理外,用户还可以使用Karmasphere Analyst的基于服务的版本,Karmasphere Analyst是一种可视化工作区,用于在亚马逊弹性MapReduce上分析数据。用户还可以提取结果文件,以便在数据库或者微软Excel或Tableau等工具中使用。

企业名称:甲骨文

网址:http:///

甲骨文在近期发布的Oracle大数据机(Oracle Big Data Appliance)为许多企业提供了一种处理海量非结构化数据的方法。在2011年10月初召开的Oracle OpenWorld 2011大会上甲骨文正式推出了Oracle大数据机。对于那些正在寻求以更高效的方法来采集、组织和分析海量非结构化数据的企业而言,该产品具有很大的吸引力。

与甲骨文近期推出的其他一体化产品一样,Oracle大数据机集成了硬件、存储和软件,包括Apache Hadoop软件的开源代码分发、新的甲骨文NoSQL数据库和用于统计分析的R语言开源代码分发。该产品被设计为能够与甲骨文Database 11g、Oracle Exadata数据库云服务器,以及针对商业智能应用的新的Oracle Exalytics商业智能云服务器一起协同工作。

企业名称:谷歌

网址:http:///

谷歌一直是科技行业的领军者,近年来几乎在任何一项互联网科技项目你都能看到谷歌的身影,大数据时代谷歌自然不会错过。何况如果对其拥有的海量数据进行深入挖掘,这对于提升谷歌搜索乃至所有谷歌服务的价值无可估量。

BigQuery是Google推出的一项Web服务,用来在云端处理大数据。该服务让开发者可以使用Google的架构来运行SQL语句对超级大的数据库进行操作。BigQuery允许用户上传他们的超大量数据并通过其直接进行交互式分析,从而不必投资建立自己的数据中心。Google曾表示BigQuery引擎可 以快速扫描高达70TB未经压缩处理的数据,并且可马上得到分析结果。大数据在云端模型具备很多优势,BigQuery服务无需组织提供或建立数据仓库。而BigQuery在安全性和数据备份服务也相当完善。

去年底该服务只向一小部分开发者开放,现在任何人都可以注册这项服务。免费帐号可以让你每月访问高达100GB的数据,你也可以付费使用额外查询和存储空间。

企业名称:微软

网址:http:///

微软研究部门从2006年起就一直致力于某种非常类似于Hadoop的项目,被称为“Dryad”。今年年初,该计划通过与SQL Server和Windows Azure云的集成实现了Dryad的产品化。虽然现在微软还没有更新,但看上去Dryad似乎将成为在SQL Server平台上影响大数据爱好者的有力竞争者。

微软进入这一市场可谓“姗姗来迟”,而且在一定程度上说,数据仓库分析和内存分析计算市场落下了后腿。2011年初微软发布的SQL Server R2 Parallel Data Warehouse(PDW,并行数据仓库),PDW使用了大规模并行处理来支持高扩展性,它可以帮助客户扩展部署数百TB级别数据的分析解决方案。微软目前已经开始提供Hadoop Connector for SQL Server Parallel Data Warehouse和Hadoop Connector for SQL Server社区技术预览版本的连接器。该连接器是双向的,你可以在Hadoop和微软数据库服务器之间向前或者向后迁移数据。

微软在去年推出了基于Azure云平台的测试版Hadoop服务,今年它承诺会推出与Windows兼容的基于Hadoop的大数据解决方案(Big Data Solution),这是微软SQL Server 2012版本(首发日期还不知道)的一部分,现在也不清楚微软是否会与其他硬件合作伙伴或者相关大数据设备厂商合作。

企业名称:EMC

网址:http:///

EMC于1979年成立于美国麻州Hopkinton市,1989年开始进入企业数据储存市场。EMC公司是全球信息存储及管理产品、服务和解决方案方面的领先公司。EMC是每一种主要计算平台的信息存储标准,而且,世界上最重要信息中的 2/3 以上都是通过EMC的解决方案管理的。

面对大数据时代,EMC公司推出用于支持大数据分析的下一代平台――EMC Greenplum统一分析平台(UAP)。Greenplum UAP是一个唯一的统一数据分析平台,可扩展至其他工具,其独特之处在于,它将对大数据的认知和分享贯穿整个分析过程,实现比以往更高的商业价值。

企业名称:Teradata

网址:http:///

Teradata公司(Teradata Corporation,纽约证券交易所交易代码TDC)是全球领先的数据仓库,大数据分析和整合营销管理解决方案供应商,专注于数据库软件,数据仓库专用平台及企业分析方案。不久前宣布推出一款集硬件、软件和服务于一体的全面产品组合——Teradata分析生态系统(Teradata Analytical Ecosystem),使不同的 Teradata 系统实现无缝协作,为企业客户提供分析和更深入的洞察力,帮助其预测商业机会和加速实现商业价值。Teradata Unity 将确保整个Teradata Analytical Ecosystem的同步和统一。为了增强在大数据分析领域的优势,Teradata还收购Aster Data公司,以增强其非传统数据分析的能力,突破了SQL分析的限制,协助企业从全部数据中获取更多价值。

企业名称:NetApp

网址:http://

Network Appliance,Inc.(NetApp,美国网域存储技术有限公司)是IT存储业界的佼佼者,自1992年创业以来,不断以创新的理念和领先的技术引领存储行业的发展。Network Appliance, Inc.(NetApp)是向目前的数据密集型企业提供统一存储解决方案的居世界最前列的公司。

NetApp StorageGRID 是一个久经验证的对象存储软件解决方案,设计用于管理 PB 级、全球分布的存储库,这些存储库包含企业和服务提供商的图像、视频和记录。通过消除数据块和文件中数据容器的典型约束,NetApp StorageGRID 提供了强大的可扩展性。它支持单个全局命名空间内的数十亿个文件或对象和 PB 级容量。

NetApp StorageGRID 实现了智能的数据管理和安全的内容保留。它通过一个具有内置安全性的全局策略引擎来优化数据存放、元数据管理和效率,该引擎管理数据的存储、放置、保护和检索的方式。此外,使用数字指纹和加密等技术防止内容受到篡改。

NetApp StorageGRID 有助于随时随地提供数据,以便于不间断地运营。该解决方案被设计为允许灵活进行部署配置,以满足全球的多站点组织的不同需要。

企业名称:Sybase

网址:

Sybase公司成立于1984年11月,总部设在美国加州的Emeryville(现为美国加州的Dublin市)。作为全球最大的独立软件厂商之一,Sybase公司致力于帮助企业等各种机构进行应用、内容及数据的管理和发布。

Sybase IQ是Sybase公司推出的特别为数据仓库设计的关系型数据库。相比于传统的“行式存储”的关系型数据库,Sybase IQ 使用了独特的列式存储方式,在进行分析查询时,仅需读取查询所需的列,其垂直分区策略不仅能够支持大量的用户、大规模数据,还可以提交对商业信息的高速访问,其速度可达到传统的关系型数据库的百倍甚至千倍。“随着 Sybase IQ 不断地在分析应用 POC 测试中拔得头筹,有时甚至超过其他对手 100 倍之多”,Gartner 评价道,“ Sybase IQ 逐渐成为从数据集市到企业数据仓库架构最令人渴望的 DBMS(数据库管理系统)。”

自 2009 年推出以来,Sybase 陆续发布了 Sybase IQ 15.1、15.2、15.3 以至最新的 Sybase IQ 15.4 版本,每个版本都着力于增加新的核心能力以促进更深入的高级分析。Sybase IQ 15.4是面向大数据的高级分析平台,将大数据转变成可指挥每个人都行动的情报信息,从而在整个企业的用户和业务流程范围内轻松具备大数据的分析能力。

因此,有人说Sybase IQ15.4正在彻底改变“大数据分析”。

企业名称:惠普

网址:

大数据时代来临,老牌巨头惠普也不甘落后。不久前惠普企业服务事业部宣布推出全新服务,帮助客户更快部署惠普子公司Vertica的Vertica Analytics Platform,从而迅速洞悉关键的业务信息,辅助决策过程。

Vertica Analytics Platform 让用户能够大规模实时分析物理、虚拟和云环境中的结构化、半结构化和非结构化数据,从而深入洞悉“大数据”。

Advanced Information Services for Vertica 帮助客户最大化实现 Vertica 分析平台性能,并构建企业分析专用环境。惠普提供从评估到实施的一系列服务,与客户共同定义多种交付方式组合,并找出匹配其现有基础设施的最佳解决方案。

Advanced Information Services for Vertica已在全球上市,将为实现“瞬捷”企业构建灵活的智能环境。

企业名称:沃尔玛

网址:http:///

在这里看到沃尔玛的身影,可能很多人会有疑问,全球最大的传统零售业巨头沃尔玛怎么就跟大数据扯上关系了?看了下面的介绍你就会明白了。

沃尔玛是最早通过利用大数据而受益的企业之一,曾经拥有世界上最大的数据仓库系统。通过对消费者的购物行为等非结构化数据进行分析,沃尔玛成为最了解顾客购物习惯的零售商,并创造了“啤酒与尿布”的经典商业案例。早在2007年,沃尔玛就已建立了一个超大的数据中心,其存储能力高达4Pb以上。《经济学人》在2010年的一篇报道中指出,沃尔玛的数据量已经是美国国会图书馆的167倍。

沃尔玛实验室计划将沃尔玛的10个不同的网站整合成一个,同时将一个10个节点的Hadoop集群扩展到250个节点的Hadoop集群。目前实验室正在设计几个能将当前像Oracle、Neteeza这样的开放资源的数据库进行迁移、整合的工具。

沃尔玛曾进行了一些列的收购,包括Kosmix(沃尔玛实验室前身)、Small Society、Set Direction、OneRiot、Social Calenda、Grabble等多家中小型创业公司,这些创业公司要么精于数据挖掘和各种算法,要么在移动社交领域有其专长,从此我们就可以看出沃尔玛进军移动互联网和挖掘大数据的决心。相信在沃尔玛的带领下,传统行业也会慢慢意识到大数据的重要性,加速步入大数据时代。

企业名称:Clustrix

网址:

Clustrix创立于2005年,是Y Combinator 2006年冬季班的成员。Clustrix可以为SQL数据库提供专利数据应用方法,帮助人们处理大量的数据,使SQL数据库无限扩容成为可能。最近Clustrix从Sequoia Capital、USVP和 ATA Ventures三家风险投资公司处再次获得价值675万美元的风险投资,至今已获融资1200万美元。Clustrix总部设在美国旧金山,研发中心设在西雅图。为打开欧洲市场,公司计划将总部迁至荷兰的阿姆斯特丹,并将于年底前在印度设立办公室。

企业名称:Cloudera

网址:http:///

Cloudera是一家专业从事基于Apache Hadoop的数据管理软件销售和服务的公司,总部位于加州帕洛阿尔托,2009年3月发布了第一款商业产品,当时获得由AccelPartners领投的500万美元投资。该公司于2010年6月正式推出Cloudera企业产品。2011年11月募集到4000万美元风险投资资金,此轮融资由风险投资机构Ignition Partners的合伙人弗兰克·阿泰勒(Frank Artale)领投。Cloudera之前的投资者顶尖风投机构Accel Partners、Greylock Partners、Meritech Capital Partners 和In-Q-Tel也参与本轮投资。

大数据在物流方面应用 篇6

学院:经济管理学院 专业:市场营销123班 学号:2012016314 姓名:李燕

“大数据时代来了!”两年,从业内到业外,这句口号见诸网媒、报端的频率与日剧增。直至今天,从政府高管到行业巨头,从商界大鳄到微企老板,关于数据创业,他们中有没有直接参与已然不是那么重要了,重要的是现在谁都不敢不重视大数据。更值得期待的是已有先驱驮负大数据颠覆行业规则的构想,开始试水国内物流行业。

“物流业是一个产生大量数据的行业,在货物流转、车辆追踪等过程中都会产生海量的数据,这么多资源如果不用就浪费了。”申通信息技术部总监邱成在接受本报记者采访时说。目前,业内对大数据并没有统一的定义。不同厂商、不同用户,站的角度不同,对大数据的理解也不一样。麦肯锡报告中对大数据的基本定义是:大数据是指其大小超出了典型数据库软件的采集、储存、管理和分析等能力的数据集合。毋庸置疑的是,大数据的价值在于从海量的数据中发现新的知识,创造新的价值。越来越多的企业也意识到了大数据的价值,对数据分析与挖掘的需求与日俱增。

“物流业之所以做大数据,主要是因为:第一,快递走入民生的势头越来越猛,对每一个节点的信息化需求也越来越多,这就需要通过大数据把信息化对接起来。第二,从企业自身角度来讲,信息化对企业管理者的重要性也越来越突出。第三,提高对数据的加工能力,通过‘加工’实现数据的‘增值’。”邱成说。

长期以来,备受指责的行业中总少不了物流业,其对仓储运输车空间的利用不科学、安全性差、燃油效率低下、周转时间随路径而浮动等,这些是导致中国物流业占GDP总量约18%远高于欧美发达国家的最主要原因。

整个物流业尤其电商领域已经几近爆发式成长,若应用大数据分析技术,仓储运输的空间将被系统化布置,物流车行程路径也将被“最短化”、“最畅化”定制。两年前,把一吨蔬菜从广州运到北京比从北京运到美国洛杉矶物流成本都高,今天,当大数据时代到来的时候,物流行业规则能否因其改变,只能拭目以待。因为大数据试水物流行业,“游戏”才刚刚开始。

“现在我们在做淘宝、商业客户的一些数据采集,在构成基础数据网络之后,再做第三方的增值应用。”邱成说。在前不久召开的“京交会”上,申通快递展示了其最新的“信息化智能平台”。该平台通过对数据的归纳、分类和整合,可以清楚地查看申通网络任何一个网点的经营现状和业务构成等。

在百世汇通,通过技术人员运用科技手段进行分析、提炼,大数据正在为企业战略规划、运营管理和日常运作提供重要支持和指导。据百世物流科技(中国)有限公司副总裁张砚冰介绍,百世汇通尝试运用大数据来管理、分析、判断加盟网点的运营行为,通过网点在系统内的足迹建立数据分析模型,成功地预测了几次网点的异动,使工作方式由被动式变为主动式、前置式,减少了大量客户投诉,把问题消灭在萌芽阶段。

不仅仅是物流业,电商企业也越来越关注大数据。早在今年年初,京东商城就已启动云计算研发基地,并成立“京东商城——中国人民大学”电子商务实验室,着力电子商务大数据的分析与合作;在“京交会”上,阿里巴巴集团与中国邮政集团、“四通一达”等十家快递公司合作,核心内容仍以打通物流数据为基础,重点将转向“数据整合与分析”。

“淘宝做大数据是以订单为核心,快递企业做大数据是以快递为核心。以申通为例,我们的客户不只是淘宝,还有很多商业客户。而且不少商业客户都有与快递企业在IT方面合作的想法,未来我们也希望能挖掘更多的数据价值,通过大数据给商业客户提供信息化服务。”邱成说。

物流行业树大根深,大数据在此行业内的应用也是非常广泛的。物流中除去淘宝商城、京东商城、苏宁易购等企业产生的包裹、快递等小部件中短距离之间物品流通的小物流;还有与之相对应的重量大、体积大、长距离运输的物品流通,如港口货物运输、大货车集装箱运输等的大物流。

在亟待改进的物流行业,大物流领域利用大数据分析应用技术其实质就是利用地理信息、位置服务、物联网在物流行业里做信息系统化,将现有的粗放、零散、低效、高耗的物流企业数据资源加以整合,建设成可以依据空间地理信息来统一协调监管的现代化物流。逐步利用大数据驱动信息化物流建设,在信息化的现代物流模式下,大物流领域的任何物流车船归属企业的名称、物流车队的整体油耗、车船的位置信息、车船的行程轨迹、车船的运行周期等这类空间地理数据通过系统智能化处理。

大物流领域成功应用大数据,无非是让物流车队效率提高、流程精简。物流车队本身的管理、设备等条件优化改善了,才有望使得中国物流运输成本降低。理想的前景是联合一个大型物流车队,为其免费装载上一台设备,这种设备搜集的车队车辆所有空间地理位置信息都即时反馈到监视后台。怎样获取这些大数据也就是物流车队提高管理效率的关键所在。然而,在刘俊伟来,这种期望的信息智能化的现代物流模式可能需要3-5年时间方可成熟。怎样获取这些大数据是一个问题,这需在资金投入、研发团队打造方面的决心和魄力。

“随着市场的发展,在未来,快递企业会不断加大在大数据方面的投入。”邱成表示。大数据的核心是发现和预测,利用其这个特点,可以提升快递行业的整体服务水平。此外,对于快递业做大数据的未来发展趋势,也有业内人士指出,快递员获取的数据已不只是企业内部信息,还包括大量的外部信息。大数据则让厂商能够有的放矢,甚至可以做到为每一个客户量身定制符合个体需求的产品和服务,从而颠覆整个商业模式。

尽管企业已熟知大数据所带来的价值和优势,但由于数据规模和种类的增加,处理速度的加快,以及易受攻击的特点,随之而产生的成本和复杂性给企业的IT资源和基础设施带来了更大的压力。如何在降低成本的同时提高IT效率,成为快递企业不得不面对的一大难题。

在邱成看来,投资、技术手段等并不是最大的难点。“快递企业做大数据面临的最大难题在于:一是基础数据的采集。因为到现在为止,不少快递企业的操作及信息传输并不是很规范,这给基础数据的采集带来了不小的困难。二是未来大数据的应用方向。比如我们现在有一些淘宝数据,首先要想好怎么用。”邱成说。

此外,也有业内人士建议,在大数据时代,企业要想用数据制胜,就必须尽早建立数据资产管理策略。只有拥有战略性视野和专业技术,才能更好地获得商业洞察力,才能将数据资产转换成战略资产和竞争力。

网络大数据研究及应用 篇7

关键词:大数据,网络大数据,大数据感知,存储管理,大数据挖掘

0 引言

近年来,互联网技术、物联网技术、云计算的迅猛发展,加上人、机、物在网络空间的高度融合,引发了数据的爆炸式增长,给许多行业带来了新的挑战和机遇,人类已经进入大数据时代。大数据正在改变着人们的生活工作方式,改变着企业的运行模式,并正在引起科学研究方式的变革。

大数据指无法在可容忍的时间内使用常规工具和软硬件环境对其进行感知、获取、管理、处理和服务的数据集合[1]。网络大数据指人、机、物三元世界在网络空间中相互交互融合产生的可以通过互联网获取的大数据[2]。与传统的数据规模相比,大数据特别是网络大数据具有3V特征:①大量化(Volume):网络空间中数据的规模不断扩大,计数单位从GB、TB到PB,甚至已经增长到EB和ZB,具有空前的规模性。IDC的研究报告称,未来十年,大数据数量还将增加50倍,而管理数据存储的服务器数量将增加10倍以便满足大数据50倍的增长;②多样化(Variety):网络大数据类型繁多,包括结构化数据、非结构化数据和半结构化数据。非结构化数据在互联网世界中呈现大幅增长的趋势,目前,非结构化数据占互联网数据总量的比例已达75%以上;③快速化(Velocity):数据产生速度快,要求极高的处理能力。Facebook每天有超过1 000万张照片上传,YouTube平均1秒就有一个时间长度1小时以上的视频在上传。数据是快速动态演化的,具有很强的时效性,因此处理效率就是企业的生命,只有在有效时间内对数据流进行处理,才能很好地利用这些数据。

1 网络大数据研究意义

当前全球已经全面进入信息时代,互联网、物联网、云计算以及网络空间中层出不穷的各种应用,使网络数据以前所未有的速度激增,数据类型越来越复杂,对网络数据的深度挖掘和利用可以帮人们很好地感知现在、预测未来。对网络大数据研究的意义主要体现在以下3个方面:

(1)大数据资源是一个国家继海、陆、空、天之后另一个博弈的空间,是数字主权的象征。一个国家在数据资源方面的落后,意味着其在产业战略制高点的失守,意味着国家安全在网络空间可能会出现漏洞,大数据直接影响着国家安全、社会稳定。2012年3月,美国政府制定了《大数据研究和发展计划》,投资2亿美元用于改进和提高从海量数据中获取知识的能力,这是美国继1993年制定“信息高速公路”计划后又一重大科技战略部署。同年5月,英国建立了世界上第一个大数据研究所。西方国家正在通过国家顶层推动对大数据的研究,加强对大数据的研究及应用对提高国家竞争力具有战略意义。

(2)网络大数据的研究利用已经成为产业升级和新产业产生的重要推动力。通过挖掘网络大数据,从中发现其蕴含的信息、知识甚至智慧。网络大数据已不仅仅是产业所产生的副产品,而是联系产业生产各环节的关键。2011年“双十一”,淘宝网站当天的销售总额达到191亿元人民币,淘宝之所以能够创造如此巨大交易量的商业神话,得益于其对用户消费习惯、浏览习惯和搜索习惯等大数据的分析挖掘。网络大数据正在成为信息产业持续高速增长的新引擎,成为提高企业竞争力的新动力。

(3)大数据引起科学界重新审视科学研究方法论,引发了一种新的科学研究模式。科学研究最初是实验科学,后来出现理论科学,研究各种定理定律。但是在许多问题上,理论研究方法太复杂而难以解决问题。而大数据的出现使科研人员可以直接从数据中挖掘所需的信息、知识和智慧,而无需直接接触需要研究的对象。2007年,已故图灵奖得主吉姆格雷将数据密集型科学从计算科学中分离出来,描绘了数据密集型科学研究的“第四范式”[3],他认为要解决某些全球最棘手的挑战,第四范式可能是具有系统性的唯一方法。PB级数据使人们没有假设和模型,就可以通过分析挖掘发现过去科学方法发现不了的新知识和新规律。

2 网络大数据应用

网络大数据特别是来自社交网络的数据蕴含着丰富的信息,是对真实社会的网络映射。分析挖掘网络大数据发现其蕴含的线索和规律,可以帮助人们更好地感知现在,并预测未来事物发展趋势。一个很好的例子是2009年H1N1流感病毒传播的预测。美国卫生部官员使用传统跟踪方式跟不上流感的传播,但是谷歌工程师们使用网络搜索主题成功预测了流感传播区域,这为卫生系统提供了相当有价值的实时数据。

通过分析海量网络大数据可以帮助人们作出更好的决策。奥巴马的竞选团队通过对网络大数据的挖掘成功帮助奥巴马在竞选总统中获得连任。奥巴马团队在竞选前两年,通过收集、存储海量数据,利用数字化策略寻找和锁定倾向自己的选民,并拉拢中立派选民,这帮助奥巴马在某些地区获得更多的选票,数据分析团队在奥巴马竞选中发挥了至关重要的作用。华尔街一家证券公司通过分析3.4亿微博用户的留言,判断民众的情绪,根据人们高兴时买股票,焦虑时抛售股票的规律,决定买卖股票的时机,从而为公司取得了巨大利润。

3 网络大数据面临的挑战

3.1 网络大数据感知与表示

一方面,根据网络空间中数据隐藏的深度,可以将数据分为表层数据和深层数据[4]。表层数据是指可以通过传统网页爬虫直接爬取的数据,而深层数据由网页在线访问的数据库组成,只有通过提交页面的查询接口才能获取。与表层数据相比,深层数据蕴含的信息更丰富,同时更具规模化、实时动态化和异构化等特点,传统方法无法对深层数据进行采样。为了有效利用网络数据,针对异构、实时动态数据,需要研究有效的方法通过数据获取、数据抽取、数据整合3个环节将数据转化为结构统一的高质量数据。

另一方面,网络大数据的建模和表达还面临着许多新挑战,传统方法不一定能直接表达大数据本身的意义。在大数据表示方面,需要解决数据稀疏性所带来的问题,对快速动态演化的大数据进行建模,需要对图片和多媒体数据进行建模和表示等。研究简单有效的数据表示方法是处理网络大数据的首要难题。

3.2 网络大数据存储与管理

网络大数据的规模已经从TB级增长到PB级、EB级,网络大数据的存储管理不仅影响其分析处理效率,也影响其存储成本。因此,如何提高存储效率降低存储成本成为有效利用网络大数据面临的又一个难题。针对网络大数据的存储,谷歌公司提出了分布式数据处理技术,但是其仍然存在局限性,面临着数据总量规模超大、处理速度要求高、数据类型繁多等多个难题。需要研究优化分布式数据存储结构,以提高网络大数据的存储效率、节约成本,从而实现高效、高可用的数据存储系统。

3.3 网络大数据挖掘和社会计算

利用计算技术分析挖掘网络大数据,发现其蕴含的知识,是实现网络大数据深层价值和实现行为可计算的主要途径。随着社会媒体的涌现,用户规模和数据复杂性都呈现出指数式增长,传统的数据挖掘方法在性能和效率上已经无法满足需求。目前,网络大数据挖掘的主要研究热点是基于内容信息的数据挖掘和基于结构信息的社会计算方法。

4 结语

互联网、物联网、云计算的快速发展以及层出不穷的网络应用,引发了网络数据规模的爆炸式增长,从而产生了网络大数据。网络大数据的研究主要是通过分析挖掘历史数据,发现新的模式,再结合源源不断的流数据,感知现在,并预测未来。网络大数据的研究是经济发展和国家安全的战略需要,网络大数据的涌现为人们提供了前所未有的机遇,但也对人们提出了重大挑战。网络大数据的研究尚处于初级阶段,还有很多问题亟待解决。

参考文献

[1]李国杰,程学旗.大数据研究:未来科技及经济社会发展的重要战略领域[J].中国科学院院刊,2012,27(6):647-657.

[2]王元卓,靳小龙,程学旗.网络大数据:现状与挑战[J].计算机学报,2013,36(6):1-15.

[3]ANTHONY J G HEY.The fourth paradigm:data-intensive scientific discovery[J].Proceedings of the IEEE,2011,99(9):1344-1377.

大数据算法及临床应用 篇8

网络时代,传统文学作品评价机制引争议

文学评价和艺术鉴赏一样,从来都是主观感受和作品客观价值的综合体现,两者缺一不可。正所谓“有一千个读者就有一千个哈姆雷特”。对文学作品的评价一直都没有所谓统一的、客观的方法和标准。所以,目前文学奖项的评选都依旧采用的是专家审读和投票机制来确定最后的获奖作品,其权威性依赖于评审专家的专业性,而投票的方式平抑了专家个人喜好带来的主观性。我们国家在文学评价的价值导向上,一直尊重人民群众的喜好和评价,但传统的文学出版和评价模式对读者的意见反馈没有办法很好地收集和分析。一定程度上,可以说,在文学作品的评价上,不能充分体现读者群体的主观评价。

实践中,因为评价机制问题,在相关文学作品评奖中,也引发了大量争议。例如,2011年8月,第八届茅盾文学奖获奖结果公布后,票数最高的450万字长篇小说《你在高原》引发了最大的争议。在新浪微博随后启动的“在五部获奖作品中,你最喜欢哪一部”投票活动中,截至发稿(距离投票结束尚有一周时间)时,有560多人参与投票,原本在茅奖评奖委员会获奖最低的刘震云的《一句顶一万句》以360多票遥遥领先。2014年8月,第六届鲁迅文学奖同样惹来一片争议,作家阿来的报告文学《瞻对》意外遇冷,甚至以0张选票落选;周啸天作品获得了诗歌奖,却被网友炮轰其水准只是“打油诗”,等等。

大数据时代网络文学评价迎来全面变化

随着互联网普及、网络文学繁荣,及大数据时代到来,前文提到传统文学的评价方式,正在迎来变化。全球知名咨询机构MGI(麦肯锡全球研究院)在名为《大数据:下一个竞争、创新和生产力前沿领域》的研究报告中提出:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”大数据时代的到来,将会为网络文学内容评价带来哪些思路的变化,及相应的方法上的更新?笔者认为可归纳为如下几点:

1.读者评价的权重增加

原来以单向传播为主,读者反馈手段匮乏,加之响应不及时,总体上互动很少,而互联网时代,读者可通过评论直接将意见和建议反馈给作者,使得读者反馈手段更为高效和直接,同时由于社区及社交效果,交互更为直接和多样化。

2.读者特征画像更全面

读者的特征与喜好,之前界定方式粗放,随着大数据时代的来临,用户的文化消费行为记录越来越多,比如会记录读者的有效阅读时间、阅读轨迹、阅读习惯,有利于抽象、分析、总结用户的兴趣和喜好,反过来指导网络文学的创作,繁荣网络文学市场发展。

3.全流程数据的整合为各方提供支撑

随着网络文学各环节数据的收集、分析更为精细,产业链各方都将从中受益。传统的选材和出版过程也会发生相应的变化,更容易把握时代和读者需求,识别受欢迎作品也更为高效。

多维度、多指标、多权重组合进行评价

虽然对文学内容的本身评价存在着一定的困难,但网络环境和数据时代还是给评价提供了一些可能。好的内容是网络文学的核心竞争力,网络文学的体征之一是网络在线连载发表,如果内容足够吸引人,则可以得到更多的关注和点击量等,这些外围的、可量化的指标,可从一个侧面或不同角度反应出文学内容的优劣。

1.主要维度

在多维度方面,可考虑使用以下几个主要维度来建立评价模型:

(1)用户维度:从消费能力、年龄、知识背景、地域、性别、职业等来细致地刻画用户属性。比如“我是歌手”节目,将观众群体进行年龄分类,使得评价更为客观和全面;

(2)内容维度:从作品题材、体裁、风格、年代、目标群体及分级情况等来区分和描述不同的作品,区别对待不同的作品;

(3)舆情维度:从是否主旋律、热点及敏感信息等相关维度来细化;

(4)运营维度:从消费情况、渠道、消费方式等来细化运营类相关维度。

简言之,多维度模型是为了使各个评价指标和模型更为细致和准确,也可更为灵活地应用在不同的应用场景下。

2.主要指标

在指标体系建设上,可从以下几个大方面来建立评价模型:

畅销程度指标:如点击量、下载量、订阅量、搜索量等具体指标来准确量化作品的影响力;

文学价值指标:借鉴传统文学评价方法,比如作品语法规范程度、词汇丰富程度、读者打分等方式来综合反映作品的文学价值;

专业评价指标:比如书评人、媒体评价、编辑推荐等各个指标来量化专业人士的评价。

概言之,多个细化指标是为了更为准确地量化评价,从而能准确给出相对客观的评价。

对网络文学尝试进行相关应用研究

从对网络文学内容多维度的评价中,我们可挖掘出一定时期内,不同用户(如读者、作者、平台运营商、出版机构、监管方等)所关注的焦点是什么,通过数据整合和评价分析,可为各方带来哪些服务和应用。下面笔者尝试列举几种可为不同的用户进行服务的应用研究,供业者参考。

为读者带来高质量的推荐:通过对作品的分析和多维度评价,更利于与读者兴趣进行匹配,进而提升推荐内容的转化率;

为作者创作提供指导建议:通过内容评价可看出作者创作作品的目标读者群体的关注点、喜好等,从而有的放矢地进行内容创作;

为平台运营商提供运营支持:根据多维度模型可灵活生成榜单,提升推荐的丰富程度;通过对作品更为细致的评价,便于进行广告匹配,从而提高广告的点击率;根据作者和其作品的影响力及号召力,进行鼓励或奖励机制的稿酬核算等;

为出版机构提供精准选题策划:现阶段,出版物内容的策划多是凭借策划编辑的经验和对热点事件的敏感度来进行的,通过对网络文学内容评价分析可获取各个领域,不同人群的兴趣点从而对目标人群做到精准选题策划;根据评价结果可提高网络文学作品进行纸质出版的成功率;

为监管方提供舆论倾向分析:可提供不同类型、题材的作品,在不同渠道、不同地域、不同人群中的关注度。

综上所述,多维度、多指标、多权重的组合可以建立较为全面的网络文学量化评价基础模型,不同的应用场景可根据具体需求和侧重来调整相应的权重,或者规则,并形成特定的评价模型,为不同环节的用户提供支撑。本文更多的是来阐述一种网络文学内容评价的思路,其中借鉴和参考了目前互联网行业数据分析及数据建设的方法。本文涉及的各个指标和维度的建设,在技术上都已具备了可实施性,其中部分指标,笔者在文章形成阶段进行了具体的统计和分析。总之,大数据时代已然到来,如何利用大数据技术使其为网络文学内容评价服务,并将评价结果应用到各个环节,是我们需要认真思考的议题。

(作者单位系中国新闻出版研究院)

上一篇:书法兴趣小组活计划下一篇:感谢挫折优秀小学作文