大数据与生活论文(推荐8篇)
--读《大数据时代》有感
施佳驰
不知从什么时候开始,“大数据”这个词悄然成为了我们的常用词汇;我们也不知从什么时候开始,迈进了“大数据时代”.那么,大数据时代究竟是一个怎样的时代?英国“大数据时代的预言家”维克托迈尔·舍恩伯格和肯尼思 库克耶的《大数据时代》对此有着详细而深刻的洞见。
一、什么是大数据?
根据《大数据时代》中所说,“大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的。大数据是人们获得新的认知、创造新的价值的源泉,大数据还为改变市场、组织机构以及政府与公民关系服务。”、“大数据即一种新型的能力:以一种前所未有的方式,通过对海量 数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。” 大数据有两层含义,第一层含义,大数据是一个总结性的概念,是对海量数据的总称;第二层含义即书本中所指出的,是一种新型的能力与方式。区别于小规模数据时代的抽样分析,大数据时代,分析的样本不再需要经过抽样,直接将全体数据进行更快更准确地分析。
二、大数据的核心是什么?
大数据的核心应当是减少冗余,提高资源配置效率。根据收集到的数据分析、挖掘出庞大数据库独有的价值,以便进行干预或提供相应的资源与服务。自古以来,人类社会的发展便是资源配置不断优化的过程,大数据作为一种新型的生产工具,它能让我们通过分析海量的数据,得知该如何更有效地分配稀缺的资源。
如医院通过对某个病人病史、生活习惯、衣食住行、工作娱乐情况等进行全方位分析,便可以准确了解病人的生活情况与生活环境,精确地指出症结引起原因所在,只要建议病人针对引起病源的因素做出调整或进行医学干预,便可以了,避免了对病人过多的用药与过大范围的盲目干预。
同样的道理,如果银行通过分析某一申请人的家庭情况、消费历史、生活习惯、财务习惯、网页浏览记录等各方面的数据,便可以清晰了解此申请人各方面的情况,甚至可推测其内心的真实想法与将要采取的做法,从而判断申请人的贷款申请资格,决定该不该授信,授信多少等内容,所有的信息在大数据时代,能在系统中搜索一下,几分钟便能全部收集完成。相比以前,()申请人申请后,银行得派出两名客户经理上门进行访问、调查、收集电信、征信等多方面的信息,再进行人工分析、鉴别等过程,耗费的时间多不说,风险也相对更高。
可见,大数据的运用不但提高了工作效率,节省了机构与申请人的时间,更能基于精确的信息,确保风险可控,且保证了授信给该申请人的正确性,将有限的资金用在刀刃上,提高资源配置质量。
三、什么是大数据思维?
书中指出,大数据思维是一种意识,认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。大数据与三个重大的思维转变有关:首先,要分析与某事物相关的所有数据,而不再依靠分析少量的样本;其次,乐于接受数据的纷繁复杂,而不再追求精确度;最后,我们的思维不再探求难以捉摸的因果关系,转而关注事物的相关关系。
大数据思维应当是一种意识,认识到大数据的无穷威力,并积极拥抱这个繁荣的时代;世界上的一切都是信息,都是可以量化分析的信息。如果将相关的信息进行交互分析,便能获得“上帝的视觉”——窥视知道分析对象的一切,包括所思所想;获得的信息可以通过类比,准确推测分析对象的想法以及未来行为;根据推测出来的内容进行干预或服务,从而获得商业机会;在一切均有记忆、一切均能收集、能更加准确预测未来的时代,我们或许受困于过去的行为;在这个时代,对隐私权、公平与正义的探讨上升至一个新的语境。
四、新的时代,我们该怎么办?
老子说,无为而治。因此,我们还是该吃饭就吃饭,该逛街就逛街,想吃甜点便吃甜点,过自己的生活,努力自己的工作。大数据是一种意识,更是一种工具,所有的工具最终都是为了让我们生活得更加方便、更加如意,而作为最高智慧生物的我们,要做的,便是习学如何通过这新的工具,改造世界,创造生活。
第一章更多不是随机样本,而是全体数据
大数据开启了新的时代转型,它带来了许多转变。事实上它与三个重大思维转变有关:第一,要总体、不要抽样。第二,要混杂性、不要死扣精确性。第三,要相关性而不是因果性。本章介绍的是第一个转变———利用所有的数据,而不再仅仅依靠一小部分数据。
在过去很长一段时间内,我们都无法准确分析大量的数据。那是因为我们收集、存储和分析数据的工具不够好,所以我们试图减少数据量,采用抽样来分析数据。作者认为这实际上已经成为了一种人为的限制。如今技术有了极大的提高,我们已经可以较为廉价地处理过去看来是天方夜谭般庞大的数据。但在某些方面我们仍没有意识到这种进步,假定自己仍旧只能收集少量信息,这成为了一种习惯。
为了更好地了解采用全体数据带来的转变,我们需要和样本分析进行对比。书中举了人口普查的例子。在过去,由于人口普查极为复杂而且费时费力,政府极少进行普查。美国宪法规定每十年进行一次普查。随着人口的迅速增长,数据变化的速度甚至超过了人口普查局统计分析的能力。1880年的人口普查,耗时8年才完成数据汇总。而当时预计,1890年的人口普查将耗费13年。也就是说,在他们还没有完成1890年人口普查的数据汇总时就要开始1900年的人口普查了,这无疑是荒谬的。最终,美国发明家赫尔曼·霍尔瑞斯的穿孔卡片制表机解决了这一难题,在一年之内就完成了数据汇总的工作。这标志着自动处理数据的开端。这种穿孔卡片制表机事实上就是一种大数据的采集方式,它让每一个美国人都填写一张表格,其缺陷在于昂贵的价格。
统计学家们证明,采样分析的精确性随着样本的随机性增加而大幅度提升,却与样本数量的关系不大。作者认为,随机采样确实有着成本低的优势,这也是它取得巨大成功的依据,甚至让它成为了现代社会、现代测量领域的主心骨,但事实上这只是一条捷径。这是人们在难以处理大量数据的前提下做出的选择,它本身是存在着许多固有缺陷的。比如它的成功依赖的是采样的绝对随机性,但在现实情况中这样的绝对随机性是十分困难的。
作者为了证实自己的观点,举了一个以固定电话用户为基础进行投票民调的案例。作者认为它的采样缺乏随机性,出现了偏见———它没有考虑到只使用移动电话的用户,而这些用户往往更年轻、更热爱自由。这导致了最终的民意测试结果出现了三个点的偏差。在票数差距微弱的大选中,这已经是十分大的偏差了。
作者还认为,随机采样不适合考察子类别的情况。一旦对样本进行继续细分,随机采样结果的错误率就会大大增加。就像一份民调本身已经存在3%左右的误差,那么如果对这份调查继续细分,误差将会越来越大。所以作者认为,随机采样的方法并不适合更深层次的细分领域的研究。
随机采样调查的结果缺乏延展性。你没有办法从它的结果中重新分析出计划之外的目的。作者举了一个案例。从2007年开始,23andme公司就开始分析人类的基因,价格仅为几百美元。它对某人的一小部分DNA进行排序,标注出几十个特定的基因缺陷。通过这样的样本,能够更快也更容易地发现问题,但却不能回答事先没考虑到的问题,这正是作者所提到的随机采样缺乏延展性的问题。而乔布斯花了几十万美元对自身所有的DNA和肿瘤DNA进行排序,并非只是样本。虽然这并没有拯救他的性命,但还是把他的生命延长了好几年。
在过去那个信息处理能力受限的时代,没有很好的可以用来分析所收集的数据的工具,所以产生了随机采样。这只是一种无奈之下做出的选择,是一种捷径。而现如今我们拥有了更强大的处理和收集能力,以及更好的工具,可以轻易地对大量的数据进行分析,也就可以分析全体的数据,而不再仅仅是样本。作者认为,数据处理技术已经有了巨大进步,只是我们仍处于过去的习惯中,方法和思维没有跟上这种改变。
采样有一个我们广泛承认的缺陷,那就是忽略了细节的考察。事实上,生活中真正有趣的事情经常藏匿在细节之中。随着收集的数据越来越多,预测结果就会越来越准确,这与采样分析依靠样本的绝对随机性是不同的。
书中举了一个案例来证明采集所有数据来分析的重要性。Xoom是从事跨境汇款业务的公司。2011年时它发现用“发现卡”从新泽西州汇款的交易量比正常情况多一些,于是系统启动报警。单独来看每一笔交易都是合法的,但事实上这是一个犯罪集团在试图诈骗,而发现的唯一办法就是重新检查所有的数据,找出样本分析法错过的信息。
作者强调,大数据并不是简单意味着大量的数据,比如人体完整基因组有约30亿个碱基对,但这只是数据节点的绝对数量而并不代表它就是大数据。大数据是指不用随机分析法这样的捷径,而采用所有数据的方法。
在日本的“相扑”运动中非法操纵比赛结果被发现的案例恰到好处地说明了全数据模式的重要性。一位经济学家使用了11年中超过64000场摔跤比赛的记录。通过分析后发现,非法操纵比赛结果的现象的确存在,是在那些大家不会十分关注的比赛上,因为这往往没什么风险。相扑比赛有一个较为特殊的地方,那就是选手要在15场比赛中的大部分场次中胜利才能保持排名和收入。所以当一位7胜7负的选手遇上一位8胜6负的选手时,胜利对后者就不那么重要了,而结果也往往是前者取得胜利,这就像是一个礼物。事实上在两人的下次碰面中往往是后者取胜,就像是付出总有回报。这样的情况如果采用随机采样分析法是无法发现的,而大数据却能轻而易举地发现。大数据分析法不止关注一个随机的样本,而“大”取的也是相对意义而不是绝对意义,是相对所有数据来说的。
拥有了全部或者几乎全部的数据,我们就能够从不同的角度更细致地观察和研究数据的方方面面。Lytro相机就是一个很好的例子。它的出现是具有革新性的,因为它将大数据运用到了基本的摄影当中。与传统相机只能记录一束光不同,Lytro相机可以记录光场中所有的光,达到1100万束之多。用户不需要一开始就聚焦,想生成什么样的照片可以在拍摄之后再进行决定。这些照片相对于传统相机拍出来的照片就更加具有“可循环利用性”。
作者并没有彻底否认采样分析法。在有些时候我们还是可以使用它,毕竟我们仍然活在一个资源有限的时代,但利用掌握的所有数据成为了最好也是最可行的选择。
大数据的观念同样对学术研究产生了巨大的影响。社会科学是被“样本=总体”撼动得最厉害的学科。随着大数据分析取代样本分析,我们再也不依赖抽样调查了,我们可以收集过去无法收集到的信息,无论是通过电话,还是通过Twitter。
在艾伯特-拉斯洛·巴拉巴西和他的同事研究人与人之间互动的案例中,他们调查了四个月内的所有移动通信记录,这些记录是匿名的,是由一个为全美五分之一人口提供服务的无线运营商提供的。这是第一次在全社会层面用接近于“样本=总体”的数据资料进行网络分析。通过分析他们发现了一个有趣的事实。在一个社区关系网中,如果将一个在关系网内有许多连接关系的人去掉,这个关系网会变得不那么高效但不会解体;但如果剔除一个在关系网外有众多好友的人那么这个关系网很快就会破碎成很多小块。这个结果十分重要而且让人出乎意料。作者认为,这说明一般来说无论是针对一个小团体还是整个社会,多样性是有额外价值的,这促使我们重新审视一个人在社会关系网中的存在价值。
第二章更杂不是精确性,而是混杂性
本章阐述的是作者提出的大数据带来的三个思维转变中的第二个,即不是精确性,而是混杂性。
在越来越多的情况下,使用所有可获取的数据变得更为可能,但为此也要付出一定的代价。数据量的大幅增加会造成结果的不准确。但作者认为,允许不精确的出现会让我们掌握到更多的数据,更加庞大的数据使得放弃精确性变得更加划算。执迷于精确性是信息缺乏时代和模拟时代的产物。只有5%的数据是结构化且能适用于传统数据库的。如果不接受混乱,剩下95%的非结构化数据都无法被利用。
作者认为,对“小数据”而言,最重要的就是减少错误,所以需要确保记录下来的数据是足够精确的。因为收集信息的有限意味着细微的错误会被放大,甚至有可能影响整个结果的准确性。
在过去的很多时候,人们都会把通过测量世界来征服世界视为最大的成就,而对精确度的高要求始于13世纪中期的欧洲。很多著名的物理学家同样认同测量的精确度十分重要这一观点。开尔文男爵就曾说过:“测量就是认知。”但作者认为,对精确度的高要求并不适用于大数据时代。他举了一个关于法国开发的能准确计量时间、空间单位系统的案例。
19世纪时,科技率先发展起来的法国开发了一套能准确计量时间、空间单位的系统,并逐渐成为其他国家普遍采用的标准,还为后来国际公认的测量条约奠定了基础,成为测量时代的巅峰。但是仅仅半个世纪之后,在20世纪20年代,量子力学的发现永远粉碎了“测量臻于至善”的幻梦。
作者认为,在不断涌现的新情况中,允许不精确的出现已经成为了一个新的亮点,而非缺点。因为放松了容错的标准,人们掌握的数据也多了起来。但在掌握更多的数据的同时,由于忽略了精确性,我们需要与各种各样的混乱作斗争。
混乱可以指随着数据的增加,错误率也会随之增加。比如桥梁的压力数据量增加到1000倍,其中的部分读数可能就是错误的。而随着读数量的增加,错误率也会继续增加。在处理来源不同的多种信息时,同样会加大混乱程度。
混乱还可以指格式的不一致性。比如同样是IBM三个字母,既可以指代一个公司,也可以是某几个英文单词的缩写。
作者认为,虽然这样的混乱在小数据量的情况下会带来极大的不便,但随着数据量的增加,这样的混乱所带来的负面影响是可以逐渐消除的。为此他举了一个测量葡萄园温度的案例。
在这个案例中,作者进行了一个对比。假设整个葡萄园只有一个温度测量仪,那么就必须确保它的正常工作。但假如每100棵树就有一个温度测量仪,即使中间有一部分不能正常工作,得到了不精确的数据,但众多数据合在一起就会得到更加精确的结果。它不仅能够抵消掉错误数据造成的影响,还能提供更多额外价值。
所以作者提出,在很多情况下,与致力于避免错误相比,对错误的包容会带来更多好处。为了了解大致的发展趋势,对精确性做出一些让步是可以的。
在这一章中,作者还引用了一个十分重要的观点———大数据的简单算法比小数据的复杂算法更有效。作者同样举了案例来佐证他的观点。
1954年,IBM以计算机中的250个词语和六条语法规则为基础,将60个俄语词组翻译成了英语,结果振奋人心。这个程序的指挥官相信,在三、五年之后,机器翻译将会变得很成熟。然而1966年时他们发现翻译远比想象的更困难。毕竟翻译不仅仅是记忆和复述,还涉及选词。20世纪80年代后期,IBM的研发人员提出了一个新的想法,试图让计算机自己估算一个词或一个词组适合于用来翻译另一种语言中的一个词或词组的可能性,然后再决定对等的词和词组。20世纪90年代,IBM这个名为Candide的项目花了大概十年时间将加拿大议会资料翻译成英语和法语并出版,这让这个方法看起来很有效,但这次飞跃后尽管投入了很多资金,取得的成就却不大。而在2006年,谷歌开始涉足机器翻译,它利用一个更大更杂的数据库,也就是互联网。尽管输入源很复杂,但是庞大的数据量弥补了这一缺陷,谷歌的翻译效果反而是相对而言最好的。
作者认为谷歌的成功不在于有多么先进的算法系统,而在于它接受了错误的数据,拥有上万亿的语料库。彼得·诺维格在自己的《数据的非理性效果》一文中写到:“大数据基础上的简单算法比小数据基础上的复杂算法更加有效”。而作者无疑十分赞同这一观点,他们认为,混杂是关键。
作者认为随着大数据时代的来临,我们要重新审视精确性的优劣。在过去那个信息贫乏的时代,任何一个数据点都十分重要,所以才需要保证精确性。而在大数据背景下,这样的精确性就显得不那么重要了。错误并不是大数据所固有的特性,而是我们亟需解决的问题,并且有可能长期存在。不过在短期内,大数据带来的利益,让我们可以接受不精确的存在。
在麻省理工与通货紧缩预测软件案例中,作者为我们揭示了接受混杂性和大数据所带来的巨大利益。美国劳工统计局人员每个月都要公布消费物价指数(CPI)。为了得到这些数据,他们会雇佣很多人向全美90个城市的商店、办公室打电话甚至登门拜访,政府每年为此的开销是两亿五千万美元。这些数据精确且有序,却有一定滞后性。2008年经济危机表明这个滞后是致命的。而麻省理工学院的两位经济学家提出了大数据方案,接受更混乱的数据,在互联网上收集信息。它在雷曼兄弟破产后马上发现了通货紧缩趋势,而依靠官方数据的人等到11月份才得知这一信息。
作者认为,混杂性不是我们要竭力避免的,而是一种标准的途径。比如在Flickr网站的照片案例中,标签没有标准、没有预先设定的排序和分类,互联网上的资源反而能够更容易被找到。同时也能够带来以前所没有的功能,比如通过合并标签来过滤搜索的图片。
为了进一步阐述容忍不精确的必要性,作者举出了一些贴近生活的事实。比如在互联网当中,在Facebook“喜欢”按钮下显示的人数,当较少时,会显示“63”这样的精确值,而当数量较多时,就只会显示近似值。这并不代表系统不知道精确值,只是数量规模变大时,确切数量已经不那么重要了。
书中还提到,不精确甚至已经深入了数据库设计当中。这同样带来了巨大的变革。传统的数据库索引是预先设定好了的,存在许许多多的限制。而现如今我们拥有各种各样的数据,这样的数据存储和分析方式就越来越与现实冲突,所以出现了新的非关系型数据库设计。作者引用了帕特·赫兰德的一个结论“我们再也不能假装活在一个齐整的世界里”。他认为,处理海量数据不可避免会有损耗性,但是更高的效率会弥补这一缺点。大的数据库往往分散在多个硬盘,当其中一个发生改变时,就需要同步更新。而当数据库广泛地分布在多台服务器上时,这就变得不那么现实。所以作者认为,多样性是一个解决方案。
Hadoop与VISA的13分钟这个案例,就能够很好地代表这个转变。Hadoop与传统的数据分析不同的是,它假定了数据量的巨大使得数据无法移动,所以人们必须在本地进行数据分析。它的输出结果不如关系型数据库精确,但对于不要求极端精确的任务就比其他系统快得多。VISA使用Hadoop能够将处理两年内730亿订单的时间,从一个月缩减为13分钟。所以当允许少量错误时它就非常实用。
作者还举了Zest Finance公司的案例来佐证“宽容错误会给我们带来更多价值”这一观点。作者又接着对这一观点进行了深入的调查和研究,发现社会已经将两个折中的想法不知不觉地渗入了我们的处事方法中。
第一个折中是,我们默认自己不能使用更多的数据,所以我们就不会去使用更多的数据。这个折中在第一章中进行过深入的分析,作者认为,通过“样本=总体”这样的方式来处理数据,我们将从中获得极大的好处。
第二个折中体现在数据的质量上,也就是对精确度的要求。在小数据时代我们需要精确度,因为样本数量很少,任何一个数据的不精确都会造成较大的影响。如今对一些事情这仍然试用,但对于其他的一些事情,快速获得大概的轮廓和发展脉络,就要比严格的精确性要重要得多。
作者认为,虽然牺牲了数据的精确性,但是大数据凭借着数据的完整性和混杂性,能够帮助我们进一步接近事实的真相。当我们局限于某个部分时,即使对这个部分有着再精确的掌握,也依然会错过事物的全貌,丧失从各个不同的角度观察事物的权利。
第三章更好不是因果关系,而是相关关系
作者认为,在大数据所带来的三个思想转变当中,影响最大、最具有颠覆性的,就是要相关关系而不是因果关系。简单来说就是知道是什么就可以了,不需要知道为什么。这与我们传统的“打破砂锅问到底”的精神背道相驰。
为了支撑这个观点,作者对林登与亚马逊推荐系统案例进行了分析。这个系统简单来说就是根据客户个人以前的购书喜好,为其推荐具体的书籍。亚马逊从每一个客户身上捕获了大量的数据,由于数据量实在庞大,亚马逊必须先用传统的方法对其进行处理,也就是通过样本分析找到客户之间的相似性,但这费时费力且效果不好。林登发现,其实系统没必要比较客户与客户,只需要找到产品之间的关联性。这使得估算可以提前进行,推荐系统也就十分迅速。这种关联性无法找到其因果性,但数据告诉你,它们的确相关,而且能够带来巨大的价值和利益。作者认为,知道是什么已经足够了,它可以带来你所需要的一切,而知道为什么就显得不那么重要。
作者认为大数据的核心是预测,预测的关键就在于关联物。相关关系通过识别有用的关联物来帮助我们分析一个现象,而不是通过揭示其内部的运作机制。关于这种通过相关关系的预测,作者举了一个沃尔玛的飓风与蛋挞的案例。
在这个案例当中,沃尔玛通过对销售情况大量数据的分析,发现每当季节性飓风来临之前,蛋挞的销量都会增加。这二者之间存在很强的相关性,却很难解释为什么。但这样的发现促使沃尔玛改进销售策略,使蛋挞的销量得到了增加。
书中提到,在大数据时代到来之前,相关关系就已经证明大有用途。但由于收集数据的困难,专家们往往通过找到一个关联物来进一步收集与之相关的数据,从而评价关联物的优劣。他们往往通过一些抽象的论点来寻找关联物。但作者认为,一旦出现些许偏见,就会使我们在过程中出现失误。这样的偏见往往基于我们生活中所谓的常识,难以回避。而在大数据时代,由于我们已经拥有了强大的机器计算能力,所以我们不再需要人工选择关联物,也就避免了由于偏见带来的误差。作者由此进一步提出,建立在相关关系分析法上的预测是大数据的核心。
在FICO的案例当中,对预测这一大数据的核心有很好的体现。美国个人消费信用评估公司发现,通过分析一系列的变量,甚至可以发现一个人是否按时吃药。这是一种相关关系,而且看似毫不相关,但的的确确证实了预测的可能性。类似的案例还有很多,比如中英人寿保险公司想利用信用报告和顾客市场分析数据作为部分申请人血液和尿液的关联物,这些分析结果用来找出更有可能患高血压、糖尿病和抑郁症的人。
作者在对这些生活中寻找关联物的大数据分析法研究过后,继续进行了通过找出新种类数据之间的相互联系,来解决日常需要的大数据分析方式。作者对机器出故障的过程进行了研究,发现在出故障的过程中,机器会发出不同的信号。通过分析这些信号就能够判断机器是否即将出故障。就此,作者进一步提出,通过找出一个关联物并监控它,我们就能够预测未来。同时作者也指出,这样的分析无法告诉你故障的原因,它是通过寻找相关性得出的结论。
作者发现,在小数据时代,无论是相关关系分析还是因果关系分析都不容易,需要先设定假设,而这个假设就很容易受偏见的影响。现在,由于计算机能力的提升,我们可以直接对大量数据进行相关关系分析,甚至能够发现数据的“非线性关系”。所谓“非线性关系”,作者举了幸福的非线性关系这个案例。在案例中谈到,对收入水平1万美金以下的人来说,收入越高越幸福,而对1万美金以上的人来说,这样的关系就不那么明显了。
通过对人类思维模式的研究作者发现,在遇到一个问题时,我们的直接愿望就是了解因果关系。即使没有因果关系存在,我们也还是会假定它的存在。作者引用了心理学专家丹尔卡尼曼的一个观点———人有两种思维模式,第一种不费力的思维模式,通过这种思维模式几秒钟就能得出结果;另一种是比较费力的慢性思维,对于特定问题,就是需要考虑到位。书中写到,快速思维模式让人们偏向于用因果关系看待事物,而通常这样的因果关系都是不存在的。这样的思维模式也可以称之为“直觉”。
在小数据时代,很难证明这样的直觉是错误的。但现在通过大数据的相关关系分析,将经常用来证明直觉的因果关系是错误的。与此同时作者认为,第二种思维模式也会因为大数据的相关关系而迎来巨大改变。相关关系证明相对而言更可行,可以通过数学方法、统计学方法。相关关系的分析也可以为因果关系的证明奠定基础。作者的观点是,相关关系很有用,不仅仅是因为它能为我们提供新的视角,而且提供的视角都很清晰。
作者提出,相关关系的分析不仅比快速的因果关系分析更有说服力,甚至比经过长期思考的慢速因果分析更有用和有效。在橙色的汽车质量更好这一案例当中,一家公司通过研究发现,橙色的汽车有质量问题的可能性只有其他车的一半。即使经过了慢性的思维分析,也很难找出其中的道理。
当我们不满足于相关关系时,就可以借助相关关系来研究因果关系。作者提出,因果关系只是一种特殊的相关关系。为了说明数据正在以新的方式帮助我们解决现实生活中的难题,作者举了曼哈顿沙井盖的案例。曼哈顿有大约51000个沙井盖和服务器。每年因沙井盖内部失火,纽约有很多起沙井盖爆炸事故,而检修也只是碰运气。1880年以来的数据虽然都保存着,但都很杂乱,负责这个项目的统计学家辛西亚·鲁丁和她的同事必须使用所有样本。如果要找出因果关系可能需要一个世纪,还不一定找得对。她决定研究相关关系。预测爆炸的效果非常好。最终,最重要的因素是这些电缆的使用年限和有没有出现过问题,通过与爱迪生电力公司的合作迅速为事故发生的可能性进行排序。
在过去,人们了解世界都是首先通过一系列的假想和猜测,这些通常来自自然理论或社会科学。而书中写到,2008年时克里斯·安德森提出了大胆的设想,那就是“理论已死”。他认为,数据爆炸使得科学的研究方法都落伍了。作者并不完全同意这个说法,但对他的大胆设想在一定程度上表示肯定。作者认为,大数据虽然不会叫嚣数据己死,但它毫无疑问会从根本上改变我们理解世界的方式。作者明确了自己的观点,即大数据是在理论的基础上形成的。
第二部分大数据时代的商业变革
第四章数据化一切皆可“量化”
当今的信息技术变革重点在“T”(技术)上面,而作者认为是时候把重心转移到“T”也就是信息本身了。在这一章当中,作者主要表达了将一切都数据化的观点。他认为,世间万物都是可以被量化的,一切都可以是被分析的数据。这将带来极大的变革。而数据化的价值,目前主要体现在商业领域。
在本章的开端作者用了大量的篇幅叙述“莫里的导航图”这个案例,该案例是大数据的最早实践之一。莫里发现当时的航海路线常常是在水上绕弯而不走直线,船长们认为在大海上走熟悉的路线要比走陌生的直线更安全,但莫里的航海经验告诉他并不完全是这样的。他通过整理大量的航海笔记和日志并绘制成表格,提供了更精确的航海路线。为了获得更多的数据,他创建了一个标准的表格来记录航海数据,并且要求美国所有的海军舰艇在海上使用。商船们也纷纷加入了这个信息交流计划。他的工作为第一根跨大西洋电报电缆的铺设奠定了基础。
在这个案例当中,莫里的成功之处就在于他利用了足够大量的数据。由此作者也提出,庞大的数据库有着小数据库所没有的价值。莫里是通过人工一笔一画完成的图表绘制,也就是说,远在信息数字化之前,对数据的运用就已经开始了。
作者认为,数据可以从任何地方提取出来,甚至是从最不可能的地方。“日本先进工业技术研究所的坐姿研究与汽车防盗系统”的案例就能很好说明这一点。在这个案例当中,日本的越水重臣教授通过在汽车座椅下部安装压力传感器,将人体屁股特征转化成了数据,并进行了量化,产生了专属于每个乘坐者的精确数据资料。这样的研究可以用于分析坐姿和行驶安全之间的关系,或者是用于识别盗贼。这个案例的关键之处在于,越水重臣教授从看似完全与数据不沾边的地方提取出了极其有用的数据,并进行了创新性的应用。作者觉得,这无疑为我们开阔了思路。越水重臣教授的这种转变,作者称之为数据化。
作者提出了数据化的核心就是量化一切的观点。作者认为,计量和记录一起促成了数据的诞生,它们是数据化最早的根基。比如,通过计量和记录建筑物的建筑方法和原材料,我们就能再建同样的建筑,或进行实验性的操作。作者对计量和记录的历史进行了研究。事实上,早期的计量方法对于古代的人们来说是不太方便的。比如使用罗马数字的地方,它们没有一个以10为底的进制,所以大数目的乘除即使是专家也不会。后来阿拉伯数字的出现开启了算术的腾飞。作者发现,最终让阿拉伯数字广为采用的是复式记账法的出现,这也是一种数据化的工具。这样的记账方法简而言之就是用两个账本记录交易明细。它的出现实现了相关账户信息的“分门别类”记录。它建立在一系列记录数据的规则之上,也是最早的信息记录标准化的例子,使得会计们能够读懂彼此的账本。作者认为,这样的设计理念中包含了“纠错”的思想,这也是现在的技术人才需要学习的。真正让阿拉伯数字和复式记账法站稳脚跟的,是帕西奥利的一本数学教材,以及美第齐家族使用复式记账法带来的成功经验。二者奠定了复式记账法成为标准数据记录法的基础,也奠定了阿拉伯数字在此之后不可取代的地位。
作者专门对数据化和数字化进行了区分。他认为,大数据所需要的是数据化而不是数字化。从定义上来讲,数据化指的是一种把现象转变为可制表分析的量化形式的过程。而数字化指的是把模拟数据转换成用0和1表示的二进制码。数据化的前提是拥有正确的工具以及计量和记录的需求。而我们在数字化时代到来的几个世纪前就已经奠定好了数据化的基础。关于数字化和数据化的关系,作者认为,数字化带来了数据化,但是数字化无法取代数据化。前者是把模拟数据变成计算机可读的数据,与后者有本质的不同。
作者通过“谷歌公司的数字图书馆”这个案例,来进一步区分数字化与数据化。在这个案例中,谷歌公司试图将所有版权条例允许的书本内容进行数字化,让世界上所有的人免费阅读。一开始他们只是将每一页都扫描,并将其存入服务器中一个高分辨率的数字图像文件中。但由于这样数字文本没有被数据化,所以它们不能通过搜索词找到,也不能被分析。后来谷歌公司采用了能够识别数字图像的光学字符识别(OCR)软件来识别文本,这样就把数字化图像转化成了数据化文本,进而可以更容易地被查找到,也能够被人们用来分析。
在另一个案例当中,哈佛大学的研究员们对几百万册书籍和超过5000亿个单词进行了深入研究,发现这些书当中出现过的单词有一半以上在字典中是无法找到的,这些生僻字是一个巨大的宝藏。这些数据化了的文字,不仅人可以用之进行阅读,机器也可用之进行分析。谷歌公司就利用这些数据化文本改进了自己的机器翻译系统。
从技术角度,作者对同样拥有数据化书籍的亚马逊公司和谷歌公司进行了对比。前者虽然拥有数据化书籍,却不曾挖掘书籍在数据化之后的附加价值。这其中可能有版权因素的制约,但作者认为,至少现在,可以不失公允地说,亚马逊深谙数字化内容的意义,而谷歌触及了数据化内容的价值。
作者认为,地球本身构成了世界上最基础的信息。但是,历史上它几乎从来没有被量化和数据化过。将方位数据化是在将文字数据化之后作者讨论的又一个话题。为此,作者举了GPS的案例来说明将方位数据化的价值与意义。
在GPS的这个案例之前,作者先阐述了西方对于位置信息量化的发展过程。它起源于希腊,埃拉托色尼发明了用格网线来划分区域的系统。在公元1400年,托勒密的著作《地理学》的复印本传入佛罗伦萨,从那以后地图上标上了经纬度和比例尺。而经纬度的标准化是一个漫长的过程,直到1884年的国际子午线会议之后才有了一个标准。但当时进行地理位置定位还只能依靠地标、天文星座、航位推测法和尚显欠缺的无线电定位技术。
1978年,当时构成全球定位系统(GPS)的24颗卫星第一次发射成功,而这也带来了巨大的转变。随着技术的发展,全球定位系统能够快速、相对低价地进行地理定位,而且不需要任何专业知识。定位时时刻刻都可能生成信息,而用GPS进行定位一般仅需要几秒钟的时间,而且它使用的是标准化坐标表示法。
不仅仅是人,事物的地理位置信息也同样可以被迫踪。这样的地理位置数据有很多用途,比如一些App通过对你的位置信息进行分析,进而为你推荐最近的餐厅。而公路和其他基础设施的建设也会因为这些数据产生影响。作者举了“多效地理定位与UPS的最佳行车路径”这个案例来进一步说明地理位置数据带来的价值。在这个案例当中,UPS在一定程度上根据过去的行车经验进行了总结,为货车定制了最佳行车路径。这个分析项目效果显著。2011年,UPS的驾驶员们少跑了近4828万公里的路程,节省了300万加仑的燃料,并且减少了3万公吨的二氧化碳排放量。UPS的过程管理总监杰克·莱维斯说:“预测给我们知识,而知识赋予我们智慧和洞见。”
书中写到,毋庸置疑,对无线运营商来说,收集用户地理位置数据的能力已经变得极其具有价值。从个人层面上来说,根据他所居住的地点和他要去的地方的预测数据,可以为他提供定制广告。而且,这些信息汇集起来可能会揭示事情的发展趋势。
不过作者认为,位置数据在商业以外的用途或许才是最重要的。在“现实挖掘”这个研究当中,研究人员通过处理大量来自手机的数据,发现和预测人类行为。这非常具有价值,比如可以通过对流感患者位置信息的分析和预测,提前进行区分和隔离。如果出现重大疫情,这可以挽救很多人的生命。
书中提到,数据化的另一个前沿更加个人化,体现在将沟通变为数据。这样的案例在我们的生活中更加普遍,比如facebook的“社交图谱”。
然而这种对数据的使用还远未成熟。比如facebook为了防止用户反应过激,精明地选择了隐忍。作者发现,它目前所面对的指责都集中在能采集到什么,而并非它实际用这些数据干了什么。
在“twitter公司开辟数据新用途”的案例中,该公司将2012年超过1.4亿用户每天发送的4亿条近乎随意的闲言碎语的微博数据化。实现了将人们的想法、情绪和沟通的数据化。
但数据被人类利用的频率远没有被计算机利用的多。twitter的元数据,即“关于信息的信息”,其中包括33个分离的项。2011年《科学》杂志的一项研究显示,来自世界上不同文化背景的人们每天、每周的心情都遵循着相似的模式,这项研究建立在两年多来对84个国家240万人的5.09亿条微博的数据分析上。
作者认为,数据化不仅能将态度和情绪转变为一种可分析的形式,也可能转化人类的行为。在“微博关联与疫苗接种”案例中,来自宾夕法尼亚州立大学的生物学家马塞尔·萨拉特和软件工程师沙先克·坎都拉斯通过分析微博发现,人们对于疫苗的态度与他们实际注射预防流感药物的可能呈现出相关性。他们利用twitter中谁和谁相关的元数据进行了进一步研究后发现未接种疫苗的子人群也可能存在。这项情绪分析实际上揭示了个人的卫生行为。
作者认为,一些社交网络坐拥了大型数据的宝藏。一旦数据得到深入分析,它们就能轻易获得社会各行各业以及三教九流的几乎所有的动态信息。
第五章价值“取之不尽,用之不竭”的数据创新
这一章作者主要写了数据的商业价值。作者将数据的价值分为两个部分,一个是数据的基本用途,另一个是数据的潜在价值。用作者自己的话说,数据就像一个神奇的钻石矿,当它的首要价值被发掘后仍能不断给予。它的真实价值就像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而绝大部分都隐藏在表面之下。
作者先是对“Re Captcha与数据再利用”案例进行了说明。20世纪90年代后期,网络逐渐变得拥堵起来,垃圾邮件和广告泛滥,网络因此成了一个不守规矩、不受欢迎、不够友善的地方。2000年,22岁大学刚毕业的路易斯·冯安提出了解决的办法:要求注册人提供真实身份证明。他找到一种对人类而言便于回答但对机器很难的东西——一些波浪状、辨识度低的字母,也就是验证码,取得了不错的效果。后来他并没有因此止步,他试图利用这种方式识别一些计算机光学字符识别(OCR)程序无法识别的文本。他将其命名为ReCaptcha。它的用途有两个,主要用途在于证明用户是人,另一个用途是破译数字化文本中不清楚的单词。后者相较于人工每年省下了10亿多美元。
Re Captcha的故事强调了数据再利用的重要性。在数字化时代,数据支持交易的作用被掩盖,数据只是被交易的对象。而在大数据时代,事情再次发生变化。数据的价值从它最基本的用途转变为未来的潜在用途。
作者认为,信息对于市场交易而言是必不可少的。在过去,它通常只是被视为附属于企业经营核心业务的一部分,或者被归入知识产权或个人信息中相对狭窄的类别。但在大数据时代,所有数据都是有价值的。这里的“所有数据”包含了那些最原始的、看似最平凡的信息单位。但至今都没有一个简单的方法来收集、存储和分析这些数据。而我们所处的时代,数据的收集不再存在固有的局限性。技术发展使得大量的信息可以被廉价捕捉并记录。在这个时代,以较低成本获得更多数据的可能性比以往任何时候都大。
作者认为,数据的基本用途为信息的收集和处理提供了依据。而不同于物质性的东西,数据的价值不会随着它的使用而减少,而是可以不断地被处理。它可以为了同一目的而被多次使用,也可以用于其他目的。
作者接着讨论了数据的“潜在价值”。为了支撑他的观点,作者用了一个案例来进行说明。在“IBM,电动汽车动力与电力供应系统优化预测”案例中,2012年时IBM曾与加利福尼亚州的太平洋天然气与电气公司以及汽车制造商本田合作进行了一项实验,收集了大量信息来回答关于电动汽车应在何时何地获取动力及其对电力供应的影响等基本问题。基于这些信息,IBM开发了一套复杂的预测模型。电网的使用数据可以用于增强电网的稳定性,汽车电池电量指示器告诉司机何时充电,而这些数据都可以找到二级目的,比如这个案例当中对充电站位置的选定。
作者认为,数据再利用的重要性还没有被企业和社会充分意识到。而要解锁这些数据价值,就必须通过新一代统计人员的不懈努力并借助新一代的方法和工具。最终,数据的价值是其所有可能用途的总和。这些似乎无限的潜在用途就像是选择,这些选择的总和就是数据的价值,即数据的“潜在价值”。
书中写到,数据的潜在价值有三种最为常见的释放方式:基本再利用、数据集整合和寻找“一份钱两份货”。而数据的折旧值、数据废气和开放数据则是更为独特的方式。作者提了数据的六个创新,分别是:数据的再利用、重组数据、可扩展数据、数据的折旧值、数据废气以及开放数据。
一、数据的再利用
作者提到,数据创新再利用的一个典型例子就是搜索关键词。用户搜索时实现了那一刻的特定功能。而之后有的公司可以通过采集搜索流量数据来揭示消费者的喜好。在这一方面亚马逊公司有一个很好的案例。亚马逊公司早期与AOL达成了一项协议,为AOL电子商务网站提供后台技术服务。外人看来这只是一个普通的外包协议,但亚马逊真正看重的是掌握用户的数据。这些数据可以帮助亚马逊提高它的推荐引擎性能。
作者发现,由于在信息价值链中的特殊位置,有的公司可能会收集到大量的数据,但是他们并不急需使用也并不擅长再次利用这些数据。对这些公司来说,数据只具有狭窄的技术用途。但是当它被一些发布个性化位置广告服务和促销活动的公司再次利用时,则变得更有价值。
在“移动运营商与数据再利用”案例中作者写到,移动运营商们记录了人们的手机在何时何地连接基站的信息,并长期使用这些数据来微调其网络的性能。但是这些数据也有很多其他潜在的用途,比如手机制造商可以用它来了解信号强度的因素。有的运营商创立了独立公司来向零售商和其他买家出售其收集到的匿名用户位置信息。
二、重组数据
在丹麦癌症协会的一项关于手机是否增加致癌率的研究中,他们分析了1 990年至2007年间拥有手机的用户,共涉及358403人。该国还同时记录了所有癌症患者的信息。结合这两个数据集后,研究人员开始寻找两者的关系。所有数据都是在多年前就已经生成,而且当时的收集目的与此项研究毫不相关。最重要的是,该研究没有基于任何样本,却很接近“样本=总体”。虽然最终并没有发现二者之间有什么联系,但这为“数据重组”提供了一条不错的经验,也为我们提示了更多的可能性。
三、可扩展数据
作者提出,促成数据再利用的方法之一是从一开始就设计好它的可扩展性。谷歌的街景汽车每时每刻都能积累大量的离散数据流。这些数据之所以具有可扩展性,是因为谷歌不仅将其用于基本用途,而且进行了大量的二次使用。例如,GPS数据不仅优化了其地图服务,而且对谷歌自动驾驶汽车的运作功不可没。
四、数据的折旧值
作者发现,随着时间的推移,大部分数据都会失去一部分基本用途。在这种情况下,继续依赖旧的数据不仅不能增加价值,实际上还会破坏新数据的价值。比如在亚马逊公司的推荐系统中,你十年前买了本书,十年后系统继续依照这个数据为你推荐书籍。你很可能已经不再对这一类书感兴趣,甚至会担心该网站之后的推荐是否合理。所以亚马逊等公司建立了复杂的模型来帮助自己分离有用和无用的数据。
然而作者认为,并非所有数据都会贬值。比如谷歌公司始终拒绝将互联网协议地址从旧的搜索查询中完全删除,因为它希望得到每年的同比数据。此外,通过了解搜索者的位置,可以帮助改善搜索结果的相关性。
五、数据废气
作者在书中写到,“数据废气”是一个用来描述人们在网上留下的数字轨迹的艺术词汇。它是用户在线交互的副产品,包括浏览了哪些页面、停留了多久、鼠标光标停留的位置、输入了什么信息等。在书中同样给出了案例来进一步说明这个创新。
在“微软与谷歌的拼写检查”案例中提到,在过去的20多年中,微软为其Word软件开发出了一个强大的拼写检查程序。由于需要不断编译和更新字典,微软Word的拼写检查仅适用于最常用的语言,且每年需要花费数百万美元的创建和维护费用。谷歌公司则不同。可以说,谷歌拥有世界上最完整的拼写检查器,基本涵盖了世界上所有语言。这个系统一直在不断完善和增加新的词汇,这是人们每天使用搜索引擎的附加结果。而且谷歌几乎是“免费”地获得了这样的检查,它依据的是其每天处理的30亿查询中的错误拼写。谷歌的拼写检查系统显示,那些“不正确”、“有缺陷”之类的数据也是非常有用的。
作者认为,数据废气是许多电脑化服务背后的机制,如语音识别、垃圾邮件过滤、翻译等。当用户指出语音识别程序误解了他们的意思时,他们实际上有效地“训练”了这个系统,让它变得更好。
六、开放数据
书中写到,相对于谷歌等公司而言,政府才是大规模信息的原始采集者。由于政府在获取数据中所处的特殊地位,因此他们在数据使用上往往效率很低。于是“开放政府数据”的倡议响彻全球。
开放数据早期的一个例子,来自美国一个叫做Fly On Time.us的网站。该网站结合了航班信息和互联网免费提供的官方天气预报。通过这个网站,人们可以交互地判断恶劣天气使某一特定机场的航班延迟的可能性有多大。Fly Ontime.us充分体现了一个不收集或者控制信息的实体单位是如何像搜索引擎或大零售商一样,能够获取数据并利用其创造价值。
在阐述完数据的六个创新之后,作者的下一个话题是给数据估值。公司账面价值和市场价值之间的差额被记为“无形资产”。书中写到,在20世纪80年代中期,无形资产在美国上市公司市值中约占40%,而在2002年,这一数据已经增长为75%。无形资产早期包括仅包括品牌、人才和战略,但逐渐地,公司所持有和使用的数据也渐渐纳入了无形资产的范畴。
目前还找不到一个有效的方法来计算数据的价值。但随着会计窘境和责任问题得到缓解,几乎可以肯定数据的价值将显示在企业的资产负债表上,成为一个新的资产类别。
作者提出,一个给数据估值的办法,是从数据持有人在价值提取上所采取的不同策略入手,最常见的一种可能性就是将数据授权给第三方。2008年在冰岛成立的Data Market向人们提供其他机构的免费数据集,靠倒卖商业供应商(如市场研究公司)的数据来获利。
第六章角色定位数据、技术与思维的三足鼎立
作者在这一章的序言中写到:如今我们正处于大数据时代的早期,思维和技术是最有价值的,但是最终大部分的价值还是必须从数据本身中挖掘。作者将重点转移到使用数据的公司及其如何融入大数据价值链中,讨论了大数据对公司以及个人的事业和生活意味着什么。
书中描述了“Decide.com与商品价格预测”这个案例。在这个案例中,Decide.com推出了一个门户网站,想为无数顾客预测商品的价格。网络产品的价格受一系列因素的影响全天都在不断更新,所以公司收集的数据必须是即时的。这不仅是一个“大数据”问题,还是一个“大文本”问题,因为系统必须要对数据进行分析,才能得到需要的信息。经过一年的时间,通过对近400万产品的超过250亿条价格信息的分析,这家网站发现了一些过去人们意识不到的怪异现象。比如新产品发布时,旧产品可能会经历一个短暂的价格上浮。作者指出,事实上让Decide.com异军突起的不是数据,不是技术,而是思维观念。他们拥有大数据的思维观念,先人一步地挖掘出了数据的潜在价值。这造就了他们的成功。
作者发现,在大数据的价值链中,根据所提供价值的不同来源,也就是数据本身、技能与思维,分别出现了三种大数据公司。第一种是基于数据本身的公司,第二种是基于技能的公司,第三种是基于思维的公司。到目前为止,前两种因素一直备受关注。现如今,技能仍然欠缺,但数据非常之多。但过分强调技术和技能而忽略数据本身的重要性也是不可取的。作者强调,人力技术的落后会被慢慢克服,数据才是最核心的部分。
大数据掌控公司
大数据最值钱的部分就是它本身,所以最先考虑数据拥有者才是最明智的。他们可能不是第一手的收集者,但是他们能接触到数据、有权使用数据或者将数据授权给渴望挖掘数据价值的人。
四大机票预订系统之一的ITA Software就为Farecast提供预测机票价格所需要的数据,而它自身并不进行这种数据分析。原因一在于其商业定位不同,二在于它在大数据价值链上所处的位置。
相对地,VISA和Mastercard这样的信用卡发行商和其他大银行站在了信息价值链最好的位置上。通过为小银行和商家提供服务,它们能够从自己的服务网获取更多的交易信息和顾客的消费信息。Mastercard虽然也可以把这些数据授权给第三方使用,但它更倾向于自己分析、挖掘数据的价值。例如通过分析来自210个国家的15亿信用卡用户的650亿条交易记录,预测商业发展和客户的消费趋势,然后将结果卖给其他公司。MasterCard占据了收集数据和挖掘数据价值的黄金位置。我们可以想象,未来的信用卡公司不会再对交易收取佣金,而是免费提供支付服务。作为回报,它们会获得更多的数据,而对这些数据进行复杂的分析之后,它们又可以卖掉分析结果以获得利润。
大数据技术公司
这种公司拥有技术和专业技能,它们从数据中发现了价值,但它们最后却不得不将这些
价值拱手让给大数据拥有者。有些公司选择在两个类型中游移,也有的公司选择发展专业技能。比如说埃森哲咨询公司就和各行各业的公司合作应用高级无线感应技术来收集数据,然后对这些数据进行分析。在2005年埃森哲与密苏里州圣路易斯市共同合作的一个项目中,它给20辆公交车安装了无线传感器来预测公交车什么时候会抛锚以及维修的最佳时机,使得车辆更换零件的周期由30万或40万公里变成50万公里,帮助该城市节省了60万美元。在这里获利的不是埃森哲,而是圣路易斯市。
大数据思维公司和个人
第三种类型是有着大数据思维的公司和个人。他们能够先人一步发现机遇,尽管本身并不拥有数据也不具备专业技能。作者认为,很可能正因为他们是外行人,他们的思维才不受限制。他们思考的只有可能,而不考虑所谓的可行。
在“Flight Caster的大数据思维”这个案例中,布拉德福德·克罗斯用拟人手法解释了什么是有大数据思维。2009年8月,他和他的伙伴们一起创办了Flight Caster.com。这个网站主要致力于预测航班是否会晚点。数据拥有者做不到这样的事,因为他们没有这样使用数据的动机和强制要求。航空公司不可以这么做,也不会这么做,因为这些数据所表达的信息越隐蔽对它们就越有利。因为有着大数据思维,克罗斯和他的Flight Caster是第一个行动起来的,但也没比别人快多少。所谓大数据思维,是指一种意识,认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案。
大数据思维这个概念以及一个拥有创新思维的人的地位,与20世纪90年代电子商务初期出现的情况是不一样的。电子商务先驱者们的思想没有被传统行业的固有思维和制度缺陷所限制,所以杰夫.贝索斯创建了网上书店亚马逊而不是巴诺书店。如今,拥有大数据思维的领导者通常自己并不拥有数据资源,但就是因为这样,他们不会受既得利益和金钱欲望这样的因素影响而阻碍自己的想法实践。
也有的公司集合了大数据的多数特点。谷歌和亚马逊就是三者兼备的典型例子。谷歌收集搜索时拼写错误的数据,它也有利用这些数据创建一个世界上最好的拼写检查程序的好点子,同时它自身也具备挖掘数据价值的技术。谷歌在大数据价值链中同时充当的这三个不同的角色,与谷歌其他项目整合后为谷歌带来了巨大的利润。除此以外,它还把掌握的部分数据授权别人使用,这样数据就能重复使用还可以产生附加价值。亚马逊也是类似的。虽然它们都是三者兼备,商业策略却不同。谷歌在刚开始收集数据的时候就已经带有多次使用数据的想法,而相对地,亚马逊更关注的是数据的基本用途而且也只把数据的二级用途作为额外收益。
作者认为,现在看来,在大数据价值链当中获益最大的是那些拥有大数据思维或者说创新性思维的人。但随着大数据时代的推进,别人也会吸收这种思维,然后那些先驱者的优势就会减弱。技能也是如此,越来越多的人会掌握这些技能,所以这些技能的价值就会相对减少。但不是说大数据技能不重要,只是这不是大数据价值的最主要来源。现在我们处于大数据时代的早期,思维和技能是最有价值的,但是最终,大部分的价值还是必须从数据本身中挖掘。
如果数据拥有者做长远打算的话,有一个小问题十分值得关注,那就是有些情况下会出现“数据中间人”,它们会从各种地方搜集数据进行整合,然后再提取有用的信息进行利用。数据拥有者可以让中间人充当这样的角色,因为有些数据的价值只能通过中间人进行挖掘。
交通数据处理公司Inrix就是一个很好的例子。它汇集了来自美洲和欧洲近1亿辆汽车的实时交通数据。私家车主的移动电话也是数据的来源。Inrix通过把这些数据与历史交通数据进行比对,再考虑进天气和其他诸如当地时事等信息来预测交通状况。Inrix是典型的独立工作的大数据中间商。它汇聚了来自很多汽车制造商的数据,这些数据能产生的价值要远远超过它们被单独利用时的价值。汽车制造商不一定掌握了分析数据的技能,它们更擅长造车,所以很愿意第三方来做这个预测的事情。
数据不再是单纯意义上的数据,它被挖掘出了新的价值。除了Inrix以外,大数据价值链上还出现了很多类似的中间人。这些中间人在这个价值链中站在了一个收益丰厚的位置上,但是它们并没有威胁到为他们提供数据的数据拥有者的利润。
有时候这些中间人不一定是商业性质的组织,也可能是非营利性的。比如2011年由美国几个最大的医疗保险公司联合创立的卫生保健成本协会。它们的数据汇集了来自3300万人的50亿份匿名保单。数据共享之后,这些公司可以看到在一个较小的独立数据库里看不到的信息。2008年9月,它发现美国的医疗花费比通货膨胀率的增长速度快3倍之多。显然医疗保险公司是不可能把它的数据给除非营利性机构以外的任何组织的。这个组织的动机更明确,运行更透明化且更富有责任心。
作者认为,大数据公司的多样性表明了数据价值的转移———由技术转移到了数据自身和大数据思维。随着数据价值转移到数据拥有者手上,传统的商业模式也被颠覆了。上文中的与供货商进行知识产权交易的欧洲汽车制造商需要一个科技公司为其挖掘数据的价值。这个公司虽然可以获得报酬,但大头在制造商那里。于是它改变商业模式,用部分报酬换取了一部分的分析结果,因为这个结果是可以循环使用的,这样在将来就可以继续创造新的价值。
对于中间商来说,公司之间不愿意进行数据共享的问题会让他们很头疼。但Inrix相信,到最后所有的汽车制造商都会意识到数据共享的好处。
Inrix与众多科技创业公司的商业模式不同,它的工作重心在设计上。微软掌握着技术的核心专利,但它认为,一个独立的小公司可能更容易被接受,更有利于汇聚行业内各方的数据并从知识产权中获利最大。2010年UPS就把它的UPS Logistics Technologies部门卖给了一家叫Thoma Bravo的私人股本公司,如今它可以为多家公司进行线路分析。该公司的首席执行官兰·肯尼迪解释称,如果是UPS Logistics,那么UPS的竞争对手肯定不会交出它们的数据,因此,只有让它变成一个独立的公司,UPS的竞争对手才会愿意拿出数据。最终每个公司都从中受益了,因为数据汇集之后,系统的精确性更高了。
在这一章中,作者还谈到了一个关于专家的消亡以及数据科学家的崛起的问题。作者提出,人类判断存在误区,一个似乎经过了理智讨论的事情其实是在没什么实际标准的情况下做出的决定,并没有什么客观标准。有一个很好的案例来说明专家的消亡和数据科学家的崛起。
奥克兰运动家棒球队的总经理比利·比恩抛弃了几百年一直依赖的选择球员的传统惯例,采用了一种依靠电脑程序和数学建模分析比赛数据来选择球员的方法。比恩的这种“赛伯计量学”取得了成功,他带着这支备受争议的球队在2002年的美国联盟西部赛中获得冠军,还获得了20场连胜的战绩。从那之后统计学家取代球探成了棒球专家,更多的球队开始争相采用“赛伯计量学”。
作者认为,人类从依靠自身判断做决定到依靠数据做决定的转变是大数据做出的最大贡献之一。行业专家和技术专家的光芒都会因为统计学家和数据分析家的出现而变暗,因为后者不受旧观念的影响,能够聆听数据发出的声音。他们的判断建立在相关关系上,没有受到偏见和成见的影响。
书中提到,大数据的先锋们通常并不来自他们做出了极大贡献的领域。他们是数据分析家、人工智能专家、数学家或统计学家,但是他们把他们所掌握的技能运用到了各个领域。
作者还强调,行业专家是不会真正消亡的,只是他们的主导地位会发生改变。未来,大数据人才会与他们一样身居高位,就像趾高气扬的因果关系必须与卑微的相关关系分享它的光芒一样。
作者提出,人类的价值将不再体现在与思维类似的同龄人的交际上,而体现在与各行各业的人的交际上,因为这样知识就能广泛而深刻地进行传播。
在电子游戏领域,大数据的普通人才早已经和高级专家站在了一起,他们正在一同改变这个行业。过去,一个游戏中的各种设定都是基于设计师的创造力。但像Farm Ville这样的交互式游戏允许zynga收集用户数据以及在这些数据的基础上对游戏进行修改。事实上,这些游戏远远不止一个版本。该公司不仅会借助收集到的数据修补游戏的漏洞,甚至会针对不同的玩家设计不同的游戏。
作者认为,这种转变意义非凡。大部分人往往都通过经验、回忆以及猜测做决定。执行官们相信自己的决定,但是随着管理决策越来越受预测性分析和大数据分析的影响和控制,依靠直觉做决定的情况将会被彻底改变。
这里有一个很好的案例。The-Numbers.com利用海量数据和特定算法在一部好莱坞电影上映之前就能预测出它的票房。该公司通过寻找复杂的相关关系来预测一部电影的收入,而借助这个预测,这个公司甚至可以告诉客户改变哪些选择可以增收或者降低风险。
作者认为,大数据向小数据时代的赢家以及那些线下大公司提出了挑战,后者必须意识到大数据的威力然后有策略地收集和使用数据。同时,科技创业公司和新兴行业中的老牌企业也准备收集大量的数据。
大数据也为小公司带来了机遇,他们有着聪明而灵活的特点。最好的大数据服务都是以创新思维为基础的,所以它们不一定需要大量的原始资本投入。大大小小的公司都能从大数据中获利,这个情况很可能不仅适用于使用数据的公司,也适用于掌握数据的公司。这些使得消费者拥有了比以前更大的权利,他们可以自行决定把这些数据量中的多少授权给哪些公司。这样的情形很可能催生出一些中间商。如果成本够低,消费者又足够信任中间商,那么个人数据市场就很可能诞生。
大数据也会撼动国家竞争力。制造业大幅转向发展中国家,而大家都争相发展创新行业时,工业化国家因为掌握了数据和大数据技术,所以仍然在全球竞争中占据优势。但就像互联网和计算机技术一样,随着其他国家和地区开始采用这些技术,这样的领先地位将慢慢消失。
第三部分大数据时代的管理变革
第七章风险让数据主宰一切的隐忧
这本书用绝大部分讲述了大数据带来的好处。但凡事总有两面,作者在这一章中讲了对大数据时代的隐忧。书中用了一个非常形象的比喻。在大数据时代,我们时刻都像暴露在“第三只眼”的监视下:亚马逊监视着我们的购物习惯,谷歌监视着我们的网页浏览习惯,而微博似乎什么都知道,不仅窃听到了我们心中的“TA”,还有我们的社交关系网。
1989年,柏林墙倒塌。之前的40年间,民主德国国家安全局“Stasi”雇用了十万左右的全职间谍监视民众。甚至还让情人、夫妇、父母和孩子相互监视,导致人与人之间丧失了最基本的信任。民主德国是一个史无前例的受到如此全面监控的国家。
如今,我们时刻暴露在“第三只眼”下。在互联网出现前,一些专业数据收集公司就采集、记录了全球范围内大约几百万人口的数据,而它们提供的每个人的个人数据就多达好几百份。互联网的出现使得监视变得更容易、成本更低廉也更有效。如今不只是政府在暗中监视我们,亚马逊、谷歌以及社交网站们也通过各自的渠道监视着我们。大数据会加剧互联网时代我们的隐私受到的威胁。毕竟,大数据的核心思想就是用规模剧增来改变现状。
除了对隐私和倾向的不良影响,大数据还有一个弊端。我们冒险把罪犯的定罪权放在了数据手中,借以表达我们对数据和我们的分析结果的崇尚,但是这实际上是一种滥用。我们所冒的风险要比想象中大。如果在隐私和预测方面对大数据管理不当,或者出现数据分析错误,会导致的不良后果比定制的在线广告要严重得多。
20世纪有很多由于数据利用不合理所导致的惨剧。比如荷兰著名的综合民事记录数据被纳粹分子用来搜捕犹太人,1943年美国人口普查局递交了地址数据来帮助美国政府拘留日裔美国人,这一切都表明是数据处理帮助实现了大规模的屠杀。
不是所有的数据都包含了个人信息。事实上英国石油公司不需要也不想要个人信息,就能分析挖掘出他们所需要的数据价值。作者认为,这方面的数据分析并不威胁个人隐私。
但是目前所采集的大部分数据都包含有个人信息。甚至有的数据表面上并不是个人数据,但是经由大数据处理之后就可以追溯到个人了。比如在美国和欧洲部署的一些智能电表,它们每6秒钟采集一个实时读数,这样的数据就能暴露一个人的日常习惯这样的个人信息。
作者认为,大数据不仅仅是加剧了这种威胁,甚至已经改变了威胁的性质。因为大数据的价值不再单纯来源于它的基本用途,而更多源于它的二次利用。这就颠覆了当下隐私保护法以个人为中心的思想。更重要的是,大数据时代,很多数据在收集时并无意用作其他用途,而最终却产生了很多创新性的用途。所以公司告知个人收集哪些数据、作何用途,或者从一开就要用户同意所有可能的用途都是不可行的。在大数据时代,“告知与许可”这个经过了考验并且可信赖的基石,要么太狭隘限制了大数据潜在价值的挖掘,要么就太空泛而无法真正地保护个人隐私。
另外,用技术方法来保护隐私也是不可行的。如果所有人的信息本来都已经在数据库里,那么有意识地避免某些信息就是此地无银三百两。而另一条技术途径在大部分情况下也不可行,那就是匿名化。2006年8月,美国在线(AOL)公布了大量的旧搜索查询数据,本意是希望研究人员能够从中得出有趣的见解。这些数据都是经过了精心的匿名化的。然而尽管如此,《纽约时报》还是在几天之内通过把“60岁的单身男性”“有益健康的茶叶”“利尔本的园丁”等搜索记录综合分析考虑后,发现数据库中的4417749号代表的是佐治亚州利尔本的一个62岁寡妇塞尔玛·阿诺德。这引起了公愤,最终美国在线的首席技术官和另外两名员工都被开除了。
两个月之后DVD租赁商奈飞公司做了一件差不多的事情,那就是宣布启动“Netflix Prize”算法竞赛。该公司公布了大约来自50万用户的一亿条租赁记录。它们同样对数据进行了精心的匿名化处理,然而还是被一个用户认出来了。
这两种情况的出现,都是因为公司没有意识到匿名化对大数据的无效性。而出现这种无效性则是由两个因素引起的,一是我们收集到的数据越来越多,二是我们会结合越来越多不同来源的数据。
书中写到,在大数据时代,不管是告知与许可、模糊化还是匿名化,这三大隐私保护策略都失效了。如今很多用户都觉得自己的隐私已经受到了威胁,当大数据变得更为普遍的时候,情况将更加不堪设想。
我们现在收到的监控不仅来自国家,还来自各种各样的公司。它们在我们不知情的情况下采集了我们日常生活方方面面的数据,并且进行了数据共享以及一些我们未知的应用,这还是很恐怖的。
书中写到,据《华盛顿邮报》2010年的研究表明,美国国家安全局每天拦截并存储的电子邮件、电话和其他通信记录多达1 7亿条。为了弄明白这所有的数据,美国建立了庞大的数据中心,其中美国国家安全局就耗资12亿美元在犹他州的威廉姆斯堡建立了一个。
作者认为,相对于政府和企业拥有的这种采集信息的能力,另一个问题更让我们恐慌,那就是用预测来判断我们。
在电影《少数派报告》中,华盛顿特区警局预防犯罪组的负责人约翰·安德顿在一天早上冲进住在郊区的霍华德·马克思的家中并逮捕了他,后者正打算用剪刀刺杀他的妻子。警方开始控制他,但他其实还什么都没有做。这部电影描述的是一个未来可以准确预知的世界,而罪犯在实施犯罪前就己收到了惩罚。人们不是因为所做而受到惩罚,而是因为将做,即使他们事实上并没有犯罪。这个电影中的预测依靠的不是数据分析,而是三个超自然人的想象,但是电影中的这个令人不安的社会正是不受限制的大数据分析可能会导致的。
在孟菲斯市,一个名为“蓝色粉碎”的项目为警员提供情报,关于哪些地方更容易发生犯罪事件,什么时候更容易逮到罪犯。在里士满的另一个项目中,警察把犯罪数据与其他数据相关联,比如当地举行运动赛事或音乐会的时间。这些系统通过预测来预防犯罪,最终要精准到谁会犯罪这个级别。
但是这很危险,因为如果我们可以用大数据来预防犯罪,我们就可能会想进一步惩罚这个未来的罪犯,这也是符合逻辑的。基于预测基础上的惩罚似乎也是我们现在惯行方法的一种提升。
作者认为,大数据所做的和我们以前所做的没有本质上的差别。如果大数据预测只是帮助我们预防不良行为,那么似乎是可以接受的。但如果我们使用大数据预测判定某人有罪并对其尚未实施的行为进行惩罚,就可能让我们陷入危险的境地。基于未来可能行为之上的惩罚是对公平正义的亵渎,因为公平正义的基础是人只有做了某事才需要对它负责。
如果大数据分析完全正确,那么我们的未来就会被精准地预测,因此在未来,我们不仅会失去选择的权利,而且会按照预测去行动。当然,这是不现实的。大数据分析只能预测一个人未来很有可能进行的行为。
宾夕法尼亚大学教授理查德伯克建立了一个大数据模型,声称这个模型可以预测一个判缓刑或者假释的人一旦提前释放会不会再次杀人。这个模型据他本人称对未来行为预测的准确率可以达到75%。这听起来不错但也意味着如果真的依靠他的分析,那么每四个人当中就会出现一次失误。
作者认为,最主要的问题是我们在人们真正犯罪之前对他进行惩罚否定了人的自由权利,也否定了法律系统或者说我们的公平意识的基石——无罪推定系统。也许,大数据预测可以为我们打造一个更安全、更高效的社会,但是却否定了我们之所以为人的重要组成部分———自由选择的能力和行为责任自负。大数据成了集体选择的工具,但也放弃了我们的自由意志。
但是作者强调,大数据的不利影响并不是大数据本身的缺陷,而是我们滥用大数据预测所导致的结果。大数据预测是建立在相关性基础上的。人们习惯性地从因果关系的视角来理解世界,因此大数据总是被滥用于因果分析,而且我们往往非常乐观地认为,只要有了大数据预测的帮助,我们进行个人罪责判定就会更高效。这很可能会导致我们生活在一个没有独立选择和自由意志的社会。
大数据在带来新威胁的同时也加剧了一个旧威胁:过于依赖数据,而数据远远没有我们所想的那么可靠。罗伯特·麦克纳马拉的例子能够很贴切地揭示大数据分析的不可靠性。
麦克纳马拉是一个执迷于数据的人。他年轻的时候成为了五角大楼中被称为“统计控制队”中的一名精英。这个队伍让世界权力的中心人物都开始依靠数据进行决策。1 943年制作的综合清单为部队节省了36亿美元。后来他们决定挽救福特公司。他们不关心如何制作汽车,但是却救活了福特公司。麦克纳马拉是典型的20世纪经理人——完全依赖数字而非感情的理智型高管,他可以把他的数控理论运用到任何领域。后来他被肯尼迪总统任命为美国国防部长。随着越南战争升级和美国加派部队,这变成了一场意志之战而非领土之争。于是,评判战争进度的方法就是看对方的死亡人数。但事后的调查显示仅有2%的美国将军们认为用死亡人数衡量战争成果是有意义的,而三分之二的人认为大部分情况下数据都被夸大了。下级军官为了达成命令或者升官,会汇报可观的数字给他们的上级,只要那是他们上级愿意听到的数字。
书中举过无数谷歌的例子,我们明白它的一切运作都是基于数据基础之上的。很明显,它大部分的成功都是数据造就的,但是偶尔谷歌也会因为数据栽跟头。谷歌的创始人一直强调得到每个应聘者的SAT成绩以及大学毕业时的平均绩点。尽管公司内部研究早就表明,工作表现和这些分数根本没有关系,谷歌仍然冥顽不化。谷歌对数据的依赖有时太夸张了,甚至到了数据独裁的地步。2009年谷歌首席设计师道格·鲍曼因为受不了随时随地的量化,愤然辞职。她离职后在博客上说,“谷歌完全是工程师的天下,所以只会用工程师的观点解决问题———把所有决策简化成一个逻辑问题。数据成了一切决策的主宰,束缚住了整个公司。”
作者认为,卓越的才华并不依赖于数据。他提出,只要得到了合理的利用,而不单纯只是为了“数据”而“数据”,大数据就会变成强大的武器。大数据诱使我们犯下罗伯特·麦克纳马拉所犯的罪行,也让我们盲目信任数据的力量和潜能而忽略了它的局限性。我们必须杜绝对数据的过分依赖。
第八章掌控责任与自由并举的信息管理
这一章是本书正文的最后一章。在这一章中,作者讲述了信息管理上的变革———责任与自由并举。书中这样写到:我们在生产和信息交流方式上的变革必然会引发自我管理所用规范的变革。同时,这些变革也会带动社会需要维护的核心价值观的转变。
大数据早己开始推动我们去重新考虑最基本的准则,包括怎样鼓励其增长以及怎样遏制其潜在威胁,但我们也许只有几年时间去适应。作者认为,在大数据时代,我们需要全新的制度规范。想要保护个人隐私就需要个人数据处理器对其政策和行为承担更多的责任。同时,我们必须重新定义公正的概念,以确保人类的行为自由(也相应地为这些行为承担责任)。
一、个人隐私保护
作者发现,在过去的数十年中全球范围内的隐私规范都把控制权放在了人们自己手里。在互联网时代,这个伟大的理想往往都会演变成“告知与许可”的公式化系统。在上一章中阐述过,由于大数据时代数据的价值主要集中在二级用途上,所以“告知与许可”就不能再起到好的作用了。作者提出,应该由个人许可转向让数据使用者承担责任。
作者认为,未来的隐私保护法应当区分用途,包括不需要或者只需要适当标准化保护的用途。对大数据使用进行正规评测及恰当使用,可以为数据使用者带来切实的好处,但相反地,它们也需要承担责任。作者强调,数据使用者的责任只有在有强制力规范的情况下才能确保履行到位。
作者认为,将责任从民众转移到数据使用者很有意义,也存在充分理由。因为数据使用者比任何人都明白他们想要如何利用数据。也许更为重要的是,数据使用者是数据二级应用的最大受益者,所以理所当然应该让他们对自己的行为负责。
另外一点与现在大多数隐私保护法不同的是,在数据使用者达到最初的目的之后,法律上不再规定必须删除个人信息。这样,数据的二级用途才能被更好地挖掘。所以,社会必须平衡二次利用的优势与过度披露所带来的风险。为了实现这一平衡,监管机制可以决定不同种类的个人数据必须删除的时间。再利用的时间框架则取决于数据内在风险和社会价值观的不同。
作者认为,更适用于大数据时代的平衡原则是:公司可以利用数据的时间更长,但相应地必须为其行为承担责任以及负有特定时间之后删除个人数据的义务。除了管理上的转变,新的技术方式也可以用来保护个人隐私。比如“差别隐私”就是通过故意将数据模糊处理,从而使得对大数据库的查询不能显示精确的结果而只有相近的结果。
个人隐私保护从个人许可到数据使用者承担责任的转变是一个本质上的重大变革。我们必须将类似范围内的变革应用到大数据预测中去,以维护人类的自由和责任。
二、个人动因VS预测分析
在大数据时代,关于公正的概念需要重新定义以维护个人动因的想法:人们选择自我行为的自由意志。简单地说,就是个人可以并应该为他们的行为而非倾向负责。
通过保证个人动因,我们可以确保政府对我们行为的评判是基于真实行为而非单纯地依靠大数据分析。从而,政府只能依法对我们过去的真实行为进行追究,而不可以追究大数据预测到的我们的未来行为;或者,在政府评判我们过去的行为时,也应该防止单纯依赖大数据的分析。
相似的原理也要应用到政府领域之外,比如公司在决定雇用或解雇的时候。作者认为,如果他们单纯依据大数据预测做出这些决定,特定的保护措施就必须到位。这包括公开原则、公正原则、可反驳原则以及确保个人动因能防范“数据独裁”的危害。
作者提出,保护个人责任也同样重要。例如,“预测警务”的运算法则鉴定某个青少年在未来五年有犯重罪的倾向,而当局决定定期拜访并尽力解决他的问题。如果周围的人将这个拜访视为一种耻辱,那么的确是对未发生行为的惩罚。而如果只是一种降低风险的方式,那么情况也不会有太大改观。书中强调,社会越是用干预、降低风险的方式取代为自己的行为负责,就越会导致个人责任意识的贬值。否认个人为其行为承担责任实际上就是在摧毁人们自由选择行为的权利。如果国家做出的许多决策都是基于预测以及减少风险的愿望,就不存在所谓个人的选择了,更何况自主行为的权利。
三、击碎黑盒子,大数据算法师的崛起
目前,计算机系统做出决策的方式是基于程序明确设定所需遵循的规则。这样,当决策出错时就可以回过头来找到原因。然而有了大数据分析,这种追踪会变得愈发困难。大数据的运作是在一个超出我们正常理解的范围之上的。所以在这种背景下,我们能看到大数据预测、运算法则和数据库存在着变为黑盒子的风险。为了防止这些情况的出现,大数据将需要被监测并保持透明度,以及使这两项得以实现的新型专业技术和机构。
社会发展中出现过很多这种情况,当一个特定领域变得特别复杂和专门化之后,就会催生出对运用新技术的专门人才的迫切需求。大数据将要求一个新的人群来扮演这种角色,作者称他们为“算法师”。他们有两种形式:在机构外部工作的独立实体和机构内部的工作人员。他们必须保证公正和保密。他们可以评估数据源的挑选,分析和预测工具的选取,甚至包括运算法则和模型,以及计算结果的解读是否正确合理。一旦出现争议,他们有权考察与分析结果相关的运算法则、统计方法以及数据集。
作者提出,外部算法师将在客户或政府所要求的任何时间,根据法律指令或规章对大数据的准确程度或者有效性进行鉴定,也可为需要技术支持的大数据使用者提供审计服务。在人们认为受到大数据预测危害时,也可向他们咨询。而他们也会有自己的行业规范。
内部算法师则不同。他们在机构内部工作,监督其大数据活动。他们不仅要考虑公司的利益,也要顾及受到公司大数据分析影响的其他人的利益。遭受其公司大数据危害的人会最初与他们取得联系,他们也会在大数据分析结果公布之前对其完整性和准确度进行审核。为了做好这样的工作,算法师首先要做到的就是必须在工作机构内部拥有一定程度的自由和公正。书中还提到,与内部算法师相似的职业已经存在,即负责确保企业不滥用个人信息的职业人。
四、反数据垄断大亨
作者认为,随着以上三个转变的完成,大数据的不利影响将得到控制。但随着尚未成熟的大数据产业不断发展,我们必须防止21世纪数据大亨的崛起,它相当于19世纪强盗大亨的现代翻版。
为了确保给大数据提供一个与早期技术领域情况相当的活跃的市场环境,我们应该实现数据交易,比如通过授权和协同合作的方式。我们可以学习反垄断法的发展历史。反垄断法适用于多个领域,它是不带有任何偏袒的强有力的规章,因为它提供的是一个平等的竞争平台。反垄断法的经验是,一旦确定了极重要的原则,管理者就要将之付诸行动,以确保保护措施的实施到位。
作者提出,大数据和其他领域的新技术一样,带来了无法彻底解决的挑战。另外,它们也不断对我们管理世界的方法提出挑战。而我们的任务是要意识到新技术的风险,促进其发展,然后斩获成果。书中强调,在推进科学技术进步的同时,应确保人类自身的安全。因此,我们不能让大数据的发展超出我们可以控制的范围。
附录:
《〈大数据时代:生活、工作与思维的大变革〉提要》写作报告
北京市陈经纶中学高二洪方恩
选题来源
2014-2015学年度第二学期,我们高一年级的信息技术学科开设了“数据管理技术”课程。在第一节课上,陈阳老师说“数据管理技术”课程的理论性比较强。为了引导同学们理论联系实际地学习,为了开阔同学们的视野,也为了活跃课堂气氛,他要征召一位志愿者带领大家开展读书活动。这位志愿者每周都要按计划读书,并在每节课的前5分钟把自己最新的阅读收获分享给大家。
这是一个看似简单实则艰巨的任务。在挑战这个任务之前,我还是犹豫了一阵子。作为班里的团支部书记,我平常有一些工作需要完成。因为爱好运动,我参加了学校的篮球队和健美操队。作为两支队伍的队长,我定期要参加训练。因为家离学校比较远,我平常住在学校,能自由支配的时间不多。因此,时间对于我来说,是非常关键的一个因素。经过一番认真的思考,我还是决定接受这个任务。老师说的这个任务的主题我十分感兴趣。虽然这对我来说是一个挑战,但我很乐意接受这个挑战,并且我已经为迎接这个挑战做好了准备。
陈老师推荐给我们读的这本书是浙江人民出版社2013年1月出版的《大数据时代:生活、工作与思维的大变革》(ISBN:978-7-213-05254-5),作者是维克托·迈尔-舍恩伯格(Viktor Mayer-Schonberger)和肯尼斯·库克耶(Kenneth Cukier)。为了完成每节课的5分钟的小讲座,我边读书边做简要的阅读笔记。就在整本书快要读完的时候,我忽然觉得这本书真的是一本好书,有很多内容值得深入思考和借鉴。我决定开始写《提要》。这样,我不仅可以在将来利用它回味很多重要的、有价值的和有意义的内容,更可以把它分享给我的家人、同学与老师们。
写作设想
在开始写这部《提要》之前,我对如何写作有了一个初步的设想。
首先,我要对之前完成的阅读笔记做一个简要的回顾,解决因为阅读时间跨度较长导致的遗忘问题。
其次,我会从原著的目录入手,将《提要》分成几个部分,每个部分从书中的案例、观点、叙述、解释和分析中提取出精华内容。
再次,我计划将《提要》的每一章的字数控制在一定规模,并随着写作过程整理出每一章的关键案例索引表和关键语句索引表。最后,合并形成整本书的关键案例索引表和关键语句索引表,供自己日后备查。
第四,在完成《提要》的初稿之后,与陈老师进行一下交流。在此基础上对《提要》的内容做出微调,形成《提要》的终稿。
写作过程
在实际写作时,我基本上按照写作设想当中的步骤完成。我发现,这本书当中的许多语句具有高度概括性并且能够直接反映作者观点。这些语句在我的阅读笔记当中也有体现。于是,我从书中找出对这些语句的观点进行阐释的案例,并从作者的角度对其进行了介绍。
在完成《提要》的初稿之后,我根据原著中的引言和结语部分对《提要》进行了一些微调。这时,老师推荐我略读一下《西方伦理学名著提要》(江西人民出版社2000年4月第1版,ISBN:7-210-02204-X/B·64)一书。在借鉴了一些写法后,最终完成《提要》的终稿。
后记
通过阅读《大数据时代:生活、工作与思维的大变革》,我第一次和“大数据”有了接触。在此之前,我并没有听说过这个词。通过阅读,我了解到大数据的一些基础的理念和价值,并且对其产生了浓厚的兴趣。最让我感兴趣的是大数据的预测。在大量看似无关的数据背后,我们甚至可以对人类未来的行为进行预测,这是多么神奇的一件事情。另外我还了解到,大数据的商业价值是十分巨大的。在未来,大数据将成为主流,我们的确有必要去了解它。在阅读的过程当中,我开阔了眼界,也反思了一下自己的一些思维方式。阅读这本书,我收获更多的是在知识和思维方式方面。
此前,我从来没有做过任何一个上万字的课题,更从来没有对一本书进行过这种庖丁解牛式的分析和提要。在撰写这部《提要》的过程当中,我的观察、分析和理解社会现象的能力,语文方面的阅读、写作、分析和概括能力,做事的条理性和逻辑性都得到了一定程度的锻炼与提升。这或许是我写这部《提要》的最大收获。
在我完成这个项目的过程中,2015年5月8日星期五出版的《中国教育报》在第1版刊登了《在线学习也能拿清华学位》的文章。文章谈到,清华大学正式宣布启动国内首个混合式教育的硕士学位项目———“数据科学与工程”专业硕士学位项目。该项目以实践为导向设计课程体系,既汇聚清华大学计算机科学与技术系、软件学院、自动化系、交叉信息研究院等院系的知名教师,还将由研发一线专业人士讲授企业案例课程。清华将与百度、阿里、腾讯等企业合作建立学生实践基地,还特别按需定制专用大数据实验平台,旨在培养我国急缺的大数据人才。
2015年9月6日星期日出版的《京华时报》在第2版刊登了《我国2018年底前建成政府数据统一开放平台》的文章。文章谈到,国务院日前印发的《促进大数据发展行动纲要》指出,到2018年底前建成国家政府数据统一开放平台,率先在信用、交通、医疗、卫生、就业、社保、地理、文化、教育、科技、资源、农业、环境、安监、金融、质量、统计、气象、海洋、企业登记监管等重要领域实现公共数据资源合理适度向社会开放。
2015年10月30日星期五出版的《中国青年报》在第1版刊登了《中共十八届五中全会在京举行》的文章。文章谈到,“中国共产党第十八届中央委员会第五次全体会议,于2015年10月26日至29日在北京举行。……全会强调,实现“十三五”时期发展目标,破解发展难题,厚植发展优势,必须牢固树立并切实贯彻创新、协调、绿色、开放、共享的发展理念。……,实施国家大数据战略。”由此可见,大数据在我们国家的地位越来越重要了。
创新点
作为一名普通的高中生,我可能很难对大数据进行非常专业和深入的研究,也很难写出具有较高学术价值的论文。但通过这部在自己认真阅读的基础上撰写出来的《提要》,我可以让我周围的人对大数据有更多的了解和认知。即使我的家人、同学甚至是老师们没有时间或没有兴趣认真读原著,读读我这部《提要》也会有很大的收获。
目前,我的职业规划选项包括信息技术行业。有了这部《提要》,特别是留作自己日后备查的关键案例索引和关键语句索引,将来在学习和工作中需要引用相关内容时将给我带来极大的方便。这部《提要》也将对我未来的职业起到一定的影响作用。
参考文献
本刊记者专访了英特尔亚太研发有限公司总经理何京翔,他认为,英特尔有着非常良好的传统,就是把技术 变成一种生态环境、变成一种解决方案,变成真正能够产生出商业价值的商业模式。因此,在大数据领域,英特尔扮演的角色不仅是硬件提供商,而是致力于提供包含Hadoop等大数据分析软件在内的、端到端大数据方案供应商。
大数据不是灵丹妙药
《新理财》:您能否给我们畅想一下,大数据在未来几年真正大范围应用起来以后,将是一个什么样的蓝图?
何京翔:其实大数据本是通过计算机技术、智能技术来改变人们生活的大的愿景的一个技术。传统的数据往往是结构化,其数量往往有限。其实企业也有很多数据,我们一直在说,我们是在一个信息爆炸的时代,随着信息技术的发展,数据肯定是越来越多。
那为什么说传统的数据和大数据有些不一样的地方?第一,现在大量数据是非结构化的,譬如现在手机上微博、图片、视频都是非结构化的,和过去的很多关系数据库的传统数据结构是不一样的,所以在管理上技术也不一样;第二,是量的区别。我们曾经做过一个统计,在一个直辖市级别的城市,视频监控的数据一个季度大概在一两百个P左右。像现在大多数情况下是冷数据,采集完就搁在那里了,没有去实时地去分析处理,然后过一段时间就抹掉了。这里面本身的价值就没有被发掘出来。譬如在未来如果有实时分析的话,像恐怖分子、异常的意外事故,可能可以通过这个监控察觉。譬如现在有一些算法可以分析发现人包分离,可以预警,当然也不是说这人一定是坏人。还有像银行交易数据也可以分析出很多东西。
还有一些应用,可以让人民的生活更便捷。譬如你在网上、手机的消费数据可以分析出你的消费习惯,然后你走在哪里,可能手机就会提醒你可能附近有你感兴趣的商店。当然目前还存在一些困惑,比如隐私啊,这些数据会不会被人卖了啊之类的。新技术都是这样,用好了可能会社会更和谐便利,用不好也可能会带来很多问题。这就回到了一个数据安全、公信的问题。所以在今后部署这个技术的时候就应该引起注意,如何去扬长避短。
其实大数据,并不是什么灵丹妙药,就像前两年的“云”一样,它只是利用计算使我们的生活更现代化便利的过程中的一环。而且我们现在正好处在这个阶段上,随着我们移动互联网、随着物联网的发展,数据确实是越来越多。数据的含金量确实是越来稀疏了,真正你要的信息难度越来越高了,所以需要新的手段。实时的对无结构化的数据进行安全有效的分析,这就是我们大数据面临的一些主要问题和挑战。
《新理财》:从英特尔公司来看,在大数据方面做了很多工作,具体体现在哪些方面?
何京翔:芯片技术是计算的基础,但是随着现在时代的不断发展,我们本身也认识到,我们从2010年就开始重新定位我们的公司,要用计算去改变人们的生活,让世界更美好的愿景。在这个基础之上,我们不再是一个芯片公司而是一个计算公司。无论是从手机还是嵌入式设备到后台的高性能计算,任何涉及到计算的,我们都应该感兴趣。我们看到了物联网和移动计算的发展,大数据确实是一个大家都必须关注的东西。首先涉及到数据的采集、存储、传输、网络,数据处理涉及到了技术问题。恰恰在这些方面,因特尔是有自己专长的。当然在这之上要有软件。所以要看一个硬件、软件上综合的解决方案,优化和打包是因特尔在这方面的优势。现在有一些东西是开源的,但是开源的软件估计财政部门不敢用,因为稳定性、可靠性、可维护性都是问题。
我们已经在几个行业做了相应的优化。比如说电信公司的账单分析,我们做了一些行业的独特的优化、像智能交通对视频图像分析我们做了相应的优化,还有医疗、银行系统的一些优化,这些东西都不在开源社区里头。所以说开源是一个基础,但最后的优化、打包工作是非常重要的。
谈到大数据技术的应用,以电信公司为例,电信公司的客户通讯数据产生的时候是结构化的数据,但是数量太庞大了使得传统的结构化数据分析方式做起来比较吃力,所以现在我们先把它转成非结构化的,然后平行分析处理再写回结构化数据,最后电信公司看到的还是结构化的分析数据。通过这样的办法提高了很大的效率。还有像交通视频监控数据的实时性、即时性、批量处理等问题未来都需要更好的去解决。
我们提供一把“铲子”
《新理财》:您觉得在大数据领域在以后会出现哪些商业模式?
何京翔:我觉得会有只做软件的、也有从硬件一直做到软件的,也有集中在某一个行业里等公司突围出来。作为因特尔,希望形成供应链的关系。当然没有不变的商业模式。
《新理财》:现在大家都在热炒大数据,您觉得是否存在泡沫?
何京翔:我觉得大数据跟其他技术一样,在刚一开始炒概念的时候都有类似的现象,好像又是下一个改变世界的灵丹妙药。然后再逐渐的发现它的局限和其间的一些问题,然后不断去完善渐渐地成熟。很多成功的技术都走过类似的路线。
还有一个公信力的问题需要去解决,如果公信力的问题不解决,那么我们绝大多数的大数据应用愿景都不能付诸实践。还有像政府部门不同部门之间的数据想要共享、去协同分析解决也存在类似的问题。很多问题不是大数据能解决的,大数据只是一个技术手段,当然技术的进步在某种程度上也会对非技术层面的问题形成反馈促进,它将是一个漫长的过程。
《新理财》:刚才咱们也谈到政府部门的数据,这应该是一个很大的金矿,但感觉目前开发利用的还是不够充分。您怎么看待这个问题?
何京翔:这个我也不是特别了解。打个比方,我们只是提供了一把铲子,具体在哪儿挖矿,需要很多方面的努力。像智能交通、电信行业、医疗、金融领域的可以简单理解成露天矿,大数据在这需要分析,这个是一个相对明显直观的问题。但其它方面,像找石油、一些深层煤矿,是否需要和如何使用这种技术手段,这个有待进一步探讨。
《新理财》:你们与各地政府部门经常有合作,在大数据领域,从公司角度考虑最希望政府部门提供什么方面的支撑?
何京翔:有几方面吧,首先,一开始大家都本着开放和解决问题的心态,我觉得这方面目前中国政府做得蛮好的,保持着很好的开放、相互学习的态度。另外一个,希望能给我们行业专业上的一些指导,能够把我们引导到在行业里有影响力的企业去做一些合作。比如现在在财政系统里面在哪一范围怎么去用这些技术,哪块是金矿我们不知道,但是我们愿意去探索。还有一点,一旦有了相应的探索成果,政府如何去引导推广、建立标准。如果在这几方面能够得到政府的指导和帮助,大家都是双赢的结果。还有一点,就是安全性、公信问题如何去沟通、规范。
4结语
当今社会是知识、数据爆炸的时代,大数据知识和技术的快速发展改变了人们原有的生活和工作方式。其被广泛应用于市场营销、工业制造、科学研究、教育领域、医学领域、通讯行业以及网络技术应用等多个领域,有效推动了社会经济的快速发展。而大数据的崛起与数据挖掘技术又有着密切的联系,数据挖掘技术的快速发展使得大数据能够为人们提供实用和高效的数据信息服务,从而使人们在生活和工作中,能够利用数据变化的规律或事物数据之间的联系,研究出其未来的发展趋势,从而作出正确的决策,因此数据挖掘技术能有效提高人们的生产、制造水平和效率,并且能为人类企业生产的决策提供科学、合理的数据依据,使得人类的各项活动能够安全、快速开展[8]。
参考文献
[1]卢建昌,樊围国.大数据时代下数据挖掘技术在电力企业中的应用[J].广东电力,(9):88-94.
[2]马遥.计算机数据挖掘技术在CBA联赛中的应用理论研究[D].郑州:郑州大学,2014.
[3]曹莉.刍议大数据时代的数据挖掘与精细管理[J].经营管理者,(18):191-192.
[4]李平荣.大数据时代的数据挖掘技术与应用[J].重庆三峡学院学报,2014(3):145-147.
[5]韩英.浅析大数据时代的数据挖掘与精细管理[J].成都航空职业技术学院学报,2013,29(4):63-71.
[6]丁岩,杨庆平,钱煜明,等.基于云计算的数据挖掘平台架构及其关键技术研究[J].中兴通讯技术,2013,19(1):53-56,60.
[7]赵倩倩,程国建,冀乾宇,等.大数据崛起与数据挖掘刍议[J].电脑知识与技术,2014(33):7831-7833.
公司在2017年08月24日 — 08月27日组织参加了在北京举办的“大数据建模与分析挖掘”培训班,首先感谢公司给予的这次难得的机会,虽然只有短短的3天时间,但是我觉得在这3天我得到了一个充分的学习。下面我就谈谈这次培训的一些体会。
1、对数据建模和挖掘体系有了更深入的了解
培训中讲了大数据底层架构hadoop、spark的组成、了解了HDFS、mapreduce、hive、Hbase等组建的应用场景,并且也涉及了大数据架构与数据挖掘技术的结合,对整个大数据体系架构及数据挖掘流程更进了一步。
2、了解了挖掘模型的底层的原理
虽然实际工作中对数据挖掘模型更多的是侧重应用,但是了解了模型原理有利于对模型进行改造升级。培训中学习了一些模型求最优解的方法和策略,了解了最小二乘法、贪心算法、熵值法在求解模型系数时的应用原理,通过培训对模型底层算法有了一定了解。
3、学习了一些最新的建模方法
在以往的建模中往往采用单一模型或者多个模型权重结合的方式进行模型建立,此次培训中老师讲到了级联模型的应用,通过多个模型的等级级联,使预测模型的损失函数值最小且避免过拟合,并引入了xgboost高拟合模型,通过此次培训,对最新的建模方法和模型包有了一些了解。
4、确定了下一步学习的方向和目标 通过此次培训了解到自己在数据挖掘的道路还很长,对整个体系的全面掌控、建模的高准确性、深度学习等方面都是自己未来发展的方向,后续工作和学习中,根据公司需要确定优先深入学习的方向。
5、规划将学习的知识应用到实际工作中
摘 要:联系时代发展,数值分析列为应用统计专业的专业基础课。考虑信息时代与数据时代的特点,对应用统计专业的数值分析课程教学内容进行再梳理,教学模式进行更新。开设专题,突出大数据与数值分析的联系,促使大家共同思考,逐步树立大数据理念。数值分析课程教学的深度改革以及教师与学生间的深度配合,培养创新性人才。通过系统学习和改革措施,取得一系列优秀成果。
关键词:大学教育 数值分析 大数据 专业课
中图分类号:G420 文献标识码:A 文章编号:1674-098X(2016)01(b)-0115-02
大型线性方程组,特别是大型稀疏矩阵方程组,为减少计算量、节约内存、充分利用系数矩阵拥有大量零元素的特点,使用迭代法更为合适[1]。插值、拟合、逼近、数值积分与数值微分、范数等无一不是在建构数据关系。
大数据是新事物吗?天气、地震、量子物理、基因、医学等都是大数据所在,借鉴他们的方法有益。过去多用统计类方法,如用抽样调查。这正是应用统计专业人士擅长的。互联网数据挖掘方法论也如此,不同的是:因为人的复杂性,所以更难。既然是关于人的研究就需应用所有研究人的方法梳理大数据。只要懂编程、懂调动数据的人就可以做大数据挖掘的说法显然不准确,因为移动互联网对社会生活的影响本质是时间与空间的解构。
2013年一年产生的全球信息量已经相当于人类文明史当中资料的总和。处在一个数字时代,价值判断主要通过大数据分析,颠覆性的创新以一个不可思议的速度在进行着,每个人必须要去适应。2015年李克强总理曾提出“数据是基础性资源,也是重要生产力”的重要论断,强调中国发展大数据产业空间无限。“海量数据如果能彼此打通,从这中间可以产生出大量的新知识。”中国工程院院士潘云鹤在由中国工程院主办的国际工程科技知识中心2015国际高端研讨会上说,“大数据的出现,表明信息开始独立于人,开始形成单独的空间,今后大数据一定会走向大知识时代。”
必然的时代变化,可怕吗?正视、拥抱?在变化中似乎更能感受到数学专业、尤其是应用统计专业的优点:韧性好、潜力足、回旋空间大。不过,相应的调整与变化也是必须的。数值分析曾经是我校应用统计学专业的选修课程。考虑到信息时代与数据时代的新特点,也在努力地用心地迈向大知识时代,而今数值分析已经成为我校应用统计专业的必修课,一门专业基础课。教学与成长
身为教师,都明白:从改变和提高自己开始,才有成功的教育。与学生们一起经历那一段无可替代的完整的生命体验,自然不是能由碎片讯息和夸张视频可以取代的。因此我们一直都在学习,不断提高教学的本领与技巧,更好地直面生活中众多的选择,并由此观察、体会、领悟全新的生活方式:改变着我们对自身以及人类关系的理解;影响着城市的建造和经济的变革;甚至改变我们成长与成年的方式,也改变着人类老去甚至去世的方式。
尽情地用心做足诗外功夫。尽心尽力地完成教研工作,认真钻研、用心备课、与时俱进,切实把握好重点难点和必要的知识细节,不断改进教案,启发创新思维,开展研究型教学,拓展相关应用的前沿、热点,通过理论分析与数值编程两个手段相结合,拓展研究前沿和实际应用,提供有益的研究信息和潜在思路。精心制作教学课件、算法编程与可视结果,调试正确高效的源程序代码,必要时可以运用多种模式教学、布置大作业。
学生维度方面,发挥主观能动性与学习自主性。不论课堂内外或是线上线下,我们都努力贯彻这样的学习过程:自学(寻疑)、互帮(答疑)、倾听(释疑)、群言(辨疑)、练习(测疑)和反思(质疑)。答疑、释疑和辨疑过程可以出现在同学之间以及师生之间。努力充分开发理解的认识性、道德性、感情性、实践性与创造性及其综合而成的理解的特殊本性,借此更好地提高教育实践的合理性。这样,无论教师还是学生,都处于理解的教育之中,可以更好地理解自己和他人,因而能被别人更好地理解。同时,作为影响其他教育条件更好地发挥作用的关键因素,在其他教育教学条件基本稳定的前提下,更好地发挥多角度理解的作用,从而收获更好的教育教学效果。
习题采用书面撰写与上机编程相配合来完成,布置有关实践应用的大作业,力求考试学术和创新素质的结合与统一。通过教学、科研、动手编写和调试程序,使学生掌握数值算法的构造原理和分析过程,熟悉设计算法的原则和思路,把握已有算法的优缺点、应用面和发展前景,提升知识的融会贯通,能够结合自己的专业和问题来考虑新数值算法的改进与应用。尝试面对科研实际中遇到的问题选择、应用和改进相应的计算方法,从而提升知识应用和思维创新。
每章学习过程中,我们都一起思考相应的数据复杂性、计算复杂性、系统复杂性和学习复杂性等多个方面带来的挑战;同时思考从数值分析出发的相应对策与处理措施。而且,我们开设几个专题,如从数据出发的建模与数值分析、大数据与计算方法的加速处理、大数据中误差的优化及与新方法的生成等等,突出大数据与数值分析的联系,促使大家共同思考,希望因此逐步树立大数据理念,加强目标、模型、数据、技术等多个方面的协同创新。尝试着对数值分析课程教学的深度改革、教师同学生间的深度配合,希望能超越因材施教,也盼望着能接收到超出想象的答案,从而让创新性人才凸现。
整个数值分析课程教学过程中,关注学生的成长过程,更加注意到学生正在寻找自己,构建自己的知识结构,以及他们的变化和发展。若以此为目标进行教改,改革必然会持续进行,一定能帮助学生了解自己,准确定位,为学生必然发生的变化做准备,而非将学生当作已经固定的人才实施因材施教。坚持抓反思、求提升,抓精细、求完美,抓执行、求速度,抓流程、求效果。期望着大家能有超越数据的视野与胸怀。成效
通过系统学习和改革措施,促使教学双方充分发挥“教师的主导作用,学生的主体作用”。教师的教学与科研得到良性发展,促进研究型教学展示,为在新时期培养创新型、复合型、高素质人才做出点滴贡献;学生掌握经典算法和了解了应用前沿,提高数值算法效率和数据分析能力,为利用计算机有效解决科学计算中的问题打好基础;也为更从容地面对世界的柔性、智能、精细发展奠定了基础。
用心投入实践中的好课与好课的实践[2],发表了一系列相关教学论文。持续开展:数值计算方法及相关课程教学改革的研究与实践;模块化、互衔接的数学类课程群优化的研究与实践;数学教育实验中心运行机制与管理模式的研究与实践;多元化人才培养模式的研究与实践。有如下书籍出版:
《应用数理统计》,机械工业出版社,2008。
《数学物理方程》,科学出版社,2008。
《数据库基础教程》,电子工业出版社,2009。
《基于MINITAB的现代实用统计》,中国人民大学出版社,2009。
《气象统计预报》,气象出版社,2009。
《Numerical Analysis and Computational》,MethodWorld Academic Press,2011。
《数值分析与计算方法》,科学出版社,2012。
《数值计算方法理论与典型例题选讲》,科学出版社,2012。
《Minitab软件入门:最易学实用的统计分析教程》,高等教育出版社,2012。
2012年,这里被确立了教育部专业综合改革试点专业。同年,拥有了中央财政支持地方高校发展――科研平台和专业能力实践基地建设项目,以及多项江苏省及国家级大学生实践创新训练计划项目,如基于地面以及CHAMP卫星数据的地球磁场区域建模研究,基于GPS和实时数据的青奥会期间公共交通调度优化研究,南京市PM2.5监测站分布合理性调查与分析。
2011获年教育部颁发全国大学生数学建模竞赛全国特等奖(高教社杯),全国唯一。2012年摘下全球仅7项的美国大学生数学建模竞赛ICM特等奖。
2015年全国大学生数学建模竞赛获国家一等奖四项、二等奖六项;2015首届中国“互联网+”大学生创新创业大赛金奖;在2015年全国大学生电子设计竞赛中获全国一等奖3项、全国二等奖4项。获奖数量和质量均取得历史性突破,展现了当代大学生的大气、生机和活力。
难怪,世界著名数值分析专家牛津大学教授Floyd N.Trefethen和David.BauIII指出:“如果除了微积分与微分方程之外,还有什么数学领域是数学科学基础的话,那就是数值线性代数。”
参考文献
1.1 大数据崛起
大数据如浪潮般席卷着全世界,冲刷着地球的各个角落。从政府到商业科技、教育、医疗、经济、人文还有社会的其他各个领域都无时不能看到大数据的影子,图1(来自《佛诺:执掌大数据把握信息时代脉搏》)所述就是大数据在各个行业的应用。大数据是指数据量特别大、数据类别特别复杂的数据集,这些数据集无法用传统的数据库进行存储,管理和处理。维克托·迈尔·舍恩伯格和肯尼斯·库克耶在《大数据时代》中告诉我们大数据的4V特点,即Volume(大量)、Velocity(高速)、Variety(多样)、Veracity(真实)[1]。
数据量已达到了人类无法想像的程度这是大数据时代的一个最显著的特征,据有关数据统计,近两年内人类所产生的数据占有史以来全部数据的百分之九十以上,从图2(选自《大数据时代,我们还有隐私吗?》)可以显而易见的看出大数据在近两年内的增长是巨大的。由此图表和相关报道可见,大数据时代是真的来临了,大数据时代的特征不仅仅在数据量极为巨大这方面上,而且包含着信息量也非常巨大这一特征。表面上看也就是大量复杂的数据而已,这些数据本身的价值并不高,但对这些复杂的数据进行分析处理后,却能从中提炼出很有价值的信息。对大数据的分析,主要分为五个方面:可视化分析(Analytic Visualization)、数据挖掘算法(Date Mining Algorithms)、预测性分析能力(Predictive Analytic Capabilities)、语义引擎(Semantic Engines)和数据质量管理(Data Quality Management)[2]。
1.2 数据挖掘
数据挖掘在智库百科中的描述是这样:数据挖掘是一种决策支持过程,它主要基于数据库、人工智能、模式识别、机器学习、可视化技术、统计学等,高度自动化地帮助企业分析数据,归纳数据然后从中挖出潜在的模式,帮助决策者调整市场策略,减少风险,从而做出正确的判断。数据挖掘又被称为数据库中的知识发现,是目前数据库领域和人工智能领域研究的热点[3]。发现的知识被用于查询和优化、决策支持、信息管理和过程控制等,还可用于数据自身的维护。以前人们对数据的应用只是低层次的简单查询,而数据挖掘可以把这种应用提升到从数据中挖掘知识,提供决策支持。
数据挖掘是一种新的商业信息处理技术,主要特点是对数据库中的大量数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据[3]。与传统的数据分析所不同的是,数据挖掘是在未知的前提下去挖掘信息、发现知识的。未知,有效和可实用是数据挖掘的三大特征。常用的数据挖掘方法主要有k-Means、聚类、分类、关联规则、机器学习、决策树、神经网络等[4],它们分别从不同的角度对数据进行挖掘,图3(选自数据挖掘K-Miner)描述了数据挖掘的各种方法。
数据挖掘本质上就是深层次的数据分析方法。纵观数据分析这么多年的历史,我们可以看到过去数据收集和分析的目的是科学研究,而且由于当时的计算能力有限,对大数据量进行分析的复杂数据分析方法受到了很大限制。而现在,各行业业务都实现了自动化处理,商业领域因此产生了大量的业务数据,收集这些数据的目的不再是为了分析,而是为纯商业的利益产生。分析这些大量的数据也不再是研究需要,更多的是为商业决策提供有利的信息。现今所有企业都面临的问题是:想要从巨大的企业数据量中提取出真正有价值的信息就像从矿石中淘金一样难,而数据挖掘也是因此而得名的。因此,数据挖掘的另一种定义是:按企业的业务目标对海量的企业数据探索和分析,揭示隐藏的、未知的或验证已知的规律性,进一步将其模型化成为先进有效的方法[5]。
2 大数据与数据挖掘的关系
2.1 大数据时代的数据挖掘
大数据时代在近两年颠覆了人们过去的数据时代,它带来的数据革命给人们的生活带来巨大的影响,不仅如此,还将对企业的组织、决策、业务流程等产生相当大的影响。大数据时代,人和人之间的界限已经模糊到没有国界,甚至没有任何疆界。在这里值得一提的是,大数据时代中人类最宝贵的资产不是金钱、权利而是数据,数据会带领我们寻找正确的路,它才是我们21世纪最为宝贵的财富。但是这些“财富”却像一座藏宝之山一样被层层包裹着,这就需要人们用一把钥匙来开启这座藏宝之山,而这把钥匙就是—数据挖掘。
数据挖掘在企业中的应用通过对海量数据建模,对这些数据模型进行整理和分析,得出对企业有用的数据来帮助企业分析不同的客户或市场划分,从而得到消费者的喜好,然后投其所好找出企业正确是运营方式。这些大量的数据中可能隐藏着某种企业所需的规律性的东西,通过建模就可以利用模型自动从海量数据中找出这种关联性[6]。数据挖掘通常是会与统计分析中的一些方法联系起来应用,所以说想要掌握数据挖掘,统计分析也是必不可少要了解的。
2.2 大数据时代数据挖掘的意义
数据挖掘在大数据时代有着其他工作都无法替代的意义,人们透过对大数据的各种分析,可以对现有的企业决策提供强大数据支持的意见与建议。目前,几乎所有500强企业中的管理建议都是伴随着数据作为理论依据而提出的,即便是国内的中小企业在分析和解决问题时也开始倾向于用数据说话,不掌握大量数据是无法提出科学合理的建议的。此外,当大量的数据量积累到一块的时候,数据自己也会说话,对这些数据进行分析和处理之后,人们就可以从海量的数据中发现商机。我们日常中的海量交易数据中隐藏的都是客户的喜好甚至是市场未来的发展趋势,企业如果将这些数据提取出来进行挖掘分析会得到意想不到的结果,充分利用这些数据对于企业的生存发展有着极其重要的意义,所以说哪个企业更加了解市场,更加接近市场,它就将从竞争中脱颖而出。我国传统的数据管理思维方式关注的仅仅是静态程序预先提供给企业的固定内置功能,而这些预置的功能带给企业的帮助是十分有限的,企业必须依靠海量数据的分析来更好地为客户服务,更好地占领差异化市场,更好地完善企业内部的各项工作。
2.3 大数据时代数据挖掘的应用领域
医学领域:在医学领域,2003年算是大数据涌现过程中的一个里程碑。那一年第一例人类基因组完成了测序。在那次突破性的进展之后,数以千计人类、灵长类、老鼠和细菌的基因组扩充着人们所掌握的数据。每个基因组上有几十亿个“字母”,计算时出现纰漏的危险催生了生物信息学。这一学科借助软件、硬件和复杂算法之力,支撑着新的科学类型[7]。
教育领域:在教学管理过程中,如何全面掌握学生的学习状况、选课情况、心理状况、教学评价以及教学资源的最优化配置等信息,都可以使用数据挖掘技术来解决[8]。
科学研究:除了医学和教育业,数据挖掘在科研领域也正风起云涌。越来越多的设备带着更加精密的传感器,传回愈发难以驾驭的数据流,于是人们需要日益强大的分析能力。在石油勘探、气象学和天文学等领域,数据量的井喷式增长对更高层次的分析和洞察提供了支持,甚至提出了要求[8]。
3 总结
比如我老公,淘宝的报告显示,他的消费金额超过了85%的北京市同龄GG,消费次数超过90%,他最爱买衣服、健身用品和3C用品。我必然要手戳他的额头:哟,你这个华而不实的老潮男。
反观我:我的消费金额超过了85%的北京市同龄MM,但我的消费次数相当低,只击败了29.3%的人,证明咱绝不是没事在网上乱花钱的主儿;再看消费领域,排名第一是母婴用品,第二是文化书籍,第三是为老公的信用卡还账——活脱一个又有爱又有精神追求的当代贤妻良母啊。
又比如,手机淘宝有个新功能,叫“生活圈”。点进去后,可以看到和你位于同一收货区域的人都买了什么东西。有位上大学的小朋友点进去后,高呼“太凶残”:除了大量的山寨衣物,还有让他脸红心跳的BL(boy love )本子,以及数量不小的验孕棒……他深恐如此深入掌握本校购物大数据后,会忍不住要对同学们进行一番对号入座,只好悻悻关闭了这一功能。
全世界的商界人士都在高呼大数据时代来临的优势:一家超市如何从一个17岁女孩儿的购物清单中,发现了她已怀孕的事实;或者,将啤酒与尿不湿放在一起销售,神奇地提高了双方的销售额。中国商家更是把这种做法推行到了极致。一个广为流传的帖子写道:我错了。有微博说淘宝大部分棺材包邮,我就真去看了一下,真的很多都包邮。但是,请不要再天天给我推荐棺材、寿衣、骨灰盒了,好吗?
我的一位女友抱怨,自从很多新闻网站改为根据用户的点击记录为其量身定做新闻浏览页面后,她的电脑上满屏都是凶杀和色情。“可那真的不是我的趣味啊!”我们只好友情提醒她,是否该重新评估下男友的品位?
大数据透露出来的信息有时确实会颠覆三观。比如,腾讯一项针对社交网络的统计显示,爱看家庭剧的男人是女性的两倍还多;最关心金价的是“中国大妈”,但紧随其后的却是90后。而在过去一年,支付宝中无线支付比例排名前十的,竟然全部都在青海、西藏和内蒙古地区。
有人针对Facebook上25岁以上、填写了婚姻状况和学历的用户做了一次大数据分析,结果发现,15%的用户与他们的伴侣就读于同一所高中。如果在高中时没碰到终身伴侣,大学还有机会,因为有28%的人是跟大学同学结的婚。
【大数据与生活论文】推荐阅读:
大数据环境论文06-09
大数据与《数值分析》教学实践07-19
大数据时代药物化学教育创论文09-23
大数据时代管理会计研究论文11-24
让语文小课堂与生活大课堂结合教学论文11-30
大数据失败案例09-11
大数据品牌建设10-03
大数据联盟宣言11-14
行业大数据建设方案05-28