毕业大数据报告

随着国民文化水平的提升，报告在工作与学习方面，已经成为了常见记录方式。报告是有着写作格式与技巧的，写出有效的报告十分重要。下面是小编为大家整理的《毕业大数据报告》，欢迎阅读，希望大家能够喜欢。

第1篇：毕业大数据报告

大数据时代财务报告及其未来模式研究

摘要：大数据时代的财务报告发展正经历着严峻的变革，财务报告从事后报告向着事前报告转变，从事后反映会计信息数据向着为企业提供预测未来转变，凸显出新时期财务报告服务企业财务管理与发展的综合性。财务报告在大数据的支持下未来发展利弊参半，要在深刻把握大数据技术特征的基础上发挥财务报告的前瞻性与战略性价值，为增强企业竞争实力、抵御风险能力、创新发展能力提供支持。本文介绍了大数据时代的含义、特征与发展趋势，深入分析了大数据时代财务报告的发展趋势以及其对于财务报告发展的影响与要求，并就财务报告未来模式中的“多维”特征进行了探讨，希望能为财务报告的改革、创新与发展提供参考。

关键词：大数据;财务报告;发展趋势;未来模式;多维

大数据时代的到来将会深刻影响商业世界的发展，这已经是世界公认的常识，ACCA(特许公认会计师公会)与IMA(美国管理会计师协会)近年来就研究大数据对新时期财务管理与会计的影响进行了探索，指出了大数据时代的到来将会对各种规模的企业、政府以及监管机构利用这种非结构化信息财富的可能性，也指出了大数据所带来的法律和道德上的潜在风险。大数据时代的财务管理与报告将会以全新的模式进行发展，这就需要会计与财务管理人员充分把握大数据时代特点，变革自身会计管理思维与技术，推动财务管理与报告的进步、创新与发展。全球化经济背景下大数据时代的到来促使不同区域企业交流合作越来越频繁，有关财务报告信息的真实性、及时性都受到了挑战，在缺乏内部信息有效管理与披露的情况下，传统财务报告根本无法就企业商誉、战略管理、资源配置、发展规划等进行确认，无法改进的传统财务报告模式已经严重滞后于企业管理与发展，导致了诸多财务问题，因此如何利用大数据时代的优势推动现代财务报告的发展，积极探索未来实践新模式成为了困扰企业革新的典型难题，深入研究新时期财务报告发展变革的理论基础与方向有着不可忽视的重要意义，对于指导企业财务有着极为突出的指导意义与现实价值。

一、大数据时代的含义、特征与发展趋势

1.含义

大数据时代这个概念的传播源于美国奥巴马政府在2012年高调宣布了其“大数据研究和开发计划”，这一标志意味着大数据真正开始介入社会经济生活。互联网时代大数据的定义为：通过创新性的架构、设计与应用以更加高效率、经济性的手段针对海量数据，从中获得价值较高的信息，与这类技术相关的数据创新发展都可归类于大数据。

2.特征

大数据典型特点为数据体量巨大，从TB级别到PB级别;数据处理速度快，遵循1秒定律，并且区别于传统数据挖掘技术;数据类型种类繁多，涉及音视频、图片到地理位置信息等;价值密度低、商业价值高，海量数据中总有价值较高的可供使用数据。大数据时代的到来促使人们在信息数据收集、处理和应用时转个人思维，这种思维上的转变带来的行动变化是推动社会与经济发展进步的重要动力。

3.发展趋势

大数据时代的到来改变了传统面对信息数据更多依赖抽样分析的现状，可以通过收集、处理所有数据以更加直观、鲜明的方式把握数据的特征与变化，无论是数据处理的量与层次都有所提升。大数据时代的数据挖掘不在热衷于数据处理的精度，由于大数据种类多样、信息优劣参半，所以更加注重追求数据处理的效率，通过强调数据的完整性与混杂性帮助人们更加接近事情的真相，从而获得更为完整的数据概念。大数据时代人们不再热衷去探寻不同数据之间的因果关系，而是更加注重研究如何利用这些因果关系去获得更多有加之的信息，以此来捕捉、预测未来。

大数据时代的新思维带来了现代财务会计管理的新变化，使得财务管理出现新思维、新方法与新技术等方面的变革，无论是会计工作人员还是审计人员工作模式都将发生新变化，财务报告所承担的管理责任也愈加重要，这对于现代财务管理模式的创新有重要意义。

二、大数据时代对财务报告发展影响分析

1.财务报告发展趋势

大数据时代与云计算、物联网等并称为推动经济发展的三大关键动力，大数据时代的到来从根本上改变了现代财务管理的思维与发展趋势，提供了诸多可用的新思维、新技术与新方法，这就要求在全新的发展环境下合理把握大数据的特征，积极应用全新的观念与技术推动新时期财务会计与管理的创新与发展。

大数据时代的到来使得现代财务报告管理模式从事后报告向着事前报告的模式转变。传统财务会计管理中，财务报告的编制基本上集中在企业生产经营业务等活动发生之后，且财务报告编制涉及数据滞后性较强，编制过程漫长，多数需要三到四个月才能完整一份高质量的财务报告，这无疑严重损害了会计信息利用的及时性与有效性。大数据与信息技术的介入使得现代企业财务报告的重要性更加凸显，利用大数据的信息收集与利用技术编制实时财务报告成为可能，提升了会计信息利用的实时性与效率，可以说，实时性财务报告代表了大数据时代的信息技术交叉融合带来的优势，是会计信息化条件下与新思维、新技术、新方法联合发展的必然产物，尤其是对于企业数据、业务风险实时性控制要求较高的特定企业如银行、证券、保险等，实时财务报告的应用价值更高。大数据时代，企业想要实现实时财务报告，就必须在企业内部局域网中高度实现会计信息系统与企业管理系统的数据集成，建立企业专门数据中心库奠定数据利用的良好基础;或者可以将企业数据库与国际互联网相连，利用来源于外部国际互联网的帮助完成实时财务报告系统的改造。另外，实时财务报告系统的打造与建立也可通过会计人员对数据信息库进行网页化处理后供内部工作人员浏览，通过设定相应权限提供给不同部门工作人员定制自身所用信息，或者利用ASP等动态页面生成技术即时生成财务信息，为会计信息的高效提供提供有效途径。

大数据时代的到来促使财务报告从事后反映向着预测未来的方向发展。大数据时代的会计工作人员需要更加有效的探索如何高效利用信息资源为企业提供管理、经营风险预测手段，做到有效辅助决策、防范经营风险，实现企业经营、管理效益与效率的提升，增强企业发展、竞争实力。大数据有利于会计从业人员专业素质的提升，在工作中更好的发挥会计信息的战略性与前瞻性指导价值，工作人员通过利用各种技术收集、存储、传输、挖掘海量数据改变了会计工作的质量与中心，从以往的抽样式信息采集向高效率数据分析、挖掘方向转变，为企业经营发展提供可靠的预测，并且为企业股东及利益相关者创造更多财富。对于企业而言，大数据时代的财务报告想要高质量实现预测未来这一功能优势，至少要做好三方面的工作，一是制定符合企业管理的数据评估方法与服务模式，在遵循法律法规的前提下高效完成企业数据资产的管理，通过合规管理与内部控制发挥数据预测价值;二是针对发展现状提供针对性、可用性更强的决策支持，通过实时财务报告等途径决定何时与外部、内部利益相关方分享数据最为有效;三是利用的大数据提升企业识别风险能力与会计服务质量，融入企业经营管理全程有效分析发展中所面临的短期与长期风险并做到合理规避。

大数据时代的到来促使财务报告发展朝着综合管理理念的方向发展。财务报告中对财务活动的反映不再局限于传统会计模式与领域，报告开始向着研发、销售、人力资源管理等多个部门与领域进行渗透，财务报告中将与企业业务有关的一切数据进行收集、处理与分析，并为财务管理、企业经营管理提供多类可用信息。大数据的应用使得现代财务报告开启了更多财务管理领域与范围，许多原本不属于传统财务管理范畴的业务将会迅速进入大数据时代财务报告视野，着重凸显了自身综合财务管理的特征。综合财务管理方向的发展正是因为有着大数据技术的支撑才得以实现，实时财务报告的出具正基于有效的企业信息数据挖掘才能够得到更多可用的信息，为企业决策、发展与经营管理中错误的减少提供了切实保障，减少企业发展中承受的系统性风险，并提供更加准确的未来发展预测。大数据的应用便于财务人员在出具财务报告时迅速捕捉异常数据，精确分析企业风险波动，方便企业提前采取有效举措对抗潜在风险。综合财务管理模式的推广与实践无论是对企业财务管理领域与深度都有明显拓展，包括企业行业背景、竞争能力、无形资产、产品价值、财务状况等信息在内的综合评估可做到真正知己知彼，从而为提升企业的核心资源价值与核心竞争力提供可靠支持。

2.对财务报告发展的影响与要求

财务报告作为企业财务管理的一大核心要素，在大数据技术的影响下出现了多种新变化，无论是对于企业而言还是对于经济发展形势而言都有着不可忽视的深刻影响。在ACCA和IMA最近开展的一次调查中，有76%的亚太地区受访者和62%的全球范围内受访者认为大数据对企业未来极其重要，具备赋予有远见卓识的企业超越竞争对手优势的潜能。正是在大数据的支持下企业所能接触、收集到的数据数量与种类以爆炸式的速度增长，为企业的进步发展提供了一个庞大的潜在信息资源宝库，依靠大数据对于信息的组织、理解与分析能力，企业无论是进行重大决策还是重大投资都必将更加有据可依。目前财务报告管理中大数据的重要性已经不是何时凸显的问题，而是这种重要性已经不容忽视，对于会计信息的分析与应用才是大数据技术的关键所在，可谓是近年来财务管理改革创新的最大机遇。企业财务部门如果能够做到积极应用这些分析技能，就将会为企业高级管理层提供更多关系到企业未来发展变化的实时动态，真正增强企业战略核心的地位与价值。企业内部财务部门所出具的财务报告再也不能局限于仅提供年终报告，大数据技术的应用让更多财务管理的想法变为现实，财务部门的职能也将会发展更加重要，结合财务部门专业技能与职业道德来看，其终将成为企业战略成功的重要基石。

不过，不可忽视的是，虽然大数据技术的应用带来了诸多便利与发展机遇，对企业产生了诸多积极影响，但是同时大数据也暴露处了不少需要政府与企业高度重视的信息安全与隐私等问题，有关企业信息数据的保护与个人隐私的保护已经成为目前制约大数据进一步发挥自身价值的关键问题，未来的大数据利用与发展中必须处理好有关道德与法律的雷区，以便确保技术应用的合法性与有效性。

大数据时代企业财务报告的工作模式要求会计人员必须摈弃以往孤立工作的理念，更多的探索跨部门合作的可能性，数据本身以及重要的数据分析结果要进行有效分享，从而确保企业能够制定更加明智的、且符合自身发展的有效决策，提升自身抵御风险的能力。目前大数据应用中有关数据资产的估值仍旧处于摸索阶段，虽然财会行业已经研究出了一些可用的估值或者审计方法作为大数据技术应用的基础指南，但是目前仍旧需要在发展中进一步开拓思维，以跟上科技进步的步伐，为企业考虑新形势下应当如何改变与调整实现企业增值的目标。围绕企业增值这个大目标，企业财会人员从思维、理念、知识、经验、技术、实践等各个方面都要做出新变化，以确保能够真正实现与数据仅，为企业的壮大发挥重要支持作用。大数据时代的财务报告呈现多元化与多维化特征，财会工作人员本身既不是数据科学家也不是软件工程师，但是未来在出具实时财务报告方面他们必然会兼具这两种角色的特征，以便更好的决定数据虚拟化时代会计信息的挖掘利用程度，并将公司财务内容及非财务数据进行高效整合，以便为企业决策、发展服务。大数据时代的到来让越来越多的人意识到财务变革的重要性，财务报告的诸多新特征也模糊了财会人员的职业特征，在财务管理中更多的发挥财务报告的前瞻性与战略性作用，从而利用大数据时代的变革为企业的发展提供充足潜力，并利用这种影响力实现企业未来的变革与创新。

三、大数据时代对财务报告的未来模式研究

1.多维特征

就目前大数据技术的发展与应用趋势来看，未来企业财务报告的发展模式更多将会凸显出“多维”这一特征，多维会计是将平衡积分卡、作业成本法与三式会计等现行会计管理理论的优势进行融合，依托互联网与信息技术完成企业经营价值活动的记录，以业务表单为核心依靠大数据支撑形成包括现金流、核算流与管理流等在内的业务分录，将人力资源，企业经营、内部控制、客户服务等非财务指标有效融合，从而构建起出具实时财务报告的多维信息服务系统，凸显出大数据模式下数据信息的共享价值与战略价值。

多维信息会计服务系统将企业纷繁复杂的数据信息环境按照价值链条进行重新规制整理，对财务报告体系进行优化，将价值链条上的每一项活动都以业务分录的形式进行全面记录，并制成具有高度参考价值的业务表单，表单内容至少涵盖九大要素，分别是主干层次主题、对象与内容，辅助层次时间、空间与方式，实现层次目标、保证与价值。这种多维业务表单分录模式将各类价值活动信息进行统计与整理，按照核算维度、表单维度与管理维度进行分类，核算维度中主要囊括现金流、税务、会计等维度，表单维度主要囊括表单类型、对象、时间、执行人等要素，管理维度主要囊括评价维度、预算维度、动量维度等内容，将企业经营管理的价值活动、业务表单、多维分录到各个会计报告中，真正实现了企业潜在财富区间分析、管理经营协调、战略决策协同与多元计量属性确认等目标。大数据时代下多维会计报告的应用与发展代表了企业财务管理领域的边界革命，这种改变财务报告对象领域深度与广度的全新报告模式改变了对企业价值的评估与影响，企业动态经营收益的预测成为可能，利用企业董事会公告、公信第三方数据分析与公司经营治理等信息披露获得企业经营管理关键数据信息，为挖掘企业信息潜在战略价值提供了更多的可能性。可以说，多维财务报告模式的应用推动了管理会计与财务会计的融合，为企业制定最优发展战略、规避重大经营风险、执行最优决策提供了强有力的支持。

2.多维财务报告体系

多维财务报告体系的设计核心是企业的价值活动，假设某地区某公司近期内有三笔重要业务，对这三笔业务通过多维分录表、综合收益表及财富表分析可以直观的展现以企业价值活动为中心的多维财务报告应用功能与优势。假如企业这三笔重要业务分别为企业融资、企业生产存货成本管理与月收入管理，这些价值活动均属于企业运营活动范畴，描述企业上述价值活动的运动过程就要运用到多维理念，多维财务报告中将企业的各种核算流、计量属性等进行统一整合，并且在各个多维业务分录表中得以体现，从而为企业管理层、投资层及其他各个相关部门提供切实可依的决策支持。比如企业融资考虑到了企业自身自建固定资产的历史成本与商业价值，企业董事会可依据这一财务报告作出是自用还是出租的决策，企业生产存货成本管理则考虑到了市场波动对于原材料价格影响的变化，考虑到了自己市场份额、出货量的变化，对于企业而言可依据这一财务报告决定是否增产或者减产。依据财务报告中对企业价值活动效益的分析，企业需要运用到大数据技术，同时利用这种技术更好的调节了企业价值链活动环节的优劣，真正从管理维度实现了满足客户要求、提升企业经营效率与质量等目标。多维财务报告各种维度的分录表详细的记录了企业运营信息，通过表单中记录的不同价值活动的情况可准确计算出企业融资周期、运营周期与投资结算周期，有助于更好的进行行政管理决策与市场融资、投资活动决策，无疑为企业更好的抵御市场风险、提升竞争与经营能力提供了可靠支持。

四、结束语

综上所述，大数据时代财务报告迎来了全新的发展变革，财务报告发展趋势从事后报告向着事前报告发展，从事后反映向着预测未来的方向发展，促使财务报告发展朝着综合管理理念的方向发展，从根本上改变了现代财务管理的思维与发展趋势。财务报告发展在大数据时代的影响下利弊参半，要积极应用新思维、新技术与新方法在全新的发展环境下合理把握大数据的特征，在财务管理中更多的发挥财务报告的前瞻性与战略性作用，为企业的发展提供充足潜力，推动新时期财务会计与管理的创新。多维信息会计服务作为财务报告未来发展的典型特征，推动了管理会计与财务会计的融合，为企业制定最优发展战略、规避重大经营风险、执行最优决策提供了强有力的支持，有利于大数据时代企业财务报告应用价值的充分发挥。

参考文献：

[1]李琪瑶,张宇虹.财务分析与大数据时代[J].中小企业管理与科技,2015(3):69-70.

[2]任海芝,邵良杉.智能化财务报告模式研究——基于数据挖掘技术的思考[J].辽宁工程技术大学学报:社会科学版,2011(2):140-142.

[3]金如会,陈燕芹.大数据时代背景下的高等美术院校财务管理研究[J].新美术,2014(11):127-131.

[4]熊怡.“大数据”点亮智慧未来——理念上解读实践上应用——大数据时代的国家竞争与企业发展[J].中国电力教育:上,2014(5):18-23.

[5]王艳.大数据时代企业会计信息质量研究[J].理财：学术版,2014(4):87-89.

[6]王晖,段文军.大数据时代下“财务分析”课程建设[J].中国电力教育:上,2013(9):111-112.

[7]丘创.财务报告生成的新趋势[J].首席财务官,2014(1):57.

[8]李廷军.大数据时代企业财务管理的变革[J].河北企业,2014(12):19-20.

[9]郭锐.基于大数据和云计算的企业财务管理研究[J].知识经济,2014(18):109-110.

[10]张黎,宋小南,韩荔.基于大数据时代下推进财务信息化的研究[J].现代商业,2014(36):262-263.

[11]申玲.大数据时代下财务人员的转型出路研究[J].中国乡镇企业会计,2014(11):286-287.

作者：俞红梅吴启高

第2篇：大数据背景下基于档案数据分析毕业生就业状况

摘要文章以华中科技大学数学与统计学院本科毕业生为例，根据近十年馆藏学生档案数据，通过数据分析的方法，研究本科毕业生就业状况。为进一步挖掘馆藏数据分析社会热点问题做好基础和准备。

关键词档案数据数据分析社会热点问题

一、引言

华中科技大学是国家教育部直属的全国重点大学，由原华中理工大学、同济医科大学、武汉城市建设学院于2000年5月合并成立，是首批列入国家“211工程”重点建设和国家“985工程”建设高校之一。华中科技大学数学与统计学院始建于1953年，经历了由数学教研室、数学系到数学与统计学院的发展历程。经过几代人的努力，数学与统计学院在学科建设、科学研究、人才培养等方面取得了长足进步，先后于1981年获得应用数学硕士点、1990年获得计算数学硕士点、1993年获得概率论与数理统计硕士点、1998年获得概率论与数理统计博士点[1]。

华中科技大学档案馆馆藏档案共计306458卷，34519件，资料808册(数据截止到2017年3月)，内容涵盖学校教学、科研、管理等方方面面，是学校师生员工长期教育实践活动、科研成果的真实记载。近年来，随着信息技术的发展和数字档案馆建设的持续开展，我馆馆藏档案的数字化工作逐步推进，馆藏80%的档案已经完成了数字化工作，增量电子档案不断丰富，为大数据环境下档案信息的深度利用提供了丰富的数据资源。

本文通过数据分析的方法，根据馆藏2006—2015年本科毕业生名册、就业名册中数学与统计学院数据，对数学与统计学院本科毕业生就业情况进行研究。这是我馆联合我校数学与统计学院、社会学院通过课题立项的方式研究馆藏数据的初步尝试，为进一步挖掘馆藏数据分析社会热点问题做好基础和准备。

二、研究背景

随着经济与社会发展的多元化趋势增强，数学专业毕业生去向逐渐从传统的研究与教学行业拓宽到专职研究、交叉教学与研究、高层次教學、低层次教学、交叉学科的社会行业。工作场合也从传统科研院所、学校扩大到国企事业单位、政府机关、民间企业。

数学专业就业发展趋势符合更为广泛的其他学科的就业趋势。随着高校扩招，毕业生的增加，与专业契合的传统职业趋于饱和状态，加之交叉学科的兴起，对学生综合能力培养的重视，使得当今大学生的就业方向逐渐摆脱传统“窄出路”，向着“宽口径”的方向发展。在这种背景下笔者分析了馆藏数学与统计学院本科毕业生2006—2015年就业数据，以期从中发现大数据背景下数学专业毕业生就业变化的真实情况。

三、数据处理与分析

1.毕业生人数情况。从表1可以看出，2006至2015年，华中科技大学数学与统计学院本科毕业生总计1084人，平均每年毕业人数为108人，最低毕业人数出现在2009年，共计82人，最高毕业人数出现在2008年，共计137人。

2.毕业去向分析。从表2可以看出，近十年总体而言超过三分之一的数学本科毕业生选择了直接就业，占总人数的32.55%。选择出国、考研、读研、待就业状态的学生比例基本在百分之十几左右，相差不大。说明即便在研究生教育日趋大众化的今天，选择直接工作的数学专业毕业生仍然占多数。主要原因在于毕业生对时间成本和经济成本的考虑，加之研究生扩招，从国家到学生个人普遍选择通过研究生教育缓解应届毕业压力，在一定程度上对当前本科应届生的就业产生一定的积极作用。

3.毕业去向的变化趋势。通过将表2中毕业年份与保研比例，考研比例与就业比例做最小二乘线性拟合进行相关性分析发现，毕业年份与保研的相关系数为R=0.6099>0.5，说明毕业年份与保研比例线性相关，每年保研人数大约增加一个百分点。毕业年份与考研比例的相关系数为R=0.58391>0.5，说明毕业年份与考研比例线性相关，且每年减少一点二四个百分点。而毕业年份与出国比例以及就业比例没有线性相关关系。可以看出，在其他就业途径基本没有变化的情况下，考研比例下降与保研比例上升之间形成了一个内部转移的过程。这与当前国家进行的研究生入学考核方式的改革有一定关系，随着教育部对推免生政策内保与外保限制的解除以及对专硕推免生的开放，进一步增加了本科生保研的机会。这也反映了教育部门及高校对研究生入学方式态度的变化，随着推免方式的复杂化，对学生的考察更具综合性与客观性，其教育产出在硕士阶段相对较大，因此推免方式得到很多高校和导师青睐。

4.就业行业选择。从图1可以看出，2006年至2015年数学专业就业生共386人，其中接近三分之一的毕业生选择了在互联网行业就业，15%左右的毕业生选择在电子行业就业，选择在金融、通信与教育行业工作的毕业生都分别有10%左右。这说明数学专业毕业生的就业呈现出了多元化的形态，并且改变了以往就业行业单一，就业路径狭窄的问题。近年兴起的以互联网为代表的高新技术和新兴产业成为当前数学毕业生的主要就业行业。其主要源于以下原因。

就业学历限制加深：从2000年开始的高校扩招，进一步加大了中国高等教育事业的普及力度，大学教育逐渐向大众教育转变，在激烈的竞争压力中，用人单位对学历要求逐渐提升，学历成为遴选用人的重要指标。高校和科研院所对学历要求大多是博士学位，而重点中小学用人单位对学历的要求也在硕士层面，这也是本科层次上的毕业生在教育和科研行业所占比例较低的重要原因。

专业与课程改革：教育部课程改革之前，高校数学教育的目的是培养数学科研與教育人才。随着市场经济的发展，以及数学与各种科学技术的紧密结合，人才市场上许多行业都需要具有良好数学基础、较强动手能力、较宽知识面、综合素质好的数学人才[2]。为了顺应市场经济的发展，各高校逐步开展课程改革。以计算机、金融为代表的多种学科与数学相结合成为不少高校课程改革的重点，不少高校还兴起了“新专业”与“辅修学位”的热潮。课程改革与“辅修学位”的开展增强了数学专业应届生找工作的筹码，更加适应互联网与金融时代下各种行业的用人需求。

5.行業就业变迁。在研究就业行业选择的问题时，笔者以五年为一个阶段进行行业变迁比较。表3数据显示，数学专业毕业生在互联网行业就职的比例相比前五年增加了8%左右，通信行业的比例增加了7%左右，教育行业的比例则增加了7%。在一定程度上说明了，近年来不断发展的互联网行业对青年人就业的容纳力有显著的提升，而传统教育行业在新时期的发展中也焕发出“第二春”，产生了新的教育形式。

波士顿咨询公司在2015年发布的《互联网时代的就业重构：互联网对中国社会就业三大趋势》显示，互联网行业的发展在逐步改变中国的就业格局，其重要特点之一是互联网行业的平台效益愈加明显，在其生态圈内创造了更多就业机会。互联网行业与其他行业合作和交融，行业界限随着“互联网+”的模式逐渐变得模糊[3]。互联网行业以及与其有关的具有数据思维和信息计算与分析的人才，成为互联网行业和相关行业急需的人才，这也解释了数学专业本科应届生近年来在该行业增加的原因。

教育行业就业比例增加的原因，在于传统的教育机构对学历的限制逐步增强的情况下，新兴的家教行业以及近年来火热的辅导机构为本科毕业生提供了从事教育行业的机会。这些教育机构在利润和工资方面有着明显的优势，行业市场和前景非常广阔，加之数学专业从小学到高中都是家教和辅导机构中的重要学科，这也吸引了大量的数学毕业生选择在这一行业就业。

四、问题与建议

以上数据显示，华中科技大学数学与统计学院本科毕业生每年仍有百分之十几的学生处于待就业状态，其中2008年处于待就业状态的学生达到了32%之多，除了一部分学生考研失利或者等待申请出国外，仍有不少学生没有找到合适的工作岗位。这与当前大学生宏观就业压力及大学生自身就业能力有一定关系。针对数学专业毕业生存在的就业问题，笔者从国家的宏观教育改革、高校的课程设置、就业指导以及学生自身的就业观念与能力提出了两点建议：

1.发挥高校就业指导中心作用。高校本科教育，除了注重学生的课程学习与学术修养外，还要重视学生职业意识的培养。大学作为学生从学校向社会的过度场所，适当培养学生的职业规划与就业能力对于学生自身发展具有重要意义。从新生入学开始，高校的就业指导工作就要注重引导学生明确和制定自身职业发展方向和规划，改变以往到毕业季才进行大量的就业指导与咨询工作。就业指导中心应针对青年学生成长、成才的不同需求开展职业讲坛、职业训练营、校园模拟招聘会、简历制作大赛、职业生涯设计大赛、创业计划大赛等活动，学生通过参加活动可以了解到行业的市场定位、发展前景、用人理念等，解决广大学生在职业生涯规划中遇到的共性问题[4]。此外，学生本人也要注重提升自身就业竞争力，通过辅修与自学掌握跨专业学习与跨专业工作的能力。

2.“厚基础”上的课程改革与社会需求相结合。所谓“厚基础”是指高校在数学课程设置中要加强对基础数学的教学能力，提升学生对数学专业核心知识的掌握能力。金融、互联网、计算机等行业的就业人员普遍缺少扎实的数学功底以及计算分析能力，数学专业的学生只有扎实学习数学核心知识，掌握专业核心能力，才能在就业岗位中拥有其他专业所不及的就业竞争力。此外，高校课程改革要顺应社会对数学人才的需求，在“厚基础”的专业教学上培养具有多元能力的数学人才，在学生自我定位与自由选择中实现数学毕业生“宽口径”“全方位”的人才输出。

五、结语

1.档案记录了学生培养的过程。高等学校档案是高等学校从事招生、教学、科研、管理等活动直接形成的对学生、学校和社会有保存价值的各种文字、图表、声像等不同形式、载体的历史记录[5]。高校档案馆保存的录取名册、学习成绩表、奖惩文件、学位清册、毕业名册等档案材料，完整地记录了学生录取、学习、毕业等各阶段的有关情况，是学生在校学习、生活的印记。因此，档案工作者要按照要求收集齐全相关档案材料，不缺失，不遗漏，以便全面反映学生在校的经历和表现。

2.档案数据分析可以揭示学生发展规律。档案利用是档案工作的重要環节，以数据分析为手段，开发档案信息的深层价值，是大数据时代档案利用和编研的重要方式。经过数据提取、汇总、计算和列表作图的档案数据信息分析，直观、具体地表达了事物的量变过程，以小见大，从微观着手，发现宏观规律。本文以馆藏的数学与统计学院近十年就业数据，分析研究本科毕业生就业状况为例，旨在探究十年来学生毕业取向，总结各类学生的成长规律，为以后做好学生职业发展规划打好基础。

3.档案工作是学校全方位育人的重要环节。中共中央、国务院《关于加强和改进新形势下高校思想政治工作的意见》中提到，(高校要)把思想价值引领贯穿教育教学全过程和各环节，形成教书育人、科研育人、实践育人、管理育人、服务育人、文化育人、组织育人长效机制。高校档案馆作为学校的服务管理部门，要在档案工作中服务人，用档案文化感染人，用档案实物教育人，让档案馆不仅成为档案安全保管的基地，更要成为档案利用服务中心和爱国、爱校教育基地。

参考文献

[1]学院简介[EB/OL]. http：//maths.hust.edu.cn/index.php?a=shows&catid=11&id=1，2017-3-12.

[2]教育部高等学校数学与统计学教学指导委员会课题组.数学学科专业发展战略研究报告[J].中国大学教学，2005(3).

[3]波士顿咨询公司.互联网时代的就业重构：互联网对中国社会就业三大趋势[EB/OL].http：//www.aliresearch.com/blog/article/detail/id/20597.html，2017-5-21.

[4]张凤敏，马仲立.理工类高校数学专业毕业生就业探析[J].教育与职业，2013(14).

[5]中华人民共和国教育部国家档案局令(第27号)[EB/OL].http：//www.moe.gov.cn/jyb_xxgk/gk_gbgg/moe_0/moe_1964/moe_2431/tnull_39043.html，2017-3-12.

作者简介：范智新：华中科技大学档案馆直属党支部书记、副馆长，研究生学历，研究方向为数字档案与现代技术;王鹏：华中科技大学档案馆编研室主任，研究生学历，研究方向为数字信息资源管理。

作者：范智新王鹏

第3篇：大数据背景下提高企业财务报告质量探讨

【摘要】大数据时代的到来对现行财务报告体系带来了挑战，对企业财务报告质量提出了更高的要求，如何应对时代挑战、保证财务报告的质量和价值，是企业在编制财务报告过程中无法回避的问题。本文首先描述了大数据的特点以及在财会领域的应用，然后分析了大数据对现行财务报告构成的挑战与冲击，最后给出了企业在此背景下提高财务报告质量的相应措施，对财务报告的未来发展具有借鉴意义。

【关键词】大数据;财务报告;创新

【中国分类号】F234.3

大数据的挖掘、分析和应用，伴随着物联网、云计算、人工智能的兴起和快速发展，对各个行业和领域都产生了巨大的冲击并带来了改革与创新的空间。海量且可以高速率传输的大数据，从真实性、及时性等诸多方面对传统报告造成了冲击。本文从大数据自身特点入手，剖析了大数据对现行财务报告的相关性、及时性和可靠性等信息质量特征造成的冲击，并围绕如何在此背景下提高财务报告质量进行了探讨。

一、大数据的特点以及在财会领域的应用

目前对于大数据的定义在不同领域有所不同，Vasarhelyi(2015)认为特定数据能否被称为大数据取决于这些数据是否处于或超越了其所用的信息系统所能储存或处理的极限。根据IBM(2012)发布的信息，大数据具有以下四方面的特点：第一，信息容量大，数据量以PB为单位，因此必须采用计算信息数据分析手段才能获取有价值的信息;第二，传输速度快，在一般情况下能达到对数据实时传送的效果，对数据进行自动化、实时化分析的要求进一步提高;第三，不同类型数据的混合度高，文字等结构化数据与声音图像等半结构化或非结构化数据的并存，加大了对数据进行处理和储存的难度;第四，单一数据的价值量低，但将其囊括在一起的大数据则具有不菲的商业价值，强调了对数据集进行整体化处理和分析的必要性。根据大数据具有的特点，Vasarhelyi(2010)研究了大数据在会计领域的应用，他认为可以利用实时更新的大数据克服会计信息缺乏及时性的缺陷，能够为市场和管理者提供更有价值的信息;还可以利用大数据不同类型数据的混合度高的特点，对与企业经营相关的非结构化数据进行披露，能提高企业财务信息的相关性。此外，从量化的角度，还可以根据大数据容量大的特点，将海量财务信息与非财务信息进行整合，创造滞后型连续方程，拓展财务信息与非财务信息的关联性。

二、大数据对现行财务报告的挑战与冲击

(一)对财务报告信息相关性的挑战

传统财务报告十分重视对企业核心财务信息的披露，但随着我国资本市场的成熟和市场有效性提升，表外信息、与交易无关的非财务信息、财报未披露内容也变成了投资决策的重要考虑因素，投资者对此类信息的需求，便对现行财务报告信息的相关性提出了挑战。例如企业的公司内部治理文件是否完善、客户关系的稳定程度、高级管理者的政治关联等都会成为投资者迫切需求的非财务信息，这种信息间供需的矛盾，导致现行财务报告在相关性方面难以满足投资者的决策需求。大数据对相关性的冲击，就主要是在于相关财务报告信息范围的拓展。对于目前的财务报告，由于货币计量的局限性，一方面对多数定性信息没有做出披露，另一方面部分定性结论是从样本量不大且具有较大随机性的数据中得到的，因此结论的准确度也具有较大提升空间。如何将大数据中包含的有价值的非结构化、碎片化信息纳入财务报告，加强对财务信息供给与需求的匹配程度，并使具有高相关性的信息依旧具有可比性，是大数据对财务报告信息相关性的挑战。

(二)对财务报告信息及时性的挑战

现行财务报告中，年度报表具有最高的质量和公信度，但是由于编制报告的周期长达3个月左右，其财务信息的时效性大打折扣。但是，如果缩短会计分期，或者要求中期报告、季报甚至月报的质量与年报一致，这会导致企业资源的浪费，违背了成本效益原则。在大数据的背景下，如果还以现行模式进行确认计量和报告，其中部分本期未确认、未报告的业务活动很可能已经过时，失去了实时信息的内在价值。但是大数据模式则将完全滿足了及时性的要求，甚至转变成了对实时性甚至超前性信息的供给。转变的核心在于大数据具有的速度快的特点，具体体现为数据发展速度快——时时刻刻都在有新的数据产生、传输速度快——对数据结果的实时传输、分析速度快——对大数据信息价值的重要保证。这要求财务报告由事后报告向事前报告的模式转变，使报告使用者可以通过对信息的充分了解后，做出渐进决策，之后通过及时的信息补充对决策进行修正。那么怎样在大数据的支持下将财务报告信息进行实时传送、如何对会计分期假设进行修正，怎样保证计提、摊销信息的时效性，都是大数据对财务报告及时性的挑战。

(三)对财务报告信息可靠性的挑战

在无法获得海量数据支持的现行财务报告信息系统中，每一个数据的真实性和可靠性都可能会对财务报告整体产生影响，因此在传统财务报告编制前后，要通过多重核对、分析检验、控制测试等多种手段，来减少数据纰漏和造假舞弊行为，但涉及的时间和人工成本占用了大量社会资源，降低了企业的经营效率。在大数据背景下，由于数据信息量巨大而且形式丰富，数据间具有极强的交叉性和关联性，所以某单一数据的异常或缺失基本不会导致对整体情况的误判误报。而且在大数据分析技术日益成熟和会计制度愈发完善的环境下，对实时交易数据造假的难度和成本上升，真实性和可靠性的问题不再突出，企业和投资人更强调数据与数据之间的相关关系而非因果关系、重视数据对决策的实际意义而非绝对精确，强调整体性来保证财务报告大数据信息质量，这要求传统财务信息质量要求从观念上进行根本性的转变。

三、积极利用大数据提升财务报告质量

(一)拓展财务报告信息范围

随着使用者对非财务信息、表外信息需求的不断增长，可以在财务报告信息中加入非结构化数据，构建多维财务报告体系，将内部控制、平台资源等非财务指标有效融合，全方位展示现代企业的核心竞争力。而且为满足投资者对会计信息相关性的需求，可以利用大数据信息多样化的特征，运用多媒体技术更加直观的传达企业实际经营信息。此外，突破财务报告单一的货币计量属性，例如对于无法准确定价的人力资源、自然资源等资产可以划定非货币度量标准，使财务报告信息体系得到极大的丰富，从而增强了会计信息的公信力和透明度。最后，还应该使财务报告不限于对自身微观情况的表现，而拓展到对企业所在政治经济环境、行业状况的综合描述，这有利于社会企业共同构建宏观经济数据库，对整体经济发展起到预测作用，使企业能提前做出生产规模、产业升级转型的相关决策。

(二)建设规范化财会信息云平台

积极推进财务会计信息处理的云共享、云计算是利用大数据提高会计信息质量的关键环节，为保证数据信息具有可比性，财会信息云平台的建设需要具有规范性。第一，企业的信息化是云平台建设的基础保证，需要满足：从原始数据采集到分析结果输出的全面数字化、公司内外部信息交换以及部门间信息传递的网络化、对数据信息处理具有深度学习能力的智能化等基础建设需求。第二，建设提供数据存储和分析的云共享计算平台。以政府资金与技术进行总体布局，企业参与细节完善，构建标准统一的或具有相关行业特征的财会信息云存储系统，制定具有规范化的准则，设置统一执行标准，使原始数据信息能够实现统一加载、定期更新和标准化存档。同时云端分析平台应做到审核验证一体化、查询信息标准化、分析结果智能化等，使财会信息云平台不仅方便企业对数据进行传输和分析，也适合审计部门和投资者的查询和比较。但是也应该注意到，由于云平台建设的复杂性，其涉及企业范围之广、数据量之大前所未有，因此应由政府牵头，先小规模试点运行，在不断改进的基础上进行逐步推广，渐进式建设规范化财会信息云平台。

(三)强化财务人员数据分析能力

大数据的应用使财务信息的获取和流动愈发简单，但其结构的多样性和数据的海量性，都对财务人员的数据分析能力产生了巨大的挑战。在提升财务报告质量的过程中，大数据的关键职能在于深度挖掘和披露数据背后的隐藏信息、寻找数据间的关联性，所以与传统财务数据分析不同，为充分利用数据并尽可能得到可信度高的结果，大数据财务分析摒弃了抽样样本分析，而是对完整的数据库进行分析，那么在這种情况下，如何根据实际需要选择最适当的数据库、怎样对数据的抽取、筛选、转换、分析等工具进行选择，都对财务人员提出了极高的要求。所以要对财务人员的数据分析能力进行强化，首先要使其树立大数据资产概念，增强财务人员对大数据信息资源管理的主动性;其次，加大数据分析技能培训投入，聘请数据库研发专家、商务统计专家对财务人员进行培训，使财务人员具有前沿大数据分析意识和手段，保证分析的高效性与准确性;最后，要优化企业部门组织结构设置，扫除企业运营部、数据挖掘部、财务部交流障碍，使数据分析能力的培养、数据分析结果的输出更具有服务全局的效果，专注核心信息数据，提高财务信息数据分析的相关性。

四、结语

综上所述，大数据时代的到来对现行财务报告体系产生了巨大的挑战，企业需要在顺应新背景下对财务报告信息质量要求的同时，加强培养大数据管理和分析意识，主动运用新思维新技术，注重财务数据结果分析的实际意义，对企业财务报告质量做出保证。

主要参考文献：

[1]Vasarhelyi，Miklos A.，Alexander Kogan，and Brad M.Tuttle.“Big Data in accounting：An overview.” Accounting Horizons 29.2 (2015)：381-396.

[2]袁振兴，张青娜，张晓琳，张晓雪.大数据对会计的挑战及其应对[J].会计之友，2014(32)：89-92.

[3]何冰. 大数据会计与财务信息相关性研究[J].会计之友， 2017(7)：130-133.

[4]秦荣生. 大数据思维与技术在会计工作中的应用研究

[J].会计与经济研究， 2015(5)：3-10.

[5]宗威，吴锋.大数据时代下数据质量的挑战[J].西安交通大学学报(社会科学版)，2013.

作者：赵巍

第4篇：大数据报告

课程总结报告

学生姓名：尹怡学

号： 1370714 导

师：庞哈利专

业：控制工程所属课群：学位课

课程名称：前沿技术与职业发展课程负责人：徐林

课程开设日期： 2014.6.23-2014.12.31

东北大学信息科学与工程学院

2014年

科学技术创新对大数据发展的动力

1.绪论

随着信息技术的飞速发展，人类社会进入数字信息时代。获取和掌握信息的能力己成为衡量一个国家实力强弱的标志。一切信息伴随需求不同决定其效益不同，而一切有益信息都是从大量数据中分析出来的。海量数据又随时间持续产生、不断流动、进而扩散形成大数据。大数据不仅用来描述数据的量非常巨大，还突出强调处理数据的速度。所以，大数据成为数据分析领域的前沿技术。数据成为当今每个行业和商业领域的重要因素。人们对于数据的海量挖掘和大量运用，不仅标志着产业生产率的增长和消费者的大量盈余，而且也明确地提示着大数据时代已经到来。

数据正成为与物质资产和人力资本同样重要的基础生产要素，大数据的使成为提高企业竞争力的关键要素。数据成为资产、产业垂直整合、泛互联网化是数据时代的三大发展趋势。一个国家拥有的数据规模及运用的能力将成为综合国力的重要组成部分，对数据的占有权和控制权将成为陆权、海权、空权之外的国家核心权力。大数据与人类息息相关，越来越多的问题可以通过大数据解决。不仅在数据科学与技术层次，而且在商业模式、产业格局、生态价值与教育层面，大数据都能带来新理念和新思维，包括政府宏观部门、不同的产业界与学术界，甚至个人消费者。大数据与互联网一样，是信息技术领域的革命，更加速企业创新，在全球范围引领社会变革并启动透明政府的发展。

大数据正在引发一场思维革命，大数据正在改变人们考察世界的方式方法，以前所未有的速度引起社会、经济、学术、科研、国防、军事等领域的深刻变革。大数据除了将更好的解决商业问题，科技问题，还有各种社会问题，形成以人为本的大数据战略。大数据这一新概念不仅指数据规模庞大，也包括处理和应用数据，是数据对象、技术与应用三者的统一。大数据既可以是如政府部门或企业掌握的数据库这种有限数据集合，也可以是如微博、微信、社交网络上虚拟的无限数据集合。大数据技术包括数据采集、存储、管理、分析挖掘、可视化等技术及其集成。大数据应用是应用大数据技术对各种类型的大数据集合获得有价值信息的行为。充分实现大数据的价值惟有坚持对象、技术、应用三位一体同步发展。大数据是信息技术与各行业领域紧密融合的典型领域，有着旺盛需求和广阔前景。把握机遇需要不断跟踪研究大数据并不断提升对大数据的认知和理

解，坚持技术创新与应用创新协同共进同时加快经济社会各领域的大数据开发与利用，推动国家、行业、企业对于数据的应用需求和发展水平进入新的阶段。

在大数据时代数据作为一种独立存在的实体，其资产价值越来越突出，日益引起人们的重视。从具体的个人到形形色色的企业，从各国政府到各种组织都可以合法地去收集数据。不论个人还是企业，以及政府等都可以是数据的拥有者。今后个人隐私与数据归属权可能关系越来越少，欧洲民众要求政府公开信息的诉求极其强烈，民众有权向政府申请信息公开。除了涉及国家安全和个人隐私的公共信息外，大部分政府信息都可以公开。

大数据主要有三个方面对人类经济社会发展影响巨大，归纳起来：一是能够推动实现巨大经济效益，二是能够推动增强社会管理水平，三是能够推动提高安全保障能力。大数据在政府和公共服务领域的应用可有效推动政务工作开展，提高政府部门的服务效率、决策水平和社会管理水平，产生巨大社会价值。总而言之，大数据将为人们提供强有力的新工具，使人们能更加容易地把握事物规律，更准确地认识世界、预测未来和改造世界。

大数据可以分为大数据存储和大数据分析，大数据存储的目的是支撑大数据分析，大数据存储致力于研发数据存储平台，大数据分析关注在最短时间内处理大量不同类型的数据集，大数据分析相比于传统的数据仓库应用数据量大、查询分析复杂，大数据分析平台需要具备并行数据库、Map Reduce 及基于两者的混合架构。

2.社交网络崛起的大爆发

我们已经进入一个复杂科学领域，随着云计算、云存储、物联网、二维码技术和 LBS(基于位置的服务)的互联网技术广泛应用，人类的各种社会互动、沟通设备、社交网络和传感器正在生成海量数据。商业自动化导致海量数据存储，但用于决策的有效信息又隐藏在数据中，如何从数据中发现知识，以数据挖掘为代表的大数据分析技术应运而生。

1、社交网络的公共性

社交网络是大数据的重要来源，大数据的社会应用与社会价值就来自于社交网络，比如

国外影响巨大的 Facebook 和 Twitter，国内近年来风起云涌突然兴起的微博，特别是大家关注度非常高的新浪微博，这种网络交流平台具有媒介属性，日益成为影响不可忽视的的社会化媒体,每分每秒时时刻刻都在产生数以亿级形形色色

的话语文本。人具有与他人交流、分享、传播信息的天生需求，与他人直接交流互动和传播各种信息加大了人的社会交往，基于人际关系的信息传播创造了数量庞大的关系数据，扩大了大数据的社会价值与社会影响，带来商业上的无限想象力和各种企业的商业应用价值，大数据产生的技术背景离不开社交网络，移动互联网和物联网的发展导致大数据越来越大，具有随时收集、即时应用、及时生产的重要特点。

例如时装产业产生的大数据基本源自无处不在的社交媒体。全世界每天都有 10 亿人以上在社交网络上交流信息发表观点。每一刻都会有上百万人通过社交媒体点赞分享、转发微博、讨论时尚、引导潮流。大数据时代，越来越多的各大品牌知名设计师直接利用社交网络与公众交流，让大众直接参与到设计当中，根本改变了此前这一行业的封闭性，不再只对时尚界的所谓精英开放。越来越多的品牌比如巴宝莉选择在时装秀之前的通过官方微博账号发布了模特们在后台的照片，许多顶级设计师愿意在网上发布自己全新的设计，如奥斯卡・德拉伦塔在Instagram上通过微博发布了最新款式的高级女装成衣系列。顶级买家被流行博客写手取代，网络红人占据了时尚杂志主编的前排座椅，在社交媒体上拥有大批微博粉丝的摄影师对大众的时尚影响力远远超过传统的精英人群。

2、社交网络的价值性

在一定程度上，大数据的社会应用价值越来越多的来自新型的社交媒体，在这些影响巨

大的微媒体社会背景下，大数据参与渗透进入各种各样的商业应用领域，产生巨大的社会影响，微博营销开始成为商家的选择，已成为目前最显著的商业模式，是大数据最直接的商业应用。社会化媒体直接成为企业首选地营销工具，企业通过社会化媒体发布有效信息，直接影响和引导消费者的潮流，主动收集来自消费者的反馈信息，积极进行互动，成为利润来源的重要渠道。社交网络互动传播彻底改变传统大众媒体单向的传播方式，可以针对具体特定不同的各种目标群体，通过信息技术点对点直接传递不同的特定信息，影响舆论，改善声誉，建立美誉度，有助于形成购买决策。很多企业关注从海量采集的关系数据中提取发现真正有价值的商业信息，建立客户档案，实现精准营销，追踪目标客户，分析客户价值建立商业模型。

企业开始加强了解社会化媒体，其深刻认知和巨大投入将产生新的媒介形态并实现产品营销的新思路。社交大数据不仅仅对个别企业，而且对一些相关行业

都可以带来及其深刻的巨大变革。第一大数据有效改善传统的营销方式，与之相比利用有效精准的大数据营销，可以保持前期的大量曝光，中期的利益转化，到后期的实际购买，所有行为都是可提前预测并且随时监测的。效果可量化评估是采用大数据带来的前所未有的最实质性的根本影响;第二在社交这个环节，会产生越来越多的普通消费者在网络上通过各种社交媒体随时反馈自己在使用过程中对企业突出的产品以及建构的品牌形象发表看法，这个互动的过程会不断产生各种各样许多富有价值的有效信息，甚至还会包括发现一些潜在的意想不到的市场需求。对一个处在发展阶段的企业来说，这些有效信息不仅帮助他们可能采取措施调整原有传统产品，甚至引发并且催生新的不一样的商业模式。洞察消费者需求是大数据追求的核心价值;第三大数据可以变革某些具体行业，比如电影行业大数据可以根据实际数据能够预估票房，在金融行业可以进行前瞻预测提前作出调控措施，企业可以根据采集的大数据建立一些加上模型，预测消费者行为，进行数据分析。就连奥巴马为了赢得美国总统大选，他的团队就采集利用来自各种社交媒体产生的数据进行有效分析，做出民意评估，监测舆情，帮助连任，无疑发挥出来巨大的推动作用。

3、社交网络的应用性

社交媒体可以很短时间产生很大信息量，采取有效方法运用海量数据才是每个企业在市场面临的棘手问题。社会化媒体必须学会处理数据，具体步骤可以分为以下内容，首先进行收集，然后根据数据的不同类型导致具有不同用途，经过判断有些可以用于市场评估，反映市场效果，进一步了解市场，时时监测竞争对手，获得市场情报;还有一些可以通过信息技术采取自然语言处理，比如适当分类，有效聚类，快速获得消费者的需求以及人们对企业产品和所在行业的及时反馈和相关看法，利于企业做出判断，快速做出相应调整。例如电视广告价格很贵，媒体投放成本相对较高，一个企业的销售广告同时有 15 秒和 30 秒两个不同版本，但事先难以确定哪个版本更能吸引消费者，这时可以提前把视频传播至互联网，通过无处不在的社交媒体进行免费传播。应用大数据技术可以把采集消费者的信息，快速收集所有评价加以系统分析，找到有助于传播的元素，分析引起消费者反感的原因，快速提前测试有助决策，为广告主节省大量成本。通过大数据企业与用户间出现新的沟通方式，商业模式正在发生变化，在全世界社交媒体都引起市场变革，表现出企业日益关注消费者，用户重要性正在不断凸显。2012

年9月一家美国调研机构对市场营销人员进行调查，将近2/3的受访客户承认提高在广告营销领域采用数据管理平台的原因出于挖掘大数据的市场需求。

运用社交大数据，关键在于拥有数据。尽管用户数量不迅速增加，但预测用户行为，提出更精准的建议，仍然需要采集更大更多的数据量。如果数据处理能力没有提高，不能结合实际商业场景，就不会形成精细落地方案，既不可持续，也不可获利，导致社交大数据发展面临挑战。只有提高分布式计算、改善存储功能，加快实时计算的能力，才会实现价值。如果没有实际应用，大数据技术就不会产生实际意义。

大数据带来市场变革，挑战已有经验，颠覆已知模式，引领人类走向智能社会，数字化生存成为新的生活方式，社会化媒体随时记录人们的社会生活，感知行为态度、参与交往过程、建立互动关系，数据记录不仅保存而且可以分析，产生新的社会科学研究方法，拥有预知社会的可能性，在社会科学领域产生革命性变革和影响，大数据直接改变社会科学研究的模式和路径。

3.物联网发展的促进作用

随着物联网迅速发展，各种行业、不同地域以及各个领域的物体都被十分密切地关联起来。物联网通过形形色色的传感器将现实世界中产生的各种信息收集为电子数据，并把信号直接传递到计算机中心处理系统，必然造成数字信息膨胀，数据总量极速增长。 2.1、物联网形成产业链

物联信息不仅仅包括物联管理对象信息与物联感知设备信息，更突出物联实时信息。根据物联网数据的来源可以分成传感器感知数据和社交网络数据两种。虽然目前网络上产生的数据多于各种传感器感知到的数据总量，但是随着物联网设备的日益普及和感知技术的进步，传感器产生的数据量将大幅增加，最终将超过网络数据量，这种趋势越来越明显。

物联网改变了人们的社会活动形式，改善了人们的生活方式，变革了商业模式，被称为第三次信息化高潮，继计算机、互联网产生之后对社会的发展产生新的冲击。物联网把对象物和互联网相互连接起来，即时信息交换，智能化识别，实现定位跟踪，监控管理对象，产生大量数据，影响电力、安防、医疗、物流、交通、环保等行业形成新的商业模式。物联网联合大数据，正在迅速创造出巨大的社会价值和商业价值。

中国信息产业商会乐观预测，中国在 2013 年传感器设备将继续保持市场规模，表现快速增长势头，中国物联网 RFID 产业市场达到 320 亿元左右，规模将比 2012 年增长 35%左右。物联网伴随着移动互联网和云计算的迅猛崛起，物联网产业链上的各环节成本减少，相关产品价格迅速下降，进一步带来物联网硬件及其基础设施的大规模普及。同时，工信部联合财政部提供专项资金用以支持物联网发展,2013 年投入的专项资金将超 5 亿元。而在政策支持与市场反馈的协同发展推动下，业内人士大胆预测未来数年物联网会全面推广大规模普及，其产业规模或许比现有互联网大 30 倍。

物联网发展离不开基础建设，需要设备制造企业提供传感设备与网络核心设备，随着存储能力非常巨大的云计算中心的不断建设和投入使用，物联网持续产生的大数据可以随时存储，在线处理，产生价值，成为现实。企业需要思考物联网收集的大数据与其产业发展的融合与转换，将数据转化为利润，开辟市场蓝海，收获真金白银，发明新的商业模式，形成新的商业思维。 2.2物联网产生大数据

物联网大数据成为焦点，引起各大 IT 巨头越来越多的注意，其潜在的巨大价值也正在通过市场逐渐被挖掘出来。微软、IBM、SAP、谷歌等国际知名 IT 企业已经在全球分别部署了大量数据中心，还拿出大笔资金收购擅长数据管理和建构分析方面的优秀软件企业。这些物联网产生的大数据来自于不同种类的终端，比如智能电表、移动通信终端、汽车和各种工业机器等，影响生产生活的各个领域，各个层面，不可小觑。

物联网产业链的核心不是设备和元器件，而是数据以及数据驱动的产业，物联网的核心价值不在感知层和网络层，而是在更广泛的应用层。物联网产生的大数据经过智能化的处理、社会化的分析，将生成各种商业模式，产生各异的多种应用，形成了物联网最重要的商业价值。

处理物联网收集的大数据并不容易，物联网中的大数据不简单等同于互联网数据。物联网大数据不仅包括社交网络数据，更包括传感器感知数据，尽管社交网络数据包含大量可被处理的非结构化数据，比如新闻、微博等，但是物联网传感器收集的许多碎片化数据属于非结构化数据，在目前还不能被处理。

物联网应用于多个行业，而每个行业产生的数据有独特的结构特点，因此就形成很多相异的商业模式。物联网创造商业价值的基础是数据分析，物联网产业

将出现各种类型的数据处理公司，比如数据分析公司，软件应用集成公司和商业运营公司将逐步分化，产业链将逐步完善。

中国物联网刚刚进入应用阶段，刚刚起步，调查物联网产业最前沿的一线参与主体，可以发现主要包括 RFID 标签厂商、传感器厂商、电信运营商和一些系统集成商。目前各地已经建成的大量物联网系统已经开始进入市场，主要应用于远程测量、移动支付、环境监控等方面。另外主要分布在物品追溯系统和企业供应链管理等方面，应用较多的医疗健康、智能电网、汽车通信等服务也已开始出现，积极探索盈利，努力获得用户，占领高端市场。而在物联网应用的过程中，我们发现电信运营商起到主导作用，扮演起行业龙头，发挥带动的作用，另外中国电信表现突出，也开始宣传自己物联网应用系统用于全球远程监控。而电信运营商之所以分外努力推广应用物联网，不仅仅在于运营商可整合硬件、芯片、应用等各步骤中的许多优秀合作伙伴，在运营方面以外，还在于物联网广泛应用在电信终端，可以有效整合电信互联网产业链的推进。电信运营商的示范不仅积累实战经验，甚至可帮助电信运营商将业务在物联网中拓展为系统方案解决商，介入各种增值业务。 2.3物联网催化大商业

看待电信运营商，可以应用大数据的观点，物联网商业模式将更多的移动终端容纳进来，作为数据采集设备，加以信息化应用，适应市场需求，成为物联网跨界发展的趋势。这种数据如果能得到运营商快速化、规模化、跨领域的广泛应用，那么电信运营商可能获取的商业回报会进一步参与到物联网的各个建设环节中，并且还可能使越来越多的商业信息被运营商掌握。这些信息驱动企业合作，推动参与各方共同寻找一种多方共赢的路径，建立新型商业模式。实现应用物联网数据，特别需要升级商业模式，真正创造多方共赢的有利环境。而要建立多方共赢的理念，就应该推动物联网真正成为市场的中心，变成一种商业的驱动力，吸引产业链内的所有企业共同参与物联网发展建设。

现在大部分行业的商业信息移动化、社交化，大数据必然会成为最佳捷径，实现用户商业价值的。物联网大数据支撑商业开展，服务商业决策，提供各种行业信息，因此物联网大数据的未来是无限的，富有商业魅力。物联网大数据要获得产业健康有序发展，不能仅在概念上停留，还需要政策支持，市场完善以及产品持续的不断创新。而更为重要的方向是推动不同部门、不同机构、不同行业之间共享物联网大数据的问题。各部门公开数据、分享数据才能利用数据深层价值，

产生数据的附加价值。虽然目前交通、电力、工业等不同行业还没有合为一个物联网，但是共享不同行业的各种数据信息是可行的。而目前政府部门也开始意识到数据单一难以发挥最大效能，开始寻求数据交换伙伴，部门之间已经开始相互交换数据，必将成为一种发展趋势，而共享不同部门之间不同种类的数据信息有助于发挥物联网更大的价值。

在未来几十年，物联网大数据面临着战略性的时代发展机遇及挑战。物联网握手大数据，不仅延伸更为广泛的应用，更会产生出价值更大的产业链，所以，将物联网发展离不开大数据理念，而大数据的广泛应用进一步加快物联网的前进步伐，在互动发展全过程中，物联网能够促进并带动大数据发展。大数据的采集和感知技术的发展是紧密联系的，提升以传感器技术、RFID 技术、指纹识别技术、坐标定位技术等为基础的感知能力是物联网发展的基石。普及智能手机发展感知技术的高峰期，如广泛的应用地理位置信息、通过对手机呼气直接检测燃烧脂肪量、手机键内嵌指纹传感器、可以监测从空气污染到危险的化学药品的嗅觉传感器、可感知用户当前心情的智能手机技术及通过衣着进行识别人物的技术。还有实时监控口腔活动及饮食状况的牙齿传感器，可追踪眼球读懂情绪的 3D 笔记本摄像头，新型可监控用户心率的纺织材料，引入支付领域的生物测定技术等。世界被数据化的过程就是感知被逐渐捕获的过程，一旦世界被完全数据化了，信息就是世界的本质。

4.云计算提供的技术平台

大数据与云计算的关系密不可分，大数据必须采用分布式计算架构挖掘海量数据，必须依托云计算的分布式数据库、分布式处理、云存储和虚拟化技术。大数据包括大量非结构化和半结构化数据，下载这些数据到关系型数据库用于分析时会消耗大量时间和金钱，因为实时的大型数据集分析需要像MapReduce一样的框架来向许多台电脑分配工作。依靠宽带、物联网的大数据提供了解决办法，具有无数分散决策中心的云计算大系统能够产生接近整体最优的帕累托效应，无数分别思考的决策分中心通过互联网与物联网形成超级决策中心。互联网中多元动态、并行实时的大数据思维的出现促进重新定义知识的本质特性的认识。大数据时代企业的疆界变得模糊、网民和消费者的界限正在消弭、数据成为核心资产并将深刻影响企业的业务模式，甚至重构其文化和组织。因此大数据改善国家治理模式，影响企业决策、组织和业务流程，改变个人生活方式。如果利用大数据

贴近消费者、深刻理解需求、高效分析信息并作出预判，所有传统的产品公司都只能沦为新型用户平台级公司的附庸。

大数据是继云计算、物联网之后 IT 产业又一次颠覆性的技术变革。云计算主要为数据资产提供了保管、访问的场所和渠道，而数据才是真正有价值的资产。企业内部的经营交信息、互联网世界中的人与人交互信息、物联网世界中的商品物流信息、位置信息等数量远远超越现有企业 IT 架构和基础设施的承载能力，实时性要求也将大大超越现有的计算能力。大数据的核心议题和云计算必然的升级方向是盘活数据资产，使其为国家治理、企业决策乃至个人生活服务。

大数据和云计算这两个词经常被同时提到，很多人误以为大数据和云计算是同时诞生的、具有强绑定关系。其实这两者之间既有关联性，也有区别。云计算指的是一种以互联网方式来提供服务的计算模式，而大数据指的是基于多源异构、跨域关联的海量数据分析所产生的决策流程、商业模式、科学范式、生活方式和关联形态上的颠覆性变化的总和。大数据处理会利用到云计算领域的很多技术，但大数据并非完全依赖于云计算;反过来，云计算之上也并非只有大数据这一种应用。

大数据出现具有深刻的原因。2009 年至 2012 年电子商务在全球全面发展，电子商务是第一个真正实现将纯互联网经济与传统经济融合，嫁接在一起发展的混合经济模式。正是互联网与传统经济的结合才催生出现在社会高度关注的大数据。大数据链接互联网产业与传统产业，而且大数据结合互联网应用于传统产业领域，范围超过纯互联网经济。在电子商务模式出现以前，传统企业的数据数量缓慢增长。传统企业的数据仓库大多数属于交易型数据，而交易行为处于用户消费决策的最后端，电子商务模式使得用户的搜索、浏览、比较等行为企业可以采集到，这就至少提升了企业的数据规模一个数量级。现在日益流行的移动互联网和物联网又必将使企业数据量提高两三个数量级。从这个角度来看，大数据时代必然出现，大有发展。

5.结论

大数据如同大爆炸一样强烈冲击着整个社会，无处不在的社交网络、移动物联产生难以想象的海量数据，已经成为描述整个宇宙一切信息的工具，普适计算、数据开放带领我们迈进穿越时空障碍的信息时代，云计算、大数据金融造就拥有更多权利的智慧地球，开放流动的大数据时代带来更加公平繁荣的大社会!大数据可以预测未来，提供帮助，但未知是永恒的，自由意志永远存在，

- 910 -

第5篇：大数据读书报告

网络13-1戴崇卓

大数据的概念

大数据(big data)，指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法(抽样调查)这样捷径，而采用所有数据进行分析处理。

大数据的5V特点(IBM提出)

Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)。

大数据的意义

现在的社会是一个高速发展的社会，科技发达，信息流通，人们之间的交流越来越密切，生活也越来越方便，大数据就是这个高科技时代的产物。阿里巴巴创办人马云来台演讲中就提到，未来的时代将不是IT时代，而是DT的时代，DT就是Data Technology数据科技，显示大数据对于阿里巴巴集团来说举足轻重。

有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类，而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似，大数据并不在“大”，而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言，如何利用这些大规模数据是赢得竞争的关键。

大数据的结构

大数据就是互联网发展到现今阶段的一种表象或特征而已，没有必要神话它或对它

保持敬畏之心，在以云计算为代表的技术创新大幕的衬托下，这些原本看起来很难收集和使用的数据开始容易被利用起来了，通过各行各业的不断创新，大数据会逐步为人类创造更多的价值。

其次，想要系统的认知大数据，必须要全面而细致的分解它，我着手从三个层面来展开：

第一层面是理论，理论是认知的必经途径，也是被广泛认同和传播的基线。在这里从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。

第二层面是技术，技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。

第三层面是实践，实践是大数据的最终价值体现。在这里分别从互联网的大数据，政府的大数据，企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。

大数据的应用

洛杉矶警察局和加利福尼亚大学合作利用大数据预测犯罪的发生。 Google流感趋势(Google Flu Trends)利用搜索关键词预测禽流感的散布。统计学家内特.西尔弗(Nate Silver)利用大数据预测2012美国选举结果。麻省理工学院利用手机定位数据和交通数据建立城市规划。

梅西百货的实时定价机制。根据需求和库存的情况，该公司基于SAS的系统对多达7300万种货品进行实时调价。医疗行业早就遇到了海量数据和非结构化数据的挑战，而近年来很多国家都在积极推进医疗信息化发展，这使得很多医疗机构有资金来做大数据分析。

大数据的趋势

趋势一：数据的资源化

何为资源化，是指大数据成为企业和社会关注的重要战略资源，并已成为大家争相抢夺的新焦点。因而，企业必须要提前制定大数据营销战略计划，抢占市场先机。

趋势二：与云计算的深度结合

大数据离不开云处理，云处理为大数据提供了弹性可拓展的基础设备，是产生大数据的平台之一。自2013年开始，大数据技术已开始和云计算技术紧密结合，预计未来两者关系将更为密切。除此之外，物联网、移动互联网等新兴计算形态，也将一齐助力大数据革命，让大数据营销发挥出更大的影响力。

趋势三：科学理论的突破

随着大数据的快速发展，就像计算机和互联网一样，大数据很有可能是新一轮的技术革命。随之兴起的数据挖掘、机器学习和人工智能等相关技术，可能会改变数据世界里的很多算法和基础理论，实现科学技术上的突破。

趋势四：数据科学和数据联盟的成立

未来，数据科学将成为一门专门的学科，被越来越多的人所认知。各大高校将设立专门的数据科学类专业，也会催生一批与之相关的新的就业岗位。与此同时，基于数据这个基础平台，也将建立起跨领域的数据共享平台，之后，数据共享将扩展到企业层面，并且成为未来产业的核心一环。

趋势五：数据泄露泛滥

未来几年数据泄露事件的增长率也许会达到100%，除非数据在其源头就能够得到安全保障。可以说，在未来，每个财富500强企业都会面临数据攻击，无论他们是否已经做好安全防范。而所有企业，无论规模大小，都需要重新审视今天的安全定义。在财富500强企业中，超过50%将会设置首席信息安全官这一职位。企业需要从新的角度来确保自身以及客户数据，所有数据在创建之初便需要获得安全保障，而并非在数据保存的最后一个环节，仅仅加强后者的安全措施已被证明于事无补。

趋势六：数据管理成为核心竞争力数据管理成为核心竞争力，直接影响财务表现。当“数据资产是企业核心资产”的概念深入人心之后，企业对于数据管理便有了更清晰的界定，将数据管理作为企业核心竞争力，持续发展，战略性规划与运用数据资产，成为企业数据管理的核心。数据资产管理效率与主营业务收入增长率、销售收入增长率显著正相关;此外，对于具有互联网思维的企业而言，数据资产竞争力所占比重为36.8%，数据资产的管理效果将直接影响企业的财务表现。

趋势七：数据质量是BI(商业智能)成功的关键

采用自助式商业智能工具进行大数据处理的企业将会脱颖而出。其中要面临的一个挑战是，很多数据源会带来大量低质量数据。想要成功，企业需要理解原始数据与数据分析之间的差距，从而消除低质量数据并通过BI获得更佳决策。

趋势八：数据生态系统复合化程度加强

大数据的世界不只是一个单一的、巨大的计算机网络，而是一个由大量活动构件与多元参与者元素所构成的生态系统，终端设备提供商、基础设施提供商、网络服务提供商、网络接入服务提供商、数据服务使能者、数据服务提供商、触点服务、数据服务零售商等等一系列的参与者共同构建的生态系统。而今，这样一套数据生态系统的基本雏形已然形成，接下来的发展将趋向于系统内部角色的细分，也就是市场的细分;系统机制的调整，也就是商业模式的创新;系统结构的调整，也就是竞争环境的调整等等，从而使得数据生态系统复合化程度逐渐增强。

大数据的IT分析工具

大数据概念应用到IT操作工具产生的数据中，大数据可以使IT管理软件供应商解决大广泛的业务决策。IT系统、应用和技术基础设施每天每秒都在产生数据。大数据非结构化或者结构数据都代表了„所有用户的行为、服务级别、安全、风险、欺诈行为等更多操作‟的绝对记录。

大数据分析的产生旨在于IT管理，企业可以将实时数据流分析和历史相关数据相结合，然后大数据分析并发现它们所需的模型。反过来，帮助预测和预防未来运行中断和性能问题。进一步来讲，他们可以利用大数据了解使用模型以及地理趋势，进而加深大数据对重要用户的洞察力。他们也可以追踪和记录网络行为，大数据轻松地识别业务影响;随着对服务利用的深刻理解加快利润增长;同时跨多系统收集数据发展IT服务目录。

大数据分析的想法，尤其在IT操作方面，大数据对于我们发明并没有什么作用，但是我们一直在其中。Gartner已经关注这个话题很多年了，基本上他们已经强调，如果IT正在引进新鲜灵感，他们将会扔掉大数据老式方法开发一个新的IT操作分析。

第6篇：大数据课程报告

摘

要

流形学习方法作为一类新兴的非线性维数约简方法，主要目标是获取高维观测数据的低维紧致表示，探索事物的内在规律和本征结构，已经成为数据挖掘、模式识别和机器学习等领域的研究热点。流形学习方法的非线性本质、几何直观性和计算可行性，使得它在许多标准的 toy 数据集和实际数据集上都取得了令人满意的结果，然而它们本身还存在着一些普遍性的问题，比如泛化学习问题、监督学习问题和大规模流形学习问题等。因此，本文从流形学习方法存在的问题出发，在算法设计和应用(图像数据与蛋白质相互作用数据)等方面展开了一系列研究工作。首先对流形学习的典型方法做了详细对比分析，然后针对流形的泛化学习和监督学习、表征流形的局部几何结构、构造全局的正则化线性回归模型、大规模数据的流形学习等几个方面进行了重点研究，提出了三种有效的流形学习算法，并和相关研究成果进行了理论与实验上的比较，从而验证了我们所提算法的有效性。

关键词：流形学习，维数约简，正交局部样条判别投影，局部多尺度回归嵌入

目录 ................................................................................................................................................. II 第1章研究背景 ....................................................................................................................... 1

1.1 流形学习的研究背景 ................................................................................................... 1 1.2 流形学习的研究现状 ................................................................................................... 2 1.3 流形学习的应用 ........................................................................................................... 4 第2章流形学习方法综述 ....................................................................................................... 5

2.1 流形学习方法介绍 ....................................................................................................... 6 第3章流形学习方法存在的问题 ........................................................................................... 9

3.1 本征维数估计 ............................................................................................................... 9 3.2 近邻数选择 ................................................................................................................. 10 3.3 噪声流形学习 ............................................................................................................. 10 3.4 监督流形学习 ............................................................................................................. 11 第4章总结 ............................................................................................................................. 11

第1章研究背景

1.1 流形学习的研究背景

随着信息时代的到来，使得数据集更新更快、数据维度更高以及非结构化性等问题更突出。在科研研究的过程中不可避免地遇到大量的高维数据，这就需要一种技术能够使在保持数据信息足够完整的意义下从海量数据集中提取出有效而又合理的约简数据，满足人的存储需求和感知需要。流形学习这一非监督学习方法应运而生，引起越来越多机器学习和认知科学工作者的重视。而在海量的高维数据中，往往只有少量的有用信息，如果想快速高效的搜集到人们想要的、有用的那些少量信息且快速的处理信息，这就需要一些关键技术的支持，即是必须采用相应的降维技术。而流形学习正是在数据降维方面有着重要的贡献。然而，降维的过程与《矩阵分析》中的内容有着密切的关系。

基于流形的降维方法能充分利用数据中所隐藏的低维有价值信息，进一步提高检索性能。Seung从神经心理学的角度提出“感知以流形的形式存在，视觉记忆也可能是以稳态的流形存储”，为流形提供了与人类认识相关的理由。流形学习的方法主要有主成分分析(PCA)、多维尺度化(MDS)、基于局部切空间排列法(LTSA)和基于等度规映射(ISOMAP)、局部线性嵌入算法(LLE)、拉普拉斯特征映射(LE)等。另外，流形学习方法在人脸识别、图像处理、模式识别、计算机视觉、认知科学、人工智能、人机交互等众多学科中有着广泛的应用。

线性维数约简方法是通过在高维输入空间与低维子空间之间建立线性映射关系，把高维数据样本集投影到低维线性子空间。线性维数约简技术通常假设数据集采样于一个全局线性的高维观测空间。如果所要处理的数据集分布确实呈现出全局线性的结构，或者在一定程度上可以近似为全局线性结构，则这些方法能够有效地挖掘出数据集内在的线性结构，获得数据紧致的低维表示。在线性维数约简方法中，使用最广泛的算法有主分量分析(Principal Component Analysis, PCA)(Jolliffe, 2002; Turk and Pentland, 1991)

1 和线性判别分析(Linear Discriminant Analysis, LDA)(Duda et al., 2001)。

主分量分析(PCA)主要是根据高维数据在低维空间重构误差最小的原则，来寻找一组最优的单位正交向量基(即主分量)，并通过保留数据分布方差较大的若干主分量来达到降维的目的。然而，众所周知，由于 PCA 算法没有利用数据样本的类别信息，所以它是一种非监督的线性维数约简方法。与 PCA 算法不同，LDA 算法考虑到样本的类别信息，它是一种有监督的方法。基于各类样本服从高斯分布且不同类的协方差矩阵相同的假设，LDA 算法在 Fisher 准则下选择最优的投影向量，以使得数据样本的类间散度最大而类内散度最小。由于 LDA 算法利用了样本的类别信息，而样本的类别信息通常有助于改善识别率，因此 LDA 算法更适用于分类问题。

1.2 流形学习的研究现状

流形学习假定输入数据是嵌入在高维观测空间的低维流形上，流形学习方法的目的是找出高维数据中所隐藏的低维流形结构。经过十多年的研究与探索，人们提出了大量的流形学习理论与算法。经典的流形学习方法有等距特征映射算法(ISOMAP)(Tenenbaum et al., 2000)、局部线性嵌入算法(LLE)(Roweis and Saul, 2000; Saul and Roweis, 2003)、Laplacian 特征映射算法(Laplacian Eigenmaps，LE)(Belkin and Niyogi, 2002; Belkin and Niyogi, 2003)、Hessian特征映射算法(Hessian-based Locally Linear Embedding，HLLE)(Donoho and Grimes, 2003)、最大差异展开算法(Maximum Variance Unfolding，MVU)(Weinberger et al., 2005; Weinberger and Saul, 2004; Weinberger and Saul, 2006; Weinberger et al., 2004)、局部切空间排列算法(Local Tangent Space Alignment, LTSA)(Zhang and Zha, 2004)、黎曼流形学习算法(Riemannian Manifold Learning, RML)(Lin and Zha, 2007; Lin et al., 2006)和局部样条嵌入算法(Local Spline Embedding，LSE)(Xiang et al., 2006; Xiang et al., 2008)等。

Tenenbaum 提出的 ISOMAP 算法是多维尺度分析(Multidimensional Scaling, MDS)(Cox and Cox, 1994)在流形框架下的非线性推广，其核心思想是用测地距离代替欧氏距离来表征流形上数据点的内在几何关系。对于样本

2 点和它的近邻点之间的测地距离用它们之间的欧氏距离来代替;对于样本点和近邻点之外的点之间的测地距离用它们之间的最短路径来代替。Bernstein 等人证明了只要样本是随机抽取的，在样本集足够大且选择适当近邻参数k 时，近邻图上两点的最短路径可以逼近它们的测地距离(Bernstein et al., 2000)。当应用于内蕴平坦的凸流形时，ISOMAP 算法能够忠实地捕获数据内在的低维流形结构(De Silva and Tenenbaum, 2003)。

ISOMAP 算法的主要缺点在于：① 对样本点的噪声比较敏感;② 对于具有较大曲率或稀疏采样的数据集，不能发现其内在的本征结构;③ 需要计算全体数据集的测地距离矩阵，因此算法的时间复杂度较高。围绕 ISOMAP算法，已经出现了许多相关的理论分析与研究工作。

Balasubramanian 等人对ISOMAP 算法的拓扑稳定性进行了深入探讨 (Balasubramanian and Schwartz, 2002)。对于数据分布所在的低维流形具有较大的内在曲率情况，de Silva 和Tenenbaum 提出了保角等距特征映射算法(conformal ISOMAP)(De Silva and Tenenbaum, 2003)。为了减小 ISOMAP 算法的计算复杂度，de Silva 和 Tenenbaum提出了带标记的等距特征映射算法(Landmark ISOMAP)(De Silva and Tenenbaum, 2003)。

针对 ISOMAP 算法对于数据集噪声敏感的问题，Choi 等人通过观察图中的网络流提出了一种消除临界孤立点的方法以加强 ISOMAP 算法的拓扑稳定性(Choi and Choi, 2007)。在构建近邻图方面，Yang 提出通过构造k 连通图方式来确保近邻图的连通性，以提高测地距离的估计精度(Yang, 2005)。

2009 年，Xiang 等人提出了局部样条嵌入算法(LSE)(Xiang et al., 2006; Xiang et al., 2008)。Xiang 认为，对于嵌入在高维输入空间的低维流形，非线性维数约简的任务实际上是寻找一组非线性的复合映射，即由局部坐标映射(Local Coordinatization Mapping)与全局排列映射(Global Alignment Mapping)复合而成的兼容映射(Compatible Mapping)。在兼容映射的概念框架下，LSE 算法首先通过主分量分析计算每个样本点局部邻域在切空间上的投影获得该邻域所有样本的局部坐标，从而保持流形的局部几何结构信息;然后采用Sobolev 空间的一组样条函数把每个样本点的局部坐标映射成

3 全局唯一的低维坐标。它们均是利用每个样本的局部切空间来捕获流形的局部几何，样本点在切空间的投影来表示样本点的局部坐标。然而它们的主要区别在于全局排列，LTSA 算法是利用仿射变换来进行全局排列，而 LSE 算法是利用样条函数来获得全局唯一的坐标。因此相对于 LTSA 而言，LSE 算法能够实现更小的重构误差。LSE 算法的主要缺点在于：一是无法保持全局尺度信息;二是不能学习具有较大曲率的低维流形结构。除此，如何选择满足要求的样条函数也是一个值得考虑的问题。

不同流形学习算法的区别在于所尝试保持流形的局部邻域结构信息以及利用这些信息构造全局嵌入的方法不同，与以往的维数约简方法相比，流形学习能够有效地探索非线性流形分布数据的内在规律与性质。但是在实际应用中流形学习方法仍然存在一些缺点，比如本征维数估计问题、样本外点学习问题、监督流形学习问题和噪声流形学习问题等。为了解决这些问题，相关的算法也不断涌现出来。Freedman 等提出了一种基于简化单纯复形的流形重构方法来自动估计流形的本征维数(Freedman, 2002)。

为了解决样本外点学习问题，研究人员分别在流形学习的线性化、核化和张量化等方面作了有益的探索(Yan et al., 2007)。Geng 等将样本的类别信息融入到 ISOMAP 算法，提出了一种用于可视化和分类的有监督的等距特征映射算法(S-ISOMAP)(Geng et al., 2005)。Zhang 等提出了一种基于局部线性平滑的流形学习消噪模型(Zhang and Zha, 2003)。这些方法的提出在一定程度上缓解了目前流形学习方法中存在的一些问题，但是还需要进一步充实和完善。

1.3 流形学习的应用

目前，流形学习方法的应用可归纳为以下几个方面：

1) 数据的可视化。流形学习方法在高维数据的可视化方面有了广泛的应用。人不能直接感知高维数据的内部结构，但对三维以下数据的内在结构却有很强的感知能力。由于流形学习方法可以发现高维观测数据中蕴含的内在规律和本征结构，而且这种规律在本质上不依赖于我们实际观测到的数据维数。因此我们可以通过流形学习方法

4 对高维输入数据进行维数约简，使高维数据的内部关系和结构在低于三维的空间中展示出来，从而使人们能够直观地认识和了解高维的非线性数据的内在规律，达到可视化的目的。

2) 信息检索。随着多媒体和网络技术的迅猛发展，图像和文本信息的应用日益广泛，对规模逐渐庞大的图像和文本数据库如何进行有效的管理已成为亟待解决的问题。灵活、高效、准确的信息检索策略是解决这一问题的关键技术之一。这些图像和文本信息呈现出高维、大规模、非线性结构，利用流形学习方法来处理这些信息，在大大降低时间和空间计算复杂度的同时，能够有效地保留这些信息在原始高维空间的相似性。

3) 图像处理。流形学习给图像处理领域提供了一个强有力的工具。众所周知，图像处理与图像中物体的轮廓以及骨架等密切相关。如果我们把图像中物体的轮廓以及骨架等看成是嵌入在二维平面中的一维流形或者由一组一维流形构成，那么显然流形学习方法凭借其强大的流形逼近能力可以应用于图像处理领域。

第2章流形学习方法综述

流形学习方法作为一种新兴的非线性维数约简方法，主要目标是获取高维观测数据的低维紧致表示，探索事物的内在规律和本征结构，已经成为数据挖掘、模式识别和机器学习等领域的研究热点。本章首先探讨了流形学习的基础性问题，即高维数据分析的流形建模问题;然后依据保持流形几何特性的不同，把现有的流形学习方法划分为全局特性保持方法和局部特性保持方法，并介绍了每一类方法中有代表性的流形学习算法的基本原理，对各种流形学习算法进行性能比较和可视化分析，最后就流形学习方法普遍存在的本征维数估计、近邻数选择、噪声流形学习、样本外点学习和监督流形学习问题等进行了分析和讨论。

5 2.1 流形学习方法介绍

流形学习的定义：流形是局部具有欧氏空间性质的空间。假设数据是均匀采样于一个高维欧氏空间中的低维流形，流形学习就是从高维采样数据中恢复低维流形结构，即找到高维空间中的低维流形，并求出相应的嵌入映射，以实现维数约简或者数据可视化。它是从观测到的现象中去寻找事物的本质，找到产生数据的内在规律。

流形学习用数学语言描述是：令Yyi且: Y是一个光滑的嵌套，其中D >> d。那么流形学习的目标是基于上的一个给定被观测数据集合xi去恢复Y与 ，也就是在Y 中随机产生隐藏的数据yi，然后通过 映射到观测空间，使得xifyi。

从流形学习的定义中可以看出，这是一个把数据从高维映射到低维的过程，用到了线性变换，当然少不了矩阵的分解及其基本运算。 2.1.1 多维尺度分析(Multidimensional Scaling, MDS)

多维尺度分析(Multidimensional Scaling, MDS)是一种经典的线性降维方法，其主要思想是：根据数据点间的欧氏距离，构造关系矩阵，为了尽可能地保持每对观测数据点间的欧氏距离，只需对此关系矩阵进行特征分解，从而获得每个数据在低维空间中的低维坐标。

DDDxx设给定的高维观测数据点集为YU，i，观测数据点对i,

Tyj间的欧氏距离为ijxiyj，传统MDS 的算法步骤如下：

a) 首先根据求出的两点之间的欧氏距离

ij构造n阶平方欧式距离矩阵Aij2 nn。

6 b) 将矩阵A进行双中心化计算，即计算

B1HAH2(其中H 为中心化eeTHIn，将矩阵H左乘和右乘时称为双中心化)矩阵，。

c) 计算低维坐标Y。即将B奇异值分解，设B的最大的d个特征值diag1,2,...,dYUT。

u1,u2,...,ud则d维低维坐标为，对应特征向量，U虽然作为线性方法，MDS在流形学习中不能有效发现内在低维结构。但是从这一基本的算法中我们可以清楚的看出矩阵分析在流形学习研究中的应用。在这个MDS算法中，运用到了矩阵中的线性空间变换、矩阵特征值和特征向量的计算、矩阵的中心化计算、矩阵的奇异值的分解等相关知识点。想象一下，如果没有这些知识点做基础，这些算法如何进行。 2.1.2 等距特征映射(ISOMAP)

(1)基本思想:Tenenbaum等人提出的等距特征映射算法(ISOMAP)是建立在多维尺度分析(MDS)基础上的一种非线性维数约简方法。ISOMAP算法利用所有样本点对之间的测地距离矩阵来代替MDS算法中的欧氏距离矩阵，以保持嵌入在高维观测空间中内在低维流形的全局几何特性。算法的关键是计算每个样本点与所有其它样本点之间的测地距离。对于近邻点，利用输入空间的欧氏距离直接得到其测地距离;对于非近邻点，利用近邻图上两点之间的最短路径近似测地距离。然后对于构造的全局测地距离矩阵，利用MDS算法在高维输入空间与低维嵌入空间之间建立等距映射，从而发现嵌入在高维空间的内在低维表示(Tenenbaum et al., 2000)。

(2)算法流程 <1>构造近邻图G

<2>计算最短路径

<3>计算 d 维嵌入 (3)算法分析

7 ISOMAP算法是一种保持全局几何特性的方法，它的低维嵌入结果能够反映出高维观测样本所在流形上的测地距离。如果高维观测样本所在的低维流形与欧氏空间的一个子集是整体等距的，且与样本所在流形等距的欧氏空间的子集是一个凸集，那么ISOMAP算法能够取得比较理想的嵌入结果。但是当流形曲率较大或者流形上有“孔洞”，即与流形等距的欧氏空间的子集非凸时，流形上的测地距离估计会产生较大的误差，导致嵌入结果产生变形。

从算法的时间复杂度来看，ISOMAP算法有两个计算瓶颈(De Silva and Tenenbaum, 2003)。第一个是计算n×n 的最短路径距离矩阵DG。当使用Floyd算法时，计算复杂度为O(n3) ;若采用Dijkstra算法，可将计算复杂度降低到O(kn2log n) ( k 为近邻数大小)(Cormen, 2001)。第二个计算瓶颈源于应用MDS时的特征分解。由于距离矩阵是稠密的，所以特征分解的计算复杂度为O(n3) 。从中我们可以看出，随着样本个数n 的增大，ISOMAP算法计算效率低下的问题会变得十分突出。 2.1.3局部线性嵌入(LLE)

1、基本思想

与ISOMAP和MVU算法不同，局部线性嵌入算法(LLE)是一种局部特性保持方法。LLE算法的核心是保持降维前后近邻之间的局部线性结构不变。算法的主要思想是假定每个数据点与它的近邻点位于流形的一个线性或近似线性的局部邻域，在该邻域中的数据点可以由其近邻点来线性表示，重建低维流形时，相应的内在低维空间中的数据点保持相同的局部近邻关系，即低维流形空间的每个数据点用其近邻点线性表示的权重与它们在高维观测空间中的线性表示权重相同，而各个局部邻域之间的相互重叠部分则描述了由局部线性到全局非线性的排列信息(Roweis and Saul, 2000)。这样就可以把高维输入数据映射到全局唯一的低维坐标系统。

2、算法流程

LLE算法的基本步骤分为三步： (1) 选择邻域

8 (2) 计算重构权值矩阵W (3) 求低维嵌入Y

3、算法分析

通过前面算法描述我们不难发现，LLE算法可以学习任意维具有局部线性结构的低维流形。它以重构权值矩阵作为高维观测空间与低维嵌入空间之间联系的桥梁，使得数据点与其近邻点在平移、旋转和缩放等变化下保持近邻关系不变。而且LLE算法具有解析的全局最优解，无需迭代。在算法的计算复杂度上，选择邻域的计算复杂度为O(Dn2) ，计算重构权值矩阵的计算复杂度为O((D+k)k2n) ，求解低维嵌入Y 的计算复杂度为O(dn2) 。因此与ISOMAP和MVU算法相比，LLE算法的计算复杂度要小得多。

但LLE算法也存在一些缺点：① 由于LLE算法只是保持局部近邻的重构权值关系，并不是保持距离关系，因此，LLE算法通常不能很好的恢复出具有等距性质的流形。② LLE算法希望样本集均匀稠密采样于低维流形，因此，对于受噪声污染、样本密度稀疏或相互关联较弱的数据集，在从高维观测空间到低维嵌入空间的映射过程中，可能会将相互关联较弱的远点映射到局部近邻点的位置，从而破坏了低维嵌入结果。

第3章流形学习方法存在的问题

流形学习相对于传统的线性维数约简方法来说，它能够更好地发现高维复杂非线性数据内在的几何结构与规律。但其各种算法本身还存在着一些普遍性的问题，比如本征维数估计问题、近邻数选择问题、噪声流形学习问题、泛化学习问题和监督学习问题等。本小节将对这些问题进行简要的分析和讨论。

3.1 本征维数估计

本征维数估计是流形学习的一个基本问题(赵连伟 et al., 2005)。本征维数一般被定义为描述数据集中所有数据所需要的自由参数(或独立坐标)的最小数目。它反映了隐藏在高维观测数据中潜在低维流形的拓扑属性。在非

9 线性维数约简过程中，本征维数估计的准确与否对低维空间的嵌入结果有着重要的影响。如果本征维数估计过大，将会保留数据的冗余信息，使嵌入结果中含有噪声;相反如果本征维数估计过小，将会丢失数据的有用信息，导致高维空间中不同的点在低维空间可能会交叠。因此，设计稳定可靠的本征维数估计方法将有助于流形学习算法的应用和性能的改善。

目前现有的本征维数估计方法大致分为两大类：特征映射法和几何学习法(Camastra, 2003)。特征映射法包括全局 PCA 方法(Bennett, 1969)、局部 PCA 方法(Bruske and Sommer, 1998; Fukunaga and Olsen, 1971)和多维尺度分析方法(Cox and Cox, 2000)，它主要利用了数据分布的本征特征是数据的局部特征的基本思想，对局部数据进行特征分解，选取对应特征值最大的特征向量作为本征特征。显然，这类方法所估计的本征维数大小在很大程度上取决于数据的局部邻域划分和阈值的选择，因此特征映射方法不能提供本征维数的可靠估计。几何学习法主要基于最近邻距离(Nearest Neighbor Distances)或分形维(Fractal Dimension)(Camastra, 2003)来探索数据集所蕴含的几何信息，这类方法通常需要充足的样本数，因此，对于样本数少、观测空间维数较高的情况，经常会出现本征维数欠估计的情况。

3.2 近邻数选择

流形学习探测低维流形结构成功与否在很大程度上取决于近邻数的选择(Zeng, 2008)，然而在构造近邻图时如何选择一个合适的近邻数是一个公开的问题。如果近邻数选择过大，将会产生“短路边”现象(“short-circuit” edges)，从而严重破坏原始流形数据的拓扑连通性。

3.3 噪声流形学习

当观测数据均匀稠密采样于一个理想的低维光滑流形时，流形学习方法可以成功地挖掘出其内在的低维结构和本质规律。但是在实际应用中，我们经常发现高维采样数据由于受各种因素的影响，一般总是存在着噪声和污染，这将势必影响流形学习算法的低维嵌入结果。

10 3.4 监督流形学习

现有的流形学习方法多数用于无监督学习情况，如解决降维与数据可视化等问题。当已知数据的类别信息，如何利用这些信息有效地改进原始流形学习算法的分类识别能力是监督流形学习所要解决的问题。从数据分类的角度来看，人们希望高维观测数据经过维数约简后在低维空间中类内差异小而类间差异大，从而有利于样本的分类识别。原始的流形学习算法都是无监督学习过程，一些引进监督信息的改进算法纷纷被提出来(Li et al., 2009; Zhao et al., 2006)。这些方法的基本思想是利用样本的类别信息指导构建有监督的近邻图，然后利用流形学习方法进行低维嵌入。尽管这些方法能够获得较好的分类结果，但是这种通过类别属性构建的近邻图往往会被分割成多个互不相连的子图，而不是一个完整的近邻图，这就给原始流形学习算法的最终应用带来了很大的不便。

第4章总结

流形学习是一个具有基础性、前瞻性的研究方向，其研究成果和技术已经立即应用于模式识别、计算机视觉、图像处理等相关领域。如高维数据的可视化、可听化;基于内容检索的模型;视频中三维对象的跟踪和检测;从静态二维图像中进行三维对象的姿态估计和识别;二维和三维对象的形状重构;从运动中构建结构、从阴影中成形等。此外流形学习还应用于自然语言处理、基因表达分析等生物信息处理领域，特别是在基因表达分析中，用于检测和区分不同的疾病和疾病类型。

尽管流形学习的算法和应用在过去的几年中已经取得了丰硕的成果，但是由于其数学理论基础较为深厚复杂，以及多个学科之间交叉融合，所以仍有许多亟需研究和解决的问题，尤其在下述几个方面：

1.目前已有很多流形学习算法，但很多算法只是建立在实验的基础之上，并没有充分理论基础支持，所以我们一方面要进一步探索能够有效学习到流形局部几何和拓扑结构的算法，提高流形投影算法的性能，另外更重要的是要不断完善理论基础。

2.各支几何都是研究空间在变换群下的不变性，微分几何亦是如此。而很多情况下我们正需要这种不变性，所以研究局部样本密度、噪声水平、流形的正则性、局部曲率、挠率结构的交互作用对流形学习的研究有积极促进作用。

3.统计学习理论得到充分发展并逐渐成熟，流形学习理论在其基础上发展自然可以把统计学中有用的技术应用于流形学习中，如流形上的取样和Monte Carlo估计、假设检验，以及流形上关于不变测度的概率分布密度问题，都值得进一步研究。

4.目前大部分学习算法都是基于局部的，而基于局部算法一个很大缺陷就在于受噪声影响较大，所以要研究减小局部方法对于噪声和离群值的影响，提高学习算法鲁棒性及泛化能力。

5. 谱方法对噪声十分敏感。希望大家自己做做实验体会一下，流形学习中谱方法的脆弱。

6.采样问题对结果的影响。

7. 一个最尴尬的事情莫过于，如果用来做识别，流形学习线性化的方法比原来非线性的方法效果要好得多，如果用原始方法做识别，那个效果叫一个差。也正因为此，使很多人对流形学习产生了怀疑。

8. 把偏微分几何方法引入到流形学习中来是一个很有希望的方向。这样的工作在最近一年已经有出现的迹象。

参考文献

[1] R. Basri and D. W. Jacobs. Lambertian reflectance and linear subspaces. IEEE Transactions on Pattern Analysis and Machine Intelligence, 25(2):218–233, 2003. [2] R. Vidal. Subspace clustering. IEEE Signal Processing Magazine, 28(2):52–68, 2011. [3] J. Shi and J. Malik, “Normalized cuts and image segmentation,” IEEE Transactions Pattern Analysis Machine Intelligence, 22(8):888–905, 2000. [4] G. Liu, Z. Lin, S. Yan, J. Sun, Y. Yu, and Y. Ma. Robust recovery of subspace structures by low-rank representation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(1):171–184, 2013. [5] E. Elhamifar and R. Vidal. Sparse subspace clustering: Algorithm, theory, and applications. IEEE Transactions on Pattern Analysis and Machine Intelligence, 35(11):2765–2781,

12 2013. [6] Y. Wang, Y. Jiang, Y. Wu, and Z. Zhou. Spectral clustering on multiple manifolds. IEEE Transactions on Neural Networks, 22(7):1149–1161, 2011. [7] B. Cheng, G. Liu, J. Wang, Z. Huang, and S. Yan, Multi-task low rank affinity pursuit for image segmentation, ICCV, 2011. [8] C. Lang, G. Liu, J. Yu, and S. Yan, Saliency detection by multitask sparsity pursuit, IEEE Transactions on Image Processing, 21(3): 1327–1338, 2012.

第7篇：中国餐饮大数据报告

做品牌必须了解中国餐饮消费大数据报告!

浅析餐饮消费大数据报告：日前大众点评出具了一份餐饮行业报告，我们借助这个报告的部分数据，简单分析这些大数据对我们的意义，届时我们可以对此做出相应的对策。以下是报告的部分数据。

不可否认，从某种角度而言，谁与食客的心理契合度最高，谁就占领了餐饮江山。那么，怎样抓住食客心理? 你知道谁在餐饮决策中起主导吗? 他们究竟在想些什么? 他们的需求到底又是什么呢?

从服务方式看餐饮消费需求除工作餐外食客外出就餐的原因

朋友聚餐62.1% 家庭聚会20.7% 商务活动11.5% 不想也没时间做饭5.7%

第 1 页共 1 页

分析：工作以外的时间，朋友聚餐是最主要的消费行为。讲求实惠，轻松而有趣的氛围是朋友聚餐的首选佳地。

食客能够接受的上菜速度

10分钟以内 22.4% 10-20分钟 70.1% 20-30分钟 7.5%

分析：飞速发展的社会使人的生活节奏越来越快，如何在食客的耐心时间内奉上美味佳肴，依旧是最大的话题。标准化的实现使食材前期处理的时间得以控制，若无法达到上菜的黄金时间(20分钟内)，设计等待时间的小环节，降低食客的耐心也是个不错的方法。

食客平时比较亲睐的口味

第 2 页共 2 页

辣 37.9% 清淡的 25.3% 浓厚的 20.7% 其他 0.6%

分析：虽然“辣”依然高居榜首，但现今对健康生活方式的不断追求，对辣的依赖正在减弱。

食客外出就餐时比较喜欢的饮食风味【传统菜系】

第 3 页共 3 页

分析：食客对辣的痴迷，对浓厚口味的追求，直接显现在食客对菜系的选择上。

【特色饮食】

分析：

2013年有关餐饮国家统计报告中，火锅异军突起显示出勃勃生机。这个对标准化要求颇高的饮食类别，也是较易扩张的餐饮形式。

2013年餐饮百强中，火锅是唯一一个平均单店收入、平均每平劳效、净利润率都正增长的业态，还是具有较强的盈利能力。

【国际菜系】

第 4 页共 4 页

分析：食客对于西餐的认识程度越来越高，接受与喜爱程度也相对提升。

消费者选择餐厅的关注因素

分析：口味与氛围是最食客最为关心的就餐因素，无疑味道是最为核心的竞争力。口碑、服务以及安全卫生是检验餐厅长久性的软性旗帜。

2013餐饮百强企业区域分布情况

第 5 页共 5 页

分析：上海、北京、重庆位居三甲，这三个城市的饮食特色较为多样化，且注重餐饮行业的发展。

2013年部分省市餐饮业发展状况

第 6 页共 6 页

第 7 页共 7 页

编辑说：数据并不是市场的唯一指标，但我们可以通过数据得知市场的方向。无论是作为餐饮从业者还是餐饮爱好者，都可从中得到不少启发。

谁在选择预订餐厅时更有话语权?

大众点评数据显示：在预订餐厅时，女人更有话语权，店内可开展更多针对女性的促销或赠送活动，有助于吸引女性用户关注。

消费者在订座时，更愿动动手还是动动口?

通过电脑或手机在线预订餐位的消费者人数是电话预订的3倍，相比打电话订座，人们其实更愿意用在线订座。

大众点评数据显示：在人气旺的本地生活类网站增加在线订座入口，一方面增加店铺的曝光量;另一方面吸引更多客流。

消费者更愿意预订什么时间的餐位?

第 8 页共 8 页

大众点评数据显示：每日12点和18点左右分别是午晚餐就餐高峰期，餐厅常常出现排队情况，而在餐点前后时段则经常坐不满。为使上座率最大化，餐厅可以根据不同时间段给予到店客人不同优惠。譬如如果在13-14点到店就餐，客人可享9折优惠;14-15点到店就餐可享8折优惠，以此类推。

此外，在线订座高峰期比较集中在就餐前1-2小时。

大众点评数据显示：消费者倾向于在饭点前1-2小时订座，因此餐厅最好安排有专人在饭点前2小时特别留意网上订座信息，如果没有及时给予在线订餐人群反馈，很可能导致客流的流失。

几人就餐最常提前订座?

第 9 页共 9 页

2-4人位订座率最高，相应大厅比包间订的更多。

大众点评数据显示：在规划可预订区域时，可以更多的预留大厅2-4人的小型聚会餐桌，降低空桌率。

消费者更愿意通过哪种支付方式买单?

第 10 页共 10 页

大众点评数据显示：大部分客人在买单时依然更喜欢刷卡或者支付现金，但用手机支付买单的客人也在逐渐增多，餐厅可以尝试开通手机在线支付等新兴支付业务，目前尚无需手续费。

千万别小瞧了订座人群的消费能力! 人均消费高于平均水平!

大众点评数据显示：习惯餐厅订座的人群消费能力比其他顾客较强。大众点评相关数据显示，全国范围内，餐厅订座人群单次人均消费为102元。

第 11 页共 11 页

第8篇：大数据学术会议报告

Big and Open Date ：Challenges for Smart City

Victoria Lopez

Victoria Lopez任教于西班牙马德里Complutense大学，其在计算机软件,计算机应用技术,计算机网络,人工智能,管理科学与工程等领域颇有建树，此次学术会议是她在2014年信息学与计算进展国际会议上的关于大数据的一次学术会议报告，她的演讲题目是Challenges for Smart City，以智能城市为研究对象，阐述大数据在智能城市领域内面临的挑战，鞭辟入里，发人深省，引人深思。

据她介绍，在1800年，全球仅有2%的人口居住在城市，到了1950年，这个数字迅速攀升到了29%。到2025年，城市人口预计将增加到20亿。当前全世界范围内的城市化进程大大加剧了气候变化、资源短缺和交通拥堵等问题，为人类城市生活带来一定的挑战。但同时智能城市建设面临诸多挑战：一是概念不清、外延不明。没有考虑到物联网、云计算、三网融合、无线宽带等新一代信息技术应用，仍然采用以前的技术思路和模式。二是进一步加剧了业务系统的信息孤岛局面，条块分割问题是全球信息化建设的顽疾。三是信息网络安全问题继续受到冷落。大量应用到物联网、云计算等技术，其信息网络安全问题将会更多。

既是挑战又是机遇，虽然面临问题较多，但是在大数据这个领域中，理论性的预见已经在相关行业成功实现，例如车联网，车联网促城市交通转型，随着车联网等新兴产业的兴起，智能交通已为世界各国在高新技术发展中争夺的一个重要领域。它加快了城市交通向低碳绿色交通的转型，是智慧城市建设不可或缺的一部分。大数据助力交通智能化，据介绍，在目前的城市交通体系中，公交、地铁、出租车以及公共自行车为主要出行方式，通过GPS定位、视频监控以及超声波传感等技术，在单一某个领域，智能交通已经进行了初步开发。比如，在某些公交站，乘客已经能提前预知下一趟公交到来的时间，乘客在打车时，通过部分手机软件已经能够查询到周边的空出租车，这些均基于一定的数据采集和分析。

她的中心思想在于，云计算要建平台，要有庞大的数据中心做支撑，其上是重要的关键业务的运营和服务，而大数据就是构建在云平台上的一种‘杀手锏’的应用，云计算是一个全新的时代，和PC时代完全不同。如何将我们的文化，我们的技术和业务模式更快的转移到云计算，构建起生态系统将是最大的挑战。虽然很高兴已经有了一些发展，但是还需要相当长的过程才能实现。

从此次学术会议报告中我学到了如何听取报告的相关主旨和核心思想，在这次报告中也体会到了西方学者和本国学者思考问题的异同点，当然更需要的是加强英语学习能力和本专业的学习能力。

第9篇：中国大数据行业调查报告

公司使用大数据的基本情况

无论你是来自互联网行业、通信行业，还是金融行业、服务业或是零售业，相信都不会对大数据感到陌生。据调查报告显示，32.5%的公司正在搭建大数据平台，处于测试阶段;29.5%的公司已经在生产环境实践大数据，并有成功的用例/产品;24.5%的公司已经做了足够的了解，开发准备就绪;基本不了解的只占3000+用户的13.5%。

现有公司大数据的使用情况

其中，大家对大数据平台提出的的主要需求有：36.5%是进行海量数据的离线处理，比如大数据BI;23.2%是为了大量数据的实时处理，比如在线交互式分析;40.3%的公司的大数据平台则同时负责这两种业务。

大数据平台主要负责的业务

传统观念下，大数据往往是大型互联网公司的玩物。然而，通过本次调查，我们却发现在那些对大数据平台有需求的公司中，研发团队规模远没有我们想象的大，29.11%的研发团队仅有1-10人，次居第二的10-50人的规模占到了25.77%,两种规模的研发团队就超过了一半。可见，当下大数据的需求已不止步于大型公司。

研发团队规模从传统架构到大数据时代应用程序架构的转变往往都会遇到一些问题和挑战。在对计算框架门槛调查中，非专业人士难于入手这一难题的比例达到了46.5%，这对企业人才的培训提出了迫切的要求。

当下计算框架使用过程中存在的问题

打造大数据平台需要企业克服诸多问题和挑战，尤其是安全性和可靠性方面。

大数据平台打造的主要挑战大数据技术现状大数据技术在开发者或从业人员的应用中逐步走向成熟，这些成熟的技术在开发人员的探索中得到了初步的稳定发展，公司的使用便是对这些技术的肯定。包括开发语言，数据分析语言、数据库等在内的大数据工具，究竟哪个更适合自己的业务，相信开发者们都有自己的评判标准。

在众多的开发语言中，大数据平台开发者们尤为青睐Java，占到了总比例的65%，远远超过其他开发语言。值得一提的是，Hadoop本身就由Java实现的。

大数据开发语言

在大数据分析语言中，SQL的使用比例达到了64%，是R语言使用者人数的2倍之多。我们从中不难看出SQL-on-XXX项目的前景;同时从R的支持率上，也看到了更多非技术人员，比如数据分析师对低门槛分析类语言的需求。

大数据分析通常用的语言

在大数据存储上，HBase则以67.55%的比例位居榜首，远超其他数据仓库，当然这点与Hadoop原生支持是分不开的。

大数据存储中适合的数据库

对存储在HBase或Cassandra这样NOSQL数据库中的数据进行复杂查询，Solr、Elasticsearch、Splunk等主流的搜索引擎差距并不大。

对存储在NOSQL数据库中的数据进行复杂查询，比较合适的工具大数据未来发展

诚如上文所说，许多对大数据有需求的公司并不一定具备强大的研发团队，在大数据处理过程中往往遭遇众多挑战。那么，在面临这些挑战时，开发者最迫切需要的是什么?

为了解决公司中的实际问题，39.28%的人希望拥有更犀利和通用的计算框架;37.88%的人希望能拥有更好的数据挖掘算法;21.59%的人则对保障性更高的运维有了更多的期盼。

为了解决公司的实际问题，最希望拥有的新技术

良好的大数据计算平台能够有效地支撑企业的海量数据，对于下一代通用大数据技术平台，Spark和Hadoop是公司的主要选择。同时，我们也看到了新贵Spark的发展前景，对比老将Hadoop，差距也仅有3.7%。

人们看好的下一代通用大数据计算平台

现有公司中，大数据平台已包含的部件位居前三的主要是SQL数据库(90.3%)、NoSQL数据库(50.7%)和HDFS(47.2%)，在此基础上，公司计划添加的部件主要包含SQL数据库(57.2%)、Spark(41.5%)和NoSQL数据库(26.9%)。从各公司已有大数据部件和计划添加的部件可以看出，SQL数据库和NoSQL数据库在公司的大数据平台中发挥了重要的作用，得到了各公司的青睐。

现有大数据平台已包含的部件

现有大数据平台计划添加的部件

为了获取更高的收益，企业在前期需要进行有效地成本投入，对大数据平台的投资，公司更加不会吝啬，其中被调查的人群中，45.7%的人所在企业有追加投资大数据平台的打算，同时，公司也期望能够通过多种途径完善大数据平台，主要的完善途径包括基于开源平台自主研发、购买成熟的解决方案，使用公有云。

企业期望完善大数据平台的途径

使用公有云也是企业期望完善大数据平台的有效途径之一，在选择公有云平台方面，企业也面临着很大的倾向性，45.26%的人将阿里云作为首选。

公有云平台的选择大数据技术培训

技术培训能够对开发者起到一定的指导作用，使得听众可以系统全面的把握新技术的知识脉络，了解技术的发展趋势。在此次调查活动中，69.4%的被调查者表示从未参加过大数据平台构建的技术培训。对于技术培训的形式，49%的人希望是线上培训，收费，成系列型的大数据解决方案，专攻一个方向，解决实际问题;37%的被调查者还是希望免费进行技术培训，即使不成系列，无论是线上线下，能听一节是一节。虽然收费在一定程度上影响了开发者对大数据技术培训的热情，但是能够切实解决实际问题，得到技术和能力的提升，仍是相关技术人员追求的培训目标。

更适合的技术培训形式

那么，对开发者来说，大家特别期望从技术培训中获取的知识又会是什么?