云计算数据挖掘论文

2022-04-13 版权声明 我要投稿

摘要:实战化案例教学是公安高等院校教育教学改革中的重要议题。本文在实战化案例教学法的基础上,有效结合任务驱动教学法,探索任务驱动式案例教学模式的设计与构建,并以《云计算与数据挖掘》课程为例,从课程架构分析、案例任务设计、教学组织形式和考核评价等四个层面,详细论述了任务驱动教学方法在公安院校课程教学改革中的应用思路。今天小编为大家精心挑选了关于《云计算数据挖掘论文 (精选3篇)》,仅供参考,大家一起来看看吧。

云计算数据挖掘论文 篇1:

云计算技术下数据挖掘平台设计及技术

摘要:在网络技术不断发展过程中,人们在海量的数据中如何提取有用的信息是现阶段计算机处理信息的研究重点。而通过云计算数据挖掘技术可以有效地实现数据的提取。在云计算技术之下的数据挖掘平台在理论上拓展了数据规约功能,可以解决数据访问以及数据类型的难题,此系统在实践中可以有效地提升数据提取的高效性,是一种具有可行性的技术手段。对此,文章主要对云计算技术之下数据挖掘平台的设计以及技术进行简单的探究分析。

关键词:云计算技术;数据挖掘平台设计;技术

在信息技术高速发展过程中,各种信息数据充斥在人们的周围。这些信息数据具有数量庞大、异构以及复杂等特征,加强对这些数据的分析可以及时发现今后商业以及科研发展的趋势,具有一定的商业价值。通过数据挖掘技术的应用,在海量的数据中利用算法寻找隐藏的信息的过程,通过统计学知识、模式识别以及人工智能技术、建模技术以及算法知识的集合可以提升其精准性。在今后的发展中基于云计算技术之下的数据挖掘平台的应用范围会更加广泛,会在各个领域中有效应用,这对于社会经济的发展以及提升有着积极的作用。

1 云计算技术下数据挖掘平台设计需求分析

在现阶段的发展中,对于数据挖掘技术人们提出了分布式并行数据挖掘平台的基础框架,通过对集权、三层C/S以及Agent框架结构得不同类型的技术,这些框架整体结构相对较为复杂,且适应能力相对较差,在实践中只能针对单一的应用进行系统开发研究,其成本相对较高无法在实践中广泛应用。而云计算作为一种网络技术手段的有效升级,在实践中具有大规模、虚拟化以及可靠性、拓展性的特征,对于收集挖掘平台的设计与构建有着积极的作用。

对此,加强对云计算技术之下大数据挖掘平台的设计,可以充分地彰显其网络计算作用,可以在集成其固有系统的集成之上完善功能,也可以有效地满足中小企业以及科研的单位等中小型系统因为资金等因素影响无法系统研究的弊端与不足,在实践中应用云计算技术下数据挖掘平台效率也相对较高。

云计算技术下数据挖掘平台的总体可以分为数据准备以及数据挖掘两个阶段。其中数据挖掘平台在设计过程中,必须要基于数据特点合理的应用云计算机技术手段,通过对数据的过滤、转换等处理,可以提升系统设计的整体性能,进而满足系统设计的实际需求。在云计算技术下数据挖掘平台设计过程中,通过对海量数据信息的整合,通过数据挖掘技术手段,通过计费数据、业务订购信息以及网管理数据等方式可以了解其各种内在规律,进而为相关研究提供信息数据支持。而在云计算技术下数据挖掘平台设计中,将云计算技术与数据挖掘技术进行融合,通过分布式计算概念,对各种信息任务进行系统的挖掘在不同的計算机之上对其进行处理,可以有效地满足各种信息数据挖掘的实际需求。

2 云计算定义及架构

2.1 云计算定义

云计算就是一种计算平台,在此平台中可以通过服务器以及一些大规模的数据,利用动态的数据流动方式提供各种信息资料。云计算融合了分布式计算以及并行计算、网络计算三种计算,可以通过动态以及透明的方式为用户提供一些虚拟计算以及信息存储资源。云计算在实践中通过模拟计算可以满足客户的各种实际需求,也可以将这些资源合理地分配给不同的用户,其成本相对脚下,具有强大的存储能力,在实践中应用具有较为显著的效果。

2.2 基于云计算的数据挖掘系统架构

云计算框架的优点就是硬件资源相对较为简单,且消耗的成本也相对较低,不同模块之间通过互相配合,在项目研发过程中,可以直接利用系统资源进行研究分析。数据挖掘技术的应用与实现,可以通过算法研究分析,然后在云计算部署各种算法,进而实现其各项功能。其各个模块之间相互配

2.2.1 目标系统模型

目标系统模型在实践中可以为客户提供各种信息服务,通过在此系统上建立应用程序,提供具有开放性特征的接口。同时,在实践中用户可以通过终端进行应用,也可以利用间接调用相关应用程序的方式提供各种开放式的接口模式,在研究过程中必须要对其应用的算法种类以及数据处理方式进行分析,而计算机的存储能力以及系统自身的实现能力并不在其考量的范围之内。

2.2.2 功能层次框架设计

功能层次框架系统的层次架构主要应用一种自下之上的结构形式,其主要氛围异构数据集合以及数据规约工具、用户界面、开放接口以及云计算平台等相关模块,且其每一层都要向上层提供透明的服务。云计算中的应用程序接口主要就是通过底层的云计算平台提供。用户以及云计算的交互,主要就是在顶层的开放式接口中进行设计。而开放接口的功能可以为用户提供各种信息数据,获得数据集,也可以为用户提供各种算法,进而对其进行集成应用,实现平台的开行特征。

3 云计算技术下数据挖掘平台设计方案

3.1 系统总体设计

云计算技术下设计数据挖掘平台,主要应用的就是三层结构模式,通过数据预处理、云计算以及数据挖掘平台为主要的层次,提升平台性能,进而实现数据挖掘的功能,其主要的系统设计结构具体如下:

在进行数据挖掘系统结构的设计过程中,数据预处理层可以对分布式数据文件进行存储,进而实现对整个平台的分布式管理;而云计算层则可以对各个数据的挖掘步骤以及模块进行系统的调度以及总控,进而实现对原始数据的与处理,获得各种挖掘数据;数据挖掘平台在实践中可以有效应用,必须要综合实际需求合理设计。

3.2 系统功能设计

在云计算技术之下的数据挖掘平台其具有不同的数据挖掘作用,通过对数据收集模块、数据预处理模块以及模式跪着选择模块、应用接口模块共同构成。其中数据收集模块的主要功能就是对在平台服务器端口中的数据进行收集整理,对客户的各种信息材料进行梳理,通过文本方式对其进行收集,在返回这些信息数据。数据预处理模块就是通过与处理返回数据信息,对信息中一些没有用的相对较为冗余的信息数据进行剔除,进而提升数据挖掘系统的挖掘时间。而模式规则选取模块可以获得各个站点中通用的信息模式,这是一种学习模式。应用接口模块的主要功能就是实现数据以及数据挖掘平台的有效对接处理。

3.3 平台数据库设计

数据库设计在实践中充分的利用各种数据库特征,可以有效地减少数据的冗余性,将数据在一个地方进行集中的存储,利用主键以及外键可以生产动态的视图,进而为程序编写以及查询检索代码的编写提供便捷。在此平台上,Reduce可以接收不同模式的任务数据,在不同任务中传来的信息数据也是有序存在的。在此数据挖掘平台中,如果Reduce端数据量接收相对较小,则可以将其在内存中直接存储;如果数据量高于缓冲区的比例,则就可以将各种信息数据进行合并处理,在将其写到磁盘之中。

3.4 算法模块插件系统

算法模块包括了数据清洗算法方式、数据挖掘算法方式、结果可视化算法等不同的算法。在进行算法模块插件设计过程中其包括不同的部分,其具体内容如下:

第一,在云技术中的大数据计算都具有不规则且噪声严重的特征,对此在实践中要先利用数据集清洗算法对其进行处理,将这些原始数据变为规则的数据集;第二,通过数据挖掘算法对其获得规则数据进行集中处理进而获得其需求的信息。第三,利用可视化算法对目标信息进行传递,进而完成操作。在整个数据处理过程中数据的应用主要就是通过REST接口完成的。

第二,数据集访问模块。数据集访问模块在实践中设计与算法模块插件系统较为类似,都是通过插件对各种信息数据进行调用处理,在数据集的访问过程中,此访问模块文件中一些被检索的信息也可以被用户调用。但是,在数据集访问模块中系统会将数据文件进行分解,形成不同的元数据组着以及不同的物理访问地址,在将这些数据组合形成较为经典的结构参数,对其传递到数据机访问模块之中。

3.4数据挖掘平台算法实现

把数据挖掘技术与云计算进行有效融合,在无限规模的机器集群上对计算进行有效的扩展分析。基于Map/Reduce框架中,对每一次的请求进行计算分析,进行处理。在数据挖掘中,将具体的数据挖掘作业划分为不同的任务,在对其进行分配,在不同的机器上进行执行,在完成任务之后就可以进入到下一个数据挖掘步骤之中,将这些文件合并并且输出文件;在数据平台系统中可以将其生成不同的、若干个Reduce任务,在循环应用算法对其进行处理,就可以生成其需要的数据挖掘目标文件。通过此算法设计数据挖掘平台,可以有效地提升数据的灵活性,进而增强数据挖掘的效率与质量,加强对数据挖掘目标的设置,合理的构建挖掘目标模型,可以提升工作效率与质量。

4 结束语

在实践中,通过云计算技术之下的挖掘平台的设计可以有效地缓解传统数据挖掘平台中框架结构中存在的各种问题,可以避免传统数据结构的复杂性,适应能力差以及成本过高的问题。通过对云计算大数据挖掘平台的设计,利用数据规约功能可以有效地缓解数据异构问题,眱解决数据分析访问以及数据类型中存在的各种难题,在今后的发展中,基于云计算技术之下的数据挖掘平台会不断地规范,其应用范围势必会更加广阔。

参考文献:

[1] 包永红.云计算技术下数據挖掘平台设计及技术[J].现代电子技术,2016,39(16):161-163.

[2] 丁岩,杨庆平,钱煜明.基于云计算的数据挖掘平台架构及其关键技术研究[J].中兴通讯技术,2013, 19(1):53-56.

[3] 王小燕 基于云计算的大数据挖掘平台设计[J].电子设计工程,2017,25(13):25-27.

[4] 石雷.云计算技术下的数据挖掘平台建构探讨[J].自动化与仪器仪表,2017(11):159-160.

[5] 冯娜.计算环境下数据挖掘信息平台架构设计及实现[J].电脑编程技巧与维护,2017(18):163-165.

作者:黄国庆

云计算数据挖掘论文 篇2:

任务驱动式案例教学法在公安院校《云计算与数据挖掘》课程中的探索与应用

摘 要:实战化案例教学是公安高等院校教育教学改革中的重要议题。本文在实战化案例教学法的基础上,有效结合任务驱动教学法,探索任务驱动式案例教学模式的设计与构建,并以《云计算与数据挖掘》课程为例,从课程架构分析、案例任务设计、教学组织形式和考核评价等四个层面,详细论述了任务驱动教学方法在公安院校课程教学改革中的应用思路。为公安高等院校"警务实战化"教学改革提供探索路径。

关键词:任务驱动;案例教学;公安人才培养;课程改革

在国家全面深化公安改革和高等教育综合改革的新形势下,公安高等教育教学改革要以公安实战人才需求为导向,以服务公安工作和公安队伍建设为宗旨,以培养高级公安专业人才为目标,以道德品格、综合素质、职业技能为核心培养模块,不断推进公安教学的警务化、信息化、实战化,不断优化完善“教、学、练、战一体化”的教学模式,促进公安专业人才培养质量的全面提升[1-3]。

其中,实战化案例教学是公安高等教育教学改革中的重要议题[4]。通过实战化案例教学,把抽象难懂的公安理论和侦查思维,通过公安实战案例来具象化、情景化地呈现,让学生能够完全融入特定的实战情景中进行感受、分析、研讨、总结[5-7]。但在实际教学活动中,一方面,由于实战化教学案例大多是从公安实战单位的真实案件中提炼而来,常常由于篇幅冗長、背景复杂、问题难度大,导致学生由于自身理论基础薄弱且缺乏工作经验而无从下手,从而失去兴趣;另一方面,任课教师在实战化案例教学过程中,从案例的引入,到问题的提出,再到问题剖析,仍是以教师讲授为主,削弱了学生自主参与的积极性。

因此,本文在实战化案例教学法的基础上,有效结合任务驱动教学法,将冗长、复杂的教学案例按照知识点进行分解和细化,在案例分解的各个环节设置不同的学习任务,以学生为中心,进行案例问题的抽取和学习任务的剖析、研讨、论证和总结,从而激发学生自主学习和团队协同的积极性,实现学生对课程知识体系与公安实战工作的关联与构建。任务驱动式案例教学法作为“十三五”高校深化教学改革的一种教学方式突破[8,9],对于公安高等院校适应新时代“警务实战化”教学改革的新要求,培养高质量公安专业应用型人才,大力提升实战化教学效果具有十分重要的意义。

本文以《云计算与数据挖掘》课程的教学设计为例,探索任务驱动式案例教学模式的设计与构建,并从课程分析、案例设计、教学形式、考核评价四个层面详细论述了任务驱动教学方法在公安院校课程教学改革中的应用。

1 《云计算与数据挖掘》课程简介

《云计算与数据挖掘》课程是在公安大数据战略和智慧警务建设发展的时代背景下,公安高等院校面向学生开设的一门理论课程。通过该课程的学习,使学生了解云计算和数据挖掘技术的概念、发展历程、基本原理以及相关技术方法,了解云计算与数据挖掘技术的主要应用场景及当前研究热点,了解云计算与数据挖掘的技术前沿,特别是云计算与数据挖掘在公安刑侦、经侦、图侦、网侦、禁毒、情报等警务实战中的应用场景与实战效能。使学生通过本课程的学习,进一步深化自身对公安信息化建设、智慧警务发展、公安大数据战略的理解和认识,掌握警务云建设与运维的基础架构和基本原理,从深层次理解公安大数据的收集、汇聚、处理、分析、研判、预警、决策的全过程,熟练掌握各类数据挖掘算法,并具备数据建模的基本能力,能够运用所学知识解决公安实战问题,进而提高学生的综合能力素质。

2 课程体系架构分析

如图1所示,该课程体系共包含4个教学主模块,19个教学子模块。在云计算教学主模块中,主要讲授云计算的概念、云计算的发展历程、云计算的特征与优势、云计算的技术架构以及云计算的应用场景等内容。其中,云计算的技术架构是本教学模块的教学重点和难点,涉及HDFS、MapReduce、BigTable、Hive等云计算关键技术方法的理解与运用。通过本模块的学习,使得学生掌握搭建Hadoop虚拟集群的基本能力,结合相关案例任务,完成相关模块的开发与调试,实现简单的云架构处理流程。

在数据挖掘教学主模块中,主要讲授数据挖掘概念、数据挖掘的发展历程、数据挖掘的技术特征及优势、数据挖掘的技术方法及基本原理、数据挖掘的应用等内容。其中,数据挖掘的技术方法是本教学模块的教学重点和难点,涉及数据预处理、分类与聚类、时间序列分析、关联分析、预测决策等相关技术方法的理解与运用。通过本模块的学习,掌握数据分析的基本技能,深层次理解公安大数据的数据分析研判流程,具备基本的数据建模能力,能够结合相关案例任务项,完成数据研判的模型构建、数据抽取、数据分析和结果评估等任务。

在基于云计算的数据挖掘技术教学主模块中,主要讲授大数据概述、大数据架构、大数据分析方法和大数据应用等内容。其中,大数据分析方法是本教学模块的教学重点和难点,涉及数据挖掘算法的MapReduce处理、大数据预测预警分析方法、数据挖掘可视化等相关技术原理的理解与运用。通过本模块的学习,使学生了解大数据的概念与技术架构,掌握大数据分析的基本流程与分析方法,能够结合相关案例任务,完成Hadoop架构下数据挖掘算法的并行化处理,开发数据挖掘可视化界面等任务。

在云计算与数据挖掘技术在公安实战中的应用教学主模块中,主要讲述智慧警务、公安大数据、警务云平台、警务云架构、AI警务等内容。其中,公安大数据和警务云是本教学模块的重点和难点,涉及公安大数据的数据搜集、数据分析、情报预警、情报决策以及警务云的平台架构、数据质量管理、研判模型及技战法、实战应用模块等内容。通过本模块的学习,使学生了解公安大数据发展战略,理解智慧警务的核心内容及相关技术方法,熟悉掌握公安大数据的数据挖掘流程,熟练运用公安警务云的相关模块和功能,通过结合相关案例任务,完成模拟数据的建模、分析、预警、指挥、决策等实战场景任务。

3 课程案例任务项目设计

任务驱动式案例教学法的关键环节是根据课程的教学内容和教学目标设置多层次、渐进式的案例导入情景和案例任务项目。通过典型性实战化案例选取、层次性任务设计、多元化教学组织和综合性教学评价,充分调动学生学习的主动性和创造性,培养学生发现问题、分析问题、解决问题的综合能力。因此,在课程案例任务项目设计中,要充分考虑学生对情境的体验感和参与感,典型的案例和实战性、任务的层次及合理性等设计原则。其本质就是在任务驱动式案例教学过程中提升学生综合利用大数据思维和数据挖掘方法,解决公安实战问题的综合应用能力。

根据上述任务驱动式案例教学的设计原则,在该课程案例任务设计中,综合考虑各个教学主模块的教学重点和教学目标,精心收集、整理、设计和构造各个教学主模块的教学案例任务,将教学模块中教学重点与拟定案例深度融合,并通过设置一定难度的学习任务,让学生通过自主学习、小组讨论、方案论证、演绎推演等环节,深层次理解相应的知识点和理论体系,熟练掌握使用相应技术方法搭建平台环境、构建数据模型、设置指标条件、深度挖掘分析的公安大数据实战能力。如表1所示该课程重点讲授内容的案例任务设计框架。围绕4个教学主模块中云计算技术框架、数据挖掘技术方法、大数据分析方法、公安大数据和警务云等教学重点内容,设计了15个案例任务。

在云计算技术架构教学模块中,主要设计了系统开发型的案例任务,使学生通过虚拟机环境完成各类云平台、云环境、云功能的搭建任务,让学生深度感受云计算架构的运行机制和指标功能,了解云计算的技术优势与实战效能,在学生知识体系中构搭建了云计算与公安大数据海量计算需求之间的关联关系。

在数据挖掘技术方法教学模块中,主要设计了系统开发型和软件应用型的案例任务,让学生结合所学各类挖掘算法的技术原理与实现算法,完成数据挖掘系统各类挖掘功能模块的设计任务;在使用数据挖掘软件进行数据建模与数据分析的过程中,具备数据意识,熟练掌握数据挖掘分析软件的使用技巧,完成各类公安实战场景的数据分析任务,在学生知识体系中搭建了数据挖掘技术与公安大数据智能计算需求之间的关联关系。

在大数据分析方法教学模块中,主要设计了软件应用型的案例任务,使得学生通过公安大数据智能研判系统或数据分析引擎的熟练操作,完成具体的公安大数据实战虚拟案例,在学生知识体系中搭建了公安大数据分析方法与公安大数据智能深度应用需求之间的关联关系。

在公安大数据和警务云的教学模块中,主要设计了公安实战化应用案例,通过模拟公安机关案件研判环境,设计相应的案件线索搜集任务、案件指标抽取任务、案件线索与情报信息综合研判任务、案件预警预测模型构建任务等,使学生熟练掌握公安大数据综合信息平台的使用技巧,具备结合具体案件类型,进行信息综合研判的能力,在学生知识体系中搭建了公安大数据与智慧警务需求之间的关联关系。

4 课程教学组织形式

为了适应任务驱动式案例教学方法的实施,该课程采用了混合式教学形式,即线上理论学习与线下实验实训加翻转课堂的混合教学形式。通过线上教学方式,学生通过学校内网访问《云计算与数据挖掘》移动教学系统,对4个教学主模块中的基础理论和技术方法进行自主学习,完成系統中各小节设置的学习任务。该教学系统内的教学视频以微课程的形式呈现,每一个知识点的教授时间在8-15分钟左右,系统可对每位学员的线上学习过程进行跟踪与反馈,以学习进度百分比的形式向学生端和教师端可视化展现,并支持学生自主学习过程中的电子笔记、提问、讨论等功能。同时可支持Windows、Android和Mac等系统终端。

通过线下实验实训与翻转课堂的教学方式,学生按任务小组的形式进行分组实验和小组汇报。在分组实验环节,以小组为单位,按照案例任务要求,设计实验技术方案和相应任务模块,每一位学生负责相应的任务模块,完成相应的方案设计、代码编写、系统部署、功能调试、数据分析、实验报告上传等任务。从而提升学生的全程参与感,锻炼学生的动手操作能力和团队协作能力。在小组汇报环节,以翻转课堂为主,每一个案例任务项目安排一次翻转课堂,每一个小组按照案例任务的要求,从案例问题导入、实验方案设计、组内人员任务分工、关键技术模块或数据模型构建、目标功能实现、侦查研判分析、结论等方面进行汇报PPT的设计,在翻转课堂上进行讲述。其余小组根据汇报内容,结合本组设计方案的差异性,对汇报小组进行提问与讨论,从而进一步拓展了学生思考问题、解决问题的思路和方法。

5 课程考核与评价

任务驱动式案例教学的考核与评价环节中,引入了过程考核的教学改革理念,改变了传统的考查学生理论基础知识的“一考定终身”的应试考核方式。是按照学生线上学习、线下实验实训加翻转课堂的情况进行全过程考核,全面考察学生的理论知识学习进度及反馈情况、技术方法的使用情况、大数据理念的运用情况、案件侦查的数据思维运用情况、警务云和综合信息平台的综合研判使用情况、团队协作与交流情况、案例任务项目完成情况、汇报交流情况等。具体考核与评价方案为,学生综合测评总成绩=线上学习综合成绩*30%+实验实训成绩*40%+翻转课堂成绩*20%+教师综合评价*10%。

6 结束语

公安高等教育教学改革要以学生为中心,以教师为主导,不断深化落实公安教育教学的警务化、信息化、实战化,不断优化完善“教、学、练、战一体化”的教学模式,全面提升公安高等教育的教学水平。本文基于任务驱动式案例教学法的教学理念,结合公安院校《云计算与数据挖掘》课程的教学改革任务,从课程体系框架、教学内容、案例任务设计、教学组织形式、考核与评价等层面逐一分析了任务驱动式案例教学法的应用思路与实践效果。在教学实施过程中,通过设计实战化的案例情境,设置针对性、层次性的案例分析任务项目,以问题为导向,引导学生线上自主学习,线下模拟训练和课堂汇报交流,通过小组协作完成相应案例任务以达成教学目标,增强了学生公安大数据战略意识,培养了学生数据侦查思维,提升了学生理解公安数据、分析公安数据、应用公安数据的公安实战能力。

——————————

参考文献:

〔1〕张婕,张昱琨.系统设计 重点突破——“高等教育综合改革”若干试点调研报告[J].中国高教研究,2014,30(09):51-58.

〔2〕郝宏奎.新时代公安专业本科人才培养要略——中国刑事警察学院本科人才培养的理念、体系及特色[J].中国刑警学院学报,2018,36(04):33-45.

〔3〕熊一新.关于全面深化公安改革若干问题的思考[J].中国人民公安大学学报(社会科学版),2015,31(06):31-39.

〔4〕丁荣荣.“应用型案例教学模式”的研究与实践[J].赤峰学院学报(自然科学版),2010,26(04):171-172.

〔5〕冯莹莹,李林国,赵莎莎.案例教学法在《C语言程序设计》中的应用实践[J].赤峰学院学报(自然科学版),2017,33(04):200-202.

〔6〕刘敬刚,郭燕.融入数学建模思想的线性代数案例教学研究[J].赤峰学院学报(自然科学版),2020,36(01):15-17.

〔7〕常娟.案例教学与实践教学在电子商务课程中的应用[J].赤峰学院学报(自然科学版),2012,28(15):57-58.

〔8〕张洪光.任务驱动型研究性学习教学模式的探讨[J].赤峰学院学报(自然科学版),2015,31(02):219-221.

〔9〕刘开伟,丁益,吴修胜,王爱国,徐海燕,孙道胜.任务驱动的CDIO理念在工程教育认证中的探索应用[J].赤峰学院学报(自然科学版),2018,34(03):144-145.

作者:张冬冬 郭晓春

云计算数据挖掘论文 篇3:

基于云计算的数据挖掘平台架构及其关键技术研究

摘 要:目前利用云计算进行数据挖掘是海量信息数据处理的热点,云计算以其优越的性能为数据挖掘提供了良好的平台。本文首先介绍了云计算和数据挖掘的相关概念,再从应用的角度阐述了基于云计算的数据挖掘平台的基本架构和功能模块,最后对平台建构中运用的关键技术进行了剖析。基于云计算的数据挖掘平台是当前海量信息处理的研究重点,本文中平台的建构对当前的研究具有重要的实践意义。

关键词:云计算;数据挖掘;大数据

随着计算机技术与互联网技术的迅猛发展,我们迎来了海量信息时代。据统计,全球数据总量每三年就会翻一倍,目前对数据总量的统计已踏入ZB级行列。这些数据来自各个领域,包含着大量的可用信息,但如何从这些海量的数据中提取有用信息并加以利用是我们当前面临的问题。传统的集中式数据挖掘方式已不适应当前的大数据量,多样化个性化的数据挖掘需求强劲,因此云计算凭借其海量存储能力、强大的计算能力和低廉的设备投入,成为解决海量数据挖掘的有效方式,基于云计算的数据挖掘平台将是未来运营商和行业用户在信息数据处理方面的发展趋势[1]。

1 云计算和数据挖掘

1.1 云计算。所谓云计算,是一种以互联网为载体,利用分布在大规模数据中心的计算机来提供各种服务器资源及计算、信息服务,是分布式计算、并行计算、网格计算的发展,并与虚拟化概念融合商业化的计算模式[1]。

云计算通常包含三个服务层次,即基础设施即服务(IaaS)、平台即服务(PaaS)以及软件即服务(SaaS)[2]。在IaaS层次,用户可直接获取包括硬件、存储、数据库等基础服务;在PaaS层次,平台作为服务提供给用户,包括应用的设计、开发和测试;在SaaS层次,用户通过云平台获取基于Web的软件使用权。云计算最早在2006年由Google提出,目前较为成熟的云计算平台有Google APP Engine、Amazon Elastic Compute Cloud等。

云计算具有资源共享、数据安全、性能强大、成本低廉等优势,因此基于云计算的数据挖掘平台研究有着现实意义和广阔的应用前景。

1.2 数据挖掘。数据挖掘是通过各种算法对大量数据进行处理从而提取隐匿在其中的有用信息并加以利用,融合了统计学、模式识别、人工智能等思想,广泛应用于数据分析、决策支持、风险防控等领域,以及国家安全、国民经济和现代服务业等各行各业。

传统的数据挖掘是通过对数据仓库进行计算,找出数据模型和数据关系,再对大规模数据进行统计,整个挖掘过程消耗大量计算和存储资源,不仅效率低下,软硬件成本高,并且通用性和个性化程度低,在大数据的今天无法满足海量数据的处理和各领域的应用[3]。基于云计算的数据挖掘方法可充分发挥云计算的优势,效率高、成本低、资源多,因此是当前数据挖掘、信息处理的主要发展方向。

2 基于云计算的消防数据挖掘平台架构

2.1 系统构成。基于云计算的数据挖掘平台系统由用户交互子系统、应用程序子系统、数据挖掘子系统和硬件服务子系统几部分构成,如图1所示,用户使用各种终端设备接入互联网,连接到数据挖掘平台,通过用户信息登录平台后进行数据挖掘操作。几个子系统既可以组成整体为用户提供数据服务,也可作为独立的个体单独为用户服务。

2.2 用户交互子系统。用户交互子系统是平台与用户的交互接口,通过图形用户界面引导用户操作,可为用户提供注册注销、身份验证、授权申请、账户管理等服务,该子系统是用户进入平台的入口,是下层各服务的通行证,是平台信息安全的保障。

2.3 应用程序子系统。应用程序子系统是数据挖掘子系统与用户管理子系统的中间环节,该子系统将数据挖掘子系统中调用的数据、算法及其对應关系等描述为任务,并开放调用和维护接口等应用服务。应用程序子系统又包括应用注册及注销服务、应用调用服务及应用维护入口。

2.4 数据挖掘子系统。数据挖掘子系统是通过各种算法对数据进行计算以完成挖掘任务,达到信息处理的目的,该部分又可分为数据获取、预处理、挖掘计算、结果评估、个性化服务等几个功能模块。数据获取模块将数据读入并通过数据规约转换为统一格式保存在平台的数据库中,通过数据清洗去噪等将源数据处理为满足用户需求的数据集,再利用各种算法对数据进行识别、统计,发现其内在规律和隐藏模式,最后通过图形、图表、描述等方式呈现给用户。个性化服务功能的设计可以满足用户的不同需求、实现个性化定制,同时可将该用户的自定义挖掘算法作为系统资源再提供给平台使用。该子系统同时记录用户的使用情况并提交给用户交互子系统。

2.5 硬件服务子系统。硬件服务子系统包括服务器和数据库,一方面可作为本平台的数据存储和访问使用,同时还可以独立向用户提供平台访问、租赁等服务,以实现资源的高效配置。

3 数据挖掘云平台的关键技术

3.1 分布式并行技术。云计算的核心是提供分布式文件存储和并行计算,分布式文件存储可以有效保障数据的高吞吐率以满足并行计算的要求,最早有Google的GFS系统,后来的HDFS和KFS在GFS的理论基础上实现开源并成为在商业和学术领域广泛使用的分布式文件系统。并行计算方面目前使用较为广泛的是Google的MapReduce编程模式,将数据分布、任务执行、数据容错、带宽时延等问题进行编码并封装,用户在使用时调用执行即可。由于这种方式不适合计算具有相互关联的数据,并且其开发工具不太完善,因此其未来的发展决定了数据挖掘平台的发展和应用。

3.2 数据挖掘算法。数据挖掘算法是整个数据挖掘平台的核心,综合了统计学、人工智能、模式识别、建模等多种学科,目前较为常用的方法有统计分析、决策树、神经网络、关联规则、聚类分析等[4]。其中,统计分析最为简便,通过数据的最值、均值、方差、相关等分析其统计规律;决策树是将数据进行分类,描述简单速度快;神经网络主要应用其自学习、自组织、自适应能力对数据进行联想分类和预测;关联规则是在数据仓库中搜索数据之间的关联关系;聚类分析是根据实体特征对数据进行聚类或分类。每一种算法都有很多具体的实现算法,各种算法自有优势,适用于不同的应用领域,具体应用中可根据用户需求进行组合和调用。

4 结束语

在大数据的今天,基于云计算的数据挖掘颠覆了传统数据挖掘方式,以海量的存储能力、强大的计算能力、低廉的设备投入以及动态的扩展能力,解决了海量数据的分析、处理和存储难题。目前这一方面的研究还处于学习探索阶段,该平台的建构可以为运营商及企业提供数据挖掘服务,具有广阔的应用前景和巨大的现实意义。

参考文献:

[1]丁岩,杨庆平,钱煜明.基于云计算的数据挖掘平台架构及其关键技术研究[J].中兴通讯技术,2013(01):53-60.

[2]程琳.基于云计算的数据挖掘系统架构研究[J].电子世界,2012(21):5-7.

[3]郑妙师.基于云计算的数据挖掘平台架构及其关键技术研究[J].信息通信,2014(08):71.

[4]张敏.云计算环境下的并行数据挖掘策略研究[D].南京邮电大学,2011.

作者简介:朱江(1975-),男,上海人,信息室主任,硕士,研究方向:网络信息安全方向。

作者单位:公安部上海消防研究所 消防应急救援装备公安部重点实验室,上海 200438

作者:朱江

上一篇:第一书记工作总结(精选2篇)下一篇:中国画艺术创作论文