云计算和网格计算

2022-09-22 版权声明 我要投稿

1 网格的概念与特点

1.1 网格的概念

网格 (G r i d) 一词来自于电力网 (E l e c t r i c P o w e r Grid) , 网格的最终目的是希望用户在使用网格服务时, 就如同使用电力一样方便。网格计算 (Grid Computing) 的概念最初是l--wily项目于1995年提出的, 其前身是元计算 (Meta computing) 。早期的元计算被定义为在一个网络环境下用户能够透明地获得强大的计算资源。它也被定义为过去对元计算的研究可以认为是网格计算的初级阶段。还有一些与网格计算相关的概念是分布式计算 (Distributed Computing) , 对等计算 (Peer-to-Peer Computing) , 因特网计算 (Internet Computing) , 全球计算 (Global Computing) , 基于Web的并行计算 (Web-based Parallel Computing) 等。网格以及网格计算本身目前还没有一个公认的定义。根据Ian Foster博士早期的定义, 网格是一个集成的计算和资源环境, 或者说是一个计算资源池。并指出网格计算关心的是:在动态的、多机构的虚拟组织中协调资源共享和协同解决问题。针对网格概念模糊的现象, Ian Foster提出了判断网格的三条标准:非集中式协同控制资源;使用标准、开放、通用的协议和接口;提供非平凡的服务质量。网格希望把整个互联网虚拟为一台超级计算机, 给使用者提供一种与地理位置无关, 与具体的计算设施无关的通用计算能力。网格能够充分吸纳各种资源, 并将它们转化为一种随处可得的、可靠的、标准的同时还是经济的计算能力, 除了各种类型的计算机, 这里的资源还包括网络通信能力、数据资源、仪器设备等。

1.2 网格的特点

分布性是网格的一个最主要的特点。网格的分布性首先是指网格的资源首先是分布的。组成网格是计算能力不同的计算机, 各种类型的数据库乃至电子图书馆, 以及其他的各种设备与资源, 是分布在地理位置不同的多个地方, 而不是集中在一起的。这些资源的类型复杂, 规模较大, 跨越的地理范围较广。这就决定了网格的计算一定是分布式计算而不是集中式计算。在网格这一分布式环境下, 需要解决资源与任务的分配和调度问题, 安全传输与通信问题, 实时性保障问题, 人与系统以及人与人之间的交互问题等等。

2 网格计算与云计算

网格计算是伴随着大规模计算需求而产生的一种能够整合零散资源并实现资源共享和协同工作的计算模式, 它的出现解决了很多领域复杂的问题。而云计算在网格计算的基础上发展起来, 与网格计算不同, 它将计算任务分布云计算部署的资源池上, 使连入互联网的用户能够根据需要获取计算能力、存储空间和各种软件服务, 是一种通过互联网将数据中心的各种资源打包成服务向外提供的商业模式。

2.1 云计算的概念

云计算是从网格计算演化来的, 能够随需应变地提供资源。目前, 对于云计算的认识在不断的发展变化, 云计算仍没有普遍一致的定义。谷歌全球大中华区总裁李开复博士这样界定云计算:所谓云计算, 就是要以公开的标准和服务为基础, 以互联网为中心, 提供安全、快速、便捷的数据存储和网络计算服务, 让互联网这片“云”成为每一个网民的资料中心和计算中心。

2.2 网格计算与云计算的分析与比较

总的来说, 云计算包含了网格计算的涵义, 但它也具有着一些网格计算不具有的新特点, 以下从涵盖范围、应用范围、专注方向、体系借个、资源管理、资源调度、作业管理、安全体制等方面做了全面的分析与比较。

3 基于网格的聚类分析

将物理对象或抽象对象的集合分组成为由类似的对象组成的多个类 (簇, 组) 的过程被称为聚类。在聚类的分组结果中, 同一簇内的数据对象之间应具有较高的相似度, 而不同簇内的对象之间相似度低。它既可以作为一个独立的算法分析数据中存在的结构, 也可被用作其他算法的预处理步骤。

聚类分析是一种重要的人类行为。聚类分析于分类和预测不同, 聚类分析数据对象, 而不考虑已知的簇标记。一般情况下, 训练数据中不提供簇标记, 因为不知道从何开始。聚类可以属于产生这种标记。对急剧增长的数据加以组织和从数据中学习有价值信息的需要, 使得聚类成为一个非常活跃的研究领域。聚类分析已经广泛地用在许多应用中, 包括人工智能、生物学、客户关系管理、数据压缩、数据挖掘、信息检索、图像处理、机器学习、市场营销、模式识别、心理学和统计学等。数据聚类正在蓬勃发展, 在商务上, 聚类能帮组市场分析人员从客户的基本库中发现不同的客户群, 并且用购买模式开刻画不同的客户群的特征。在生物学领域, 聚类被用来依据五种特征舀动建立物种分类, 对基因进行分类, 获得对种群中固有结构的认识。聚类分析也能用于对Web上的文档进行分类, 越发现信息。作为一个数据挖掘的功能, 聚类分析裁作为一个独立的工具来获得数据分布的情况, 观察每个簇的特点, 集中对特定的某些簇做进一步的分析。

3.1 基于网格方法的聚类算法与基于密度的聚类算法

基于密度的方法以空间中的一点为中心, 单位体积内点的个数称为该点的密度。从直观上来看, 聚类内部点的密度较大, 而聚类边界上点的密度较小。基于密度的聚类根据空间密度的差别, 把聚类相似密度的相邻的点作为一个聚类。与其他方法的一个根本区别是:它不是基于各种各样距离的而是基于密度的。这样就能克服基于距离的算法只能发现“圆形"类的缺点, 以发现任意形状的聚类结果。代表算法有DBScan算法, OPTICS算法, DENCLUE算法等。

DBScan算法是一个基于密度的聚类算法。该算法将具有足够高密度的区域划分为簇, 并可以在带有噪音的空间数据库中发现任意形状的聚类。它定义类为密度相连的点的最大集合, 在这个算法中使用了Eps和MinPts两个全局变量。DBScan算法利用类的密度连通性可以快速发现任意形状的类。对于一个类中的每个对象都是相应的密度可达对象。密度可达对象的获取是通过不断执行区域查询来实现的。为了有效地执行区域查询, DBScan算法使用了空间查询R*-树结构。R*-树的建立非常消耗时间。当数据量非常大时, 就必须有大内存量支持, I/O消耗也非常大。其时间复杂度为O (nlogn) (n为数据量) , 聚类过程的大部分时间用在区域查询操作上, 并且对于参数的设置通常是依靠经验, 难以确定。尤其是对于真实的高维数据集合而言OPTICS算法克服了DBScan算法的缺点, 是一种顺序聚类的方法。OPTICS没有显式地产生一个数据集合, 它为自动和交互的聚类分析计算一个类秩序。这个秩序代表了数据的基于密度的聚类结构。它包含的信息, 等同于从一个宽广的参数设置范围所获得的基于密度的聚类。

基于网格方法的聚类算法主要包括G R I D C L U S, BANGClustering, STING, WaveCluster, CLIQUE, MAFIA。其中, GRIDCLUS与BANG-Clustering基于索引文件Grid File中的网格数据结构进行聚类分析;STING主要用于回答查询;WaveCluster使用小波分析使簇的边界变得更加清晰;CLIQUE着重解决子空间聚类问题;MIAFA通过调整网格划分对CLIQUE进行了改进。

3.4 基于网格的聚类分析算法

基于网格的聚类分析算法 (grid.based clustering analysis algorithm) 的基本思想是对数据集的每一个维进行划分, 这样便可将数据空间量化为有穷数目的互不重叠的网格, 所有的聚类分析操作都在这些网格上进行。基于网格的聚类算法的优点是聚类分析算法的时间复杂度独立于数据对象的数目, 只与网格的数目有关, 极大地提高了聚类效率。另外, 由于使用摘要数据结构来描述网格单元信息, 因此, 其也适合增量聚类。

下面将介绍两种典型的基于网格的聚类分析算法:

(1) CLIQUE (CLustering In QUEst) 算法。CLIQUE算法为发现高维空间的子空间中的簇提供了一种途径。对于实际的应用来说, 相对于整个空间中形成的簇而言, 子空间中可能包含着潜在有用的簇。

(2) GRIDBSCAN (Grid Density—Based Spatial Clustering of Applications with Noise) 算法。GRIDBSCAN算法是对经典的基于密度的聚类分析算法DBSCAN的改进。DBSCAN算法的优点是可以发现任意形状的簇。

摘要:随着信息技术在各个领域的普及, 各种应用每天产生的数据量呈指数级增长。如何有效处理这些数据, 从中提取有用的知识, 是迫切需要解决的问题。数据挖掘的任务是从大型数据集中提取知识。聚类分析是数据挖掘中的一项主要技术, 它将物理对象或抽象对象的集合分组成为由类似的对象组成的多个簇。而基于网格的聚类分析作为数据挖掘的一个重要任务, 具有广泛的应用领域, 这些不同的应用都对聚类分析算法提出了新的要求。

关键词:聚类,网格方法,云计算,DBScan

参考文献

[1] 孙玉芬.一种基于网格方法的高维数据流子空间聚类算法.2007 (6) .

[2] 丁建立, 陈增强, 袁著祉.基于动态聚类邻域分区的并行蚁群优化算法.系统工程理论与实践, 2003 (9) .

[3] 金澈清, 钱卫宁, 周傲英.流数据分析与管理综述.软件学报, 2004, 15 (8) :1172-1181.

[4] 孙玉芬, 卢炎生.流数据挖掘综述.计算机科学, 2007 (1) .

上一篇:乡村振兴背景下小城镇现状产镇问题与发展问题研究下一篇:高中政治课堂应培养学生“说”的能力