云计算技术论文(精选8篇)
摘要:云计算是一种基于互联网的应用模式,能够让计算服务像水、电等公共服务一样,随需取用、按量付费,被视为信息产业的第三次革命,它将是未来社会信息化的主要形式,也是未来国家信息战略安全的主要载体。
舜网讯 浪潮集团正式发布“云海In-Cloud”战略,开始全面推进云计算业务。作为云海战略的重点,浪潮首次定义“行业云”概念,并宣布将于年内推出国内首个自主开发的云计算操作系统,我国在云计算这一战略新兴领域的关键技术空白将因此被填补。
浪潮云计算市场战略布局初步形成
云计算是一种基于互联网的应用模式,能够让计算服务像水、电等公共服务一样,随需取用、按量付费,被视为信息产业的第三次革命,它将是未来社会信息化的主要形式,也是未来国家信息战略安全的主要载体。“云海”战略的正式实施,标志着作为国内IT产业的骨干企业的浪潮集团对中国云计算市场的战略布局已经形成。
作为云海战略的重点,浪潮首次定义“行业云”概念,提出“行业云”作为“公有云”的重要组成部分,是未来中国云计算市场的重要力量,并与山东计算中心签署云计算合作协议,建立国内最大的区域行业云和未来云计算研究中心,作为浪潮云海战略实施的第一个落地的“行业云”项目。
据浪潮集团高级副总裁王恩东介绍,目前,行业用户已经占据了中国信息化市场50℅以上的市场份额,从行业组织的分散性,数据的封闭性等方面看,云计算无疑是实现行业数据和资源共享,推动数据向服务转化的最佳途径。因此,行业云是公有云最具潜力和战略意义的市场,是中国云计算未来的主导力量。而浪潮与山东计算中心签约后将共同完成山东全省13个软件园的资源整合、共享、协同,着力研究开发下一代云计算前沿技术,并逐步丰富云计算的服务。
与此同时,浪潮宣布推出国内首款云操作系统——云海(云OS),填补了我国在云计算基础架构领域里的关键技术空白,成为普遍关注的焦点。
云计算操作系统是云计算的关键平台技术,类似于人体的神经系统,在云计算应用中承担着对大型数据中心、跨数据中心硬件资源的统筹调度、管理的枢纽作用,对云计算的安全和效率有着至关重要的影响。但是,在操作系统领域存在着诸多技术难题,譬如在高并发条件下如何实现服务的持续可用,以及万量级资源管理等,目前尚无国产厂商涉足该领域。业内观察人士认为,“云海”操作系统推出后,浪潮将成为中国首家掌握该技术的厂商,大大缩短了中国与发达国家在该领域的距离,对未来中国云发展具有重要意义。
扫清云计算在中国发展的障碍
我国关于云计算的讨论已经持续了近三年,但由于各个厂商存在着不同的利益点,提出的观点也各不相同,使得客户对云计算的理解陷入误区——只看局部,无视整体;只看细节,忽视架构;只谈概念,忽视落地应用;只照搬国外经验,忽视中国具体国情,给云计算在中国的发展带来了很多障碍。
科技部高新司嵇智源处长说,与欧美、日本等发达国家相比,我国云计算技术起步较晚,呈现出头重脚轻的趋势,一方面众多企业纷纷推出种类繁多的云计算运用,另一方面,由于国外企业对核心技术的垄断,很少有国内企业进行创新芯片以及硬件方面适合云计算的研究和开发。长此以往,我国云计算将一直是空中楼阁,发展前景不容乐观。
王恩东在接受科技日报记者采访时表示,核心技术的缺失将是制约中国云计算整体发展的壁垒。尤其在云计算基础架构核心技术层面,一直以来鲜有国内厂商涉水,大多数都着眼于平台运营与软件服务。事实上,该领域的缺失已经不仅成为制约我国云计算事业发展的最大障碍,更为我国的信息安全埋下了隐患。打造云计算硬件核心装备和云操作系统,是解决云计算基础架构核心技术问题的关键。
工信部电子信息司副司长刁石京表示,云计算的根本在于应用与服务,中国拥有世界上最大的无线网和最大的有线电视网,同时拥有最大的互联网用户人群,为中国云计算发展提供了肥沃的土壤。中国本土IT企业完全有条件在这样的契机下,实现整体突破,成为中国云时代的领跑者。
嵇智源处长说:“浪潮集团在国内率先推出了云计算战略,针对云计算基础架构展开一系列的高效的开发和推广工作,特别是很快就要面世的自主云操作系统将填补我国在这一领域的技术空白。凭借着对自主创新的坚持,我们将在随之而来的云计算时代中,不再受制于国外的技术封锁和垄断,真正将信息领域的相关产业做大做强。”
在过去的十年里, 计算机在处理性能, 存储容量, 网络技术等方面获得了长足的进步, 并由此诞生了很多新兴的计算机技术来方便人们的日常办公和生活需要。目前, 物联网技术和云计算技术是新兴的研究热点。云计算由于其较高的可扩展性, 较低的设备价格及按需服务等特点越来越受到企业、院校、政府的青睐。学术界也对此也做了很多的研究性工作。
目前对于云计算的定义有很多种, 比较常用的说法是云计算是一种基于互联网的计算方式, 通过这种方式, 共享的软硬件资源和信息可以按需提供给计算机和其他设备[1]。1961年John Mc Carthy在MIT一百周年的纪念典礼的演讲上述, 计算机的应用性将越来越普遍, 并且将成为将来新型的重要工业基础。这段话在一定程度上也预示了云计算技术的产生。2006年在Google的搜索引擎战略会议, Eric Schmidt首次提出了云计算这个整体性的概念[2]。随着计算机处理器性能和存储容量的迅速发展, 云计算技术所具有的优势使得对企业, 政府机构等组织非常有吸引力:
较少的资金开销, 一般云计算用户可以通过租用的方式获得服务, 这样在减少设备成本投入的同时也获得了自己所需要的计算性能。
可扩展性, 高度的可扩展性能无疑是云计算技术一大亮点, 云服务提供者只需要增加一定数量的服务器, 数据库和网络带宽等设备就能扩展云服务的能力。
灾难恢复的功能, 大多数的中小型企业一般没有灾难恢复的设施。由于云技术的虚拟化和冗余性备份功能, 企业不太会丢失掉他们的数据。
虚拟化, 云计算其实也是虚拟化技术的一种实现。通过虚拟化的技术, 底层的硬件设备被抽象化了。由服务器构成的虚拟资源将会动态的, 按需的方式分配给应用用户。
一、云计算的体系结构
传统上来讲, 云计算体系的结构可以分成四个部分[3], 如图1所示:物理层、虚拟层、平台层和应用层, 接下来我们详述每个层的功能。
物理层:顾名思义, 物理层负责管理云中的硬件资源, 包含物理服务器、路由器、交换机、电力和冷却系统。实际上, 一般一个数据中心等同于一个物理层。数据中心包含了好几千个的服务器, 它们通过高速交换机、路由器或者其他的光纤介质互联起来形成一个整体。物理层上的事务性处理包括硬件设备的配置管理、容错性保证、流量管理、电力和冷却系统管理等。
虚拟层:虚拟层使用了诸如Xen、KVM和VMware等虚拟技术, 将计算资源和存储资源整合形成了一个资源池, 应用用户就可以从这个资源池中获取他需要的计算服务。虚拟层是云计算技术的一个重要组成成分, 因为只有通过虚拟化技术才能实现像动态资源管理的功能。
平台层:平台层在虚拟层之上, 该层的由操作系统、应用程序框架之类的构建构成。平台层设置的目的主要是为了方便应用层和虚拟机之间的连通, 减少部署应用程序时的负担。例如, Google在平台层的应用引擎就提供了API接口用以支持存储数据库和Web应用的常用操作。
应用层:应用层在体系结构中的最高层, 由实际的云应用程序构成。和传统的应用程序相比, 云中的应用程序的优点在于它可以简单地通过可扩展行的优点获得更高的性能、可用性, 并减少运行开销。
和传统的网络服务模式相比较, 云计算的体系结构更加地模块化。每一层和上下层的关系都是比较松散的耦合关系, 这一点和OSI的体系结构很类似, 每一层可以很独立的进行升级。
但在商业的角度来看, 硬件和平台级的资源是按需提供服务的基础, 根据每个公司具体的策略又将云计算分成了三类不同的模型[4]:软件即服务 (Saa S) , 平台即服务 (Paa S) , 基础设施即服务 (Iaa S) 。但是这些不同的模型都具有按需服务, 错误容忍, 较好的弹性等特点。
基础设施即服务需要提供具体的基础设备, 它一般包含前面提到的虚拟层和物理层。通常以虚拟机的形式呈现给用户, 而提供Iaa S服务的云拥有者就可以成为Iaa S服务商, 例如Amazon EC2、Flexicale和Go Grid等。
平台即服务是提供平台级的资源, 包括操作系统和软件开发框架等, 为其他软件开发人员提供开发的接口, 并由此调用相应的云计算功能。像Paa S服务商有Microsoft Windows Azure, Google App Engine和Force.com等。
软件即服务是指在互联网上以按需方式向用户提供服务的应用程序。例如Salesforce.com, Facebook等。
二、商用云计算平台
目前, 云计算以其优异的性能特点, 吸引了众多的互联网公司投入大量的人力物力进行研究和开发工作, 并形成了各自的云计算技术理论体系, 典型的代表有Google、Microsoft和Amazon, 接下来将逐一进行介绍。
a) Google云计算平台。
Google公司由搜索引擎而著名, 但同时它的邮件服务, 地图服务等其他的应用也很受大众的欢迎。这全得益于Google云计算技术。Google云计算技术大致主要包含三个内容Google文件系统, Map Reduce框架和Big Table数据存储系统。
在计算机技术高度发达的今天, Google以一种特别另类的方式构建了它们高性能的云计算系统。Google云物理设备只是将许多普通计算机形成一个集群的方式构建而成, 相比于其他的互联网公司采用一些高性能服务器的方式, Google公司在减少设备开销的同时, 也获得了良好的服务性能, 而且Google在可扩展性方面更加的具有弹性。
Google文件系统
Google文件系统简称为GFS[5]。GFS是Google云软件框架的基础, 比较像类Unix文件系统。但与普通的Windows文件系统和Unix文件系统不一样, GFS最小的存储单元是64MB, 并称为Chunk。虽然一个Chunk只有64MB的大小, 导致在存储空间利用率不是很理想, 但在大数据文件中却可以获得很高的性能。另外, GFS还具有容错性保证的特征, 不像传统的Unix文件系统基本块都在一个磁盘上, GFS将Chunk分布到云中的各个机器上。而且GFS还会将一个Chunk拷贝到一个或多个机器上, 这样就不会出现单节点失效所造成的数据丢失。
Map Reduce框架
在GFS基础上, Google又设计了Map Reduce框架[6]。Map Reduce它包括两个基本算法, Map和Reduce。简单来说, Map算法用来对输入进行映射, 而Reduce算法则对Map算法的输出结果进行化简。例如开发者对于一个数据元祖
Map Reduce框架可以自动将任务分割成若干个子任务并在许多机器上运行, 实现了并行计算的能力。得益于此, Map Reduce也增强了应用程序的容错性能, 因为即使某个机器上由于硬件问题导致子任务没完成, 只需要重新再执行这部分的子任务就好了。
Big Table数据存储系统
Big Table数据存储系统[7]是Google云计算体系中三大重要技术之一, 虽然在很多方面, Big Table表面上很像关系数据库管理系统, 如以表格的形式存储数据, 数据的增删改查。但Big Table主要是为大数据存储所设计的, 它们将数据列表进行分割并分布在Google云中的机器上, 数据的存储容量可以达到PB级别。
b) Amazon云计算平台
虽然Amazon以网上书城而著名, 但是得益于其强大的计算资源, Amazon也为软件开发人员提供API接口来访问它们的设备。Amazon云计算体系属于Iaa S类型, 以计费的方式向开发人员收费。Amazon云计算服务又称为EC2[8]。EC2为每个客户创建一个Amazon虚拟机实例 (AMI) , 包含了操作系统, 个性化设置, 库函数以及所需要的应用程序。AMI一启动, 就会被装入Amazon简单存储服务 (AS3) 并获得一个唯一的虚拟机标识。同时, AMI都是客户自己进行定制的, 要获得较高的云服务, 则相应地要付出较高的费用。Amazon宣称EC2是全球分布式的云计算, 对于客户而言是完全透明的。
c) Microsoft云计算平台
Microsoft云计算称为Azure服务平台。类似于Amazon EC2, Azure服务平台向客户提供开发接口和系统程序的同时, 也提供了可直接使用的云应用程序。Azure服务平台构建在Windows Azure云操作系统之上, 主要包括Live服务, SQL服务和.Net服务等。对于非商业用途, Azure是免费的。但如果是要用于商业用途, Azure将通过计算时间、占用带宽、存储容量和吞吐量等标准进行计费。同样, Windows Azure以虚拟机的方式提供服务。
三、云计算安全
随着云计算技术的发展, 云计算的安全性问题越来越受到关注。根据2010年3月云安全联盟 (CSA) 的研究报告《云计算主要安全威胁》[9]指出云计算服务的主要威胁主要包括:云计算服务的滥用和恶意使用、不安全的接口和应用程序编程接口 (APIs) 、恶意的内部攻击者、共享技术的弱点、数据丢失与泄露和账号与服务劫持等。同样, 我们以三种不同的服务模型来讨论云计算的安全性问题。
a) Saa S中的安全性问题
在Saa S的服务模型中, 安全性保证主要取决于云计算服务提供商。在Saa S开发模型中, 尤其需要注意数据安全、网络安全、数据隔离、数据位置、虚拟化漏洞等安全性[10]。
数据安全
在云计算这个服务出现之前, 企业一般将数据都保存自己企业的本地边界内, 这样他们的敏感或者是商业机密性的数据则处于他们自己可以控制的范围中。但使用云计算, 企业的数据完全处于云端, 甚至不知道存储在网络中的哪个位置, 也因为这个原因, 目前众多的企业对于这种新的服务模式望而却步。
Saa S服务提供商有必要保证企业数据的安全性, 防止数据的泄露和恶意访问。这就需要使用较强的数据加密机制和身份认证机制。对这部分的问题包括:XSS、SQL注入攻击、Cookie操作、不安全的存储、不安全的配置和访问控制漏洞等问题。
网络安全
和传统的互联网一样, Saa S的服务模型同样也面临着网络安全性的问题。由于用户是通过网络的方式接入云服务提供商, 这样不安全的网络连接和数据传输就极易受到恶意攻击, 诸如网络探针和数据包嗅探, 不安全的SSL授信配置等。部分相关的安全技术包括安全套接层 (SSL) 和传输层安全 (TLS) 等。
数据隔离
云计算是一种多用户的模式, 由此意味着租户之间的数据仅仅是逻辑上隔离的, 但在物理上很可能会是在一个位置上的。这个也为潜在的非法数据访问提供了可能, 因为一个恶意用户很可能利用系统中的访问漏洞, 突破逻辑上的安全限制, 入侵并获得其他用户的敏感数据。
数据位置
在云计算的服务模式下, 数据以分布式的方式存储网络中, 用户无需知道数据具体存储在网络中的什么位置。但这种方式可能会给用户带来潜在的法律风险。在有些国家, 例如南美的一些国家, 由于潜在的敏感性问题, 特定的商业数据是不允许离开这个国家的。因此, 在Saa S的安全模型中也需要提供客户数据的可靠定位服务。
虚拟化漏洞
虚拟化是云计算中的一项重要实现技术。使相对独立的运行实例运行在一个物理设备上是虚拟化技术的一项主要功能。目前已在虚拟化软件中发现漏洞很可能被恶意软件或者内部人员利用从而绕开安全的限制获得非法权限。一个例子就是Xen中的一个漏洞, tools/pygrub/src/Grub Conf.py会产生一个输入确认的错误, 而这个问题就很可能被利用来进行非法访问。
b) Paa S中的安全问题
在Paa S中, 云计算服务商会向客户提供在平台上搭建应用程序的权限。Paa S模型是基于面向服务的体系结构 (SOA) 。因此Paa S中也需要注意SOA中可能会出现的安全问题, 诸如Do S攻击, 重放攻击, 注入攻击, 字典攻击等。因此云计算服务商需要在这个模型中要用授权和认证的方式保证安全。另外, Paa S服务模型的特征主要是向用户提供各种开发用的API, 如商业函数、安全函数、应用管理等。因此这些API需要遵循相应的安全控制标准, 如OAuth[13]。所有的这些都需要云计算服务商做好保障。
c) Iaa S中的安全问题
然而在Iaa S的服务模型中, 云计算服务商和用户都对云安全负有一定的责任, 但具体的分工不太一样。云计算服务商只需要保证基础设施的安全, 如物理设备, 环境和虚拟化的安全。而用户需要负责所有的其他安全性问题, 诸如用户的虚拟服务器, 虚拟网络, 虚拟存储以及Iaa S平台上的应用程序等。
四、移动云计算展望
移动云计算其实是云计算的一个扩展, 主要是指移动终端 (如智能手机、平板电脑、笔记本电脑等) 通过3G、Wi Fi、4G等无线上网的方式使用云计算的服务模式。移动终端可以通过移动云计算实现云端的数据存储、处理和分析, 这样一来就大大降低了对终端设备性能的依赖, 在获得良好的可靠性的同时也延长了终端电池的使用时间。
a) 移动医疗
移动医疗正是在移动云计算这个背景下发展起来的。得益于云计算的特点, 移动终端设备低存储容量、安全隐私问题和医疗错误问题[11]可以得到一定程度的解决。在移动医疗方面, 云计算可以在以下几个方面得到具体的应用:健康监测服务可以通过宽带无线通信技术随时随地监测病人的健康状况;智能应急管理系统可以有效管理事故发生时应急车辆的协调和管理;健康监测移动设备可以探测心跳、血压以及酒精量来提醒医疗应急系统;健康信息记录允许病人或医疗服务商访问目前或历史的医疗病史;移动医疗费用管理方便医疗开销和其他相关费用的支付功能。
b) 移动电子商务
很多传统的电子商务公司如淘宝、亚马逊、京东等都在IOS或者Android平台上开发了自己的移动应用。用户只需要使用这些应用就可以进行网上交易了。这些应用程序一般具有移动性的特点, 如移动交易支付, 移动消息和移动订票等。根据应用面向的用户群, 可以将移动电子商务分成三类:金融、广告和消费, 但是目前移动电子商务需要面对许多的问题, 诸如较低的网络带宽, 较高的网络延迟, 异构性的移动网络, 安全性等问题。因此, 在移动电子商务上引入云计算的模式是一个比较好的解决方案。
c) 移动社交网络
随着社交网络的兴起, 在移动平台上分享图片和视频文件也越来越成为一种趋势。目前, 国外的Facebook, Twitter, 国内的新浪微博和腾讯微博也都推出了相关的社交应用软件。以云计算的方式来支持这些移动社交网络显然具有很强的优势。目前, Me Log[12]就已经实现了在移动云平台下导航、购物、微博、图片等社交网络的功能。
d) 地理信息服务
地理信息服务是随着智能终端和物联网的普及而逐渐受到人们的关注。以移动云的方式向移动设备提供地理位置信息, 道路选择, 面积测算等智能化的应用服务具有很强的优势, 对于优化移动互联网的服务提供了技术支持。对于该方面的研究还集中在路径选择, 服务请求调度[14]等问题上。
e) 多媒体服务
在移动云计算模型中, 资源服务在云端, 移动终端设备通过无线的方式如3G、4G等方式接入到移动云中。但受限于终端设备有限的计算性能, 不稳定的延迟抖动, 以及耗能方面的要求, 注定了移动云计算中的多媒体服务的策略要做出一定的调整。文献[15]中就采用一种动态分割的框架来为终端提供数据流的应用服务, 该种方式具有更好的性能。
五、结语
【关键词】云计算;云数据;管理技术
近年来随着科技水平的不断提高,信息数据量不断增大,并且具有快速的增长速度,用户对于计算机的存储能力提出了更高的要求。而“三网融合”、“物联网”、“智能电网”等应用的快速发展对于计算和数据管理也带来了新的挑战。云计算作为一种正在兴起中的新型技术,可以改变普通用户操作计算机的模式,可以根据用户的需要来提高计算能力和存储能力,使用户像使用水电一样的方便快捷的使用计算机,降低用户的软件和硬件采购成本。云计算是基于分布式系统和网络计算上提出的新型概念,核心功能的提供海量的数据和存储,并且提供高效率的计算能力,由于开发更多的应用形式。而云计算并不仅仅是做计算,还需要融合更多的技术成果,提出云数据的管理概念。本文通过分析云计算和云数据的管理技术,促进云计算和云数据管理技术的发展和提高,方便今后工作的开展。
一、云计算的概念
(一)云计算的定义
云计算是一种近年来兴起的新型计算模型,是在互联网技术快速发展的基础上发展起来的。由于目前对于云计算还没有统一的标准定义,所以出现了很多云计算的定义版本。而通过对于云计算的分析研究,总体的定义方向都是一致的。具体来说,云计算实际上是一种对于虚拟化技术、网络技术和Web Service等几种不同的新型信息技术的综合应用。云计算所运用的技术几乎包括了所有的互联网和信息技术。可以说云计算是网络计算的必然发展,虚拟化技术又是云计算得以发展的基础和前提,Web Service信心技术为云计算提供了互联网环境的技术支持。随着互联网的发展,计算机用户也越来越专业化,它们对于数据信息的了解和使用越来越熟练,对于数据信息的要求也发生了变化,提出了各种不同的信息数据需求,云计算正是满足了这类用户的需要,也得到了进一步的使用和发展。
(二)云计算的工作原理
云计算在工作环境下不需要使用本地的计算机,通过互联网联接来进行数据的分布和处理,并且优化数据,然后经过互联网的连接来实现分享数据的目的。这种工作模式可以使企业方便的进行资源利用,并且有效的切换有效资源,根据实际工作的具体要求来访问计算机和存储系统,获得相关的信息和数据。云计算作为一项新型的实用性技术,一定程度上提高了计算能力的商业性,通过网络传播和售卖实现了降低售卖成本的目的,同时还充分发挥了实用性,使企业的相关工作得以全面落实。
(三)云计算的体系结构
云计算的体系结构非常庞大,并且具有很强的复杂性,一般以“云”网络为核心,联接到其他网络和服务器,发送出相关的数据信息。同时通过虚拟技术的支持扩展相关服务器的功能,在云计算的平台上实现各种信息资源的整合,达到为用户提供更多更有效数据的目的,提升了计算能力和储存能力。完善的云计算体系结构应包括云端用户、部署工具、服务目录、管理系统这主要的四个部分。
二、云数据管理技术的主要特点
(一)规模大,海量性
随着近年来互联网技术应用的发展和普及,一些互联网技术是通过传感器来进行数据信息的采集来完成相关的工作。而随着应用技术的发展和推广,数据量变得越来越大,并且还在快速的增长。云计算中的“云”具有规模大的特性,以云计算为基础而构建的信息服务或设备也具有大规模的特点,并且应用于处理海量性的信息数据。另外云计算還可以无限扩展,同时处理成百上千的信息节点。这种可以无限扩大和伸缩的特点满足了不同用户的不同需求,在云计算的数据管理技术中也要注重技术和方法的改进,提高信息数据的管理水平和处理水平,重视信息数据的整合、提取和推理,有助于工作决策的完成。
(二)安全可靠性
云计算的技术包括了虚拟化技术、互联网技术及分布式计算等比较成熟的技术手段,为云计算的可靠性提供了有效的保证。并且云计算在安全性方面也具有优势,云计算采用了不同服务器上的信息数据多副容错的方式,计算的信息节点采用了同构互换技术,这些都极大地提高了云数据管理的安全性。
(三)异构性
由于应用云计算技术的领域和行业的不同,云计算的数据采集设备和方式也各不相同,存在着一定的差异性。每个行业中云计算所获取的结构和数据形态也存在着不同的差别,需要根据具体的实际情况,来判断采取不同的传感器,例如二氧化碳浓度传感器、温度传感器和湿度传感器等。不同的传感器在应用的时候,传递信息和获取信息的形式也是不尽相同的,这些差别会带来数据分析、处理和访问等各个环节的差别,另外数据的多源性也会造成数据的类型各不相同,不同类型的数据信息也有不同的格式,从而会出现半结构化数据、非结构化数据和结构化数据同时存在的情况,使信息数据存在异构性的特点。
(四)不确定性
云计算的运行环境中数据信息具有一定的非确定性,主要表现为信息数据本身、数据语义匹配及数据信息的分析查询等方面具有不确定性。而为了达到保证信息数据准确客观的目的,用户在应用云计算时一定要明辨真伪,去其槽粕取其精华,反映真实的需求完成预期的工作目标。
(五)通用性、便捷性
云计算的使用平台在提供各项服务时,用户在使用中不会受到空间上的限制,也不会受到时间的约束。用户只要具有访问验证信息就可以自由的使用云计算平台,享受云计算的服务,不会受到系统和平台的限制,具有极大的通用性和便捷性。
三、云数据管理技术
用户通过云计算来分析处理大量的数据信息,云计算的数据管理技术必须要能够满足用户的需求,高效及时的管理分析海量的数据和信息。云计算分析处理的数据具有海量性、不确定性,这对云计算数据管理技术的开发和发展不断提出新的要求,需要积极的构造高效可用的信息数据管理系统。
nlc202309011255
(一)数据信息的组织管理
数据的组织管理可以采用分布式的系统来访问分析海量的分布式数据,例如GFS技术。这种技术可以在差别不大的各种普通硬件上运行,为用户提供了容错功能,并且为用户提供高效可靠的信息数据并行的存储和访问权限。
(二)数据信息的集合管理
数据信息具有海量性、动态性、不确定性等特点,需要采取分布式的数据信息处理技术来进行采集分析,例如Big Table技术可以用于对海量数据信息的处理,提供高效的服务。
(三)数据信息的分析管理
应用云计算的数据管理技术是为了分析和挖掘相关的数据来满足用户的需求。因此需要运用不同技术和布局来从海量的数据中提取挖掘有用的潜在数据,并且理解所挖掘的信息数据同时进行分析,为各种应用提供支持。
(四)数据信息的存储管理
以Dynamo技术为例,这是一个具有高可用度的存储系统,具有DHT和数据库的特征,为AWS提供了基础的技术支持,并不直接展示于外网。Dynamo技术设计的存储架构可以使信息数据在框架内均匀的存储,并且各个存储节点之间可以互通,根据数据的具体操作需求在框架内进行转发,具有较强的自主性,而由于有主控点来进行控制,单个节点之间一般不会出现故障。
Dynamo技术在存储时还具有一些优点,可以通过提供N、R、W这三个参数结合实际情况去调整实例。N即表示副本的个数,R为可完成的数据信息的成功一致个数,W为完成写入的个数。Dynamo技术可以记录、处理不同版本的对象,将对象的不同版本来提供给技术应用,使应用可以对这些数据信息进行合理的整合和利用。在这一过程中并不要求将副本个数N全部的成功完成,只需要成功读取的个数R和成功写入的个数W两者相加,大于副本个数N,这样就可以保证数据的最终一致性。这种读取方式比写入一次进行多次读取的系统要麻烦一些,但是写入方式变得更简单,也充分满足了用户的需要。同时Dynamo技术也具有负载均衡的优势,由于所采用的DHT方式将需要的信息数据都均匀的存储到每个节点,导致每个节点的数据信息访问量和存储量都大致相同,比较均衡。
四、结语
当今社会处于高速发展的信息时代,各种数据信息在全球范围内传递交换,也就需要开发和利用高效可用的信息传播媒介来适应信息时代的发展,云计算和云数据管理技术正是为此而生。作为新型的信息技术,云计算具有广阔的发展空间也面临着不同的挑战。网络互联网技术的快速发展使云计算和云数据管理技术有了更好的机会和支持,也导致了新型应用系统的开发和应用,因此云计算和云数据管理技术要充分把握机会面对挑战,利用本身的优势和时代的发展来实现进一步的提高,解决应用过程中的技术难题,得到长远发展。
参考文献
[1]刘正伟,文中领,张海涛,等.云计算和云数据管理技术[J].计算机研究与发展,2012,49(z1):26-31.
[2]罗亚东.云计算和云数据管理技术的思考[J].电子制作,2015,(1):155-156.
作者簡介:初鲁京(1987-),男,,山东烟台人,中国人民大学在职研究生,研究方向:企业管理。
孙香花
(长江师范学院数学与计算机学院,重庆,408100)
摘要: MapReduce是云计算的核心技术之一,它为并行系统的数据处理提供了一个简单、优雅的解决方案。其主要目的是为了大型集群的系统能在大数据集上进行并行工作,并用于大规模数据的并行运算。本文首先介绍了MapReduce的相关知识,然后对目前MapReduce的国内外研究状况进行了介绍与评析;并总结了目前MapReduce模型的相关研究问题;最后进行总结并展望了未来发展的趋势。
关键词:MapReduce技术;云计算应用;云计算;并行计算;
MapReduce technology of cloud computing
SHUN Xiang-hua(1、College of Mathematics and Computer Science,Yangtze Normal university, Chongqing,,410081)
Abstract: MapReduce is one of the core technology of cloud computing, which is parallel data processing system provides a simple, elegant solution.Its main purpose is to a large cluster of systems in large data sets in parallel, and parallel computing for large-scale data.This paper focus on the cloud of MapReduce technologies.MapReduce first introduced the relevant knowledge, the current research situation of MapReduce are introduced and Analysis;MapReduce model put forward the current research issues;Finally, the summary text and the future trends.Key words: MapReduce technology;cloud computing applications;cloud computing;parallel computing;
1、引言
随着数字技术和互联网的急速发展,特别是随着Web2.0的发展,互联网上的数据量高速增长,也导致了互联网数据处理能力的相对不足。由于待处理数据越来越多,多到了很难在一台或有限数目的存储服务器内容纳,且更无法由一台或数目有限的计算服务器就能处理这样的海量数据。因此,如何实现资源和计算能力的分布式共享以及如何应对当前互联网数据量高速增长的势头,是目前互联网界亟待解决的问题。正是在这样一个发展背景下,云计算应运而生[1]。
云计算是由并行计算(Parallel Computing)、分布式计算(Distributed Computing)和网格计算(Grid Computing)发展而来[2,3]。云计算的核心技术之一是MapReduce,它为并行系统的数据处理提供了一个简单、优雅的解决方案。其主要目的是为了大型集群的系统能在大数据集上进行并行工作,并用于大规模数据的并行运算[4-6]。
近几年来由于数据的大量增长,Mapreduce受到了较多的关注,获得了较大的发展,但还没有形成成熟的、系统化的理论体系[7]。目前国内外进行MapReduce分析技术研究的机构都显示了对MapReduce的高度关注,并在不同的体系结构上都进行了实现,尤其是在开源hadoop平台上对其所做的研究提供了更多的研究机遇。因此对MapReduce的研究不仅具有收稿日期:
基金项目:教育部“春晖”计划科研合作项目(Z2005—1-55003)作者简介:孙香花(1977-),女,山西朔州人,硕士,讲师,主要从事数据库、网络方面的研究.
重要的应用价值,更具有重要的学术意义[8,9]。本文首先介绍了MapReduce的相关知识,然后对目前MapReduce的国内外研究状况进行了介绍与评析;并总结了目前MapReduce模型的相关研究问题;最后进行总结并展望了未来发展的趋势。2、MapReduce相关研究
目前国内外文献中对MapReduce模型都有相应的研究。主要体现在以下几个方面: 基于MapReduce的初等研究及改进:在Goole提出的原始模型的基础上提出一些新的改进方法,或是对怎样提高MapReduce算法的效率上去进行研究。如:文献[10]提出了一种改进型的MapReduce编程模型,该模型继承了传统的MapReduee模型对map函数和reduce函数的定义.对map和reduce过程进行了改进优化。文献[11]中的HPMR是建立在多核集群上的高性能计算支撑平台。它继承并改进了MapReduce并行编程模式,使其适合高性能计算需求。并让并行程序的编写和运行变得非常简单,同时又保持很高的性能。
对大规模的数据挖掘:利用MapReduce模型对于云平台的海量数据进行挖掘,抓取网页相关数据,或是对网页内容去重等到相关的大规模数据的研究等。如:文献[12]详细描述SPRINT并行算法在HadooP中的MapReduce编程模型上的执行流程,并利用分析出的决策树模型对输入数据进行分类。
基于MapReduce并行模型的一些设计方法与实现或是计算方法的实现,如:文献[13]结合MapReduce的长处,提出研究和实现一个完整的高性能并行计算系统,以GPU为硬件基础并配合基于MapReduce并行计算模型平台进行大规模数据处理。文献[14]提出了基于MapReduce架构实现分布式光线跟踪渲染的方案。该方案基于Hadoop实现,利用MapReduee架构简化了分布式程序设计。
MapReduce的综述:文献[15]重点讨论了MapReduce模型的相关研究,并对采用或是实现了这些模型的相应公司的技术进行了探讨,是一篇综述类型的学位论文。MapReduce模型的研究与应用:文献[16]介绍开源并行系统Hadoop的体系结构以及基于Hadoop的MapReduce编程框架,并在Hadoop基础上提出一种通过多重MapReduce操作,实现海量共现矩阵的生成方法。
当前的研究中,对于云计算中并行计算模型的研究主要是针对于MapReduce模型,而对于MapReduce模型的研究主要在两个方面展开,一个方面为对MapReduce模型的改进,但是对于改进后的模型的实现平台没有研究;另一个方面为MapReduce模型的应用,也是当前的主要研究方向。
3、MapReduce相关研究问题
MapReduce是由Google提出的一种并行分布式编程模型[17-19]。在MapRedcue 模型中用户只须指定一个map函数来处理一个输入的key/value对,产生中间结果key/value对集,再通过一个由用户指定的reduce函数来处理中间结果中具有相同key值的value。适合用 MapReduce 来处理的数据集(或任务)有一个基本要求: 待处理的数据集可以分解成许多小的数据集,而且每一个小数据集都可以完全并行地进行处理[20-21]。
图1说明了用 MapReduce 来处理大数据集的过程,MapReduce 的计算过程很简单,计算利用一个输入key/value对集,来产生一个输出key/value对集[22]。MapReduce库的用户用两个函数表达这个计算:map和reduce。首先,用户自定义的map函数,接受一个输入对,然后产生一个中间key/value对集。然后,MapReduce库把所有具有相同中间key I的中间value聚合在一起,然后把它们传递给reduce函数。最后,用户自定义的reduce函数,接收稿日期:
基金项目:教育部“春晖”计划科研合作项目(Z2005—1-55003)作者简介:孙香花(1977-),女,山西朔州人,硕士,讲师,主要从事数据库、网络方面的研究.
受一个中间key 和相关的一个value集。它合并这些value,形成一个比较小的value集[23-25]。
图1、Mapreduce的计算流程
随着数字技术和互联网的急速发展,特别是随着Web2.0的发展,互联网上的数据量高速增长,也导致了对MapReduce这种并行计算模式的研究变得越来越重要,由此也产生了一系列的相关研究问题,分别如下所列出[26-28]:
1、MapReduce模型只需执行简单的计算,对于隐藏并行化、容错、数据分布、负载均衡的那些问题是如何实现的。
2、Google的MapReduce执行流程。
3、对MapReduce模型的实现。
4、对MapReduce模型进行改进。
5、提高Mapreduce的运算效率的方法。
6、基于MapReduce模型的应用。
7、基于MapReduce模型的设计方法及实现 对于以上所列出这些研究问题,目前国内外都有相关的研究,对于这些研究问题在很大程度上仍然有可研究性。
4、未来研究趋势
MapReduce作为一个通用可扩展的并行计算模型,它用来有效地处理海量数据,不断地从中挖掘出有价值的信息,成为互联网企业发展的必然选择。很多现实世界对海量数据的处理,都可以用这种模型来表示。当前在云计算中使用的分布式并行运算基本上是采用的MapReduce计算模型,不过国内的研究仍然有点滞后,同时,当前的主要研究都放在其应用上,比如说网页抓取等,真正去研究算法本身的并不多,尤其是在提高算法本身的效率上,以及算法的优化等都研究较少。
根据上面的论述和分析可以看出,对于云计算中并行计算模型的研究和应用主要是对于MapReduce模型的,而对MapReduce模型的应用是当前的主要研究方向。本课题在分析MapReduce模型的基础上,提出了如下的研究内容:
1、利用MapReduce强大的计算能力,把MapReduce模型应用到一些经典的算法中。所要解决的主要问题是经典的算法的选取,即要满足利用MapReduce模型的条件,还要解决的是两个算法的比较及评价问题;
2、利用MapReduce强大的计算能力,把MapReduce模型应用到一些数值计算问题中去,所要解决的主要问题是数值计算问题的分解和结束条件,还要解决的是两个算法的比较问题及新算法的评价问题。
收稿日期:
基金项目:教育部“春晖”计划科研合作项目(Z2005—1-55003)作者简介:孙香花(1977-),女,山西朔州人,硕士,讲师,主要从事数据库、网络方面的研究.
4、结束语
本文首先介绍了MapReduce的相关知识,然后对目前MapReduce的国内外研究状况进行了介绍与评析;并总结了目前MapReduce模型的相关研究问题;最后进行总结并展望了未来发展的趋势。参考文献 [1] [2] [3] [4] [5] 张建勋,古志民,郑超.云计算研究进展综述[J].计算机应用研究,2010,27(2):429-433 金海,漫谈.云计算[J].中国计算机学会通讯,2009,5(6):22-25 吴吉义,平玲娣, 潘雪增等.云计算:从概念到平台[J].电信科学,2009,12:23-30 陈康, 郑纬民.云计算:系统实例与研究现状[J].软件学报.2009,20(5):1337-1348 尹国定,卫红.云计算—实现概念计算的方法[J].东南大学学报:自然科学版,2003,33(4):502-506 [6] 武永卫,黄小猛.云存储[J].中国计算机学会通讯,2009,5(6):44-52 [7] Lamel.R Google’s Mapreduce Programming Model-revisited [J].Science of Computer Programming, 2008, 7(1): 208-237.[8] 万至臻.基于Mapreduce模型的并行计算平台的设计与实现[I].浙江大学.2008 [9] 吴晓伟.MapReduce并行编程模式的应用和研究[I].中国科学技术大学.2009.[10] 周锋,李旭伟.一种改进的MapReduce并行编程模型[J].科协论坛.2009.2(11):11-12 [11] 郑启龙,王昊,吴晓伟等.HPMR:多核集群上的高性能计算支撑平台[J].微电子学与计算.2008,25(9):21-23 [12] 王鄂,李铭.云计算下的海量数据挖掘研究[J].现代计算机.2009,22(11):22-25 [13] 瞿李峰.基于GPGPU的MapReduce高性能并行计算模型研究与应用[I].桂林理工大学.2009.[14] 郑欣杰,朱程荣,熊齐邦.基于MapReduce的分布式光线跟踪的设计与实现[J].计算机工程.2007,33(22):83-85 [15] 周敏.MapReduce综述[I].暨南大学.2008.[16] 杨代庆,张智雄.基于Hadoop的海量共现矩阵生成方法[J].现代图书情报技术.2009, 25(4)23-26 [17] Luis M V, Luis Rodero Merino, Juan Caceres, Maik Lindner.A break in the clouds: toward a cloud definition.ACM SIGCOMM Computer Communication Review, 2009,39(1):50-55 [18] Robert L G,Gu Yunhong,Michael Sabala,Zhang Wanzhi。Compute and storage clouds using wide area high performance networks。Future Generation Computer Systems,2009,25(2):179-183 [19] Daniel J A.Data management in the cloud: limitations and opportunities.Bulletin of the IEEE Computer Society Technical Committee on Data Engineering, 2009,32(1):3-12 [20] 郑启龙.HPMR在并行矩阵计算中的应用[J].计算机工程.2010(8).[21] 徐志伟,廖华明,余海燕.网络计算系统的分类研究[J].计算机学报.2008,31-9:1509—1515.[22] M.Kruijf and K.Sankaralingam.MapReduce for the Cell B.E.Architecture[J].Technical Report No.TR1625,Computer Science Department,University of Wisconsin,Madison,2007.[23] Colby Ranger,Ramanan Raghuraman,Arun Penmetsa,Gary Bradski,Christos Kozyrakis.Evaluating MapReduce for Multi-core and Multi-processor Systems,Proceedings of the 13th Intl,Symposium on High-Performance Computer Architecture(HPCA).收稿日期:
基金项目:教育部“春晖”计划科研合作项目(Z2005—1-55003)作者简介:孙香花(1977-),女,山西朔州人,硕士,讲师,主要从事数据库、网络方面的研究.
Phoenix,AZ, February 2007.[24] J.Dean and S.Ghemawat.Mapreduce:Simplified data processing on large clusters.In OSDI,pages 137-150,2004.[25] D.V.Kalashnikov,S.Prabhakar,and S.E.Hambrusch.Main memory evaluation of monitoring Queries over moving objects.Distributed and Parallel Databases,15(2):117-135,2004.[26] J.Dean.Experiences with mapreduce,an abstraction for large-scale computation.In Proc.IEEEP ACT,2006.[27] 钟伟彬,周梁月,潘军彪等.云计算终端的现状和发展趋势[J].电信科学,2010,3:22-26 [28] 陈国良,孙广中,徐云.并行计算的一体化研究现状与发展趋势[J].科学通报,2009,54(8):1043-1049
地址:重庆市涪陵区李渡聚龙大道98号长江师范学院数学与计算机学院办公室
孙香花 邮编: 408100
收稿日期:
大数据时代已经悄然到来,如何应对大数据时代所带来的挑战与机遇,是我们当代大学生特别是我们计算机专业学生的一个必须面对的严峻课题。在这次课上通过陶老师的讲解以及在课后查阅相关资料,我了解到什么是大数据,什么是云计算,它们都有什么用处,有什么关系。
近几年,云计算和大数据的概念受到了学术界、商界、甚至政府的热传,一时间云计算无处不在。秉承着“按需服务”理念的云计算正高速发展,“数据即资源”的“大数据”时代已经来临。大数据利用对数据处理的实时性、有效性提出来更高要求,需要根据大数据特点对传统的常规数据处理技术进行变革,形成适用于大数据收集、存储、管理、处理、分析、共享和可视化的技术。大数据的规模效应给数据存储和管理以及数据分析带来了极大的挑战。
一、云计算概念
在课后,经过翻阅各种资料,了解到狭义的云计算是指IT基础设施的交付和使用模式。指通过网络以按需、易扩展的方式获得所需的资源;广义的云计算是指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需的服务,这种服务可以是IT和软件、互联网相关的,也可以是任意其他的服务,它具有超大规模、虚拟化、可靠安全等独特功能。通俗的理解是,云计算的“云”就是存在于互联网上的服务器集群上的资源,它包括硬件资源和软件资源,本地计算机只需要通过互联网发送一个需求信息,远端就会有成千上万的计算机为你提供需要的资源并将结果返回到本地计算机。这样,本地计算机几乎不需要做什么,所有的处理都在云计算提供商所提供的计算机群体来完成。
Kevin Hartig:云是一个庞大的资源地,你按需购买;云是虚拟化的;云可以像自来水、电、煤气那样计费。
Jan Pritzker:云计算是用户友好的网络计算。
云计算,它是基于数据中心,强调性价比、效率、可行性的服务运营模式,这是提高高端计算利用率,同时提升低端计算事物处理能力,我们不关注本身计算机的能力,更多提供给后台,由于后台强大的处理能力完成。
二、云计算部署模式
根据云计算服务对象范围的不同,云计算有四种部署模式:私有云、社区云、公有云和混合云。私有云是由一个用户组织(例如政府、军队、企业)建立运维的云计算平台,专供组织内部人员使用,不提供对外服务。社区云也称机构云,云基础设施由多个组织共同提供,平台由多个组织共同管理。社区云被一些组织共享,为一个有共同关注点的社区或大机构提供服务。公有云的基础设施由一个提供云计算服务的大型运营商组织建立和运维,该运营组织一般是拥有大量计算资源的IT巨头,这些IT公司将云计算服务以“按需购买”的方式销售给一般用户或中小企业群体。用户只需将请求提交给云计算系统,付费租用所需的资源和服务。混合云的云基础设施是由两种或两种以上的云组成,每种云仍然保持独立,但用标准的或专用的技术将它们组合起来,具有数据和应用程序的可移植性。
三、云计算服务模式
计算就要有就算环境,一般计算环境都有硬件的一层,资源组合调度的一层即操作层,以及计算任务的应用业务的软件层。云计算提供的三种服务模式对应了计算环境的三个层面。这三种服务模式分别是基础设施即服务IaaS、软件即服务SaaS、平台即服务PaaS。
IaaS即把厂商的由多台服务器组成的“云端”基础设施,作为计量服务提供给客户。它的优点是用户只需低成本硬件,按需租用相应计算能力和存储能力,大大降低了用户在硬件上的开销。目前以Google云应用最具代表性,例如GoogleDocs、GoogleApps、Googlesites。SaaS服务提供商将应用软件统一部署在自己的服务器上,用户根据需求通过互联网向厂商订购应用软件服务,服务提供商根据客户所定软件的数量、时间的长短等因素收费,并且通过浏览器像客户提供软件的模式。对于小型企业来说,SaaS是采用先进技术的最好途径。PaaS把开发环境作为一种服务来提供。PaaS能够给企业或个人提供研发的中间件平台,提供应用程序开发、数据库、应用服务器、试验、托管及应用服务。
四、大数据
大数据(big data),或称巨量资料,就是对全球各种大规模数据资料进行深度挖掘,并进行高速度及多样式计算后,整理出来的高价值的分析结果;重点应用在国防领域建设,未来发展方向在人工智能领域,可以让计算机自主地从经验中进行学习和反馈。个人总结,大数据的特点主要有如下4点:
一是大量。存储大,计算量大。
二是数据类型多样。现在的数据类型不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝对多数。三是处理速度快。增长速度快,处理速度要求快。四是价值密度低。浪里淘沙却弥足珍贵,数据没有办法在可忍受的时间下使用常规软件方法完成存储、管理和处理任务。
大数据已经不简简单单是数据大的事实了,而最重要的现实是对大数据进行分析,只有通过分析才能获得很多智能的,深入的,有价值的信息。大数据分析普遍存在的方法理论有:可视化分析、数据挖掘算法、预测性分析、语义引擎、数据质量和数据管理。
五、云计算与大数据关系
云计算和大数据是这个时代的两个王者,是一个硬币的两面,云计算是大数据的IT基础,而大数据是云计算的一个杀手级应用。张亚勤说,云计算是大数据的驱动力,而另一方面,由于数据越来越多,越来越复杂,越来越实时,这就更加需要云计算去处理,所以二者之间是相辅相成的。
本质上,云计算和大数据的关系是静与动的关系;云计算强调的是计算,这是动的概念;数据则是计算的对象,是静的概念。在实际的应用中,前者强调的是计算能力,或者看重的是存储能力;但是这样说,并不意味着两个概念如此泾渭分明。大数据需要处理大数据的能力如数据获取、清洁、转换、统计等,其实就是需要强大的计算能力,另一方面,云计算的动也好是相对而言,比如基础设施即服务中存储设备提供的主要是数据能力,所以可谓是动中有静。
如果数据是财富,那么大数据就是宝藏,而云计算就是挖掘和利用宝藏的利器。没有强大的计算能力,数据宝藏终究是镜中花,没有大数据的积淀,云计算也只能是杀鸡用的宰牛刀。
六、心得体会
摘要:论文根据我国电子政务发展的需要,介绍了几种主要的云计算技术,并详细分析了这几种云计算的技术应用场景。云计算技术的应用可推动电子政务集约化和服务型政府的发展建设,已经成为当今开展电子政务的趋势,不但可以实现跨政务部门业务协同和信息共享,降低政府运作成本,而且可提供更加优质的政府服务。
关键词:云计算;电子政务;智慧城市;大数据
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2015)13-0275-02
传统的电子政务业务系统建设和运维方式下,各级政府部门各自为政,每个政府部门分别建设和运维自己的基础设施和业务系统,暴露出很多问题,如我国电子政务发展中还存在着与新兴技术融合创新不够、低水平重复建设仍然突出、信息孤岛、信息共享和业务协同依然困难、信息资源开发利用不足、高投入低效益等。当前,全面深化改革和经济社会发展对当前电子政务建设提出了更高更新的要求,电子政务依托的信息技术也发生了很大变化,新模式、新技术、新应用不断出现。电子政务信息化快速发展带来的是膨胀式业务系统需求,大量的电子政务数据中心的出现,导致更多的服务器、存储、网络等基础设施的数量迅速扩张,不同的系统平台、不同的存储平台、不同的数据结构交叉重合,电子政务数据中心信息化整体的管理上面临越来越艰难的局面。而云计算在实现电子政务信息技术资源集约利用、促进信息共享利用方面的优势,将有效解决上述这些问题,推动电子政务集约化的发展和服务型政府的建设。从当今电子政务发展来看,选择采用云计算的方式进行政务服务质量的提升、政务服务内容的增加,以及政府信息化资源的有效利用和成本控制,是电子政务从传统到新型服务的转变,也是信息化技术从传统到云计算的转变。当社会发展到一定阶段,电子政务会爆发大量新的需求,这种新的需求需要通过云计算技术替代传统的信息化技术来实现,这是社会发展的规律。云计算技术
1.1 高性能智慧计算技术
云计算平台将采用并行计算、分布式计算和虚拟化等技术满足高性能智慧计算能力需求,具体包括:
1.1.1 并行计算技术
高性能并行处理技术主要包括基于共享内存的OpenMP和多线程以及基于分布式消息传递的MPI,其中MPI技术可扩展性强、计算效率高,是目前业界最流行的高性能并行处理技术。云计算中心配置高性能计算分区,支持MPI和OpenMP等并行处理技术的能力,可以很好的满足物联网计算密集类应用的高性能处理需求。
1.1.2 分布式计算
提到分布式计算目前比较成熟的就是Hadoop系统,Hadoop系统是Apache开源组织的一个分布式计算开源框架,在很多大型网站上都已经得到了应用,如亚马逊、Facebook和Yahoo等等。它设计了用来在由通用计算设备组成的大型集群上执行分布式应用的框架,利用了分布式文件系统的备份恢复机制保证了系统的高可靠性,为用户提供了一个全新的稳定的存储系统和分析系统。其主要部分是模拟Google的GFS和MapReduce框架完成的,下图显示了Hadoop的体系结构,存储系统是用HDFS实现的,而分析系统使用MapReduce实现。Hadoop的工程本身还包括其它子系统,如HBase、ZooKeeper等。
1.1.3 虚拟化技术
虚拟化技术是实现云计算的关键技术之一,是实现弹性扩展、高可用云平台的技术基础。
虚拟化是一个抽象层概念,将操作系统与物理硬件分开,可以提供更高的灵活性和IT 资源利用率。虚拟化技术允许具有不同操作系统的多个虚拟机可以在同一物理主机上独立并行运行。每个虚拟机都有一套自己的虚拟硬件,可以在这些硬件中加载应用程序和操作系统。
1.2海量分布式存储技术
与目前常见的集中式存储技术不同,分布式存储技术并不是将数据集中存储在某个或多个特定的数据中心存储设备或者数据存储节点上,而是通过软件处理以及网络连接数据节点的硬盘资源,并将这些分散的存储资源构成一个虚拟的存储资源池。分布式存储系统提供容错功能,向广大用户提供具有容错的高性能服务,即采用多副本冗余存储数据的方式来保证数据存储的可靠性,数据分散在各个数据存储节点,即为一份数据存储多个副本;可以实现跨平台的数据和设备的共享;通过横向纵向的拓展存储节点资源,实现灵活的存储资源池的可伸缩性;通过增加存储节点的数量可提高数据存储高并发I/O吞吐率、存储容量以及数据处理能力。云计算在电子政务中的应用
云计算技术在电子政务领域应用广泛,在此主要介绍以下几点:
2.1基于云计算的电子政务统一数据中心
通过基于云计算技术构建的电子政务数据中心,为政府各级部门提供可靠的基础IT服务平台,云计算模式通过统筹规划的集中性特征,可以减少数据中心的重复投资,提高数据中心资源的使用效率,以及减低数据中心在能耗上的各方面问题。帮助政府走向集约化和可持续性的发展道路。实现对政府管理和服务职能进行精简、优化、整合,并优化各种业务流程办理和职能服务。
云计算的技术可以将大量的数据中心资源通过一个统一的平台进行管理,统一的基础设施、系统平台、应用系统、数据中心,以及数据中心的机房、安全等各个方面都能通过云计算的运作模式,降低管理的难度、需求内容以及成本,可使IT支持的业务部门能够全身心的投入到业务的创新和运作之中。当发生大流量高负载的业务情形时可以采用灵活的部署负载分担和虚拟机的数量来分担计算以及处理能力。各级部门业务系统迁移到云平台后,利用云计算强大的数据处理能力,业务的运行效率都得到了大幅提高。
2.2基于云计算的电子政务的大数据平台
依托云计算技术构建电子政务的大数据平台,为今后的电子政务系统的大数据分析平台的搭建以及后期的分析提供基础平台,目前主流的大数据平台是通过构建hadoop平台来实现,分布式集群hadoop平台是构建在虚拟化平台,采用多个虚拟机部署hadoop平台,灵活部署,根据大数据的分析处理的规模可以增加参与计算的大数据分析处理节点。
通过对电子政务统一资源数据库的建立,电子政务的数据达到了量化的积累,可以通过大数据分析技术分析电子政务系统的数据库,通过数据的整合,以及广泛原始数据的数据挖掘,可以将服务对象、服务内容、服务要求等方面的信息进行抽离和提炼,并通过这些对于电子政务的发展的数据研究,并将结果应用到未来的宏观经济管理、政策制订、社会保障政策等方面,推动经济的更快更优的发展,体现政府的先进性。并针对社会的需求,更好的服务百姓,做到以人为本的新型电子政务。
2.3基于云计算的电子政务数据交换平台
云计算技术的数据集中、资源共享特性在电子政务数据交换平台中发挥重大作用,通过云计算技术构建电子政务数据交换云平台可以实现政府部门间、政府部门与社会服务部门间信息共享、信息联动和业务协同,解决各级政府的横向电子政务滞后的问题,提高各级政府部门的服务质量。云计算技术的应用给政府信息资源横向整合带来新的机遇。目前各级政府部门基于云计算技术建设大电子政务网上办公系统、公共资源信息发布系统、行政审批、电子监察、信用平台等应用,各级政府部门可以根据自己的业务制定流程,并实现跨部门与其他部门对接,实现各级政府部门的信息共享和业务协同,大大地提高各级政府工作效率。
2.4智慧城市
通过基于云计算技术构建的基础平台,是未来实现智慧城市的核心,也是建设新型电子政务的核心意义。
智慧城市是以一个智慧的整体运作的城市系统。在这个系统中,每一个城市角色都是这个系统的一个部门、一个模块,每一个模块都有自己的特有的功能,既是这个系统的贡献者又是这个系统的服务对象。在智慧的城市中,城市所有的资源统一管理、统一调配,是以整个城市作为第一服务对象的业务系统,是一个及智慧、集约、良性、可持续发展的城市生态系统。
智慧城市需要一个智慧的系统来支持。需要资源的充分统一、覆盖全市的全面感知、具有协同运作的管理系统,这些需求都是需要更先进的科学技术来实现。而在当今社会,云计算已经被广泛的被认定为智慧城市的最佳的实现技术和方式。
正如前面对电子政务的未来的展望,基于云计算的电子政务系统是智慧城市建设的核心,是智慧城市建设的的起点,通过这一步的建设将对智慧城市的建设与发展起到决定性的影响作用。结束语
从目前我国电子政务发展情况来看,各级政府的电子政务将迎来一个新的发展机遇,通过云计算技术的推广应用,实现现代化的电子政务,为推动政府职能转变和服务方式,以及提高政府工作效率以及服务质量都起到至关重要的作用,当社会发展到一定阶段,电子政务会爆发大量新的需求,这种新的需求需要通过云计算技术替代传统的信息化技术来实现。相信未来云计算技术的应用在电子政务建设中将成为重要趋势,我国的政务信息化水平将提升到一个更高的阶段。
参考文献:
云计算是近几年来的一个热门词汇, 其含义已经跨越了学术和科技界, 并且融入到了许多社会行业之中。近年来, 新一代大规模的互联网应用的发展势头极为迅猛, 其中主要包括数字城市、网络教育、网络传媒、搜索引擎、电子商务、电子政务、在线视频、产业应用、主题应用等, 这些应用的最大特点就是数据存储量大、增长速度快以及维护费用高。“云计算”技术将巨大的系统资源整合在“云端”, 通过互联网通信技术为终端用户提供各种IT服务, 从而减轻终端设备的运行压力, 提升IT服务的效率和质量。“云计算”技术由最初的理论研究到现在的实际应用, “云计算”发展的步伐越来越快, 并将为全球的IT产业掀起一场声势浩大的改革浪潮。所以深入学习和研究“云计算”技术的基本理论和技术, 对于提升对“云计算”技术的理解, 加强“云计算”在学习和研究中的应用具有非常重要的现实意义。
二、云计算的概念和基本原理
根据美国国家标准与技术研究院 (NIST) 的定义, 云计算是一种利用互联网实现随时随地、按需、便捷地访问共享资源池 (如计算设施、存储设备、应用程序等) 的计算模式。云计算是基于互联网的相关服务的增加、使用和交付模式, 通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。过去在图中往往用云来表示电信网, 后来也用来表示互联网和底层基础设施的抽象。狭义云计算指IT基础设施的交付和使用模式, 指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式, 指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关, 也可是其他服务。它意味着计算能力也可作为一种商品通过互联网进行流通。对于到底什么是云计算, 至少可以找到100种解释。目前广为接受的是中国云计算专家咨询委员会副主任、秘书长刘鹏教授给出的定义:“云计算是通过网络提供可伸缩的廉价的分布式计算能力。”
云计算技术的实现是依赖于互联网通信技术, 在典型的云计算框架中, 用户通过网络终端连入互联网络, 通过互联网向“云端”服务器发送相应请求, “云端”服务器接收并分析用户请求后, 会自动调用可用的系统资源来完成相应的数据处理和计算, 并通过互联网络将用户的请求结果发送至网络终端, 从而实现云计算的数据处理过程。
三、云计算的特点
(一) 超大规模。
“云”具有相当的规模, Google云计算已经拥有100多万台服务器, 亚马逊、IBM、微软和Yahoo等公司的“云”均具有几十万台服务器。“云”能赋予用户前所未有的计算能力。
(二) 虚拟化。
云计算支持用户在任意位置使用各种终端获取服务。所请求的资源来自“云”, 而不是固定的有形的实体。
(三) 高可靠性。
“云”使用了数据多副本容错、计算节点同构可互换等措施来保障服务的高可靠性, 使用云计算比使用本地计算机更可靠。
(四) 通用性。
云计算不针对特定的应用, 在“云”的支撑下可以造出千变万化的应用。
(五) 高可扩展性。
“云”规模可以动态伸缩, 满足用户和用户规模增长的需要。
(六) 按需服务。
“云”是一个庞大的资源池, 用户按需购买。
(七) 极其廉价。
“云”的特殊容错措施使得人们可以采用极其廉价的节点来构成云, “云”的功用性和通用性使资源的利用率大幅提升。
四、云计算的关键技术
云计算系统的相关技术主要包括虚拟化技术、集群化技术、数据存储技术、编程模型、分布式并行计算技术等, 在众多的云计算技术中, 其中以虚拟化技术、云计算平台管理技术、数据存储技术、数据管理技术、编程模型最为关键。云计算是随着处理器技术、虚拟化技术、分布式存储技术、宽带互联网技术和自动化管理技术的发展而产生的。从技术层面上来看, 云计算能够获得成功主要取决于两个方面的关键因素, 一方面是数据的存储能力, 另一方面是分布式计算的能力。因此, 通常所说的云计算当中的“云”经常被称为“云存储”和“云计算”。因此, “云计算”也就是云存储加上云计算。云存储就是在互联网上的存储系统;云计算或者计算云就是指能够运用虚拟资源进行计算, 这种计算首先是将我们需要进行计算的任务进行拆分, 拆分过后再将我们的任务发送到虚拟的资源当中, 然后云根据相关内容进行分布式的计算, 最后再将我们分布计算的结果进行统计整理, 比如合并等。
五、云计算的运用
随着云计算技术的快速发展, 其已经在各个行业中得到广泛应用, 也改变了传统的互联网商业模式, 为互联网经济带来了新的生机。云计算所提供的软件或者IT服务都是通过互联网技术进行传输的, 所以互联网用户不需要安装任何客户端软件, 只通过浏览器来访问云端提供的服务。云计算按照服务类型大致可以分为三类:将基础设施作为服务Iaa S (Infrastructure as a Service) 、将平台作为服务Paa S (Platform as a Service) 、将软件作为服务Saa S (Software as a Service) , 为云计算提供的服务类型如图1所示。
Iaa S将硬件设备等基础资源封装成服务提供用户使用, 如亚马逊云计算AWS (Amazon Web Services) 的弹性计算云EC2和简单存储服务S3。在Iaa S环境中, 用户相当于在使用裸机和磁盘, AWS提供了在节点之间互通消息的接口简单队列服务SQS (Simple Queue Service) 。Iaa S最大的优势在于它允许用户动态申请或释放节点, 按使用量计费。Paa S对资源的抽象层次更进一步, 它提供用户应用程序的运行环境, 自身负责资源的动态扩展和容错管理, 用户应用程序不必过多考虑节点间的配合问题, 但与此同时, 用户的自主权降低, 必须使用特定的编程环境并遵照特定的编程模型。Saa S的针对性更强, 它将某些特定应用软件功能封装成服务, Saa S既不像Paa S一样提供计算或存储资源类型的服务, 也不像Iaa S一样提供运行用户自定义应用程序的环境, 它只提供某些专门用途的服务供应用调用。需要指出的是, 随着云计算的深化发展, 不同云计算解决方案之间相互渗透融合, 同一种产品往往横跨两种以上类型。
六、云计算技术发展面临的主要问题
尽管云计算模式具有许多优点, 但是也存在着一些问题, 如数据隐私问题、安全问题、软件许可证问题、网络传输问题等。
(一) 数据隐私问题。
如何保证存放在云服务提供商的数据隐私不被非法利用, 不仅需要技术的改进, 也需要法律的进一步完善。
(二) 数据安全性。
有些数据是企业的商业机密, 数据的安全性关系到企业的生存和发展。云计算数据的安全性问题解决不了会影响云计算在企业中的应用。
(三) 用户使用习惯。
如何改变用户的使用习惯, 使用户适应网络化的软硬件应用是长期而艰巨的挑战。
(四) 网络传输问题。
云计算服务依赖网络, 目前网速低且不稳定, 使云应用的性能不高。云计算的普及依赖于网络技术的发展。
七、结语
云计算以互联网为基础, 虚拟化技术、并行计算技术以及分布式存储等关键技术为主导, 结合大量的网络设备以及服务器集群构成云计算体系, 并以基础设备、扩展接口或应用平台、应用软件作为服务, 提供给客户, 客户只需通过浏览器访问互联网即可享受云计算提供的服务, 极大地降低了网络终端负载, 简化了客户的成本开支和系统维护的过程, 为客户提供方便快捷经济的IT服务。云计算技术的产生和运用给我们当前互联网技术的发展带来了巨大的机遇, 虽然在一些程序上还存在不完善的地方, 但是随着互联网技术、信息技术、计算机技术的不断发展和进步, 云计算技术的发展前景还是很乐观。
参考文献
[1] .汪明军.云计算技术发展分析及其应用探讨[J].金融科技时代, 2011, 8
[2] .张建勋, 古志民, 郑超.云计算研究进展综述[J].计算机应用研究, 2010, 2
[3] .曾兴涛.云计算概念及应用研究[J].无线互联科技, 2012, 2
[4].武星, 王旻超, 张武, 李青.云计算研究综述[J].科技创新与生产力, 2011, 6:49~55
关键词:云计算网格计算系统架构服务器集群
1 概述
近年来,随着计算机技术的高速发展,在诸多研究者的努力之下,已经诞生了许多新技术,云计算技术就是一种新型的计算机技术[1]。目前,作为计算机界研究和应用最为热门的技术之一,云计算将许多热门的、先进的信息技术及其应用大众化,便于人们理解,人们通常对使用云技术或者云裳的服务时,类似于使用家里的水电气一样。
云计算是一种基于并行处理、分布式处理和网格计算等技术发展起来的一种适应现代人们工作、生活和学习需要的新型计算模式,其能够优化计算机资源组合,创新了计算机提供的服务模式[2]。在现代分布式应用系统开发过程中,引入云计算技术,可以大大的降低政企单位IT开发实现和运行维护的成本,同时降低了能源消耗,有效的加快了信息化建设的进程,另外,互联网技术和云计算技术的有机结合,也催生了信息服务产业的模式发生改变,云计算技术将互联网技术、通信技术和传统信息管理技术不断的有机交融,高速驱动和促进了人们的需求和商业模式发生转变。
作为计算机学科的新兴技术之一,云计算已经得到了人们的广泛关注和研究,其架构技术就是诸多系统结构学者研究的方向和热点,本文研究主要集中于云计算平台底层基础设施的构建和云平台软件系统构建两个层面。
2 云计算相关理论技术
2.1 云计算概念
云计算融合了虚拟化技术、网格技术和Web服务技术,其能够有效的组织互联信息资源,满足用户的需求,是一种新兴的网络资源组织结构。云计算作为一种新兴的计算架构和应用模式,具有很多优势,主要包括高可靠性、超大规模及其可扩展性和信息服务的便捷性和通用性[3]。
2.1.1 超大规模及其可扩展性。“云”具有漫无边际、超大规模的自然特征,“云计算”虽然是一种计算技术,但是其同样具有上述特性,能够利用网络资源,构建超大规模的基础设施、信息基地、信息服务等为用户服务,云计算能够将这些用户终端或者服务设施扩展到大规模的集群上,实现无缝对接,可以同时处理数量级规模的节点请求,因此,对用户来讲,“云”的规模可以实现动态伸缩,以便满足用户不同时期不同大小的需求,具有极强的可扩展性。
2.1.2 高可靠性。虚拟化技术、分布式计算技术和网格计算技术日趋成熟,并且应在许多领域得到了广泛的应用,因此,这些实现云计算的基本技术保障了云计算的可靠性;在安全方面,云计算技术使用的大量的不同的服务器计算节点可以采用同构互换技术,具有极好的容错容灾能力,能够确保数据的安全性、完整性,进而确保了用户使用的可靠性。
2.1.3 信息服务的通用性和便捷性。云计算诞生以后,用户可以随时随地享受云计算带来的优势,不会受到时空限制,用户在享受云平台的服务时,用户只需要拥有通过Internet或者通过收费或者免费获取的访问验证信息即可使用云服务,也不会受到访问平台和系统的制约。
2.2 云计算核心技术
作为一种高性能的服务计算模式,其涉及了许多先进的计算机技术,其核心技术主要包括数据存储技术、数据管理技术、大规模服务器串联技术和分布式的并行编程模型等四种[4]。
2.2.1 云数据存储技术。云计算平台承载的用户规模数量级上升,因此,为了满足海量用户的需求,云数据虽然存储在不同的节点上,但是为了满足这么大规模的用户访问,需要保证存储器的容量,并且提供高吞吐率和高传输率等访问性能。基于云计算的Google平台采用了GFS文件系统,其串联了数以万计的普通硬盘,可以按照GB级的数据处理度量。
2.2.2 云数据管理技术。云数据库系统是专门管理分布式数据库中存放的数据的,其用来处理PB级的结构化数据,云数据库系统可以有效实现用户访问的透明性,对于用户来讲,其访问数据就犹如在一个终端上。
2.2.3 数据中心服务器串联技术。云计算数据中心能够串联庞大的、海量的数据服务器集群,串联技术包括集群的部署、服务器的串联方式、动态数据迁移和数据快照等。
2.2.4 云编程模型。云编程模型可以为云数据提供访问模型,为用户提供编程接口,实现数据的并行访问和存储等功能,Google云数据采用的云编程模型的核心技术是MapReduce,该技术也是目前被广泛应用于云计算的编程模型。
3 云计算架构模式研究
3.1 云计算架构模式概述
云计算作为一个具有高可靠性、高并行性、分布性的计算和服务模式,其架构一直受到诸多学者的关注和研究。雷万云等人认为云计算的体系架构包括六层,其能够由各种服务器节点、终端用户节点等共同组成,并且能够利用逻辑编程语言实现接口模式,以便供用户使用;Youself等人[5]认为,云计算架构是一种栈结构,由软硬件构成的固件、云平台系统共同构成;王鹏等人[6]认为云计算是一种基于不可信节点的计算架构,并且给出了从构成云计算平台的底层硬件到表层应用的9层模型;JohnW.Rittinghouse等人[7]提出了通信即服务、技术设施即服务、检测即服务、平台即服务和软件即服务的系统架构;总的来说云计算应该由实体部分即基础设施和软件部分即计算系统构成。
3.2 云计算硬件基础设计架构
云计算硬件基础架构是云计算的承载实体,是构建云计算平台的必备硬件,其架构主要包括三个组成部分:服务器集群、海量存储设备和高速的网络带宽链路。
3.2.1 服务器集群。云计算最明显的特征就是串联了海量的服务器设备,因此,作为实现云计算的基础,需要解决大规模服务器串联的问题,比如串联服务器需要散热问题,云计算数据中心采用了“货柜式”的放置方法,其能够将大量的服务器集群整体摆放在一个类似于大货车的集装箱里面。为了能够有效的实现云计算平台的功能,这些规模庞大的服务器集群需要采用可伸缩性强、规模大、数据重复性和容错功能强、平衡负载能力强的串联技术。目前,许多云计算数据中心采用护卫备份的方法,以便有效的维护服务器集群间的平衡,将计算工作映射均分到各个服务器集群上去[8]。
3.2.2 海量存储空间设备。云计算作为基础设施既是服务(Laas)的承载实体,其需要为海量用户提供高性能的计算服务,同时必须能够存储海量数据,以便满足用户对不断增强的数据信息存储的需求,目前,Google公司在全球拥有36个大规模数据中心,其可以为用户提供115.2万兆字节的内容供世界各地的用户使用,通过GFS和BigTable数据管理软件管理海量数据。
3.2.3 高速网络带宽。云计算是一种基于互联网技术的计算服务模式,分布在世界各处的服务器群和超大规模的存储器需要进行访问交互和存储,其要求云计算数据中心的服务器之间必须使用高带宽的网络实现互联互通,客户端也需要拥有高速的网络和频宽,以便满足用户的实时性、高速型需求。
3.3 云计算软件系统平台架构
云计算的硬件基础是实现云计算服务的承载实体,为了更好的组织这些物理实体,必须设计相应的系统软件,组织这些物理实体,以便更好的发挥物理实体的作用。
【云计算技术论文】推荐阅读:
云计算技术特点02-16
云计算技术研究重点09-21
云计算技术与应用实例11-18
云计算核心技术培训11-21
华为云计算技术白皮书12-21
云计算下网络安全防范技术分析论文07-09
云计算对中小企业财务会计信息化的影响论文07-12
云计算时代10-18