分布式数据库资源管理

2024-08-29 版权声明 我要投稿

分布式数据库资源管理(通用11篇)

分布式数据库资源管理 篇1

Mnesia试图解决典型电信系统的数据管理问题,具备一些在传统数据库中通常找不到的特性。电信应用有许多不同于传统数据库管理系统的需求。用Erlang语言实现的应用程序需要具备宽广的特性,这是传统数据库管理系统无法满足的。

Mnesia的设计要求如下:

快速实时的键(key)/值(value)查找

主要用于运营和维护的非实时复杂查询

由于分布式应用导致的分布式数据

高容错

动态重配置

复杂对象

Mnesia与其它大部分数据库管理系统的区别在于其是被设计用于解决电信应用中的典型数据管 理问题,

因此,Mnesia有许多传统数据库的概念,如事务和查询,也有许多电信应用数据管理系统的概念,如高速实时操作,可配置的容错等级(在复制的意 义上)以及不停机进行重新配置的能力等。Mnesia与Erlang编程语言是紧耦合的,使得Erlang几乎成为数据库编程语言。其最大的好处是在操作 数据时由于数据库与编程语言所用的数据格式不同而带来的阻抗失配问题完全消失。

介绍内容来自百度百科

项目主页:www.open-open.com/lib/view/home/1331130157624

分布式数据库资源管理 篇2

关键词:分布式数据库,加密,密钥管理

一、分布式数据库

分布式数据库系统是在集中式数据库系统的基础上发展起来的, 是计算机技术和网络技术结合的产物。分布式数据库系统适合于单位分散的部门, 允许各个部门将其常用的数据存储在本地, 实施就地存放本地使用, 从而提高响应速度, 降低通信费用。分布式数据库系统与集中式数据库系统相比具有可扩展性, 通过增加适当的数据冗余, 提高系统的可靠性。

但是分布式数据库的系统开销相对较大, 并且具有复杂的存取结构, 原来在集中式系统中有效存取数据的技术, 在分布式系统中都不再适用。更重要的是分布式数据库的数据安全性和保密性较难处理。因此, 在分布式数据库中常采用加密手段保证数据安全。

数据库加密系统的关键影响因素一般包括加密粒度、加密算法和密钥管理三个方面。本文将重点对分布式数据库加密系统的密钥管理进行分析和设计。加密数据库中的密钥管理比其他系统的密钥管理更为困难与复杂。而分布式数据库中存储着海量数据, 已经加密的数据需要用原来的密钥系统解密, 且解密时间将会很长, 加密密钥不可能随时更换。除此以外, 根据加密粒度的不同, 对不同的数据应该使用不同的密钥。因此分布式数据库中需要保存大量的密钥信息。另外, 分布式数据库客体之间隐含着复杂的逻辑关系, 一个逻辑结构可能对应着多个数据库物理客体, 所以数据库加密不仅密钥量大, 而且组织和存储工作比较复杂, 需要对密钥实现动态管理。因此如何生成、保存、替换数据库加密密钥, 对数据库加密中的密钥管理提出了更为严格的要求。

二、密钥管理模块设计

1. 系统分析。

数据库加密系统中密钥管理通常利用两种方法解决。方法之一是采用分级管理结构。无论哪种多级密钥体制, 主密钥都是加密子系统的关键, 多级密钥管理体制的安全依赖于主密钥的安全。另一种解决方法是集中密钥管理方法。即在建立加密数据库时, 由密钥管理中心负责产生加密密钥并对数据加密。当一用户访问分布式数据库时, 密钥管理机构核对用户识别符和用户密钥, 认为是合法用户, 则允许访问。但必须由密钥管理机构找到或计算出相应的数据加密密钥, 并由他们利用数据加密算法解密出相应的数据。由于加密粒度的不同, 密钥的种类和密钥的数量不同。这些密钥存储在一张表中。这张表通过加密密钥对其加密保存。目前针对于数据库加密体系中密钥管理的应用和研究大多是以“可信第三方”为基础的。这种基于“可信第三方”的密钥管理方法, 认为存在一个可信任的第三方 (如:PKI体系中的CA, DBMS中的DBA等) , 并将用户密钥交给他保存。“可信第三方”拥有获取和更改用户密钥的权力。这种方法相对来说比较灵活。本文设计了一种基于“可信第三方”的密钥管理机制, 该机制既具有较高的安全性, 又便于实现。

2. 总体设计。

本密钥管理模块包括三个部分:系统密钥管理、数据密钥管理和用户密钥管理。数据密钥的管理为二级密钥管理:一级密钥为数据类根密钥, 二级密钥为数据类密钥。数据类密钥用于对数据库数据的加脱密。数据类密钥由中央权威机构CA生成, 数据类根密钥则是将所有的数据类密钥“集成”后形成的密钥。当然, 数据类根密钥可以根据需要“分解”得到所有的数据类密钥或所需要的数据类密钥。将数据类密钥“集成”, 主要是为了方便密钥的管理。为了保证数据类密钥的安全, 需对其进行加密保护, 加密密钥为系统主密钥。系统主密钥由运行在C A处的管理软件在第一次运行时生成, 其既为保护数据类根密钥的加密密钥, 又为登录CA处管理软件 (主要包括密钥管理程序和认证程序) 的登录“口令”, 以该“口令”登录的用户, 对C A处的管理软件有着完全控制的最高权限。鉴于此, 必须采取最安全的手段保护它。为确保系统主密钥的安全, 采取基于 (n, t) 门限管理的方法来管理。用户类密钥由C A利用数据类密钥来生成。当一个在C A处注过册的用户向C A申请密钥时, C A管理软件根据注册信息决定用户属于哪个用户类, 然后根据用户类型查询用户权限表以决定从解密的数据类根密钥“分解”出哪些数据类的密钥, 接着再将这些刚“分解”出的数据类密钥“集成”为该用户所属用户类密钥, 最后该密钥发送给用户。通常用户密钥较长, 为了方便用户保管, 可以用口令将密钥加密存入加密卡, 用户只需记住位数较少的口令, 这和银行卡原理很相似。

一般来说, 一个密钥主要经历生成与存储、密钥分发、密钥启用与停用、密钥替换与更新、密钥销毁以及密钥撤销几个阶段。密钥分发 (或密钥分配) 既是密钥管理的核心问题, 也是密码体制中非常困难的一个问题。接下来, 本文将重点介绍一种基于公钥密码体制的密钥分发模块的设计。

本文就一种分布式数据库密钥管理模块的设计进行了讨论。可以预见随着分布式数据库应用范围的扩大, 分布式数据库将面临新的安全问题, 这必然促使人们对分布式数据库安全研究从各个方面向前推进。

参考文献

[1]陈永强:分布式数据库系统安全策略分析.武汉工业学院学报, 2003;63~67

分布式数据库资源管理 篇3

关键词:分布式数据库;数据分片;数据同步

1 引言

高職院校医学专业学生在校理论学习结束后,要进入医院等用人单位顶岗实习,为毕业后能迅速适应就业岗位打下良好基础。但在实习学生管理方面,各院校仍在采用传统的人工管理模式,沟通不畅,资源浪费且效率低下。所以,如何进行高效的学生实习管理,成为众多医学院校亟待解决的一个核心问题。随着互联网技术的不断发展,信息化的管理模式成为了各医学院校进行实习学生管理的最优选择,开发一个基于数据库和网络的实习管理系统,实现实习学生的信息化管理,降低学校对实习学生的管理成本,提高管理效率,实现学院-医院双重管理的无缝衔接,是众多高职医学院校正在进行的一项课题。

由于在实际环境下,学生实习的单位在地理位置上是分散的,以笔者所在学校为例,实习单位主要分布在西安市、咸阳市、宝鸡市、渭南市、榆林市、汉中市、重庆市等省内外地区,且每年都有新增的实习单位。因此,在进行管理系统的设计时,采用什么样的数据库方案就成了决定系统效率和稳定性的关键因素。

2 数据库设计方案

在数据库方案的选择上,可以考虑集中式数据库和分布式数据库。集中式数据库硬件系统是由一个处理器、与它相关联的数据存储设备以及其他外围设备组成,见图1。

若采用集中式数据库,所有系统成分均驻留在单个计算机(或场地)内,用户可以在同样的站点上操作,也可以在地理位置隔开的其他站点上通过远程终端来操作。系统及其数据管理被某个中心站点集中控制,这样有利于数据的维护和保持数据一致性,但是,一旦中心数据库发生故障,就会导致整个系统瘫痪。

分布式数据库是由一组数据组成的,这组数据分布在网络中的不同计算机上,网络中的每个结点都具有独立处理的能力,可以执行局部应用,也能通过网络通信子系统执行全局应用,如图2所示。

对用户来说,一个分布式数据库系统从逻辑上看如同集中式数据库系统一样,用户可以在任何一个场地执行全局应用。所以,根据学生实习的实际情况来看,适宜采用分布式数据库系统,允许各实习单位将自己常用的数据存储在本地,在本地录入、查询、维护,实行局部控制,在降低通信代价的同时,提高响应速度。

3 数据分布策略

在进行数据分布设计时,可考虑采用分割式与复制式相结合的数据分布策略。在学院站点上保留一个完整的数据副本,然后根据学生将要去往的实习单位,将所有实习学生的信息按照实习单位进行分配,即一个实习单位一个数据子集副本。这样,各实习单位可自治的查询和修改本单位实习学生的数据,发挥系统的并发操作能力。同时,由于数据分布在多个站点上,当部分站点出现故障时,系统仍能保持运行,提高了系统的可靠性。

在本系统中,每个实习单位都需要对分配给自己的实习学生的信息进行一系列的管理,也就是说,对于学生的基本信息及其关联信息的应用较为频繁。所以在进行数据分片设计时,应采用水平分片,使实习单位的绝大多数应用在实习单位的站点内完成,系统的效率得到提高,避免因为频繁访问两个或多个片段导致执行连接操作增加而使得代价增加。并且,采用水平分片方法产生的片段,将被分配到访问它次数最多的站点上,即在各实习单位站点上只分配去该单位实习的学生信息,而全部实习学生的数据则存放在学院站点上。

4 数据同步设计

在进行分布式数据库之间的数据同步(数据复制)时,可采用发布/订阅方式:首先在数据源数据库服务器上对需要同步的数据进行发布,然后在目标数据库服务器上对上述的发布进行订阅。基于快照的事务复制,主数据库服务器生成快照,备份库服务器读取并加载该快照,然后不停地从主数据库服务器复制事务日志。

在本系统应用环境下,同一地区的不同实习单位共用一个站点空间,而在实习管理过程中,对分配给自己的实习学生数据的修改总是由实习单位发起的,所以,在给实习单位分配实习学生时,将学院数据库服务器作为源数据库服务器进行学生信息数据的发布,各地区数据库服务器作为目标数据库服务器对该发布进行订阅;学生进入实习单位后,可将各地区数据库服务器作为源数据库服务器对随管理过程变化的学生信息进行数据发布,学院数据库服务器作为目标数据库服务器对该发布进行订阅,采用事务复制来保证数据的一致性。在第一次设置好事务复制后,发布的表、存储过程等将会被镜像,之后每次对于发布服务器所做的改动都会以日志的方式传送到订阅服务器,使得发布服务器和订阅服务器几乎可以保持同步。

分布式数据库资源管理 篇4

李万鸿

当今时代已进入大数据时代,而nosql数据库对sql和事物的支持不给力,因此,开发新一代大数据分布式关系数据库迫在眉睫,这是一个新的历史机遇,笔者建议全国的it人士组织起来从事这一伟大的工程,

开源精神推动了软件的发展,我们应该发扬开源精神,大家群策群力一起动手搞架构,写代码,把这个数据库搞起来。建议这个工程命名为gospelLight----真理之光,表达对真理的追求和奉献。这是一个国际化的时代,我们欢迎外国的工程师加入这一工程,大家齐心协力把新一代数据库设计出来,共享共担!建议用java开发,把项目放在github上,全世界的工程师都可以加入开发,做出贡献,

设计这一数据库要综合运用it所有技术的成果,继承关系数据库、nosal、分布式、容错、复制、并行、key-value、timestamp、事物管理、cap、内存计算以及系统工程等多种技术,以及借鉴spanner、oracle等现有系统,开发支持大数据的分布式关系数据库,直接可以用在现有业务系统上,无缝升级到大数据时代。

总之,这是一个激动人心的天才创意,希望得到大家的支持,红红火火地搞起来,相信一定会取得伟大的成功!

分布式数据库资源管理 篇5

MckoiDDB 是一个支持低延迟的随机存取(读,写)的数据库,涵盖了网络上的机器集群分布式数据库查询系统,该软件提供了管理数据在网络上集群和用于访问和查询数据的 客户端API存储系统,

该系统可通过在网络中添加或删除节点来自由扩展MckoiDDB的规模,使一个应用程序的逻辑数据模型的设计和执行灵活。 MckoiDDB可以安装在高速专用网络及云服务提供者的实例。

项目主页:www.open-open.com/lib/view/home/1322727454952

分布式数据库资源管理 篇6

分布嵌入式大气数据系统算法的初步研究

针对某型飞机给出了DFADS系统的构型描述,进行了DFADS的算法设计,算法采用了一种非物理映射的方法来建立各测压点压力和基本大气参数之间的关系.先是利用制定的多传感器数据表决规则表决出2~3对相关的`测压点,然后通过建立相关测压点压力和其压力系数值之间的关系,利用这几对测压点的压力对事先建立的Cpi(α,β,Ma)映射关系表格数据库进行查表计算,从而得到当前的飞行状态.本文利用计算流体动力学(CFD)计算手段获得了332个飞行状态下飞机前机身14个测压点的表面压力系数数据,并以此为基础对DFADS的算法进行了仿真验证.结果表明,该DFADS的算法可以根据14个点的压力输入,正确地解算当前的大气参数.

作 者:王岩 郑伟 WANG Yan ZHENG Wei 作者单位:沈阳飞机设计研究所,辽宁,沈阳,110035刊 名:飞机设计英文刊名:AIRCRAFT DESIGN年,卷(期):28(6)分类号:V241.7关键词:嵌入式大气数据系统 多传感器 数据表决 映射嵌入式

分布式数据库资源管理 篇7

在零售行业中,随着城市建设的发展和现代物流技术的完善,超市业务不断扩大,大型连锁超市越来越普及,连锁超市运营企业需要有一个结合地理位置和资源数据的连锁超市物流管理系统,使得各连锁超市在处理各自业务数据的同时,彼此之间可以进行数据的交换和处理,以便物流中心进行货物调配。基于以上原因,本文就分布式数据库在连锁超市物流管理系统中的应用进行了探讨。

1 分布式数据库系统介绍

分布式数据库系统(DDBS)是数据库系统与计算机网络相结合的产物。逻辑上它们属于同一系统,而物理上它们分散在用计算机网络连接的多个场地上,并统一由一个分布式数据库管理系统管理。其具有以下主要特性[1]:

①数据独立性与位置透明性;

②集中和节点自治相结合;

③支持全局数据库的一致性和可恢复性;

④复制透明性;

⑤易于扩展性。

2 分布式数据库结构

2.1 连锁超市物流管理现状

长期以来,在连锁超市企业中企业对于商品货物的管理主要依靠仓储人员来管理,商品货物资源的具体情况只有仓储管理人员清楚。一旦仓储管理人员变动、数据处理不及时等,就会影响货物的配送和销售,造成巨大的经济损失。

2.2 分布式数据库设计

由于基于连锁超市的地理位置分散的特点和对资源管理系统准确及时性的要求,本系统分为超市物品管理系统和总公司物流管理系统,采用Visual Basic6.0开发应用程序,后台数据库采用SQL Server2000。由于各个连锁超市处于不同的地理位置,因此在数据库设计方面采用了分布式数据库(如图一所示)。具体的方案是把中心服务器放在总公司的物流中心,各超市服务器放在各自超市。超市服务器由本地数据库管理系统控制,可脱离中心服务器为各连锁超市独立工作,各连锁超市的服务器通过网络进行连接,实现连锁超市与总公司物流中心之间的跨域通信。连锁超市拥有各自的销售服务器和库存服务器,连锁超市的客户端(即终端收银机)只向各自的本地服务器发送录入、修改、查询、删除的工作请求。同时各连锁超市的销售数据以及库存数据的修改,通过数据上报模块不定地的将数据上传到总公司物流中心服务器。将数据保存在各个不同的服务器上,可以充分保证数据的安全性,降低局部数据流量,减轻服务器对海量数据的处理负担,从而提高工作效率。数据库数据采用数据分片,连锁超市按照自己的超市编号存储数据,对数据进行水平分片。

2.3 数据复制

为保证总公司物流中心数据的准确性和一致性,要求系统不定时地把各连锁超市更新的本地数据及时上传到中心服务器,这就是数据的复制。

本系统采用应用程序充当分布式事务控制器,协调远程及本地事务的提交或回滚。连锁超市数据库需要不定时地把各种商品货物资源表中的记录上传给中心数据库,这些信息包括商品名、库存量、销售量、商品单价、生产日期、生产厂家等。这些记录是中心数据库相应记录的水平分片,在数据库中根据各连锁超市的编号对数据进行分片,更新时先删除中心数据库中对应的连锁超市的数据信息,然后把连锁超市的数据上传到中心数据库,每次只需批量更新即可。通过事务提交的方式避免由于网络中断或其它故障造成的在更新过程中的数据不一致。

3 数据库备份

对数据库进行备份是一项很重要的工作,本系统采用在启动数据上传模块的同时自动备份数据库的方法,从而既提高了数据库的可靠性和安全性,同时也减轻了数据库管理员的工作,降低了备份的复杂性。

本文利用SQL DMO(Database Management Object)实现数据库备份。SQL DistributedManagement Framework(SQL—DMF,即SQL分布式管理框架)是一组集成API和服务,用与管理SQL Server。SQL_DMO是SQL_DMF中的一个组件。本系统实现数据库备份程序示例如下:

4 结束语

本文针对连锁超市场所地点分散的特点,采用分布式数据库来实现连锁超市物流管理系统。通过程序控制数据库事务提交和对数据库进行备份,保证了数据库数据的可靠性与一致性。

摘要:本文针对连锁超市地理位置分散的实际特点,设计和实现了连锁超市物流管理系统的分布式数据库结构,使不同区域的数据可以共享,同时提出了该系统的数据复制和数据库备份问题的解决方案。

关键词:分布式数据库,数据库备份,数据复制

参考文献

[1]邵佩英.分布式数据库系统及其应用[M].北京:科学出版社,2000.

[2]SOLID QUALITY LEARNING.MICROSOFT SQL SERVER2005APPLIED TECHNIQUES STEP BY STEP[M].北京:清华大学出版社,2006.

[3]许志清,赵博.精通SQL SERVER2005数据库系统管理[M].北京:电子工业出版社,2006.

分布式数据库资源管理 篇8

关键词:分布式数据库;数据分片;数据分配;分布透明性

中图分类号:TP311.13 文献标识码:A文章编号:1007-9599 (2011) 07-0000-03

Discussion on Comparison of Data Partitioning and Distribution Relationship in Distributed Database

Wang Baoping

(Tarim Southwest Company,Petro China Tarim Oilfield Company,Xinjiang 844804,China)

Abstract:This paper compares dist ributed database with cent ralized database and indicates data of ragment and allocation isthe important aspect in designing dist ributed database.Then,it gives purpose principle and technique of data of ragment and allo2cation,explains the transparency of dist ributed data,and illuminates the relation between data fragment and allocation simply.Finally it outlines some problems about data fragment and allocation in dist ributed database design.

Keywords:Dist ributed database;Data f ragment;Data allocation;Dist ributed transparency.

分布式数据库系统通过把分布在计算机网络的不同结点或场地,物理上属于多个数据子集,逻辑上属于同一系统之数据集合的海量数据实现数据应用,以实现比集中式数据库系统更好的性能、可扩充性、可用性和自治性[1]。从数据意义上讲,数据分布即数据分片与分配的合理与否或者说合理性的高低,不仅影响着访问的局部性,即尽可能地把用户要求访问的数据就在本结点或本场地,而且也制约着数据查询及事务处理的效率。

以关系数据库为例, 在关系型分布式数据库系统(RDDB)中,简单地说,数据分片是从逻辑上将全局关系划分为逻辑片断即子关系,而数据分配就是再以一定的冗余度将子关系分配到多个结点上,数据分布即数据分片与数据分配的总和。

单纯从数据分布的角度看,集中式数据库系统可以看作分布式数据库系统的一个特例,是集中式还是分布式,最终的目的都是为了使数据可以更好地服务于应用,而数据分片与分配就是达成此目的的方法。数据分片是一种对关系的划分,在集中式数据库中可以将所有的表视为一个总全局表的逻辑子表,而总全局表是这些子表的并集,其属性包括这些子表的所有属性,元组包括这些子表的所有元组,对应的在这个总全局表上元组的非空值呈块状区域分布。数据分配则是将这些子表以不同的冗余度存放在一个或多个场地或节点,区别在于集中式数据库不存在数据复制的问题,不需要存在多副本,但也会出现表名不同,但表属性和属性值完全相同。

一、数据分片

(一)数据分片原则

实现对全局关系的逻辑划分,以用户需求为目标,尽可能的提高系统的可用性,适应分布式的事务处理数据查询。

(二)数据分片原则

设全局关系R 被分片为逻辑片断集合S={S1,S2,⋯,Sn},则S满足:

1.完整性t∈S,vSi∈S有t∈Si。

2.不可相交性Pt∈Si,ôvSj有∈Sj,i≠j。

3.重构型存在函数g,使得R=g(S1,S2,⋯,Sn)[2]。

(三)数据分片方法

1.独立分片。Ri=Π(U)(σ(A)())orσ(A)(Π(U)())

U为属性表;A为条件集合;R为关系名;U={U1,U2,⋯,Un};A ={A1andA2and ⋯andAn}。

2.关联分片。Ri=Π(U)(σ(A)()∞σ(A)())。

二、数据分配

(一)数据分配目的

通过一定的冗余片断在各结点上的分布,提高系统的可靠性,缩短局部应用的响应时间,尽可能地提高数据的安全性,减少系统的数据通信代价。

(二)数据分配准则

1.处理局部性。数据分配时应尽量提高数据的局部性,使应用在本结点或相邻的节点处理,以尽可能的减少因为对其他节点数据访问而产生的通信代价。

2.数据可用性和可靠性。尽量提高数据只读应用的可靠性,减少因数据检索和更新不同步造成的“脏数据”或“过时数据”。尽可能提高系统的可用性,使系统的管理和存储代价降低。

3.工作负荷分布均匀性。使各结点的负载(各结点所担负的全局应用和局部应用的规模)均匀化,尽量提高系统的并行处理能力,但这有可能降低处理的局部性,增加系统的通信开销。

一般情况下,上述的3个准则不可能同时满足,应该根据具体的客户需求和系统的主要目标,以一个为主要,其他的可以作为约束条件[3]。

(三)数据分配类型

1.集中式数据有划分。但是划分后的逻辑片断依然完全集中在一个结点,即有分片无分配,如同集中式数据库。

2.划分式。数据按应用需求和来源,分布在各个结点上,彼此之间没有重复数据。

3.全重复式。每个结点都有一个全部数据的副本,可以完全做到数据检索的局部访问,但更新代价太大。

4.部分重复式。分片后的逻辑片断按用户需求和应用需要分配,需要共享的片断通过数据复制产生副本放置到不同的结点,私有的片断只放置需要的结点[4]

表1中给出了不同的数据分配类型的比较

(四)数据分配方法

从用户需求和应用需要考虑,数据分配必须尽可能地强调局部自治性,即必须尽可能地减少远程的检索操作,以降低网络通信代价。

1.无副本分配。假设只考虑检索更新的代价,可以选择访问最频繁的结点作为逻辑片断的存放地,一般可对各种分配方案进行比较,以客户需求和应用需要为主要目标,选取最适宜的方案。但是这种情况忽略了给定结点存放的逻辑片断或者关系之间存在一定的关联,一种目标的达成有可能造成另外的开销剧增。

2.多副本分配。副本可以提高检索的局部性,但是却又增加了更新的开销。多副本分配的一般原则是计算副本添加到给定结点时,收益与开销之差,如大于零则放入,小于零则另选结点。

总之,由于客户需求和用户需要所导致的优化目标的不同,数据分配的方法也不同,但大体思想和上文所述类似[5,6]。

三、数据分布透明性

在四层模式中,全局概念层是分布式数据库增加的部分,其余则是集中式数据库原有的部分。

由上面的DDBS 的模式结构图4个映像可以看出,分布透明性包括分片透明性,位置透明性,局部数据模型透明性[5]。

(一)分片透明性

分片透明性是分布透明性的最高层次。其指的是用户或应用程序不用去考虑关系是如何分片以及具体的分片情况,就可以对全局关系进行操作。当系统由于用户需求或其他原因而使分片模式发生了改变,此时由于全局概念模式分片模式的映像(映像2),全局概念模式不变,这样应用程序就不需要改写了,从而增强系统的可用性,方便应用程序的开发。

(二)位置透明性

位置透明性处于分片透明性的下一层次,也可以称为分配透明性,指的是用户或者应用程序不用去考虑逻辑片断存储在哪个具体的结点,当存储结点发生改变时,由于分片模式3/分配模式的映像(映像3) ,不需要考虑应用程序中添加查找逻辑片断的程序段,这样就减少了程序的规模和复杂性,以利于应用。

(三)局部数据模型透明性

局部数据模型透明性指的是用户或者应用程序不需要了解局部数据库使用的是何种数据模型,不同数据模型的转换和数据库语言的转换由映像4完成,这就保证了分布式异构数据库系统的数据查询及事务处理的有效完成[6]。

由上面分布式数据库系统模式结构图的4 层模式,对应的在分布式数据库系统设计中有4级透明,具体评价如表2 :

从表2可以看出,透明性越高越有利于应用程序的开发,因为在编程的时候如果不考虑程序所调用的数据的来源与位置,做到“随需所用”这样会极大的缩小程序的规模,提高程序的可用性;但与此同时,这样会使系统负担大大增加,数据的查询和提取将耗费系统绝大部分资源,使得系统的效率大为降低,因此数据的透明性必须适宜,在进行数据分片与分布设计时与执行效率反复权衡,求得平衡点[7]。

四、分片与分配关系

从分布式数据库模式结构图可以看出,在分布式数据库的设计中分片与分配模式的设计是其中间环节,一个较优的、基本符合用户需求和应用程序需要的分片与分配设计可以极大地提高系统的可靠性和可用性。对一个关系或文件进行划分,不仅分布式数据库有这种问题,在集中式数据库中有时为了提高数据库的性能也会把一个关系进行独立分片。在分布式数据库设计中,分片设计的目的就是为了分配设计,就是为了让数据访问具有较优的局部性。数据如何分片,如何分配,必须对各种不同收益开销比的方案进行权衡比较,最后根据客户需要和应用程序的需求确定最终的较优方案。数据分片与数据分配虽然是两个不同的概念,但是两者紧密相连,不能截然孤立,没有初步的分片设计就无法进行分配设计,不经过各种分配方案的比较,也就无法确定分配的方案。

一般情况下,分片与分配设计之间采用启发式的方法,首先对应用进行分析评估,提出初步的可行的有利的分片方案,然后根据用户或应用设定的目标再比较分配设计方案的收益开销比,最后确定分片与分配设计方案。如果初步的分配设计方案不可取,可调整分片设计方案,直到达到较优为止。

五、数据分片与分配产生的问题

分布式数据库的分片与分配使数据可以更好地进行局部应用和全局应用,但是也产生了如何保持分布一致性和多副本一致性,以及全局查询处理,分布事务管理的问题。

(一)保持多副本一致性

保持多副本一致性即如何解决读写矛盾问题。分布式数据库的数据分配通过多副本来实现,这在增强了数据访问局部性的同时也造成了在数据更新时为了使不同结点的多个副本内容保持一致,就必须增加开销,因而造成系统效率下降。

(二)保持分布一致性

数据更新后,关系的属性值发生变化,独立分片和关联分片产生的逻辑片断可能出现数据的重新分布。

(三)全局查询处理

在全局查询中涉及全局关系,如果系统提供全透明,那么关系是否分片,关系或逻辑片断在哪个结点,对用户是透明的,即全局关系转化为逻辑片断,选择副本,全局查询转化为自查询都由分布式数据库管理系统来完成。

(四)分布事务管理

数据是分布在不同的结点,处理数据的事务也是分布的。这就涉及到并发控制和恢复技术。

六、结束语

分布式数据库系统符合当今信息系统应用的要求,符合当今企业组织的管理思想和管理方式。但由于分布式数据库系统并不是网络技术与集中式数据库系统的简单结合,他的实现有一定难度,经过近20年的努力,分布式数据库管理系统(DDBMS)的大部分基本问题已得到解决,但迄今为止尚没有一个在市场上被人们完全接受的、完全的DDBMS 产品[8]。分片与分配直接关系到数据的应用,设计建立分布式数据库的重要环节是处理好分片与分配设计,因此必须加强对相关领域的商用化设计的研究与实践。

参考文献:

[1]郑振楣,于戈,郭敏.分布式数据库[M].北京:科学出版社,1998

[2][美]塞里.分布式数据库原理和系统[M].关英春,译.北京:中国水利电力出版社,1989

[3]刘广钟,刘方鑫,施小龙.分布式数据库系统中数据分布模型的研究与建立[J].小型微型计算系统,2001,22(1):710

[4]赵葆华,王于同.一种分布式查询处理的数据划分策略[J].杭州电子工业学院学报,1999,19(2)

[5]陈楠.分布式数据库系统数据分布策略分析[J].计算机时代,1998,10

[6]肖凌,刘继红.分布式数据库系统的研究与应用[J].计算机工程,2001,27(1)

[7]周龙骧.分布式数据库管理系统实现技术[M].北京:科学出版社,1999

分布式数据库资源管理 篇9

1分布式地下水模拟模型模的种类及特点常用的地下水文模拟模型包括解析模型、数值模型、水均衡模型及物理模型等。目前国际上较为流行的地下水数值模拟模型主要包括ModFlow和FeFlow,下面对其分别进行介绍和比较。1.1ModFlow模型是一套专门用于孔隙介质中三维地下水流数值模拟的模型。自ModFlow问世以来,它已经在全美甚至在全世界范围内,在科研、生产、环境保护、城乡发展规划、水资源利用等许多行业和部门得到了广泛的应用,成为最为普及的地下水运动数值模拟的计算软件.ModFlow主要采用三维有限差分方法进行模拟。其基本原理是:在不考虑水的密度变化的条件下,孔隙介质中地下水在三维空间的流动可以用下面的偏微分方程来表示.1.2Feflow模型它采用有限元法进行复杂二维和三维稳定/非稳定水流和污染物运移模拟。Feflow的有限元方法允许用户快速构建模型来精确地进行复杂三维地质体的地下水流及运移分析,在这方面其功能要强于ModFlow。2流域生态水文过程与分布式水文模型有限的淡水资源已经成为社会经济可持续发展和生态系统健康的重要限制因子,现有的水利工程技术难以有效解决这一矛盾,需要探索新的方法和机制以解决水资源短缺、水质恶化和生物多样性减少等环境问题,生态水文学(Ecohydrology)正是在这种背景下发展成为水文学研究的一个重要分支。3建模的关键技术3.1遥感与GIS技术遥感作为信息采集的重要手段,已经为水文建模提供了丰富的空间属性数据资料,并且为模型验证提供了新的方法,而GIS技术为水文模型的数据管理和模型应用带来了较大的便利,遥感数据和GIS技术成为水文建模研究的重要方向由于流域下垫面高度的空间异质性,大多数遥感数据获取的水文属性参数与物理观测值之间并没有很好的相关关系,给模型的验证带来很大的难度,遥感数据参数化和特征值提取还有很多问题亟待进一步研究。3.2流域水循环综合模拟模型随着计算机技术、系统科学和大量水文模型方法研究的进展,使得进行整个流域整体水循环模拟成为可能。流域内水循环过程从大气降水开始、到坡面流,随后在不饱和土壤带内运动,继续汇流进入下游河网,同时部分下渗进入地下饱和带参与地下水渗流运动。参考文献: [1] 许继军,长江上游大尺度分布式水文模型的构建及应用.水利学报,2007(2). [2] 代俊峰,模型构建的原理与方法.水利学报,2004(9). [3] 胡和平,田富强.,物理性流域水文模型研究新进展.水利学报,2006

分布式数据库资源管理 篇10

诸云强/朱琦/徐敏/冯敏/宋佳/杜佳

2012-11-7 16:44:46 来源:《档案学通讯》(京)2011年5期

【英文标题】On Information Resource Sharing System of Distributed Environmental Archives(Replenish)

【作者简介】诸云强(1977-),男,博士,中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室副研究员,主要研究方向:地学信息共享,出版专著1部,发表论文30余篇;朱琦,徐敏,环境保护部信息中心(北京 100029);冯敏,宋佳,杜佳,中国科学院地理科学与资源研究所资源与环境信息系统国家重点实验室(北京 100101)。

【内容提要】本文是上篇同名文章的续篇,提出了分布式环保档案信息资源共享系统的总体架构、功能体系及部署应用模式。分布式环保档案信息资源共享系统包括后台著录管理和前台共享服务两个子系统,由部署在各级环境保护行政主管部门的节点共同组成,不仅可以实现各单位环保档案信息资源的自治管理,而且通过网络服务互操作,可实现部门间环保档案信息资源的安全交换和分级共享。

Based on research one, Environmental Protection Archival Information Resources(EPAIR)sharing requirements analysis, this paper puts forward the general architecture, function structure and deployment models of distributed Environmental Protection Archival Information Resources Sharing System(EPAIRSS).EPAIRSS includes two sub systems, one is submission and management sub-system for producers and administrators, and another is sharing and access sub-system for users.Therefore the entire EPAIR service network comprises many nodes.In this network, it can implement not only respective submission and management of EPAIR among each node, but also safely interchanging and sharing EPAIR cross-departments by web services interoperability.【关 键 词】环保档案/共享系统/互操作Environmental protection archives/Sharing system/Interoperability 分布式环保档案信息资源共享系统的内涵与总体架构

根据前述的需求分析,参照OAIS参考模型[1][2],环保档案信息资源共享系统总体架构如图1所示。该系统是一个分布式的体系,不仅能够实现各单位环保档案信息资源的科学管理,而且还能够与其他节点单位(部署了同样系统的单位,或者实现了该系统标准服务接口的软件系统单位)进行联网,共同构成分布式的环保档案服务网络体系,实现跨部门、跨地区的环保档案共享。同时,也能够面向其他部委、科研院所以及社会公众等,提供开放的环保档案目录查询检索。多个分布式的环保档案信息资源共享系统共同组成物理上分布、逻辑上统一具有自治管理、安全交换和分级共享功能的环保档案信息资源共享服务体系。该体系具有明显的分布性、统一性、开放性和安全性的特点。

分布性主要体现在以下几个方面[3]:

(1)系统的分布性:环保档案共享系统分别部署在环保部、环保部直属机构、各省环保厅、地市环保局、区县环保局等。各节点的系统可以是本文讨论的环保档案信息资源共享系统,也可以是各部门已有的档案管理系统。

(2)信息资源的分布性:环保档案信息资源分布在各级环保档案管理部门,由各级档案管理部门负责管理、维护自己的环保档案信息资源。

(3)用户的分布性:用户分布在全国不同的地方,可以是环保档案管理人员、业务人员,也可以是其他相关部委的档案利用人员和普通的社会公众等。

(4)应用的分布性:根据应用的需求,用户可能会利用不同级别、区域的环保档案共享系统获取不同的环保档案。

统一性主要体现在以下几个方面:

(1)逻辑的统一性:尽管服务体系是由多个分布在不同部门的环保档案信息资源共享系统组成的,但这些系统的业务规则、接口规范等在逻辑上必须统一,这样系统之间才能进行互操作。

(2)服务的统一性:理论上服务体系下任意一个共享节点都可以交换其他共享节点的环保档案信息资源目录,这样用户访问任意一个共享节点就可以查看所有环保档案信息资源目录,并根据权限进行访问。具体部署应用时可根据目前环保档案管理部门的相关规定进行系统的配置。

(3)开放性:首先表现在能够容纳不同类型、结构的档案信息资源,适应档案资源的不断更新和补充:其次还可以接受不断加盟的节点,这些节点可以是本文的环保档案共享系统,也可以是各级管理部门已有的环保档案管理系统(需要遵循统一的接口规范,实现核心业务的改造和封装),从而最大限度集成各级环保档案管理部门已有的投资,实现跨部门、跨区域、跨平台的系统集成。

从逻辑上看,环保档案信息资源共享系统分为资源层、功能层、服务层和用户层四个层次(如图2所示)。

资源层是指各级环境保护行政主管部门及其直属单位。在环境保护活动中直接形成的各类环保档案,主要包括环境管理、环境监测、环境污染及其防治、自然保护、环境科学研究、环境工程建设、设备仪器、标准计量等类型。

功能层是指实现环保档案信息资源集成和共享的功能模块。包括:环保档案的著录、归档、管理、交换、查询检索与在线浏览以及用户及权限管理等。

Web服务层基于功能层,是保障分布式共享系统各节点互操作和兼容已有异构管理系统的基础。由一系列核心的Web服务组成,包括:节点同步服务、元数据交换服务、登录验证服务等。Web服务对外提供远程调用的接口,当客户端调用该Web服务时,Web服务接受客户端参数,通过功能层执行具体的操作,并将操作结果返回给客户端。

门户层是档案形成者、管理者、使用者与系统交流的场所。通过门户层用户向系统发出各种请求,门户层将用户请求转发给Web服务层或功能层,并向用户显示系统的处理结果。分布式环保档案信息资源共享系统功能体系

OAIS参考模型中定义了三类信息包(提交信息包、档案信息包、分发信息包)、三类用户(信息资源的形成者、管理者和使用者)以及六种功能(档案收集、存储、管理、保存规划、访问和系统管理)[1][2]。基于OAIS参考模型,根据前述的需求分析,环保档案信息资源共享系统功能模型应该还包括交换共享模块,如图3所示。具体的功能可划分为两大子系统:环保档案著录管理子系统和环保档案共享服务子系统。

环保档案著录管理子系统主要面向环保档案管理人员,为他们提供管理员及权限设置、分布式共享节点信息管理、环保档案分类体系管理、环保档案元数据著录模板设置(适应不同类型不同级别环保档案著录的需要)、环保档案元数据著录、环保档案归档管理、环保档案访问权限的设置(根据档案密级选择档案共享访问的方式)、环保档案审查发布(确定环保档案已经进行了安全设置,并对外发布)、分布式环保档案交换、新闻信息发布(发布通知公告、工作动态、研究进展等信息)、统计分析(对网络访问情况、访问用户,共享系统提供的检索、在线浏览下载服务进行统计)等。

环保档案共享服务子系统主要面向各级环保档案的使用者,提供用户的注册、登录及权限认证、环保档案分类导航(根据分类体系,可进行多个分类体系的导航。如按档案类别、等进行导航)、环保档案资源的检索(基于关键词、地图的检索等)和优化排序、档案资源的在线获取(根据档案资源访问权限和用户级别,提供档案资源的在线浏览)、环保档案离线获取、新闻信息浏览(提供通知公告、工作动态、研究进展等信息类服务)等。分布式环保档案信息资源共享系统部署应用模式

根据前面的分析,环保档案信息资源共享系统是一个分布式的体系,因此,在技术实现上必须采用分布式的软件体系。目前分布式互操作技术主要包括:OMG(对象管理组织,Object Management Group)的CORBA(公共对象请求代理体系结构,Common Object Request Broker Architecture)、Microsoft的COM/DCOM(组件对象模型Component Object Model/分布式对象模型Distributed COM)、Sun公司的Java RMI(远程方法调用)和EJB(企业级JavaBean)和Web服务技术。Web服务(Web Services,网络服务)是一个崭新的分布式计算模型,是一种部署在WEB上的对象组件[4],能够运行在不同的操作系统上,为不同的软件应用互操作提供标准的方式[5]。Web服务建立在XML规范之上,具有良好的封装性;Web服务与服务之间是一种松散的耦合[6]。当一个Web服务实现发生变更时,只要调用界面不变,Web服务仍可正常运行,对用户完全透明。由此可见,Web服务完全屏蔽了不同软件平台的差异,无论是CORBA、DCOM还是EJB都可以通过这一标准进行互操作,实现当前环境下最高的可集成性。

因此,分布式环保档案信息资源共享系统采用面向服务(SOA, Service-Oriented Architecture)的技术架构,基于J2EE环境,SQL Server数据库进行开发。WEB服务器采用Tomcat5,节点互操作采用Web Services,网络地理信息服务在Java环境下利用Flash技术自行开发。

系统的部署应用模式如图5所示①。环保档案数据库和元数据库部署在内网,供内部员工进行环保档案信息资源的著录、归档、管理、查询和按权限的在线浏览访问。环保档案目录(元数据)交换库和环保档案信息资源网络服务部署在专网上。经过校验码认证后通过网络服务的调用实现环保部、各省环保厅、甚至是各区县环保局环保档案目录(元数据)的交换。进行交换的环保档案元数据信息统一放到环保档案数据交换库中,与业务运行的环保档案元数据进行物理上的隔离,定期进行两者的数据交换。环保档案元数据公开库部署在外网上,内网实现物理上的隔离,定期抽取可以对社会公众公开的环保档案元数据信息和已经开放的环保档案信息资源,供通过身份验证的个人和组织检索查阅。

图5 环保档案共享系统部署结构 结论与讨论

6.1 主要结论

(1)环保档案信息资源共享的实质是满足环保档案形成者、管理者和使用者三个主体的需求,使得环保档案信息资源能够方便、安全地从形成者手中到使用者手中,促进环保档案的高效利用与增值;

(2)环保档案信息资源共享不仅包括环保档案信息资源的交换、共享访问,而且还应包括为提高质量而进行的环保档案信息资源著录、归档、审查发布与管理等过程。因此,从功能上把软件系统分为共享服务子系统和著录管理子系统;

(3)为了实现全国一盘棋的环保档案信息资源共享,必须采用分布式的软件架构。一方面实现各部门环保档案的自治管理,另一方面利用网络互操作实现各节点环保档案信息资源目录和元数据的交换共享;

(4)采用J2EE开发环境,可实现环保档案信息资源共享系统跨平台、跨部门、跨区域的部署应用。利用XML Schema、Web Services等技术可适应异构环保档案信息资源和管理系统整合的需要,从而从技术角度真正推动环保档案信息资源的共享。

6.2 讨论

环保档案信息资源共享不仅具有一般信息资源共享所遇到的问题,同时,作为对国家和社会有保存价值的历史记录,环保档案信息资源共享又具有显著的特点。在实施过程中特别要注意以下几个方面:

(1)环保档案信息资源共享是一个复杂的工程,光靠技术手段是不能完全解决的,还涉及人们的观念意识、行业部门的利益等等。因此,在实施过程必须加强理念的宣传,制定切实可行的管理办法,协调处理好档案形成者、管理者和使用者的责、权、利;

(2)在共享过程中,必须处理好开放共享与安全保护的矛盾,做到有序安全的共享。对于控制使用的部分,一定要严格掌握,以维护国家的根本利益。要以“档案法”为依据,做到内外有别,做好用户权限的划控,制定好共享安全使用条例等;

(3)从技术的角度,要注重对已有投资的保护。要能够重用或通过标准接口经过最小限度的改造,实现共享系统与已有的环保档案管理系统、政务系统、业务系统的松散耦合,从而实现环保档案信息资源的快速整合集成。

致谢:本文得益于环境保护部办公厅文档处李敏君处长、董佩老师的指导以及与项目组其他成员的共同讨论。在此,一并表示感谢。

注释: ① 参考:诸云强.环保档案信息资源共享原型系统概要设计,2010.【参考文献】

分布式环境中数据存储技术的研究 篇11

关键词:分布式;数据存储;数据库

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)03-0455-02

1 数据存储技术的现状

近年来,随着计算机技术和网络技术的迅猛发展,依靠先进的技术进行网络化办公已经成为现实。越来越多的企业、政府机构、社会团体借助计算机技术将业务主体进行科学的专项设计和应用,用户只需要少量的终端设备就可以对大量的数据进行处理和分析。另一方面,随着人们对互联网依赖程度的逐步加深,伴随“大数据”等新概念的提出和发展,产生的数据量也呈现爆炸式增长。新数据的产生和原始数据的不断积累,导致占用的存储容量越来越大。因此,如何扩展服务提供商器的存储能力已经成为当前科研领域的重要研究热点。

目前,能够有效提高数据存储能力的方式主要有两类解决方案。一类是新增硬件的方法提高存储能力。由服务提供商采购新的存储设备来拓展服务器的存储能力。另一类是在不改变现有硬件设备的条件下,服务提供商改善数据存储软件,优化存储信息的方式,通过分类和分解数据的形式提高存储能力。第一类解决方案存在明显的弊端,服务提供商的购买能力是有限的,无法从根本上解决难题。另一类目前已经得到国内外行业的普遍认可,各大数据服务提供商投入大量人力和物力,加快了数据管理软件的研发脚步,一系列的数据库产品营运而生,像Google Spanner,Cassandra,MongoDB,MySQL Cluster等[1]优秀的产品为分布式环境下有效的管理数据,优化存储提供了先决条件。

2 分布式环境下数据存储的应用特性分析

通过大量实践可以看出,对于大量数据的处理效率往往与数据本身的可操作性有着紧密联系,所以有必要对分布式环境下的数据应用特性进行合理的分析和总结。分布式数据库主要有以下三个特点:

2.1 数据库存储的数据在逻辑上是集中的,在地理位置上是分散的

分散的数据单元所在的物理位置是透明的,通过通讯线路和协议进行相互沟通。这点有力的说明分布式数据库存在数据的“分散性”。

2.2 用户对数据进行的任何操作都有一个统一的DBMS进行调度

用户不必关心数据的并发处理、副本调度等问题,即使局部数据单元发生数据故障,统一的DBMS仍可以进行调度和工作。这点有力的说明分布式数据库存在管理上的“集中性”。

2.3 用户对任何数据进行例如添加、删除和查询操作时,每个数据单元都各有一个小型的数据管理系统,都有各自的DBMS,多数处理就地完成

这点有力的说明分布式数据库存在操作上的“自治性”。

3 分布式数据库系统的设计

在分布式环境下,对于数据库的设计要求还没有统一的标准。该文通过总结和分析整理国内外相关资料,认为一个可操作的分布式数据库系统,应具备四个功能,如图1所示。

3.1 数据分发[2]

数据分发的建立打破了传统数据存储模式,它使物理上分散的数据单元成为逻辑上统一的整体,数据模块之间通过数据链路进行连接,通过形式统一的数据接口和协议进行通讯。合理的数据分发模块能够解决数据在远距离存储上存在的异构问题。

3.2 并行处理

由于数据存储过程中的分散性和自治性的特点,使得并发处理功能就显得尤为重要。并行处理问题发生的情况分为三种:时间并行,空间并行以及时间和空间同时并行。并行处理功能要求数据库要有很好的事务机制处理办法,提供有效的并发解决方案。

3.3 SQL解析

由于大量数据库管理系统和操作系统存在异构的特点,SQL解析功能就显得尤为重要。SQL的语句首先被数据库管理软件转化为ASCII码,然后由解析器分三个环节进行解析。首先是语法解析,通常会从数据字典、对象比较、游标等方面检查用户输入的语法是否存在错误;其次是语义解析,为用户输入的语句建立语法树,对语义中提到的程序、表、字段等方面进行检查;最后是执行语法过程,将操作结果进行打包后传递给DBMS。[3]

3.4 汇总处理

汇总处理的目标是从分散的数据模块中提取用户需要的数据,并进行必要的处理后呈现在用户面前,形成一个完整的、统一的大型数据库。

4 总结

分布式数据存储能够不改变现有硬件设备的条件下,充分利用现有资源为用户服务,为用户提供快速灵活的体验,同时可以减少投入,提高设备利用率。随着数据存储技术的不断发展和成熟,能够在不同领域中得到更广阔的发展。

参考文献:

[1] CunchenLi,JunYang,JingHan,HaihongE.The Distributed Storage System Based On MPP For Mass Data[C].2012 IEEE Asia-Pacific Services Computing Conference.GuiLin,Guangxi:EEEE, 2012:384-387.

[2] 杨俊.海量数据分布式存储技术的研究与应用[D].北京邮电大学,2012.

上一篇:白酒的市场调研报告下一篇:小学生作文300字:雨花石