基于数据挖掘的数字图书馆检索技术研究论文(共8篇)
关键词:数据挖掘 数字图书馆 应用前景 检索技术数字图书馆
1.1 概念解析
作为高新技术下的产物,数字图书馆的研究不仅在科学技术领域突飞猛进,而且也为人类的社会事业做出了突出贡献。不同于现实中的图书馆,数字图书馆是虚拟的,它将分散的各种信息资源以数字化的形式存储,以网络化的方式实现互联,以此提供及时的信息,实现资源共享。它是以网络环境为基础的可共享的可扩展的网络知识系统,是一种能方便快捷地为用户提供数字化信息资源的高水平服务机制,也是面向未来互联网发展的信息管理模式。只有深入理解数据挖掘技术,才能不断促进数字图书馆检索技术的发展,从而充分发挥出数字图书馆在图书馆领域的重要作用。
1.2 组成及作用
数字图书馆包括能够服务于广域网的网络设备和通信条件,还有一整套用于信息的管理维护和用户服务的软件系统,这个软件系统可以划分为5个模块:权限管理模块、获取与创建模块、存储与管理模块、访问与查询模块以及动态发布模块。
数字图书馆是在传统图书馆的基础上发展而来,既包含了传统图书馆中的功能,还融合了档案馆、博物馆等中的功能,可以为公众提供综合信息的访问服务,在社会文化、电子政务、大众媒介等公众信息传播中广泛应用。数据挖掘在数字图书馆检索技术中的概念
数据挖掘在具体的数字图书馆检索中的概念指的是,在没有给出明确假设的前提下对图书信息资源进行挖掘,也可以理解为在大量的图书统计数据中对内在规律和特点进行分析,这里的挖掘对象可能是不同类型,不同物理服务器上的数据库。现在市场上已经出现了很多“数据挖掘系统”,但大多数只能称的上是机器学习系统或是实验系统原型,因为这些系统更多地是进行数据检索,并不能真正地处理大量数据,实现数据挖掘。真正的数据挖掘既涉及多种学科技术的集成,又包涵数据库技术、统计学、高性能计算、数据可视化、信息检索、模式识别等领域。借助数据挖掘,数字图书馆用户可以从数据库中及时准确地检索到自己所需的信息资料。所以,数据挖掘技术处在数据库系统的前沿,在信息技术领域里拥有非常光明的发展前途。
随着数据库系统在图书馆领域的广泛应用,系统中的数据,特别是全球存储的数据快速增长。然而,调查结果显示如此海量的数据无法都被有效利用。如果能在数据海洋中抽取出有效的信息,将会大大提高信息的利用率,创造更大的实用价值,而这恰恰是产生数据挖掘技术的原因。
总而言之,数据挖掘就是从大量的、模糊的、不全面的、随机的数据中提取出隐含在其中的、潜在的、有用的信息资源,把数据应用从一般的简单查询提升到挖掘数据知识的高度,提高信息的利用率。数据挖掘在数字图书馆检索技术中的方式和技术
3.1 数据挖掘的主要实现方式
数字图书馆检索技术中的数据挖掘的主要实现方式可以简单地分为两种,即直接数据挖掘和间接数据挖掘。直接数据挖掘是在可用的数据资源的基础上创建一个模型,根据此模型对剩余的数据和数据库中表的属性进行描述。间接数据挖掘是利用所有的变量建立某种关系,而不再是选出具体的变量对其建立模型描述。
3.2 数据挖掘的常用技术
目前,数字图书馆检索技术中的数据挖掘的常用技术可以分为以下几类。
3.2.1 传统统计分析
传统统计分析技术使用了很多分析方法,如相关分析、回归分析等,大多数情况下,这种技术是由系统对数字图书馆用户提出的假设进行验证。
3.2.2 传统主观导向系统
传统主观导向系统技术要有经验模型,在专业领域中的应用较为广泛。它主要是运用从简单的走向分析到以高等数理知识为基础的分析方法。
3.2.3 决策树
决策树相对来说是一种简单的表示方法,这种技术的思路在于根据分类规则将事例层层归类成不同的类别。由于其分类规则易于理解,在数字图书方面较能被用户所接受。
3.2.4 神经元网络技术
神经元网络技术作为计算机领域中的重要方法之一,已经在各个工业部门广泛应用。它是模拟人的脑神经学习的技术,在数字图书馆领域,利用这种技术可以有效解决从模糊数据导出概念和确定走向中出现的复杂问题。
3.2.5 基于事例的推理方法
1.1 概念解析
作为高新技术下的产物, 数字图书馆的研究不仅在科学技术领域突飞猛进, 而且也为人类的社会事业做出了突出贡献。不同于现实中的图书馆, 数字图书馆是虚拟的, 它将分散的各种信息资源以数字化的形式存储, 以网络化的方式实现互联, 以此提供及时的信息, 实现资源共享。它是以网络环境为基础的可共享的可扩展的网络知识系统, 是一种能方便快捷地为用户提供数字化信息资源的高水平服务机制, 也是面向未来互联网发展的信息管理模式。只有深入理解数据挖掘技术, 才能不断促进数字图书馆检索技术的发展, 从而充分发挥出数字图书馆在图书馆领域的重要作用。
1.2 组成及作用
数字图书馆包括能够服务于广域网的网络设备和通信条件, 还有一整套用于信息的管理维护和用户服务的软件系统, 这个软件系统可以划分为5个模块:权限管理模块、获取与创建模块、存储与管理模块、访问与查询模块以及动态发布模块。
数字图书馆是在传统图书馆的基础上发展而来, 既包含了传统图书馆中的功能, 还融合了档案馆、博物馆等中的功能, 可以为公众提供综合信息的访问服务, 在社会文化、电子政务、大众媒介等公众信息传播中广泛应用。
2 数据挖掘在数字图书馆检索技术中的概念
数据挖掘在具体的数字图书馆检索中的概念指的是, 在没有给出明确假设的前提下对图书信息资源进行挖掘, 也可以理解为在大量的图书统计数据中对内在规律和特点进行分析, 这里的挖掘对象可能是不同类型, 不同物理服务器上的数据库。现在市场上已经出现了很多“数据挖掘系统”, 但大多数只能称的上是机器学习系统或是实验系统原型, 因为这些系统更多地是进行数据检索, 并不能真正地处理大量数据, 实现数据挖掘。真正的数据挖掘既涉及多种学科技术的集成, 又包涵数据库技术、统计学、高性能计算、数据可视化、信息检索、模式识别等领域。借助数据挖掘, 数字图书馆用户可以从数据库中及时准确地检索到自己所需的信息资料。所以, 数据挖掘技术处在数据库系统的前沿, 在信息技术领域里拥有非常光明的发展前途。
随着数据库系统在图书馆领域的广泛应用, 系统中的数据, 特别是全球存储的数据快速增长。然而, 调查结果显示如此海量的数据无法都被有效利用。如果能在数据海洋中抽取出有效的信息, 将会大大提高信息的利用率, 创造更大的实用价值, 而这恰恰是产生数据挖掘技术的原因。
总而言之, 数据挖掘就是从大量的、模糊的、不全面的、随机的数据中提取出隐含在其中的、潜在的、有用的信息资源, 把数据应用从一般的简单查询提升到挖掘数据知识的高度, 提高信息的利用率。
3 数据挖掘在数字图书馆检索技术中的方式和技术
3.1 数据挖掘的主要实现方式
数字图书馆检索技术中的数据挖掘的主要实现方式可以简单地分为两种, 即直接数据挖掘和间接数据挖掘。直接数据挖掘是在可用的数据资源的基础上创建一个模型, 根据此模型对剩余的数据和数据库中表的属性进行描述。间接数据挖掘是利用所有的变量建立某种关系, 而不再是选出具体的变量对其建立模型描述。
3.2 数据挖掘的常用技术
目前, 数字图书馆检索技术中的数据挖掘的常用技术可以分为以下几类。
3.2.1 传统统计分析
传统统计分析技术使用了很多分析方法, 如相关分析、回归分析等, 大多数情况下, 这种技术是由系统对数字图书馆用户提出的假设进行验证。
3.2.2 传统主观导向系统
传统主观导向系统技术要有经验模型, 在专业领域中的应用较为广泛。它主要是运用从简单的走向分析到以高等数理知识为基础的分析方法。
3.2.3 决策树
决策树相对来说是一种简单的表示方法, 这种技术的思路在于根据分类规则将事例层层归类成不同的类别。由于其分类规则易于理解, 在数字图书方面较能被用户所接受。
3.2.4 神经元网络技术
神经元网络技术作为计算机领域中的重要方法之一, 已经在各个工业部门广泛应用。它是模拟人的脑神经学习的技术, 在数字图书馆领域, 利用这种技术可以有效解决从模糊数据导出概念和确定走向中出现的复杂问题。
3.2.5 基于事例的推理方法
基于事例的推理方法关键在于系统会根据当前的情形, 从已有的相似事例中筛选出一个最佳的解决方案。在数字图书馆中, 这种技术可以用于很多问题的求解, 特别是那些在一般情况下难以处理的疑难问题, 采用此技术往往会得到比较不错的解决效果。
3.2.6 进化式程序设计
进化式程序设计与其他技术的不同之处在于, 系统会针对变量之间的依赖关系自动生成内部程序, 即用编程语言对这些依赖关系的假设进行表示。由于内部程序的生成是进化式的, 故称为进化式程序设计。
3.2.7 非线性回归方法
非线性回归方法需要依靠预定的函数来找出变量之间的依赖关系。作为一种以数学理论为依据的科学方法, 能够提供比较准确的结果, 在数字图书馆领域中还是比较适用的。
4 数据挖掘在数字图书馆检索技术中的方法
数据挖掘主要是利用基于发现的方法, 借助某些算法寻找隐含数据之间的联系。一定程度上, 数据挖掘的算法对于最终所发现的知识在有着很大的影响, 所以, 对算法和应用的研究是当前工作的研究重点。下面对数字图书馆检索技术中常用的几种数据挖掘算法进行描述。
传统统计方法, 主要涉及到的是抽样技术、统计预测方法和多元统计分析。面对大量的数据, 不可能也没有必要对其中的所有数据都进行分析, 所以, 需要利用抽样技术对数据抽样;统计预测方法借助于统计资料, 运用数理统计和经济、环境统计方法预测事情的发展趋势, 常用到的是回归分析方法;采用多元统计分析会进行数值分类分析、典型相关分析、因子分析等。
人工神经元网络, 是数据挖掘中应用最广泛的方法, 它是以自学习数学模型为基础, 通过学习人的神经元功能, 对其模拟, 整理并计算出数据结果。
遗传算法, 借助自然进化论, 模拟生物的进化过程, 得到满足需求的目标空间, 求得最优解。常用于优化神经网络。
数据可视化技术, 解决大量数据导致的数据人员无从下手分析的问题。主要运用像直方图等许多描述统计的方法直观表示数据, 为数据分析人员提供有效及时的帮助。高维数据的表示是其要面对的难题。
关联规则挖掘数据, 首先需要求得大数据项, 然后根据大数据项集来产生数据之间存在关系的规则, 即关联规则。
5 数据挖掘在数字图书馆检索技术中的作用
数字图书馆检索技术中的数据挖掘就是要在海量的数据中发现有用的数据, 找出之间的联系。它是对知识的有效组织, 是数字图书馆有用数据信息产生的过程, 逐步推动着数据库技术向更高级阶段发展。
5.1 影响着图书馆的未来发展方向
数据挖掘在数字图书馆中的作用具体来讲就是分析图书数据信息, 将这些数据进行归类整理, 找出每一类图书的具体特征建立相应模型, 然后再根据建立好的图书模型对其他的数据进行分类。另外, 借助数据挖掘的探测分析功能, 可以挖掘清楚用户需求, 深入了解用户, 而且方便搜索引擎对图书的检索, 为数字图书的经营策划提供了科学依据。
5.2 为数字图书馆的资源建设提供了关键技术
数字挖掘技术在文本型数据挖掘的自动化处理到文本挖掘实现信息自动化处理的过程中发挥了巨大作用。另外, 在元数据的界定和自动抽取、超大规模分布式数据库的快速存取及海量信息的有效存储等方面, 都能借助到数据挖掘技术。
5.3 大力支持了数字图书馆的各项工作
根据不同用户对图书资源的选择, 采用聚类分析和回归分析的方法, 做到对用户特点更加了解。通过分析不同群体的借阅情况, 及时调整政策, 更能提供有针对性的服务;数据挖掘的分类分析技术可以深入了解用户需求, 有利于采购人员制定采购重点, 为图书馆的采购提供支持, 也能保持资金与需求的平衡;借助数据挖掘, 编目工作者可以有效制定馆藏策略, 有针对性地推动图书馆的发展, 帮助建立数据库导航;在用户方面, 通过挖掘图书馆中的读者数据库, 找出隐含在其中的关系, 利于图书馆的定位、重点读者的服务、重点科目的建设等。
数据挖掘有效地解决了数字图书馆在有效信息利用分析方面的问题, 极大地推动了数字图书产业的发展, 在数字图书馆领域拥有非常广大的发展空间。
6 数据挖掘在数字图书馆检索技术领域的应用前景
作为当前国内外图书馆研究的热点, 数字挖掘能够对数字图书馆的检索技术起到优化筛选的作用。数字挖掘在数字图书馆检索技术领域中的应用, 不仅在科学技术领域突飞猛进, 而且还为人类的社会事业做出了突出贡献。
数字化信息载体的大容量小体积特点为图书馆节省出大量空间;计算机技术、网络技术等高新技术在技术层面上为数字图书馆提供支持;数字图书馆独有的线上高速特点和高效的信息检索功能为数字图书馆的资源共享提供可能。而当前, 数据挖掘技术的日益成熟和完善又会成为数字图书馆建设的新的增长点。
数字挖掘的图书研究方向在学术界和实业界受到了越来越多的重视, 它极大保障着领导层的决策和数字图书馆的管理;同时, 大力支持数字图书馆的各项工作, 保证了图书馆信息资源的科学性和合理性, 是外在信息化压力和内部图书馆发展机制的共同需求, 对未来信息科技的发展也有着重要的作用。
虽然数据挖掘在数字图书馆检索领域还处于起步阶段, 有很多问题需要解决, 也有很多未知领域等待探索, 但它在数据的组织分析和信息挖掘方面的能力是令人肯定的。数据挖掘一定会在将来的数字图书馆领域乃至信息社会的发展中发挥出巨大的作用, 我们应当对这门高新技术给予足够重视和推广。
参考文献
[1]王预.基于数字图书馆检索技术的数据挖掘[J].计算机技术与发展, 2006 (11) :172-174, 178.
[2]李春.略谈基于数字图书馆检索技术的数据挖掘[J].中国科技信息, 2007 (17) :108-109, 111.
摘 要:本文论述了基于内容的多媒体信息检索在数字图书馆中的应用,指出了存在的问题及其发展趋势,以使数字图书馆中的多媒体信息得以有效管理与充分开发利用。
中图分类号:G252文献标识码:A 文章编号:1003-1588(2009)05-0079-04
The application of content-based multimedia information retrieval in digital libraries
CHEN Li-jun
(The Library of Xuchang University ,Henan Xuchang 461000,China)
Abstract: The paper elaborates the application of content-based multimedia information retrieval in digital libraries,and pionts put the existing problems and development trend,so as to effectivly manage and make full development and ues of the multimedia information of the digital libraries.
Key words:content;multimedia;information retrive; digital library;application
1 引言
数字图书馆中不仅有大量的文本型文献信息,还包括大量的图形、图像、声音、动画、视频等数字化多媒体信息。由于图像、音频、视频等具有丰富的信息内涵,传统的基于外部特征和文本描述的信息检索方法已经无法充分揭示和表达这些多媒体信息的实质内容和语义关系,进而影响到对这部分多媒体信息的有效管理。此外,网络技术的发展进步给传统的基于文本的信息检索方式带来了挑战。当今数字图书馆拥有遍布全球的、不同语言和文化背景的用户,传统的基于文本的信息检索方式不能实现对数字图书馆中不同格式和内容的信息的有效检索和充分利用,进而影响到数字图书馆使用价值的有效发挥。因此,数字图书馆中的信息检索技术已经由单纯的基于文本的检索方式向基于内容的检索方式发展。
2 基于内容的信息检索简述
基于内容的信息检索(Content Based Retrieval)简称CBR,是一种新型的检索方式,它融合了知识系统、认识科学、用户模型、图像处理、模式识别、数据库管理系统以及信息检索等领域的知识和先进技术,其基本思想是以信息和信息对象的内容语义、特征及上下文联系为依据进行检索。CBR的信息类型有:文本、视频,包括静止的图像(形)和动态的视频;音频,包括语音、音乐,其他各种声音等。与传统的信息检索相比,CBR的特点有:对信息进行深层次的分析、挖掘;是一种相似性匹配;检索方式直观形象;是一种交互式检索;数据库的结构复杂、容量大。
3 基于内容的信息检索在数字图书馆中的应用
3.1 基于内容的图像信息检索在数字图书馆中的应用
基于内容的图像信息检索是指通过分析图像的内容,取其颜色、形状、纹理等可视特征,建立特征索引,存储于特征库中;在检索时,用户只需把自己对图像的模糊印象描述出来,就可以通过多次的近似匹配,在大容量图像库中查询到所需图像。
在过去几年里,人们已经提出了许多不同的基于内容的图像信息检索系统,其中最有名的是IBM开发的基于内容的图像信息检索系统QBIC,该系统允许用户通过颜色、草图、纹理、形状等特征和示例方式从图像和视频数据库中检索图像信息。它自从1995年投入使用以来,已经有许多数字图书馆和数字物品收藏机构使用该系统。最近,俄罗斯冬宫博物馆采用该系统提供基于网络的数字图像信息检索,用户可以通过从调色板中选择颜色或在画布上绘制草图的方式检索图片信息;此外,用户还可以提交具有相似视觉特征的所有图片信息的检索请求来优化检索结果。美国的国家科学基金会国际数字图书馆项目(www.memorynet.org)也采用了基于内容的信息检索技术。该项目的信息检索系统由几个图像数据库组成,包含了传统的基于文本的搜索引擎和一个由宾西法尼亚州立大学的Wang et al.开发的名叫SIMPLIcity的基于内容的图像信息检索系统。该系统能够将每幅图片分割成小的区域,从中提取颜色、位置、纹理和形状等特征,然后将这些小的区域分成一些语义大类(如纹理的/非纹理的和图形/照片)。计算要检索的目标图像和数据库中图像的相似度时,这些所有的特征被考虑和整合,最佳的匹配结果便被检索出来。用户还可以从该数据库系统的主页中选择浏览任意一组图像,并通过点击每幅图像下的“相似”按钮浏览与已选择包含相似特征的一组图像;可以通过向搜索引擎提供反馈信息,在无需知道图像的名称或者描述信息的情况下检索到所需图像。基于内容的图像信息检索技术在数字图书馆中的相似应用还有加州大学伯克利分校数字图书馆、弗吉尼亚理工大学的人类学数字图书馆和National STEM数字图书馆等。
自动语义识别和标引是基于内容的图像信息检索领域一个新的研究方向。在理想状态下,自动语义识别和标引能够发现一幅图像中包含的语义特征并给它分配一组元数据,因此允许用户通过文本的方式检索图像信息。然而,如何从图像的物理特征中自动提取语义特征,是个难题,需要人机交互、机器学习、神经网络等方面的知识。此外,计算机处理器和人脑之间的语义差距是开发一个性能良好的自动语义识别和标引系统的主要障碍。Wang的ALIPR项目(http://alipr.com)是此领域的一项研究成果。通过网络界面,用户可通过几种不同的方式检索图像信息;可进行基于文本的检索和向系统提供反馈信息检索类似图像;也可上传一幅图像,系统通过对该图像进行语义分析,自动产生一系列的标引或标签,然后在数据库中检索与所上传图像具有相似视觉特征的图像。在自动标引过程中,如果用户感觉系统自动给出的标签不太合适,也可为该图像输入其他合适的标签来描述该图像。
基于内容的图像信息检索技术未来的发展趋势是图像检索人机结合;高层语义与低层视觉特征建立某种联系,需要一些学习机制,如神经网络、遗传算法及聚类算法等;面向web,图像数据需要成熟的搜索引擎;高维数据的索引;图像内容的主观感知;图像特征映射与图像基寻找;交叉领域和多媒体的融合等。
3.2 基于内容的音频信息检索在数字图书馆中的应用
基于内容的音频信息检索指通过音频特征分析,对不同音频数据赋予不同的语义,使具有相同语义的音频在听觉上保持相似,通过检索语义来达到音频检索的效果。音频检索首先是建立音频和特征数据库,对音频数据进行特征提取,将相同类型的音频数据装入数据库的原始音频库部分,把特征装入特征库部分,然后进行音频分割、识别和音频检索。相应地,基于内容的音频检索技术就包括音频信号特征提取、音频分割和识别、音频检索等。
国外研究机构对音频检索进行了多方面的研究,例如:GuohuiLi等提出了使用小波方法进行音频检索的研究;IBM Almaden研究中心的MalcolmSlaney提出了音频例子和语句可互相转换的MPESAR系统;ChengYang、GeorgeTzanetakis等用不同的算法实现了具有音乐检索功能的系统;EloiBatlle等提出了基于HMM的音频检索系统;JohnH.L.Hansen提出了用于NGSW快速检索算法等。
国内早期在音频检索方面的研究并不多,最早的研究成果是一套基于内容的音频信息检索与分类系统ARS。但近几年来发展迅速,例如:台湾清华大学开发的基于语音识别的语音检索系统Sovide;上海交通大学开发的基于内容的音乐检索系统;中科院开发的“嵌入式语音识别系统”;罗骏等人提出的基于拼音图的语音关键词检索系统。国家863智能计算机专家组为语音识别技术研究专门立项,在一定程度上推动了语音方面的研究。近年来,我国语音识别技术的研究水平已经基本上与国外同步,由此也推动了音频检索研究的迅速发展。
基于内容的音频信息检索技术面临的挑战主要集中在:直接压缩域音频检索;基于高层听觉感知模型的音频信息检索;音频类别的确定;基于情感的分类研究等方面。
3.3 基于内容的视频信息检索在数字图书馆中的应用
基于内容的视频信息检索指通过对非结构化的视频数据进行结构化分析和处理,采用视频分割技术,将连续的视频流划分为具有特定语义的视频片段—镜头,作为检索的基本单元,在此基础上进行代表帧的提取和动态特征的提取,形成描述镜头的特征索引;依据镜头组织和特征索引,采用视频聚类等方法研究镜头之间的关系,把内容相近的镜头组合起来,逐步缩小检索范围,直至查询到所需的视频数据,按照用户要求返回给用户。因此,其处理技术包括视频结构的分析、视频数据的自动索引和视频聚类。
哥伦比亚大学的Chang et al.于1997年开发的VideQ系统(www.ctr.columbia.edu/VideoQ)是最早的基于内容的视频信息检索系统之一。该系统是全自动的面向对象基于内容的视频信息检索系统,它扩充了传统的基于关键字或主题导航的检索方法,允许用户使用视觉特征和时空关系来检索视频。其最突出的特点是可根据用户对物体的特征、运动以及物体中相互关系的描述来查找相关镜头。该系统有以下几个特征:集成文本和视觉搜索方法,自动地对视频对象进行分割和追踪,提供包括颜色、纹理、形状和运动在内的丰富视觉特征库,通过因特网交互查询和浏览。目前VideQ视频库有超过3000段视频,每段都被压缩成三层结构保存。
美国NSF、ARPA和NASA资助的数字图书馆项目的主要研究目标是搜集、存储和组织数字信息的新技术,通过网络实现信息的搜集、检索和处理。例如,其参加单位之一卡内基—梅隆大学所承担的Information Digital Video Library项目(www.informedia.cs.cmu.edu),允许用户访问、挖掘、检索海量的数字视频库,在其系统中集成语言、图像和自然语言理解技术。该项目在视频处理方面做了大量的研究,包括:视频分段、视频文字识别、语音分析与识别、人脸检测、视频摘要等。此外,该项目还建立了包含约2000个小时的CNN新闻的视频数据库,它的语义信息提取引擎可以对视频流中的文字、语音、人物、台标等进行分析、识别、推理和综合,并生成基于内容的索引,从而允许用户对新闻片段进行基于内容的检索。目前该项目已经进入第二阶段。美国堪萨斯大学建立的数字视频图书馆系统DVLS,是以存储、索引及检索视频信息为目标的。该系统通过因特网及国家信息基础设施实现了视频共享技术,并已经建立了一个原型系统VISION,以及一个视频数据库。该视频数据库中包含了1000多小时的由多个广播通信公司提供的视频信息。此外,还有芬兰TAMPERE技术大学的MUVIS(http://muvis.cs.tut.fi/index.html)。
视频数据处理是实现基于内容的视频信息检索的一项关键技术,它直接影响到视频特征匹配和检索的精度,其研究还处于起步阶段,各种理论与相关技术都不尽完善,需要继续做大量的研究探讨。镜头边界检测是基于内容的视频处理必不可少的第一步,能够准确地检测出镜头边界,直接关系到以后的处理,并且镜头边界检测所用到的颜色、纹理和运动特征都可用于镜头的索引,所以有必要对此进行重点研究;视频数据的特点在于其时变性和动态性,因而如何更好地描述摄像头的各种运动和对象的运动也是一个研究重点;此外,视频的数据量很大,寻找快速算法也是基于内容检索的视频处理必须研究的一个问题。
3.4 基于内容的混合多媒体和新媒体信息检索在数字图书馆中的应用
中国科学院计算机研究所和国家图书馆已经成功地研制了基于特征的多媒体信息检索系统MIRS。此系统是基于Internet的多媒体信息检索系统,可以实现对图像、视频、声音的基于内容的检索和对文本的全文检索。此外,IBM的CueVideo系统由视频检索和浏览系统、多媒体信息自动索引系统组成,其目标是解决大规模视频数据库的生成、索引和使用等具有挑战性的问题。CueVideo主要解决两个瓶颈问题:为海量视频数据库建立索引的代价很大;用户难以做到方便检索和浏览视频的内容。为了快速实现全自动的索引和建立超级链接,它组合了视频和音频分析、语音识别、文本信息检索和人工智能等技术。CueVideo搜索与浏览系统由一个脱机视频索引模块和一个基于客户服务器模式的在线搜索与浏览引擎组成。全自动的脱机视频搜索过程包括音频分割、语音识别、建立音频索引、视频分割(通过镜头边缘检测)、视频摘要和建立基于图像内容的视频索引。在线的视频服务器由一个跨媒体的搜索引擎进人索引数据库来匹配检索,响应用户的查询要求。同时把视频和音频信息通过网络交流的形式传送给用户。
随着数字化技术的发展进步,数字图书馆中信息的内容和格式除了文本、图音频和视频外,还涌现出一些重要的人们感兴趣的新媒体,如3-D模型。基于内容的三维模型检索首先从模型数据中自动计算并提取三维模型的特征,如形状、空间关系、材质的颜色及纹理等,建立三维模型的多维信息索引,然后在多维特征空间中计算待查询模型与目标模型之间的相似程度,实现对三维模型数据库的浏览和检索。由于三维模型具有任意角度的坐标方向和任意大小的坐标单元,内容信息和数据量远比二维图像矩阵丰富。因此,其识别和检索也比二维图像检索更加复杂,并且三维表面之间可能具有任意的拓扑关系,许多对二维图像媒体有效的方法,如傅立叶变换等,并不能直接扩展应用于三维表面模型。所以,基于内容的3-D模型检索是一个更具挑战性的研究课题。
在基于内容的三维模型检索领域,目前已经实现并发布了一些进行理论和算法研究的原型系统以及架构于Web平台上的搜索引擎等。其中,加拿大国家研究院(National Research Council) 的Paquet等人开发的三维模型检索系统Nefertiti是第一个通用的三维模型检索系统,所提取的特征主要包括形状和颜色两种。目前,比较典型的通用三维模型检索系统和搜索引擎主要有:美国普林斯顿大学形状检索与分析(ShapeRet rieval and Analysis Group)实验室开发的三维模型搜索引擎(http:// shape.cs.princeton. edu/ search.html);美国卡耐基·梅隆大学AMP (AdvancedMultimedia Processing) 实验室开发的三维模型检索系统(http://amp.ece.cmu.edu/projects/3D model Retrieval);德国莱比锡大学CGIP(Computer Graphics and Image Processin) 实验室的Saupe和Vranic等人开发的基于VRML模型库的在线三维模型检索系统CCCC (Content-based Classification of 3D-models by Capturing spatial Characteristics)(http://merkur01. inf. uni2konstanz.de/CCCC);IBM日本东京研究院的“三维Web 环境”研究项目中的三维几何形状检索和分析系统(http://www.t rl.ibm.com/project s/3dweb/SimSearch-e.htm);德国波恩大学Klein和Novotni 等人开发的数字图书馆系统RODA(http://www.lems.brown.edu/vision/esearchAreas/3DRecog/ overview.Html)等等。
尽管基于内容的三维模型检索在理论方法和实现技术上都取得了一定的研究成果,但是,由于三维模型所包含信息的复杂性以及人类主观感知的不确定性,还有许多问题有待更深入的研究:具有不同数据表示方式和文件格式的三维模型统一检索问题;不需要进行模型坐标标准化的三维形状特征提取问题;三维模型的局部形状特征提取问题;三维模型的非形状特征表示方法;三维场景检索问题;结合用户兴趣度模型的个性化检索机制以及用户相关反馈机制等。
4 结论
基于内容的信息检索技术是传统的基于文本的信息检索技术的重要补充,基于内容的信息检索系统能够从语义上理解数字图书馆中的信息,并为用户提供更多的符合自己需求的信息。目前大多数研究都涉及到对多媒体信息内容低层物理特征的的理解、提取与检索,然而,随着信息检索可视化和人工智能等相关学科的发展进步,更多的研究将针对高层特征的提取和检索。此外,数字图书馆中多媒体信息类型的多样化给基于内容的信息检索带来了许多新的挑战,例如,3-D模型已经成为许多数字图书馆中的重要组成部分,需要提出针对这些模型的新检索方法。并且,在Web2.0时代,如Flicker的图片检索、Youtube和Google的视频检索等正在改变着人们的日常生活,基于内容的多媒体信息检索将给用户带来更多的好处。既然基于内容的多媒体信息检索的本质是为用户提供更好的检索帮助,那么,关注用户的真正需求和怎样让用户更好地使用这些新的检索工具将变得十分重要,并应该融入未来的基于内容的信息检索研究项目中。
参考文献:
[1] LI GH,KHOKHARAA.Content-based indexing and retrieval of audio data using wavelets[C]. PPICME,2000,(2).
[2] SLANEYM.Mixtures of probability experts for audio retrieval and indexing[C]. PPICME.2002,(1).
[3] YANGC.Efficient acoustic index for music retrieval with various degrees of similarity[C] .PP Proceedings of theTenth ACM international Conference on Multimedia,2002.
[4] TZANETAKISG,COOKP.Music analysis and retrieval systems for audio signals[J].Journal of the American Society for Information Science and Technology,2004,(12).
[5] BATLLEE,MASIPJ,GUAUSE.Amadeus:ascalable HMM-based audio informatio nretrieval system[C].PP Firs International Symposium on Control,Communications and Signal Processing,2004.
[6] HANSENJHL,HUANGRQ,ZHOUBW,etal.
Speech Find:advances in spoken document retrieval for a national gallery of the spoken word[J].IEEE Transaction on Speech and Audio Processing,2005, (5).
[7] 李国辉.基于内容的多媒体数据查询和检索[J].小型微型计算机系统,1998,(4).
[8] 罗骏,欧智坚.一种高效的语音关键词检索系统[J].通信学报,2006,(2).
各位读者:
欢迎使用图书馆各类数字资源,在使用过程中请尊重并维护原作者和出版者的知识产权利益,遵守版权法的规定,严禁恶意下载数据或将数据用于任何商业或其他营利性用途。
请认真阅读以下注意事项,有任何疑问或者建议,请前往8楼数字资源检索室。联系电话:88305485
感谢你们的合作与支持!数字资源使用指南
图书馆主页:http://172.16.41.14
﹡﹡﹡﹡2013年3月
数字资源检索室制作﹡﹡﹡﹡
【数字资源检索室简介】
本检索室承担全院的数字资源建设与宣传、文献检索课教学及培训讲座等工作,为读者的数字资源检索提供咨询和指导服务。
目 录
一.如何使用图书馆数字资源?„„„„„„„„„„„„ 第2 页
二、图书馆网站功能介绍(不断更新)„„„„„„„„„„.第2 页 三.检索步骤及参考„„„„„„„„„„„„„„„„„ 第2 页 四.如何选择所需数字资源?„„„„„„„„„„„„„ 第3 页
五.检索过程中可能遇到的问题 „„„„„„„„„„„ 第4 页 六.什么是文献传递服务?„„„„„„„„„„„„„„ 第4 页
﹡﹡﹡﹡﹡
一、如何使用图书馆数字资源?﹡﹡﹡﹡﹡﹡﹡﹡
2、馆内指南 本馆概况l开放时间l本馆布局l读者须知l常见问题l联系方式l 答:在校园网范围内(不含教工、学生寝室)可免费使用图书馆各类数字资源。
步骤一:使用有线、无线网络访问图书馆主页
1.有线网络
读者可在我馆二楼电子阅览室和八楼数字资源检索室使用检索机,或者自带电脑在八楼南北室使用网线连接;教师可在办公室或资料室访问。2.无线网络
读者可自带电脑在我馆的六、七、八楼使用无线网络(只限访问内网)访问。【无线网络连接方法】在无线网络列表查找任意一个用户名(7lou a1、7lou a2或7lou a4),连接成功后,在网页地址栏输入图书馆网址http://172.16.41.14。win7系统连接时会跳出提示框(如图),点击第三行字“在不设置网络的情况下连接到网络”即可。
步骤二:登录图书馆主页
答:1.在浏览器地址栏输入http://172.16.41.14登录图书馆主页。
2.从学院主页进入图书馆网站。
步骤三:选择并使用所需图书馆资源
﹡﹡﹡﹡﹡
二、图书馆网站各版块功能介绍(不断更新)﹡﹡﹡﹡﹡
1、电子资源 馆藏查询l中文数据库l外文数据库l电子图书l学习题库l工具下载
中国图书馆分类法
3、读者园地
新书通报l借阅排行榜l读者荐购l新生专栏l毕业生专栏l l读书日l
读者留言
4、馆内服务 文献检索教学l图书馆讲座l定题服务l文献传递服务l特色导读
5、咨询通道 QQ在线l图书馆微博l电话咨询服务
﹡﹡﹡﹡﹡三.检索步骤及参考﹡﹡﹡﹡﹡
步骤一:分析课题或论文题目,选择合适的检索词
【注】在检索过程中请尽量使用准确的检索词,不要输入一个句子,题目中的“分析”、“研究”、“应用”等词一般不作为检索词;
步骤二:选择合适的数据库(详见图书馆各数据库介绍)步骤三:查找文献线索
【注】如果对检索结果不满意,可以不断对检索项和检索词进行调整;
步骤四:下载原始文献
数据库的原始文献需要阅读器才能阅读全文(不能使用word打开),常用阅读器有CAJ和Adobe Reader,读者需自行下载。
【例】论文题目: “《百家讲坛》与《世纪大讲堂》比较研究 ”
步骤一:分析论文题目,选择合适的检索词
【小知识】逻辑算符:或(+)、与(*)、非(-)
1、初次检索,将论文的中心词定为:百家讲坛和世纪大讲堂,使用“并且”的关系将两组检索词“百家讲坛*世纪大讲堂”和“百家讲坛*世纪大讲堂*比较”到数据库检索,看是否有学者对这两个概念做过比较;
2、通过检索,我们了解到已经有部分学者对百家讲坛与世纪大讲堂在某些方面做过研究,接下来我们对这两个概念分开检索:百家讲坛+世纪大讲堂,看看分别作了哪些研究值得借鉴;
3、提供更多的同义词:讲坛文化、学术型电视节目,电视讲坛节目等同义词。步骤二:选择中国知网、万方、维普三个中文数据库,多库检索扩大查全率; 步骤三:查找文献线索,按照步骤一的选词策略不断调整; 步骤四:选择CAJ格式下载文献并查看。
检索注意事项
1、输入检索词,可是查询不到内容?
查询文献需要掌握一定的技巧。请先确认你是否选择了正确的数据库,该数据库收录的学科范围,再注意 “检索项”“检索词”的选择。
每个数据库都提供给读者检索项的选择(见上),包括:主题、题名(篇名)、关键词、全文、作者等,即你输入的检索词要求出现在文献的题名、全文题目里。
查全率由高至低的排序为:全文、主题、篇名、关键词,读者可根据具体情况选择;除此之外,如果您的论文选题较新颖,也有可能查找不到相关文献。
﹡﹡﹡﹡﹡
四、如何选择所需数字资源?﹡﹡﹡﹡﹡
检索论文资料—— 常用中文、外文数据库、试用数据库 阅读 —— 电子图书 考级、考证 —— 网络学习的平台 下载光盘 —— 随书光盘下载系统
(一)检索论文资料——常用中文、外文数据库、试用数据库(不断更新)
一般检索中文文献资源使用中国知网、万方、维普这三个数据库,可以满足读者检索中文文献的要求,还可以选择使用专业类的期刊库,如经济类、工程类等等,获取和了解更加专业的学科背景知识。1)【综合类】中国知网CNKI
资源:中国期刊全文数据库、中国博硕士学位论文全文数据库、中国重要报纸全文数据库和中国重要会议文论全文数据库等。
检索服务:文献、数字搜索、翻译助手、图形搜索、学术资源、学术统计分析;每个数据库都提供初级检索、高级检索和专业检索三种检索功能。2)【综合类】万方数据知识服务平台
资源:
特色之处:类型丰富,尤以理工类文献为特色;还可提供很多实用生活方面的信息,如院校信息、医药信息、交 通旅游信息、商品和通讯信息等,可适合不同层次读者的需求。
3)【综合类】维普中文科技期刊数据库
维普中文科技期刊数据库包含了1989年至今文献,主要以期刊文献为主。4)【综合类】江西高校数字图书馆
检索平台以超星学术搜索为依托,把江西省各高校图书馆的数字资源整合在一起,资源共享。将检索结果与馆藏各种资源库对接,读者检索任何一个知识点,都可以直获取图书馆内与其相关的纸质图书、电子图书全文等。不需要再对各种资源逐一登录检索查找,避免了反复收集和查找的困扰。特色之处:即时的参考咨询服务——以260万种中文图书的海量资源为基础,通过文献传递,直接将相关学术资料发送到读者邮箱,使读者零距离获取珍稀学术资源。5)【综合类】 Socolar平台(收录OA期刊)
6)【综合类】 ISI Web of Knowledge信息检索平台(SCI、ISTP、CCR/IC)7)【综合类】 Springer数据库 8)【综合类】 Elsevier数据库
9)【学位论文】ProQuest博硕士论文全文数据库 10)【工程类.文摘】 Ei Compendex工程索引 11)【物理类】 Scitation检索平台(AIP/APS)
12)【电气/电子工程】IEEE/IEE Electronic Library 13)【化学类.文摘】 Chemical Abstracts(CA)
其他数据库请参考图书馆链接。二)阅读——电子图书(不断更新)
1)九羽数字图书馆
2)超星数字图书馆 在线阅读图书近130万册,需使用超星阅读器。
三)考级、考证——网络学习的平台(不断更新)
1)银符考试模拟题库
四)下载光盘——随书光盘下载系统(不断更新)
一楼或者三楼借阅的图书附带光盘,可使用该系统下载所需资源。若在系统未找到所需资源,请带好证件及50元/张押金到一楼咨询处借出光盘下载。
﹡﹡﹡﹡﹡ 五. 检索过程中可能遇到的问题﹡﹡﹡﹡﹡、1.图书馆数据库需要密码吗?
答:只要读者在校园网范围内登陆图书馆主页试用数据库,无需输入读者证号和密码(查询借阅情况除外)。若不小心跳出默认页面(如中国知网),只需点击“IP登录”,或者在相应的数据库跳转页面上手动输入说明的用户名和密码即可。
2.为什么在下载文章的过程中速度比较慢?
答:可能有两种情况:(1)数据库处于更新状态;(2)数据库限制用户数量,若多人同时使用数据库下载文章,速度较慢。如果出现以上情况,请各位师生耐心等待,或另择时间段。
3.为何在中国知网有些选择的文章显示“未购买该数据库”?
答:图书馆没有购买该库的使用版权,可以试着在其他的数据库进行检索。
4.拷回去的文章为什么不能直接用word阅读?不能存为word格式吗?
答:数据库中收藏的文章都是把各类期刊扫描成电子版的上传到各数据库,多为PDF格式,或者CAJ等其他格式。同学们在自己电脑上阅读的时候需要下载阅读器才能看文章。常用阅读器有Adobe Reader、CAJ等阅读器。
5. 为什么一些试用数据库有些版块不能用?
答:我馆有部分数据库为试用数据库,尚未购买。图书馆会根据读者使用情况和需求量考虑是否购买。如果读者觉得该试用数据库实用且方便,可以与我们联系,到时将
酌情考虑购买。外文文献怎么找,为什么外文文献很少?
答:外文文献请到外文数据库查找,但必须在检索项输入外文的检索词!与中文文献相比,数据库里的外文文献资源相对较少,再加上读者外语水平的限制,检索起来较困难。读者可先在图书馆链接的数据库里检索,检索不到内容的,我们建议读者采取文献传递的方式(个人付费)获取全文,详情请参照下部分内容。
﹡﹡﹡﹡﹡六.什么是文献传递服务?﹡﹡﹡﹡﹡
CALIS、CASHL文献传递服务是我院图书馆为了帮助师生更方便快捷获取中、外文原文文献,分别与南昌大学图书馆以及CASHL服务中心签订的服务项目。凡是我院师生需要的原文文献,并不能在我院图书馆及本部图书馆的馆藏数据库中找到资源的,可通过自费方式获取。付费标准请参考附表,传递的文献类型主要包括期刊论文、会议录文献以及图书部分章节等,通过e-mail传递文献。如需了解具体详情,请关注图书馆网站相关版块或前往数字资源检索室咨询。
服务对象
校内读者——拥有本馆有效证件的校内教职员工及在校学生。服务满足条件
1、读者在我馆所有数据库中没有查找到所需文献的;
2、读者通过CALIS、CASHL这两个平台查找到所需文献。
服务内容
CALIS和CASHL文献传递服务方式和步骤各有不同,请参照图书馆网站具体版块。
咨询电话 : 88305485
版权声明 读者在使用图书馆提供的文献时,必须遵循中华人民共和国有关的版权
一、为什么选择“综合数字校园”的研究与建设
(一)契合市教委以课题形式带动数据应用研究的思路
2008年9月,全市正式实行电子化的学籍管理工作。这意味着原有纸介质的管理方式和管理思路正逐渐被系统、规范、便捷的数字化管理代替。
前期以市教委统一带动推进工作的发展模式,造就了传统到数字化的迅速转型。但是自上而下的推进形式存在不利的因素,其中最主要的就是难以充分发挥学校自主性。学校是最直接的教育环境,学校的需求是最具有实际意义的。市教委鼓励各区县申请加入“北京市电子化学籍管理推广与应用”课题中,通过科研的形式探究如何充分利用数据资源开展应用。
(二)数字化校园趋势
数字化的发展已成为社会发展的强大动力,越来越深刻地影响我们的工作与生活。从教育信息化建设的角度来看,数字化学校是其发展的高级阶段,可以理解为成功的标志。从学校发展角度来看,数字化学校应该是信息技术环境与校园人文环境实现有机融合的阶段,是信息技术应用在学校各方面实现全面渗透的标志。数字化管理是“数字化校园”的重要组成部分,其本质就是将现代教育管理思想、管理方法充分加以数字化,从而全面提高教育管理的效益和效率,有力地推动学校教育现代化、信息化。
(三)解决现有建设困境
很多学校都具备了实现数字化校园的基础条件。可是多数学校采取观望态度,其主要原因是因为数字化校园是一个系统工程,学校需要技术专业力量的辅助。当前,学校借助外力的过程往往是使用公司现成的解决方案。这种做法的最大问题是公司提供的方案与教育实际、育人模式有很大的出入,而且限制了学校个性化发展的空间。区县看到了这样的现状,希望通过课题这种研究形式引领学校突破困境。
二、研究内容和研究价值
(一)研究内容
1.探寻一种新的工作模式,有效调控学校和公司之间的关系,强化学校作为需求提出者的核心地位,发挥公司作为技术力量的辅助作用。
2.拟定切合教育实际、健全、可行的数字化校园建设方案。
3.设计一个解决方案突破各系统间数据交换的瓶颈问题。学校建设更关注可见的应用,然而当前数字化建设的瓶颈是“难以实现各教育软件间数据的交换和使用”。所以我们在课题研究中更关注难点问题。
(二)研究价值
1.建设思路的创新
本课题将探索一种更加切合于学校实际的数字化校园建设模式。将原有的“公司提出解决方案,学校参照建设”的被动模式转变成一种主动模式,这种主动模式是:区县通过调研、培训、校际间的互促互动等各种形式,促动学校提出适合于学校新型育人模式的综合数字校园的设计蓝图;技术团队依据蓝图定制建设规划,并由相关专家对建设规划进行论证和指导,保证建设规划不偏离学校的需求;最后将制定好的规划提交给合作公司,实现需求产品化。
2.数据交互的创新
现行的数据交换模式采用人工导入导出或是底层数据库取数据,前者工作量大全部依赖人工操作,后者又受限于应用程序的开发商。为解决这样的现状,我们研究互操作的模式。
互操作的研究的首要意义在于这种交换思路在目前的教育行业软件数据交互过程中是先行一步;另外对今后学校内数据交换具有指导意义。首先,基于《教育管理信息系统数据交换标准》,关于“数据模型”的研究领域还是一个空白,课题研究可以为学校今后的工作提供丰富的基础数据;另一方面,研究代理程序后,我们可以写入数字化校园标准中。今后学校可以要求公司在研发教育行业软件时提供代理程序,完成数据交换过程。从根本上解决教育管理信息横向交换困难;避免重复建设和人力、资金浪费;同时有效缓解行业垄断的危险。
三、研究思路与进度管理
(一)研究思路概述
1.针对于数字化校园整体建设的研究
三步走的思路:学校设计“蓝图”;技术团队定制“规划”;专家组论证,指导实施。同时信息中心记录过程,总结可推广的方案,根据现实情况定制管理办法。
2.针对于数据互操作的研究
三阶段:①整理校园现行软件的数据规范;②规划学校整体业务的管理体系;③依据《教育管理信息系统数据交换标准》,定义“数据模型”,研究数据互操作过程。
(二)课题校管理
本课题计划4~5所学校参与成为课题校。这4所课题校中1所为“龙头校”,其他为“推动校”。“龙头校”先行研究本课题的核心问题,并提出整体建设方案。“推动校”在此过程中参与整体数字化校园方案研究与制定,并完成本校的规划。“龙头校”关于核心问题和建设过 程的经验总结定期与“推动校”分享交流。
课题校的选择意向:一六
一、师大二附中、西城外国语、西单小学、三里河第三小学
(三)进度管理
课题预计从2009年3月正式启动,2010年5月结束。08年10月至09年1月准备,09年3月开题,09年4月至11月完成课题主体任务,09年12月至5月总结结题。
四、课题支撑
(一)领导重视、机构保障
1.课题组
区教委牵头,组织由中学学籍办公室、小教科、现代教育技术中心参加的区级领导小组负责课题的具体实施,由总课题组、专家组评价。
课题组成员:李燕玲(负责人)、梁波、郭郁葱、方光志、谢晓、毛茂
2.课题校
需要课题校的校级领导高度重视和建立完善的课题校组织机构,并安排人员负责具体实施课题任务。
课题校领导重视是本课题成功的关键和保证。首先,数字化校园的设计体现学校办学思想,且与学校整体规划相一致。领导重视程度直接与数字校园规划深度、应用广泛度相关联。其次,数字化校园的建设是一个系统工程,不是信息技术教师可以独立完成的,而是牵扯到几乎所有校内的业务部门。学校领导把数字化校园的建设作为一项重要工作,亲自挂帅成立校内专项组织机构,组织、协调工作保证定期召开各部门协调会议,及时解决调研和开发中遇到的问题。总而言之,如果没有领导重视,数字化校园建设成功是难以想象的。
(二)经费支撑
课题过程中培训、聘请专家、专家论证等环节涉及费用。课题部分的经费由课题组承担。为了保证课题相关工作的顺利开展,已经通过中学学籍办公室提出课题经费的申请。
数字化校园建设与实施费用由学校承担。
(三)制度保障
为保证课题工作的顺利开展,课题组将按阶段制定相应研究方案、进度计划、管理制度,以及激励机制;与此同时,课题组牵头定期召开阶段工作会议落实课题相关工作。
摘 要:在数字出版环境下,高校图书馆对于文献资源的建设目标不仅是占有文献资源,而是在读者需要的时尽可能快捷把文献资源提供给读者,不再出现以往文献资料的大量库存,而是利用网络平台形成“供应链”。随着社会的不断发展,图书馆的的馆藏规模大小已经不是衡量图书馆价值的唯一标准。对于普通高校图书馆来说,它们面临着资金短缺,出版物量多,购买价位高的矛盾。因此要在有限的资金范围内购买到适合的文献是相当的不容易。这就要求我们要解决好拥有与存取的关系,在建设好基础馆藏的同时,尽可能地开发利用网上免费的文献资源,并积极开展文献传递服务获取馆外资源。
关键词:高校图书馆;数字出版;文献采集;策略研究
图书馆文献资源建设是各大高校讨论的热门话题,文献资源是图书馆的核心。文献资源的建设质量是衡量一个图书馆实力的重要因素。为了让读者的文献信息需求更清晰,文献资源建设的针对性、指向性进一步加强,推动资源建设学科化、专业化,本文从“用户为核心、需求为向导、服务为手段”的资源建设理念出发,研究读者决策采购,推动高校图书馆资源建设的新发展。通过分析数字出版对高校图书馆文献资源采集的影响,提出了调整采集目标、优化馆藏结构、联合采集、突出特色等基于数字出版环境下的文献资源采集措施。
一、数字出版对图书馆文献资源的影响
所谓数字出版就是将图书信息用二进制代码的数字化形式存储在磁盘、光盘等媒介的过程。是依靠图书馆的图书资源,利用数字出版技术进行内容整理与加工,再利用网络发布数字产品的一种传播方法.这是人类文化利用计算机应用技术、网络技术、通讯技术、显示技术、存储技术等高新技术基础上的传承,这种数字出版技术已经超越了传统出版技术,文献资源不再需要实体馆藏,而是利用网络平台馆藏文献资源。让读者可以随时随地的阅览自己需要的内容。数字出版对图书馆文献资源的影响具体表现为:(1)文献资源结构方面,随着网络信息技术的不断更新,印刷型实体收藏已经慢慢退出历史的舞台,数字出版环境下,网络文献资源传播更加快速,文献资源可以以依托网络为载体进行传播,其形式与种类多种多样,人们不需要去图书馆,利用网络就可以找到自己想要的文献资源。文献资源在结构上表现出多元化,图书信息可以压缩、检索、存储及输出,再利用媒介呈现在读者眼前。(2)文献资源获取方面,以往馆藏都是以纸为载体将文化展现给读者,获取资源的范围较小,信息内容单一,而数字出版环境下,馆藏是借助计算机网络平台,利用媒介将图书信息资源虚拟化,不仅降低了管理成本,而且节约了大量的馆藏空间,资源的内容丰富多样,各种信息资源在网上可以直接获取,读者可以轻松地进行信息资源共享和交流,充分满足用户无限量的信息需求。(3)文献资源采集方式方面,文献资源的购买、接受捐赠、交换是传统图书馆获取文献的重要途径,这样采购方法就显得比较盲目。数字出版环境下的图书采购就是有计划有目的的,为用户提供的资源是“虚拟”产品,它极大降低了资源采集的投资风险和库存压力,同时也增加了图书馆资源谁选的难度。(4)文献资源经费配置方面,随着社会经济的发展,高校对图书馆经费的投入也渐渐加大,但是文献的价格也在日益上涨,文献的更新速度比较快,品种复杂,文献的采购受到一定程度了限制,满足不了用户的需求。许多资源信息都可以依靠资源共享和免费网络获取,因此,图书馆就应该选择用户最需要、最具特色的文献来节约开支。
二、数字出版环境下高校图书馆文献资源采集策略
文献资源采集是根据用户的需要来采购文献资源,这就要求图书馆利用各种渠道发掘用户的需求,然后做出资源的采购计划,只有这样,图书馆才能显现出自己的特色,做到资源的合理利用,尽可能的满足用户信息需求。要做到这些,图书馆必须调整采集目标,最大限度的发挥馆藏作用,做到实体馆藏和虚拟馆藏的协调配合。定制文献采集预算和文献采集计划,做到高质量地采集文献资源。更好地为教育教学、科研服务。在数字出版环境下,优化馆藏结构非常重要,不仅可以降低资金的投入,而且可以提高馆藏质量和服务水平,让客户更快速的享有不同信息类型与格式电子信息资源,因此,图书馆要根据馆内的性质、特点、任务及本馆信息资源建设的目标等在馆藏结构上突显特色。建立起适合不同层次需求的文献资源模式。同时图书馆也可以联系其他图书馆进行联合采集,降低采购的重复率,提高文献的采购质量和利用率。以最低的成本来获取最多的资源,各馆之间协调发展,让资源得到最大限度的共享。同时图书馆也可以在某个领域推出自己所具有的特色,尽可能的带动其他领域的发展。图书馆还可以开发新的网络资源,将网络信息网络资源采取有针对性的储存、组织、加工、规范、整理、开发和利用,这不仅是高校图书馆信息资源建设的核心,也是高校图书馆信息资源建设的关键性工作。
高校对数字出版环境下文献资源的采集具有很高的要求,其中包含观念创新、技术创新、制度创新等。通过各种采集手段,极大地丰富图书馆藏,让用户最大限度的获得满足,为此,高校图书馆应加强对图书管理人员的培训,对图书馆工作人员进行继续教育,全面提升图书馆工作人员的素质,造就一批新型图书馆工作人员,这是图书馆文献资源采集取得高质量的可靠保障。
三、结语
在数字出版环境下,读者的需求决定者图书馆的采购方向,图书馆工作人员不仅要全方位解读读者的需求,还要考虑到图书馆的自身经济实力,虽然读者决定采购方向这个模式还不是很健全,但是该模式有助于提高图书馆采购质量,能更好地实现以读者为中心的服务理念,提高资源利用率,为了进一步提高图书馆信息资源的采购质量,图书馆工作人员可以充分调动读者主动参与馆藏建设,与读者团结一致,共同完成好图书馆馆藏建设任务,让读者顺利的达到自己的资源需求。
参考文献:
[1]何坚石.数字出版环境下的信息资源采集研究现状与展望[J].江西图书馆学刊.2010(08).[2]蒋鸿标.网络环境下高校图书馆文献资源建设策略研究[J].现代情报.2011(12).[3]余晓丹,何坚石.数字出版环境下的信息资源采集原则研究[J].河南图书馆学刊.2010(04)
随着互联网技术的不断发展和完善,人们的工作和生活与网络的联系也不断加强。越来越多的资料、数据都以0、1的方式存储于各种不同的数据库或文件中,而这些数据库或文件可能是分散在各个不同的地域,而且拥有各自不同的格式,人们希望通过网络可以方便地访问和使用它们;同时,人们也注意到,对于一些不可再生的资源,如名人手稿、名画等,既需满足人们欣赏的需求,也要对它们进行有效的保护,这就需要将其转化为数字格式进行存储;除了文本数据外,更多的是一些音频、视频等多媒体数据等等。这样就产生了构建数字图书馆的需求。
数字图书馆是一个环境,它将收藏、服务和人融合到一起以支持数据、信息乃至知识的全部流程,包括从创造、传播、使用到保存的全过程。它允许用户通过自己的讳算机透明地访问各种不同系统,不同数据资源,而这些数据可能分布在不同地方,且各自的内部格式大不相同。
要实现这些要求,这就需要一种跨平台、跨数据库、支持分布式访问的技术来实现对数据资源的检索。由IBM公司开发的基于Web的中间件Net.Data[1,2,3],可以允许用户同时使用关系和非关系数据库管理系统(包括DB2、Ibis、Oracle、Sybase)和启用ODBC数据库以及用各种程序设计语言(如Java、JavaScript、Perl、C、C++和REXX)。编写应用程序,检索Digital Library中各种不同类型的数据库和文件资源,很好地满足了上述要求。
2 Net.Data的工作原理
我们首先可以了解一下Net.Data,Web服务器以及支持的数据和程序设计语言之间的关系及其工作原理见图1。
Net.Data是一种宏语言,并带有自己的宏解释器。通过Net.Data宏,可以执行程序设计逻辑、访问和处理变量、调用函数,产生可由Web浏览器显示输出的结果。它组合了HTML的简单性以及Web服务器程序的动态功能,从而使得向静态Web页面添加现场数据变得简单;而现场数据可以从本地数字图书馆服务器或远程数据库以及平面文件抽取,当然也可以由应用程序和系统服务生成。
当Web服务器接收到一个请求Net.Data服务的URL一时,它将Net.Data作为DLL或共享程序库调用,从而将它作为Web服务器应用程序设计接口(API)来调用。这个URL.中含有特定于Net.Data的信息,包括要处理的宏或者要直接调用的SQL语句或程序,SQL语句或程序可以调用IBM Digital Library提供的接口服务(如Java API等),直接连接数字图书馆服务器(如DB2数据库),检索所需数据。当Net.Data完成对请求的处理时,它将把结果的Web页面发送给Web服务器,服务器将它传递给Web客户,在那里它将通过浏览器显示。
3 使用Net.Data进行程序开发的优点
上面讲述了Net.Data、Web服务器以及支持的数据和程序设计语言之间的关系,那么,使用Net.Data这个中间构件来开发,对Digital Library数据资源进行检索的程序到底有什么优点呢?
使用Net.Data宏进行编程比编写自己的Web服务器应用程序简单,同时,Net.Data提供了访问数据和应用程序编程资源的语言环境,允许用户使用多种程序语言,如HTML、SQL、Perl、REXX、C、C++、Java、JavaScript等;访问DB2、Oracle、Sybase、SQL等多种类型的数据库资源;并且宏的更改结果可以立即在浏览器上看到。
1)Net.Data允许Web应用程序中数据生成逻辑和显示逻辑的分离,它对于表示数据的方法,HTML或IavaScript没有任何的限制。这种分离使用户能够使用最新的显示技术来方便地更改数据的显示方法,如Net.Data不仅支持HTMI。显示格式,也提供了对XML显示格式的支持。
2)Net.Data通过提供与c、C++、REXX、Java等语言编写的程序实现接口的能力,允许用户使用现有的先进技术来建立自己的应用。
3)Net.Data支持多个操作系统,如Windows NT、SC0 Unix、HP—UX、SUN、OS390、OS400、OS/2、AIX、Linux、Solaris等,并在各系统之间提供方便的宏移植。
4)Net.Data还提供了各种数据库访问工具,帮助用户方便地从数据库中访问数据,如NetObjects Fusion插件和基于java开发的向导。这些工具在Java环境中和Net.Data Java小应用程序一起使用,使用户可以在操作系统之间移植应用程序。
5)Net.Data还提供了对Web页面的高速缓存,加快了已缓存数据的检索和显示的速度,降低了宏执行的代价。
4 Net.Data提供的开发语言环境
由于Digital Library所包括的数据库类型可能是多种各样的,其数据的内部格式也完全不同,对于这数据通信库资源的存取方式也都不会是一样的,它们的语言环境、编程环境可能也都不同,这就要求对于Digital libray检索需要具有访问多种数据为和语言环境的能力。Net.Data通过初始化文件db2www.ini,已预先建立了多个语言环境,在此文件中,每个语言环境都拥有一个ENVI-RONMENT语句,其中含有该语言环境的专用信息。
以下从数据语言环境和程序设计语言环境两方面介绍Net.Data提供的语言环境。
4.1 数据语言环境
为了访问各种数据库资源,Net.Data提供了各种数据库语言环境,如SQL、Oracle、Sybase、ODBC、DB2、FFI(平面文件接口)、Web注册表等。下面简单介绍三种常用的数据语言环境:
1)SQL语言环境
SQL语言环境提供了对DB2数据库的访问,通过DB2执行SQL语句,SQL语句的结果可以在表格变量中放回。需要在Net.Data的初始化文件db2www.ini文件中包含下列配置:
2)平面文件接口语言环境
如果用户选择平面文件(普通文本文件)作为数据源,则需使用平面文件接口(FFI)及其关联的函数来打开、关闭、读取、写入Web服务器上的文件。文件语言支持根据Web客户的请求,通过浏览器使用FFI函数来读取或写入Web服务器上的文件。FFI将文件看作记录文件,每个记录文件都等价于Net.Data宏表格变量中的一行,而记录中的每个值则等价于Net.Data宏表格变量中的一个字段值。FFI从文件中将记录读至一个Net.Data宏表格的行中,并将行从表格写至记录中。应在Net.Data的初始化文件db2www.ini文件中包含下列配置:
3)Web注册表语言环境
Net.Data Web注册表给与应用程序相关的数据提供了持久性的存储器。Web注册表可用于存储配置信息和其它能够被基于Web的应用程序在运行时动态访问的数据。用户可通过调用Net.Data宏并使用Net.Data和Web注册表支持。
我们知道标准的Web页面开发需直接将URL放在该页面的HTML源代码,这使得更改链接很困难;而使用一个Web注册表来存储与应用程序相关的数据,如URL,可帮助用户创建具有动态设置链的HTML页面。
信息是以表条目的形式存储在Web注册表中,每个条目都由一对字符串组成:一个RegistryVariable字符串和一个相应的RegistryData字符串。Net.Data将变量字符串作为搜索为关键字,在注册表中定位和检索特定的条目。
应在Net.Data的初始化文件db2www.ini文件中包含下列配置:
4.2 程序设计语言环境[5,6]
为了调用外部程序,Net.Data提供了多种语言环境,如Java Applet、Java、Perl、System等。以下着重介绍Java小应用程序语言环境。
Java小应用程序语言环境可以让用户在自己的Net.Data应用程序中方便地为Java小应用程序生成HTML标记,Web浏览器使用这些标记来运行该小应用程序。
首先确定在db2www.ini文件中包含以下配置:
通过语言环境的支持后,用户可以通过数据库连接如Java的JDBC的API来访问Digital Libary服务器(DB2数据库),检索所需数据资源。
5 Net.Data宏的组成结构及示例[3,4]
Net.Data是一个文本文件,它由一系列的宏语言结构组成(图2)。
如图2所示,宏包括两个部分:说明部分和显示部分。
说明部分包含了要在显示部分中使用的定义,本部分有两个主要的可选块:DEFINE块和FUNCTION块。其它的块还包括IF块、INCLUDE块、MESSAGE块等。
显示部分定义了Web页面的布局、引用变量,并使用HTML块作为宏的入口和出口点来调用函数。要注意的是,在调用Net.Data时,需指定一个HTML块名作为处理宏的入口点。
Web服务器通过API或Java Applet来访问宏,同时需要两个参数:要处理的宏的名字和该宏中要显示的HTML块。
下是一个宏文件:
摘要:如何高效地检索与访问现有的各种格式的数据库资源,是Digital Library所必须解决的一个关键性问题。该文介绍了一种由IBM公司开发的基于Web浏览器的中间件Net.Data宏语言的工作原理及其结构,实现了一种高效的跨平台、跨数据库、支持分布式访问技术的Digital Library数据库检索程序。
关键词:数字图书馆,检索,分布式,中间件
参考文献
[1]IBM Net.Data管理与程序设计指南[M/CD].
[2]IBM Net.Data语言环境手册[M/CD].
[3]IBM Digital Library-Guide to Object-Oriented and Internet Application Programming[M/CD].
[4]Net.Data[EB/OL].http://www-01.ibm.com/software/data/net.data/.
[5]Yu P,Lu J G,Lau T C,et al.Migration of legacy web applications to enterprise JavaTM environments net.data to JSPTM transformation[C]//Tong T,Yi B.Proceedings of the 2003 conference of the Centre for Advanced Studies on Collaborative research,2003.
关键词:数据仓库;数据挖掘;数字化校园
中图分类号:TP274文献标识码:A文章编号:1007-9599 (2010) 04-0000-01
Digital Campus Application&Study against Data Warehouse and Data Mining Technology
Wang Yanpin1g,Wang Xiaoting2,Chang Xianfa2
(1.Heyuan Technology College, Heyuan 517000,China;2.Kaifeng University,Kaifeng 475004,China)
Abstract:Combine the data source of the digital campus, give an architecture map of digital campus which is based on data warehouse environment, focus on the digital campus data warehouse logical model design, And the data mining algorithm apply to the digital campus, provide the decision support information for university administrators
Keywords:Data warehouse;Data mining;Digital campus
一、引言
高校数字化校园数据主要存储在关系型数据库中,这些系统中,大量的数据和数据模型,都是反映历届学生的学习成绩和教师的教学任务以及教学计划。随着高校对决策信息需求的日益广泛、复杂和迫切,这些传统的数据库系统存在的问题也越来越明显。本文利用数据仓库和数据挖掘技术在数字化校园中应用进行了研究。
二、数字化校园数据仓库体系结构设计
在对数字化校园各个子系统进行深入调研和需求分析的基础上,针对数据仓库的三个基本功能,提出了一个集中式数据仓库(数字化校园数据仓库)、分布式数据库(各个部门数据库)等适合数字化校园的数据仓库体系结构,如图1所示。
该系统由五个部分组成:
(一)数据源:来源于操作性数据库,其主要是完成日常业务处理,其数据将成为数据仓库的数据源。
(二)多数据源集成:将来自于不同数据源(SQL、Oracle等)的数据通过数据转换服务进行导入。
(三)中心数据仓库:在已有业务系统的基础上,通过数据的抽取、转换、加载,建立数字化校园数据仓库。
(四)OLAP分析服务器:通过建立OLAP分析服务器,从数据仓库中提取数据,完成数据的统计和分析。
(五)决策支持工具:是面向用户的数据需求的前端服务,支持各种OLAP和DM操作。
三、数字化校园数据仓库逻辑模型设计
在学生等级事实维表中存储七个维表,通过这几个维表的主键,将事实表和维表连接在一起,形成星型模式用二维关系表示数据的多维概念建立星型模型后,通过维表的主键,对事实表和每一个维作连接操作,其模型如图2如示。
四、数据挖掘算法在数字化校园中应用分析
针对学生等级多维数据集,把平均成绩、借书次数、平均消费、学生等级、家庭出身既作为输入列又作为可预测列,分析处理后可得到如图3所示学生等级一层决策树模型。
在学生等级表中,所有事例为4925,其中学生等级为C的事例最多,为1726例,可能性为35.04%;学生等级表现为A的有495例,可能性为10.05%;学生等级表现为B的有1478例,可能性为30.01%;学生等级表现为D的有983例,可能性为19.95%;还有学生等级表现为E的极差事例有243例,可能性为4.93%。在这一事例图中,我们可以看到PJCJ是决定XSDJ最重要的因素,在高校教育中,抓学生成绩才是教学的关键所在。
五、结束语
采用DW+DM框架结构的决策支持系统是一种比较理想和完善的架构,该系统功能齐全、性能稳定,能对数据进行快速和准确的分析,从而帮助高校管理者做出更好的决策,提高高校管理效率,对数字化校园的利用具有一定的实用性和参考价值。
参考文献:
[1]Zhao Hui Tang,Jamie Maclennan.数据挖掘原理与应用[M].邝祝芳,焦贤龙,高升.北京:清华大学出版社,2007:25-26
[2]木根.数据仓库技术与实现[M].北京:电子工业出版社,2002
[3]王艳萍,常贤发.基于数据仓库的数字化校园的设计[J].电脑知识与技术,2009,12
[4]薛红,王敏.基于DW+OLAP+DM的超市销售决策支持系统[J].计算机工程,2007,33:14
[5]王成,李民赞.基于数据仓库和数据挖掘技术的温室决策支持系统[J].农业工程学报,2008,11
【基于数据挖掘的数字图书馆检索技术研究论文】推荐阅读:
基于大数据时代下的智慧图书馆服务模式研究12-25
基于数据挖掘的电信行业客户流失管理研究03-26
论创新教育基于PBL的数据库课程教学论文07-02
基于大数据的精准营销10-16
基于MODIS数据的金塔绿洲地表温度反演01-25
基于数据库的地形图符号化12-03
基于数据库的自动测试系统(ATS)软件10-09
基于DSP的 USB 口数据采集分析系统12-29