网络信息检索及其局限性(共7篇)
随着信息技术的飞速发展,信息已成为全社会的重要资源,对信息的占有程度及信息处理水平的先进程度已成为衡量一个国家或地区现代化程度的重要标志,而网络上丰富的信息在更大程度上改变了人们的工作和生活的方式。Internet是当今世界上规模最大、覆盖面最广、信息资源最丰富、发展最为迅速的信息网络,基于Internet的网络信息检索的研究,无论对研究人员还是一般用户来说,都有着很强的现实性和实用性。
1.1 信息检索概念
信息检索是指将信息按一定的方式组织和存储起来,并根据信息用户的信息需求查找所需信息的过程和技术。人们获取信息源的方式主要有:①传统的信息检索方法,通过人工查询在图书馆等提供文献的机构进行文献的查询和获取活动;②联机信息检索相对于前者来说具有实时性、完整性、共享性、广泛性等优点;③网络信息检索是指通过网络信息检索工具检索存在于Internet信息空间中各种类型的网络信息资源。
1.2 网络信息检索的原理
网络信息检索工具是网络信息检索技术的实物体现。目前,常用的网络信息检索模型有布尔逻辑模型、模糊逻辑模型和概率模型等几种方式。
① 布尔逻辑模型 这是一种简单而常用的严格匹配模型。用户可以根据检索项在文档中的布尔逻辑关系提交查询,搜索工具根据事先建立的倒排文档结构确定查询结果。标准的布尔逻辑模型为二元逻辑,所搜索的文档要么与查询相关,要么与查询无关。利用这种模型进行查询,其查询结果一般没有按照内容的相关特性排序。
② 模糊逻辑模型 它在查询结果处理中引进了模糊逻辑比较,并且按照相关的优先次序排列查询结果,这样就可以克服布尔逻辑模型信息查询结果的无序性。
③ 概率模型 它是基于贝叶斯概率原理而提出的,根据词条、文档间的内在联系,利用词条间和词条与文档间的概率相依性来进行信息检索。2 搜索引擎
搜索引擎是目前使用最为频繁的一种网络信息检索工具。与其他工具相比,它的检全率和检准率都比较高,具有很强的使用价值和广泛的应用前景。
2.1 搜索引擎的工作原理
作为一种www站点资源和其它网络资源进行组织和检索的检索工具,搜索引擎的检索机制一般包括数据采集和标引机制、数据组织机制和用户检索机制,基本构成如图1所示。① 数据采集标引机制按照一定规律和方式对网络上www站点进行搜索,并将搜索到的www页面信息存入搜索引擎的临时数据库中。
② 数据组织据组织机制的主要功能是对www页面信息进行整理以形成规范的页面索引,并建立相应的索引数据库。
③ 索引数据库是用户进行检索的基础,它的数据质量直接影响到检索效果,而搜索引擎的数据采集标和标引机制又是决定数据库质量的关键技术。
④ 用户检索机制帮助用户以一定方式检索引擎的索引数据库,以获得符合用户需要的www站点或页面。
2.2 搜索引擎的分类
按照用户查找的途径划分,可将搜索引擎分为如下几种: ① 基于关键词的搜索引擎 主要通过使用自动采集软件来对网络上的数据进行采集标引,建立成索引数据库。它主要采用自动搜索和标引方式来建立和维护其索引数据库,供用户查询使用。
② 基于分类目录的搜索引擎 一般依赖于按照某种分类标准进行人工编排的分类体系。
③ 联合式搜索引擎 是基于关键词的搜索引擎的另外一种表现形式,是后者与基于类目的搜索引擎的一种结合。2.3 搜索引擎的功能
目前Internet上的搜索引擎种类繁多,虽然各种搜索引擎都有自己的不同信息采集标引机制,在其他一些方面各具特色,但其基本功能却是相似的。
① 布尔逻辑检索 这一功能使得用户能使用AND、OR和NOT来进行关键词的搭配检索。
② 模糊检索 在用户进行检索的过程中,系统会对跟用户提供的关键词相似的词语进行检索,并返回包含关键词或是这些相似词的检索结果。
③ 截词检索 这种检索形式利用检索词的某一部分来进行检索。在搜索引擎中,用户提供包含“?”或是“*”通配符的检索项来进行检索。
④ 限定词检索 这种检索加减号检索,它用来规定检索项中必须出现或是必须不出现某些关键词。网络信息检索的局限 用户在查找网络信息资源时,不可避免的用到网络信息检索工具。检索工具的优劣很大程度的影响了用户的检索效率。虽然网络信息检索工具在最近几年有了长足的发展,但是到现在网络信息检索仍然存在着这样或是那样的局限。
3.1 文本信息检索的局限
① 网络信息标引的准确度不够 检索工具对网络信息资源的标引一般都存在着栅引准确度不够的问题,检索工具经常会在返回大量垃圾信息的同时丢失有用信息。当用户要进行特定的文献检索时,有时还会发现现存的检索工具无济于事,检索出来的数据完全被无用信息所覆盖。如想要通过搜索引擎查询清朝雍正年间李卫任浙江巡抚的资料,你只能够查到大量《李卫当官》之类无用信息。
② 搜索引擎的查全率不高 由于互联网上的信息资源以爆炸性的速度不断增长,搜索引擎采集数据的速度远远落后于信息资源的增长速度。单个搜索引擎的数据库所收集的Web页面大大不足,就是所有的搜索引擎所储存的数据也只占全球Web页面的50%强。由于这方面的原因,搜索引擎的检全率会无可避免的被降低。
③ 搜索引擎的查准率不高 一是返回的信息过多,这是现有搜索引擎检索信息的普遍现象;二是返回重复的信息,搜索引擎的检索结果中还经常重复出现同一信息源的不同部分,甚至出现不同信息源的相同内容信息。
④ 查询方式有限 目前大多数搜索引擎的查询方法比较单一,一般只提供分类查询方式和关键词查询方式。这样,一方面检索时不能从文献的多个方面对检索提问进行限制,只能就某一关键词或概念进行笼统的检索;另一方面,由于查询结果完全依赖于用户所给出的关键词,而大多数用户对他们检索的领域或索引数据库的关键词不太了解,因此使最后的查询结果相关性很差,往往是输入一个检索式,得到一大堆网址,但其中大部分是冗余信息。
⑤ 检索对象的数据结构单一 由于现在大多数网站使用的是传统的关系数据库对信息进行组织和存储,因此其使用的搜索引擎也是基于关系数据库的,这种传统的关系数据库非常擅长处理结构化的数据,但其对于非结构化的数据的处理能力则很弱。
⑥ 交互性不够 当前的搜索引擎与用户的交互性不够,与用户间缺乏足够的协作,不了解用户的情况,不记录用户提交的查询任务,不能处理用户的反馈信息,因而不能与用户进行足够好的交互以提高检索效率。3.2 多媒体信息检索的局限
到现在为止,虽然单独针对图像、视频、声音等媒体的检索技术已经出现,但还没有任何搜索引擎能够充分解决多媒体信息的检索,其主要表现在以下几个方面:
① 检索效果不够理想 目前,几乎所有的多媒体搜索引擎在多媒体信息的查准率方面都不能达到令人满意的程度,用户将在返回的几百个甚至上千个图像中筛选需要的那一幅。这是很费时和令人难以忍受的,而且有时你所用的搜索引擎根本检不出你想要的东西。归其原因,一方面是在于查询方式的单一,另一方面在于对图像的标引深度不够,这就要求完善图像检索和索引机制。
② 用户查询接口单一 理想的多媒体检索系统中,人是主动的,用户的查询接口能提供丰富的交互能力,且直观易用,使用户能够在主动交互过程中通过调整检索参数,表达对图像的语义感知,最终获取满意的结果。这就涉及到如何把用户的提问转换为可以执行检索的特征矢量、交互方式的设计,如何获取用户的内容感知等问题。目前的多媒体搜索引擎用户查询接口比较单一,大多只提供描述查询接口,即关键词提问框。
③ 图像特征信息的表示与检索不够完善 基于内容的图像检索,实质上就是进行图像特征相似度的比较,但目前这一技术还存在许多问题。
④ 信息的自动加工与人工标引不够 目前文本搜索引擎在这方面的发展正日趋完善,而多媒体搜索引擎的研究刚刚起步,尤其是图像信息的加工,图像不同于文本,文本自身就能说明要讲的内容,而图像内容却需要加入人的理解和描述,人工干预虽能提高查准率,但一方面能被人工标引的是极其有限的;另一方面由于人工标引劳动强度大而限制了检索的范围,如何对图像信息进行快速标引和准确分类是急待解决的主要问题。
另外,目前基于内容的检索技术多应用于对静态图像的检索,对动态图像的检索还没有多少行之有效的方法。但随着宽带网络的逐步实现,动态多媒体信息在网络中将会越来越多。参考文献】
数字出版是科技期刊出版的趋势,并且出版的方式日趋多样化,如开放存取出版、网络出版、数据库出版、移动出版等。不同的数字出版方式的数据表示方式不同,给内容挖掘、知识发现与关联、跨库检索等带来了极大难度; 另一方面,基于关键词匹配的方法无法解决一词多义,或一义多词的情形,无法精确的检索到结果。在我国,以中国知网、万方数据、维普咨讯、龙源期刊网为代表的期刊数据库,以中国科技论文在线为代表的开放存取期刊,以及一些科技期刊官方网站所形成的互联网出版等,都使用基于关键字的关系数据库服务,其检索功能仅限基本查询,无法从数据库中挖掘和发现更多有意义、相关联的信息; 各种数据库使用的数据库语言、架构原理等也不同,这对跨库检索、异构数据库之间互操作等带来一定的挑战。国外发达国家的科技期刊主要朝集团化发展、集约化经营,虽然在资源聚合方面做得比较好,然而在语义出版方面还没重视研究。在与国际科技期刊相比,我国科技期刊竞争力处于弱势地位,语义出版为我国数字出版转型过程中掌握话语权、提高竞争力提供了契机。
鉴于此,语义Web技术成了研究热点。基于语义Web的网络信息检索有利于科技期刊在内容检索过程中进行深入的知识挖掘,知识关联,创新其服务模式,能提高科技期刊资源整合能力,有利于科技期刊竞争力的提高[1]。语义WEB检索模型在计算机领域早已是成熟的技术,并且在计算机应用领域[2,3,4,5]、图书馆数字化建设[6,7,8]中已经有成熟的应用,但国内外学术出版研究机构及大型出版商在有关语义出版方面的研究和应用较少,仅有一些文献都提出关于某个学科的本体的构建,如CSSCI本体[9]、医学领域本体[10,11]、农学本体[12,13]、地理本体[14]、爆破领域本体[15]、工业自动化仪表领域本体[16]等,本体仅是构建语义Web模型的组成部分之一,并且其本体仅适合特定的领域,没有涉及到科技期刊本体的构建,本文作者曾提出了一个基于Web的科技期刊数字化模型[1],但没有对模型中的本体解析和领域本体领域构建作深入的研究。文献[2] 中提出的基于本体的语义网检索模型的对象是计算机应用领域,其应用原理虽适合科技期刊,但必须对领域本体、元数据、标注等作修改,以便适合科技期刊。本文意对科技期刊的语义Web网络信息检索模型建立作有益的探讨。
2基于语义Web科技期刊网络信息检索模型
基于本体的语义Web科技期刊网络检索系统是一种脱离具体硬件平台的服务模式,能运行于跨平台出版机构,并能使用自然语言检索。这对多种出版方式的资源整合、跨库检索、知识挖掘与关联等提供了可行性。在基于本体的语义Web科技期刊数字出版服务模型中,要解决几个关键的问题: 一是自然检索语言输入能被计算机读懂,查询结果能以人性化的语言返回给读者; 二是不同数据类型的数据源的互操作问题。关键问题的解决,有赖于科技期刊语义Web数字化出版网络信息检索模 型的构建。
2. 1检索模型概念描述
本文提出一个基于本体的语义Web科技期刊网络信息检索模型 ( 图1) 。其中一些重要的概念解释如下:
( 1) 科技期刊网络数据库: 以网络出版数据库形式存在的科技期刊数字出版方式,如中国知网、万方数据、维普资讯以及龙源期刊网等;
( 2) 科技期刊开放存取文档: 以在网站开放电子文档供读者免费下载的数字出版方式,一般是在期刊各自的官方主页上发布,还有中国科技论文在线之类的开放存取电子期刊也是以主页发布的方式;
( 3) 科技期刊其它版形式文件: 一些科技期刊直接使用Web出版的形式,如网页、博客发布等;另外还有移动出版等形式;
( 4) 元数据: 元数据 ( mega data) 是组成期刊全文的基本元素,如题名、作者信息、作者机构等。不同的期刊有不同的元数据,这给检索造成一定的难度; 一些机构抽出一些比较常用的元数据组成元数据集,如DC ( Dublin Core) ; 中国知网也有自身的元数据集,共集合中目前一共有17个元素,并利用这个17个元素进行检索操作;
( 5) 本体: 在本文中,本体是科技期刊资源概念化的、明确的、规范说明。即科技期刊本体每一个概念要经过定义,并可被计算机识别处理,本体必须有一套严格、无歧义的关系演算规范和概念描述方法;
( 6) 科技期刊领域本体库: 科技期刊有不同于其他科技领域的元数据,以及元数据与元数据之间的关系定义、概念描述、规范说明等。以分类主题词为例,科技期刊的分类主题词不同于社科期刊,即使同样是科技期刊,各种学科的分类主题词也不一样。因此,对科技期刊来说,必须建立自身的领域本体库才能实现更好的检索查询;
( 7) 查询本体: 查询本体将作者检索查询的输入转化成与领域本体形式相同的本体,用于查询指令的转化;
( 8) 应用本体库: 应用本体库将从各种科技期刊文件源获取的期刊元数据通过语义标注、本体描述等方法,构造起与领域本体库形式相同的本体;
( 9) 知识库: 知识库定义和存储一套语义逻辑的推理原则,包括排序、合并、分类、聚类等; 还有科技期刊关联的知识,包括文章引用与被引用关系、参考文献的相似度原理、相关关键字匹配、主题匹配、引文网络、相关作者文献聚类等一套与期刊相关的知识体系,实现查询本体和领域本库的推理匹配等。
2. 2信息检索模型分层
从图1中看出,所提出的科技期刊语义Web网络信息检索模型分为三个层次,分别是人机交互层,知识处理层,知识收集和存储层。
2. 2. 1知识收集和储存层。知识收集和储存层负责建立科技期刊领域本体库,并根据检索的需要,从各种期刊出版数据源中抽取元数据信息,进行语义标注,形成元数据; 再借助科技期刊领域本体库对所抽取的元数据进行本体描述,形成应用本体库。该层是整个网络信息检索系统中最关键、最重要的部分,涉及到科技期刊对数据源的元数据提取、标注,以及科技期期刊领域本体库、应用本体库的构建等。
( 1) 科技期刊数据库的来源
数据的来源必须是权威的,目前,互联网出版由于审核还不够严格,数据的权威性不够,因此,数据的来源一般是科技期刊出版单位提供的; 数据库服务商是一个特殊的数据提供商,聚集了大部分的科技期刊出版单位的历年来的数据; 还有一些科技期刊其它的出版方式,也形成了数据库的来源。由于不同的数据源的格式不同,如有数据库文件格式、HTML格式、以及XML格式,在不同的数据库出版商中,其对应的数据格式也不同; 同样,不同的期刊主页使用的格式也不同。不同的数据格式给检索带来异构问题; 不同的数据库来源给跨库检索问题。因此,必须构建基于本体的语义Web网络信息检索系统才能更好的解决问题。
( 2) 科技期刊领域本体的构建
科技期刊本体作为一个特定领域本体,必须在科技期刊专家的指导下构建的。领域本体有其自身的一些属性和操作行为。本体的类型有多种,如文献 [7] 中指出的,本体有单本体、多本体以及混和本体。科技期刊本体可由全局本体和局部本体组成,全局本体可由权威机构或由国家主导建成; 局部由各个数据库服务商以及各大科技期刊出版单位自建。各个单位自建的本体的规模、大小不一样,这是同他们出版的内容决定的,如光学期刊所创建的本体就仅与光学有关。
1科技期刊本体的开发工具
本体开发工具有多种,本体编辑器有Protégé、SWOOP、Onto Edit等, 本体开发 语言OWL、RDF等,本体推理机有Jena、Racer、Pellet等,目前,有75. 9% 的开发者使用OWL本体开发语言开发本体[8]。
2科技期刊本体的建设
科技期刊本体有其自身的特点,不能照搬其它本体的的构造方法,本文吸取文献 [9 - 16] 中的本体的构建原理,考虑科技期刊的元数据特点,总结出科技期刊本体构建的七步骤,即:
一是确定本体范畴: 不同的科技期刊数据源有其自身的特征,不能一概而论,如《科技管理研究》要求给出作者出生年月、性别、祖籍、研究方向等,文章要求给出英文摘要和关键词等,在确定本体范畴时要根据期刊数据源的特点来决定。
二是本体复用: 本体的构建是一个较大的工程,如果能对已有的本体进行复用,将起到资源共享,减少工作量等目的。期刊数字化可因地制宜,采用多种数据格式,然后通过基于XML的RDF对资源进行描述,实现各期刊资源的互操作、共享以及知识关联。国际上比较流行的有关期刊的本体有DC( Dublin Core) ,可根据期刊的需要对其中的字段进行取舍,也可以对其进行扩展,以适合期刊的需要。另外,一些科技期刊已经建立了其学科本体,如医学领域本体[10]、中医药领 域本体[11]、农业学本体[12,13]、地理本体[14]、爆破业领域本体[15]、自动化仪表领域本体[16]等,这些本体可直接复用。对于没有现有的本体的科技期刊,可根据文献 [9] 中所描述的方法进行创建。
三是本体类目及等级体系: 期刊本体类目可按照中国知网的17个检索字段[17],也可按照CSSCI所定义的17个字段[9],不过,不同的科技期刊数据源可按照的自身的需要,尽可能选择有代表性的字段。选取的原则是能最大可能的反映期刊资源的关系的字段,并可以根据所需要体现的知识关联的需要,添加一些字段,作为本体类目。本体类目有等级体系,如一级类目下面有二级类目,二级类目下面又有三级类目等。期刊本体类目构建时要对类目的等级体系设计周全,不遗漏任一类目。
四是定义类的属性: 为了使得检索更多期刊的知识、发现更多作者、期刊、文章、机构、引用、被引等的关联,类的属性定义应该考虑特定的类的关系,父类与子类之间的关系等,并在类的属性中尽最大可能的体现出来; 一个最好的办法是尽可能将类名———类名———属性用表格列出来,并遍历类与类之间的关系。
五是添加实例: 根据所定义的类目,分类对数据源检索,对检索结果进行筛选、去重、提取等操作,最后将检索的条目储存,作为类的实例。
六是定义实例属性: 在语义WEB中,实例与实例之间的关系是通过语义相似度计算出来的,其计算方式有以下几种: 基于特征的计算方法[17]、基于距离的计算方法[18]、基于信息论的计算方法以及混合方法[19]等。
七是对本体进行编码、形式化: 各个期刊根据自身的需要构造了期刊本体。为了使计算机能读懂所构造的期刊实例,需要通过本体描述语言,对本体进行编码和形式化。目前,一般都是使用OWL本体描述语言[20],实现期刊本体的编码。
( 3) 科技期刊应用本体库的构建
科技期刊应用本体库与领域本体库的区别是,领域本体库是抽象的本体库,是某个学科资源特点的抽象描述; 而应用本体库是领域本体库的具体化、实例化。应用本体库构建时,需要经过以下的步骤:一是元数据信息抽取: 从各种科技期刊数据源中根据一定的原则进行分词操作,提取出所有的元数据信息; 二是元数据信息的标注: 所提取出的元数据信息经过词性标注、词义标注、语义标注等形成元数据; 三是应用本体库构建: 参考领域本体库的构建方法,对元数据进行本体描述,形成期刊资源的本体对象,所有的本体对象构成了科技期刊应用本体库。
2. 2. 2知识处理层。知识处理层将来自人机交互层的用户查询使用本体描述语言转化为查询本体,查询本体结合知识库推理规则,调用语义逻辑推理模块,将查询本体与应用本体库进行相似度匹配推理,得到一系列元始查询结果,并将结果进行排序、合并等操作,形成最终的用语义表示的结果返回给人机交互层处理。
2. 2. 3人机交互层。人机交互层是处理查询用户的查询请求,将查询的内容参考领域本体库的构建进行转换、标注,转成计算机能识别的本体查询。知识处理层从知识库中提取相关的关联知识,并调用语义逻辑推理模块,将查询本体与应用本体库进行相似度匹配,对查询结果进行排序、合并、分类、聚类等操作,并将相关的结果提交给人机交互层进行语义转换及描述,最后的结果由人机交互层发送给查询用户。
3语义Web的科技期刊信息检索应用
语义Web科技期刊信息检索能在知识挖掘,知识关联以及创新其服务模式上发挥作用。
3. 1创新科技期刊服务模式
首先,通过构建科技期刊语义本体,无论是读者、出版单位或编辑人员都能够使用自然语言对想要查询的对象进行描述,由信息检索系统转变成计算机能理解的本体,实现了跨库检索,这是一种创新服务的模式。语义Web科技期刊数字化出版服务中要解决不同的期刊内容提供者之间的互操作问题,包括语义互操作和语法互操作。由于不同的内容提供者使用的知识体系语法不一样,如有的使用XML语言描述,有的使用关系数据库表示,有的使用HTML,甚至有的使用纯文本文件,因此,各个知识体系间无法互联操作; 另一个方面是语义的互操作,如中国知网数据库和万方数据、维普的数据库都是基于不同的开发方式,对于相同的关键词,他们表达的内容可能不一样; 对于不一样的关键词,他们有可能表示 的是同一 个内容。因此,利用语义WEB,可以解决跨库的检索,可解决基于语义相似性的匹配,提高检索的准确性,另外,用户端能够通过一种有意义的自然语言进行检索,如输入查询指令“查找5年来以第一作者在《科技管理研究》上发文超过5篇的作者姓名、职称、单位、联系方式、文章篇名”,而检索结果又能以一种有意义的自然语言形式返回。
3. 2科技期刊知识挖掘与知识关联
通过使用语义Web信息检索服务,对所有的数据都加标签,使计算机能识别,这就增加了被检索到的概率,并且也增加数据与数据的关系,能发现更多的关联,能将一些看似毫无关系的数据通过某种方式关联起来,达到聚类、预测、信息挖掘等目的。通过为科技期刊建立元数据,能起到很多作用,如选题挖掘、作者发现,文献聚类和关联、学术不端检测的精确等。传统的科技期刊网页信息发布中,其检索的数据项仅有tittle ,comtent,body等项; 中国知网数据库发布的检索数据项作了扩展,截止到目前 ( 2013 - 12 - 24) 为止,有SU ( 主题) ,TI( 题名) ,KY ( 关键词) ,AB ( 摘要) ,FT ( 全文) ,AU ( 作者) , FI ( 第一责任人 ) , AF ( 机构 ) , JN( 文献来源) ,RF ( 参考文献) YE ( 年) ,FU ( 基金) ,CLC ( 中图分类号) ,SN ( ISSN) ,CN ( 统一刊号) ,IB ( ISBN) ,CF ( 被引频次) 等17个检索项 [21],其检索功能比网页发布强,但仅限于中国知网的查询系统,其它的搜索引擎无法检索到。而在语义Web服务中,利用本体的强大描述功能,可定义任意的有关期刊的数据项,并通过本体转成计算机能识别的元数据,不仅提高匹配的准确度,强化了知识挖掘和知识关联功能。
( 1) 作者群以及团队的挖掘。强大的知识挖掘功能,能运用于很多方面,如通过对读者发文量、发文选题、发文刊物档次、作者机构等信息的挖掘,能发现某学科的核心作者群,以及由作者群所形成的一个个研究团队,这有利于科技期刊出版单位和编辑人员的策划和组稿,扩充了稿源[22];
( 2) 学术不端检测准确率的提升。目前的学术不端检测是基于关键词的匹配检测方法,这种方法一方面经常发生误检[23]; 另一方面,由于没法对更隐蔽的学术不端进行关联,发现更多的学术不端行为,也经常导致漏检的情况发生。基于本体的语义Web扩大到对任何数据都能描述,加强了元数据与元数据之间的关联,应用于学术不端检测,能发现更多的隐性学术不端;
( 3) 选题挖掘。语义Web的跨库检索提高了知识挖掘和知识关联,通过检索近期的研究热点、研究动态、作者的研究方向的转移等,科技期刊能最大的把握学科发展的动态和趋势,为选题策划指定了方向;
( 4) 期刊资源的整合,消灭信息孤岛,最大提升期刊资源的利用率。通过利用元数据构建出版过程的本体,一定程度上能促进出版过程的出版数据的知识组织存储和检索。在建成的全局应用本体上,不仅支持作者检索、文献检索、语义Web服务还支持选题发现、学科趋势跟踪等,对办刊过程的各项指标现状以及发展趋势也能了然于胸。
4结语
在出版信息化时代,大量数据的收集和存储将为语义Web的发现提供数据基础。随着大数据技术的发展,将其与语义Web网络信息检索服务的结合,将提高有用信息的挖掘能力,知识关联进一步紧密,科技期刊数字出版过程中的各种隐藏关系也能更准确的挖掘和预测出来,这对提高科技期刊数字出版中的资源整合、营销能力、竞争力,以及创新其服务模式将起到重要的作用。
摘要:针对目前科技期刊数字出版过程中内容表示格式多样化和多数据源带来的异构和跨库检索难、基于关键词匹配无法达到精确匹配、基于关键字的关系数据库检索数据挖掘能力有限以及无法用自然语言进行检索查询等问题,提出构建基于语义Web的科技期刊网络信息检索模型,并讨论科技期刊领域本体库、应用本体库的创建,给出该检索模型在科技期刊的创新其服务模式、数据挖掘、知识关联和发现等方面的应用。
【关键词】网络信息;检索
随着信息技术的高速发展,信息资源的越来越显得重要,而网络信息资源也逐步成为这个信息时代的核心资源。信息检索技术也很快得到发展,在此网络信息检索随着网络的发展也应运而生。网络信息检索,就是将描述特定用户所需网络信息的提问特征,与信息储存的检索标识进行异同比较,从中找出与提问一致或基本一致的网络信息的过程。相对传统文献检索,网络信息检索显现出了很多的优越性,如不受时间地点的限制,检索方式多样化,多元化等。但是我觉得网络信息检索的发展还不是十分完善,仍存在些问题,如目前检索工具在信息搜集缺乏统一的规范管理,检索过程会出现很多雷同,甚至无用的垃圾信息等。以下从网络信息检索目前存在的问题,及针对问题面临的以后的发展方向进行了探讨。
随着网上信息资源的膨胀发展,一种搜索引擎,无论它多么完善都不可能满足一个人所有的检索需求。如果遇到文献普查、专题查询、新闻调查与溯源、软件及MP3下载地址搜索等情况,人们就更需要使用多种搜索引擎来比较、筛选和相互印证。为解决逐一登陆各搜索引擎,在各搜索引擎中分别多次输入同一检索请求等烦琐操作,基于网络检索工具的检索工具产生了。
目前这列检索工具只要有两种:集成搜索引擎和元搜索引擎。所谓集成搜索引擎是在一个检索界面上链接若干种独立的搜索引擎,检索时,一次检索输入,可以指定搜索引擎也可以要求多个引擎同时检索,搜索结果由各搜索引擎分别以不同页面提交的网络检索工具,其实是利用网站链接技术形成的搜索引擎集合。集成搜索引擎制作与维护技术简单,可随时对所链接的搜索引擎进行增删调整和及时更新,尤其大规模专业搜索引擎集成链接,深受特定用户群欢迎。如国内天网搜霸和百度搜霸,国外比较著名的有“搜索之家” “网际瑞士军刀”等。
另一个是元搜索引擎,用户只需递交一次检索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将所有查询结果集中起来以整体统一的格式呈现到用户面前。国外比较著名的元搜索引擎有Vivisimo、EZ2WWW、Kartoo、SurfWax、Fazzle等。目前国内现在还没有见到真正意义上的元搜索引擎。元搜索引擎虽没有网页搜寻机制,亦无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术支持。目前元搜索引擎技术主要有并行处理式和串行处理式两大类。并行式元搜索引擎运行时是将查询请求同时发向各个独立搜索引擎,然后将的结果按特定的顺序呈现给用户;串行式元搜索引擎运行时是将查询请求先发向某个独立搜索引擎,待其返回结果后再将请求发往另一个独立搜索引擎。
从第一个元搜索引擎Metacrawler诞生至今,这一新型的网络检索工具异军突起,发展迅速,目前可用的元搜索引擎已近百种。由于元搜索引擎的功能受着源搜索引擎和元搜索技术的双重制约,元搜索引擎比较理想的并不多见。信息检索专家邢志宇将元搜索引擎存在的问题归纳如下:(1)大多元搜索引擎不支持多语种,尤其是汉语检索;(2)一些元搜索引擎实现检索语法转换的能力有限,不支持指定字段检索,不能充分发挥各个独立搜索引擎的高级检索功能;(3)部分元搜索引擎无源搜索引擎列表,用户不能自主选择和调用源搜索引擎;(4)大部分元搜索引擎仅支持调用AltaVista、Excite、GoTo.com、Yahoo!、Infoseek、Lycos等常用的搜索引擎,一些大型搜索引擎如NorthernLight、HotBot等被排除在外,人为地限制了搜索资源的利用;(5)在检索结果上,元搜索引擎只能返回十几、数十条“相关度”较高的结果,大量可能有价值的源搜索引擎的检索结果被忽视,影响检索结果的全面性。
Internet的发展使信息采集、传播和利用无论是从规模还是速度都达到了空前的水平。我觉得未来网络信息检索技术的发展方向如下:
1.智能化
现有的检索引擎存在着查全率和查准率低的问题,未来的搜索引擎技术必须具有能及时挖掘新信息和及时能链接新增的信息,多途径检索功能,用户可以交互式检索,搜索出满意的信息。提高网络信息检索技术水平并实现智能检索,智能化是网络信息检索未来主要的发展方向。智能检索是基于自然语言的检索形式,机器根据用户所提供的以自然语言表述的检索要求进行分析,而后形成检索策略进行搜索,智能检索技术就是采用人工智能进行信息检索的技术,它可以模拟人脑的思维方式,分析用户以自然语言表达的检索请求,自动形成检索策略进行智能、快速、高效的信息检索。最近几年,智能信息检索作为人工智能的一个独立研究分支得到了迅速发展,而且目前已有一些搜索引擎支持智能检索,但智能化程度还不高,这方面还有待进一步的发展。
2.标准化
现在的网站信息瞬息万变,杂乱纷繁,很是需要进行分类整理。目前虽然有大量的搜索引擎,但还没有一个统一严格的分类方法来管理,网络信息资源在组织分类上需要制定一个统一的分类标准。还要规范网络术语,提高资源共享的程度,这样可以有效保证用户的检索效率。
3.个性化
科技的发展要以人为本,随着科学技术的发展,个性化服务也将成为网络信息检索的一个发展方向。随着互联网的飞速发展,每个人的对信息的需求将不再满足于标准化、单一化的大众需求。不同的人需要不同的服务,如残疾人士对网络信息检索的要求就要区别于常人,要是信息检索能很好的识别语音检索就能很有效的满足他们的信息需求。如何使用户更方便、快捷地使用各种检索工具,满足用户各种检索要求,个性化服务也会成为网络信息检索重要的发展方向。
浅谈网络信息检索的现状及其发展趋势
【摘要】随着计算机技术及网络技术的发展,网络信息检索显得越发重要。本文主要综述了网络信息检索的全文数据库、搜索引擎、互联网“超链接”等现行检索模式及它的智能化、一站式化、可视化等发展趋势。
【关键词】网络信息检索;现状;发展趋势
1、信息检索概述
信息检索(Information Retrieval)是指将信息按照一定的方式组织和存储起来,并能根据信息用户的需要指出其中相关信息的过程,因此它的全称叫“信息存储与检索”。
随着互联网的发展,人类社会的信息化、网络化进程大大加快。当今出现的一系列新型检索模式,包括网络信息规范控制标准等为网络检索技术的未来展现了新希望,与之相适应的信息检索的交流平台也迅速转移到以WWW为核心的网络应用环境中,信息检索步入网络化时代,网络信息检索已基本取代了手工检索。
2、网络信息检索的现状
对大多数读者而言,检索并不意味着发现,而是获得。人们希望不仅仅是提供宽泛的检索结果,而应该是计算机能试图理解用户提问的意图,并对检索结果进行适当的分类和排序。但是,现有的搜索引擎大多是基于简单的关键词匹配,不能真正理解用户的检索意图;各个搜索引擎的信息搜集和索引建立有很大的不同,每个搜索引擎平均只能涉及到整个网上资源的30%~50%,而其中真正有用的信息也只占很小的比例,这就意味着使用任何一个搜索引擎都只能检索到网络中的部分资源。目前网络检索面临一系列的挑战,网络信息量迅猛增加,人工已经无法对它们进行有效的分类、索引和利用;简单的关键词搜索,返回的信息量过大,已经让用户无法承担;网络信息组织的无序性;信息有用性评价困难;网络信息日新月异的更变;信息媒体的多样化;带宽等其它因素的制约,这些都给因特网信息的获取造成了极大的阻碍。这样就造成了要求智能化、专业化、多元化、多媒体化的网络信息检索工具出现的呼声越来越高,并且有更多的人参与到其中来。如此种种,给当今的网络信息检索研究带来了发展机遇,也给了它无限的发展空间。
3、网络信息检索的现行模式
3.1 网络全文数据库检索
网络全文数据库是以全文数据为数据库对象,并在网上提供全文检索服务的数据库。按数据库的生产机构分类,可分为出版商全文期刊数据库和生产商全文期刊数据库。前者主要是那些期刊出版单位在其出版的印刷期刊基础上建立的网络电子期刊全文数据库。而后者则是由数据库生产商根据一定的主题或一定的收录范围整合一定数量的期刊出版物而产生的全文数据库。国内全文数据库主要有中国学术期刊全文数据库。
3.2 网络搜索引擎检索
搜索引擎是一个专门的系统,它可以对互联网信息资源进行搜索整理和分类,并将其储存在网络数据库中供用户查询。搜索引擎包括搜集信息、分类和用户查询等三大部分。目前流行的搜索引擎有两大类:关键词全文检索式搜索引擎和分类目录式搜索引擎。
关键词全文检索式搜索引擎主要利用其内部的搜索机器人和蜘蛛程序,自动搜索来自互联网上的各种内容,在每一个关键词和所有相关的网页之间按照网页相关性原理建立一个对应关系,储存在其网络服务器的数据库中。用户只要输入关键词就可以找到符合该关键词特征的所有被索引的网页,搜索结果以超链接的方式列表,搜索结果有简单介绍,用户点击相应的链接就可以进入相应的网络资源网站,从而找到所需信息。用这种方式搜索到的结果通常数以百万计,但是相关性越高的信息,在搜索结果列表中的位置越靠前。分类目录式搜索引擎将互联网信息按照一定的标准进行收集和分类,并编入相应目录,以层级和逐次分项的方式管理目录,查找信息可以按照分类目录一层层进入,最终找到所要的信息。
3.3 互联网“超链接”搜索
Web信息以超文本链接方式组织,基本组织单元是信息节点而不是字符串,信息节点之间通过链接进行联系。超链接是网页必不可少的一个元素,同一主题或相关的信息因超链接构成了信息网。超文本信息检索技术,以超文本信息节点之间的多种链接关系为基础,根据思维联想或查找信息的需要,通过链接从一个信息节点转到另一个信息节点。
4、网络信息检索的未来发展趋势
网络技术的发展,给网络信息检索及信息的网络化带来的极大的便利,进一步推动了网络信息检索理论和技术的快速发展。怎样为网络用户提供高质量、高效率的检索方式是网络信息检索研究者的努力方向。信息检索的对象已从传统的文本信息扩展到如今开放、动态、分布广泛的多媒体信息。那么,网络信息检索的发展趋势如何呢?
4.1 智能化信息检索
智能化信息检索是基于自然语言处理的检索形式。检索工具是对用户提供的以自然语言表达的检索要求进行分析,从而形成检索策略进行检索。检索工具智能化的内涵在于检索工具具有学习、分析、辨别和推理的能力。近年来,因特网上不断涌现的人工智能产品,如智能搜索引擎、智能浏览器、智能代理等,它们将提高网络信息检索的智能化程度,促进智能信息检索的发展。
网络中的智能代理通常是一个专家系统、一个过程、一个模块或一个求解单元。智能代理可以获得用户的信息需求,自动检索信息和推送检索结果信息。多智能代理系统还具有信息发现、信息筛选、信息推送和信息导航功能,可满足专业研究人员的特定需求,实现网络信息检索与服务的智能化。
4.2 一站式信息检索
一站式(One Stop)信息检索是指用户通过一个检索工具能满足自己所有的信息检索需求。一站式信息检索将是网络信息检索服务的一种发展模式。一站式检索服务是人性化服务的重要体现,它将大量节约用户的检索时间。全球最大的搜索引擎Google正在朝着一站式服务的方向发展。2004年12月,Google宣布与纽约公共图书馆和包括哈佛大学图书馆在内的4个主要图书馆合作,将这些图书馆的大约1500万册藏书扫描进自己的数据主库以提供网络用户检索。目前,Google已经为其用户提供了某种程度上的一站式的检索服务了。而其他越来越多的检索服务提供商将向一站式检索方向发展。
4.3 可视化
可视化指的是运用计算机图形学和图像处理技术,将数据转换为图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。据统计,获取信息有70%~80%靠视觉,20%靠听觉,10%靠触觉。用图像取代文字帮助人们检索的优点在于:图像的表达更生动、结束语形象、准确,效率更高,具有交互性、多维性、可视性等特点,可以大大加快检索速度,使时刻都在产生的海量数据得到有效利用。
4.4 商业化
目前网络信息检索系统已成为新的投资热点,网络信息检索系统不再仅仅是一种检索工具,而且是一种商业产品。2001年10月,全球最大的中文搜索引擎提供商百度联合新浪等多家中文门户网站,共同推广“搜索引擎竞价排名”全新网络商业服务模式。网络信息检索的商业化还体现在联机和光盘检索逐渐进入网络环境。由于目前网络信息检索的检准率低,联网的收费联机和光盘检索依旧受到青睐,如世界著名的联机信息系统DIALOG、OCLC、EBSCO、Silverplatter,国内的万方数据资源系统、中国学术期刊光盘、重庆维普公司系列光盘等都纷纷在网上设立自己的网络检索入口。许多著名科技期刊的上网丰富了网络资源,它们大多数都是在提供印刷版的同时提供期刊的网上服务,包括收费检索。
5、小结
在的网络信息资源中寻找自己所需要的信息资源是一件极具挑战性的工作。为此,许多信息专家正在积极地研究探索,并且取得了不少成果。我们相信随着科学技术的进步,网络信息检索发展会越来越快,人们所利用的检索工具和手段的更替会更加频繁。
参考文献
1、检索课题名称:雾霾的成因防御及治理
2、课题分析:本课题旨在研究雾霾的形成过程及它的危害。其中“雾霾”“成因”和“治理”为课题的表层概念,因为“成因”和“治理”这两个概念过于宽泛,所以不作为检索词来使用。进一步分析“雾霾”这个概念的同义概念有“pm2.5”、“空气颗粒物污染”、考虑将其纳入检索词中。“防御”的隐含概念包含“预防”、“防范”等含义,故将这两个词也列为检索词。
3、选择检索工具:
维普资讯网(外网)— 期刊文献数据库; CNKI数据库(外网)文献数据库; 超星图书数据库 — 图书数据库
4、构建检索策略:
检索算法(雾霾+pm2.5+空气颗粒物)*(防御+防范)*治理
时间范围:因为要做定题检索,所以时间上不要求最新,初步限定在2000以后。文献范围:
文献的类型范围--选择期刊、毕业论文、图书三个不同类型。
5、简述检索策略调整的过程:(1)维普资讯网
A、在维普资讯网选择“高级检索”,选择“文摘”字段,在检索框中输入检索词“雾霾+pm2.5+空气颗粒物” 第二行检索框中输入检索词“防御+防范”选择“关键词”字段,在检索框中输入“治理”,三组检索词之间选择逻辑关系“并且”进行组配。时间范围限定在“2000-2013” ;只有一篇。
(2)CNKI博硕士毕业论文数据库
A、在CNKI外网,选择“文献”字段,检索全文。时间范围限定在“2000-2013”
B、256条记录作为课题需要浏览的文献数量来说过多,进一步调整检索策略,将同意概念的检索词“PM2.5”和“防范”去掉,将所有检索词都限定在“题名与关键词”字段中,时间范围和专业范围不变,检索出来101条记录。
C、101条记录还有些多,还需进一步调整。选择在结果中检索,将期刊范围在“核心期刊”中,这次检索结果为28条记录,比较满意。
(3)超星读秀学术搜索平台
A、在全文字段没有相关文献 B在关键词里搜索“雾霾”“防御”有三篇文献
6、标示原文线索:(1)维普资讯网
题名:靖江市大气环境颗粒物污染的预防和治理
作者:吴楠 出处:《北方环境》2013年第5期(2)CNKI外网期刊数据库
题目:《我国雾霾成因及治理的思考》
作者:张小曳 孙俊英 王亚强 李卫军 张蔷 等 出处:科学通报 2013/13(3)超星读秀学术搜索平台 题目:《浅谈雾霾天气的危害级防御措施》
作者:王壬,尹博文
出处:华人时刊 出版日期:2013 期号;第3期
第二次作业
一.检索课题名称:雾霾的成因防御及治理
二.课题分析:本课题旨在研究雾霾的形成原因以及它的防护和治理措施。其中“雾霾”,“成因”,“治理”,为课题的表层概念。进一步分析“雾霾”这个概念词主要指在日常生活中的“固体颗粒物”或“PM2.5”将其纳入检索词中“防御”的隐含概念包含“防止”,“抵御”等含义,故将这两个词也列为检索词。三.关键词:雾霾 PM2.5 治理 防御 四.选择搜索引擎
1谷歌学术搜索(Google)2百度(Baidu)五.构建搜索策略: 检索算法:(雾霾+PM2.5)*成因 *(防护+防止)*治理 构建检文献范围:期刊论文、学位论文、会议论文、专著 六.简述检索策略调整的过程 1)谷歌学术搜索(Google)a.使用“(雾霾+PM2.5)*成因 *(防护+防止)*治理”检索运算式,搜索范围为所有网页,约有24900项结果。
b.考虑到检索结果很多,调整检索策略如下:使用检索式“雾霾*成因*治理”,限定年份为2012年以后,得到检索结果约有2320条,且相关性较好。2)百度
a.使用“雾霾+PM2.5)*成因 *(防护+防止)*治理”检索运算式,百度一下,找到相关网页约760篇。
b.上述检索结果不是很多,但与要找的相关性不是很好,调整检索策略如下 在百度中输入以下字符“雾霾的成因防御及治理filetype:doc”找到相关结果101个,并且与想要找的相关性较大,比较满意。七.标示原文线索:(1)谷歌
题名:我国雾霾及其治理的思考 作者:张小曳①*, 孙俊英①, 王亚强①, 李卫军②, 张蔷③, 王炜罡④, 权建农③, 曹国良⑤, 王继志①, 杨元琴①...(2)百度
题名:浅谈雾霾成因及治理 作者:周蓉
出处:中国学术期刊网
检索课题名称: 雾霾的成因及治理课题研究
课题分析:
本课题旨在研究雾霾成因和治理两方面的内容。其中“雾霾”“成因”“治理”为课题的表层概念。同时,由于“课题研究”这一概念过于宽泛,在检索时不建议作为关键词。综上所述,我们得出如下检索词
中文关键词: 雾霾 成因 预防 治理
英文主题词: haze cause governance 选择检索工具: 《美国工程索引》(Ei village)
构建检索策略:
检索策略 haze*cause* governance
检索范围:所有数据库,时间不限
检索策略调整:
A.在检索页面第一行输入“haze”检索式,检索范围为“主题”,第二行输入“cause”,第三行输入“governance”,检索范围同样为“主题”,时间跨度为所有年份,检索语言为自动,点击检索,检索结果显示,近似值为9项。
B.调整策略:仍利用上述检索式,把controlled vocabulary限定为Air Quality,再次检索,检索结果显示为6条。表示原文线索(2条): Regional haze modeling over the VISTAS States: Preliminary verification of models-3/CMAQ for the 2002 annual period Morris, Ralph E.(ENVIRON International Corporation, 101 Rowland Way, Novato, CA 94945);McNally, Dennis;Tesche, T.W.;Tonnesen, Gail;Boylan, James;Brewer, Patricia Source: Regional and Global Perspectives on Haze, 134 VIP, p 643-662, 2004, Regional and Global Perspectives on Haze: Causes, Consequences and Controversies Visibility Specialty Conference Database: Compendex Mitigation for regional haze impacts: Cleaning up smoldering coal refuse piles with CFB boilers Campbell, Bill(ENSR Corporation);Campbell, William;Paine, Robert;Shea, David Source: Electric Utilities Environmental Conference, EUEC 2005: 8th Annual Joint EPA, DOE, EEI, EPRI Conference on Air Quality, Global Climate Change and Renewable Energy, v 2006, 2006, Electric Utilities Environmental Conference, EUEC 2005: 8th Annual Joint EPA, DOE, EEI, EPRI Conference on Air Quality, Global Climate Change and Renewable Energy Database: Compendex
一,检索课题名称: 雾霾的成因及治理课题研究
二,课题分析: 本课题旨在研究雾霾成因和治理两方面的内容。其中“雾霾”“成因”“治理”为课题的表层概念。同时,由于“课题研究”这一概念过于宽泛,在检索时不建议作为关键词。综上所述,我们得出如下检索词
三,中文关键词: 雾霾 成因 预防 治理
英文主题词: haze AND cause AND governance 四,选择检索工具:Elsevier 数据库
五,构建检索策略:haze*cause*governance
六,检索过程及策略调整:
A.
在全部文献资源中检索“haze AND cause AND governance”,检索到79篇相关文献。
B.
限定主题“air quailty” 检索到3篇相关文献。
七,全文摘录一篇:
篇名
Science–policy data compact: use of environmental monitoring data for air quality policy 著者
Jill A.Engel-Cox
Raymond M.Hoff
著者机构
a Marine Estuarine and Environmental Science Program, University of Maryland, Baltimore County, 1000 Hilltop Circle, Baltimore, MD 21250, USA b Battelle Memorial Institute, 2101 Wilson Boulevard, Suite 800, Arlington, VA 22201, USA
文摘 Abstract Environmental policies often strongly depend on environmental monitoring data, yet these increasing datasets are not always used effectively in enacting and implementing public policy.We propose a science–policy data model that denes the conditions that facilitate the use of environmental monitoring data for policy and which could help scientists and policymakers diagnose impediments in the link between science and policy and work more effectively together to use monitoring data in environmental policy.The model includes two parts:(1)criteria for scientic monitoring data to become useful information for public policy;(2)a ‘‘data compact,’’ a relationship between senior
scientists and midlevel policymakers that enables translation of environmental monitoring data into knowledge useful for public policy.We compare the model against two case studies in the air quality literature: ozone depleting substances and acid precipitation.Finally, we use the model to assess the potential of a newly developing area that we are researching, use of satellite remote sensing data for ne particulate matter transboundary policy.# 2005 Elsevier Ltd.All rights reserved
关键词
Keywords: Policy model;Environmental policy;Data compact;Air quality;Satellite
正文
首段
1.Introduction: environmental policy and scientic data Environmental policy, concerned with human health and the natural environment, depends on data that describe
environmental conditions, such as air quality, water quality, hazardous chemical contamination, and land use.Fischer(2000)has proposed that environmental problems are different than other social policy issues, since they are argued more on scientic ndings than on moral issues: ‘‘Although they are generally traceable to human agents, environmental problems have an imposing physicality compared to other social problems.’’ Environmental politics in the U.S.began as conservation with President Theodore Roosevelt, but its modern political form began in the 1930s, when the Franklin Roosevelt administration addressed deforestation, soil erosion, ooding, protection of ora and fauna, and other areas that required information about the effects of human activity on the natural environment(Sussman et al., 2002).When modern environmental legislation, such as the Clean Air Act, Clean Water Act, and Endangered Species Act were passed, each required extensive scientic environmental monitoring to set standards and monitor progress.Environmental policy from the 1960s to the present has increasingly depended on environmental monitoring and the analysis of the monitoring data 尾段
Acknowledgements The authors would like to acknowledge general sponsor-ship of past science–policy work in this arena from U.S.EPA, NASA, and NOAA.RMH receives support from the NOAA Center for Remote Sensing Science and Technology(CREST)and from a NASA Grant from Langley Research Center.Special thanks to Dr.Royce Hanson and Dr.Douglas Whelpdale for their comments and input on an early draft of the manuscript, and to Ms.Nikisa Jordan for helping with the satellite image.Thanks also to two anonymous reviewers for their comments and insight
信息检索能帮助人们快捷、正确、全面地获取所需知识,最大限度地节省查找时间,使我们的信息检索过程变得事半功倍,更使信息能够得到充分的利用。这学期我们开设了信息检索这门课,刚拿到书,随便翻了几页,我便觉得这门课很简单,就像用百度google搜索一样容易。然而在实际检索中,想要准确快速检索到自己需要的信息,却殊为不易。
不知不觉,经过一个学期的信息检索课程学习,开始慢慢了解认识到它的重要性。在当今社会生活的人,几乎天天每时每刻都与信息打交道。可能我们已经感觉到有的人做事往往轻易成功,而有些人则不易成功,这在很大程度上是由于前者有较强的信息意识,能够把握较多的信息,对所做的事情能够作出正确的判定,因而他们的成功率也就比较高。信息检索是查找信息的方法和手段,它能使人们在浩如烟海的信息海洋中迅速准确全面地查找所需信息。可以说信息检索对于人们的学习、生活和工作等各方面都是非常有用的。它可以充分发挥人类知识宝库的作用,有利于开发智力资源;信息检索可提高效率,节省科研人员的时间,减少人力或投资方面的费用;获取知识的捷径和终身教育的基础知识的不断增长,正逐步加快原有知识的老化程度。有的专家认为,大学生一生所用的知识,知识百分之十左右是在学校学来得,而绝大部分要在工作中不断地获得;它帮助研究人员继承和借鉴前人的研究成果,避免重复研究或少走弯路。
在当今信息量极大、通信业极为发达的时代,掌握信息更加重要。对于管理者在管理工作中所做出的正确决策,经营者在经营方针上做出的正确抉择,商贸者在谈判中能做出正确的判断等,只要能够及时准确、全面获取信息,他旧能够获取成功。生活在信息社会的人们掌握了信息检索技术并能够灵活运用,能够在激烈的社会竞争中取胜,旧能提高我们的生活质量,推动社会的进步。面对以前的检索,才知道那即使是成功的,也不过是信息检索中的网络Inter检索的一小部分,对于现在则是小巫见大巫了。而何况那是一种完全部成功的网络检索,面对的是成万上千的数据,往往遭到我所需要的数据时,是经历了无数次的阅览及无数次错误信息的筛选,就最终找所需题目而言,那都是中辛酸的乐果而已!
对于现在的学习了信息检索的感受,是应该可想而知的了。尽管,我并没有学得很好,有很多的东西我都不懂,但我能从中感觉到许多的东西,那是自己需要长时间学习或是自己长时间都不好学的东西。然而最获益匪浅的应该是关于学校的图书馆的使用,明白了一点,图书馆的文化就是大学里文化的大部分,是最大于有别于高中学习的特点。我明白的在深的便是关于信息检索的那种应有的气氛和氛围,素质。我很喜欢信息检索,不仅仅是因为他是我的一个十分重要的学习工具,还是一种很好的文化,素质,使自己应该具备的!
互联网的快速发展和广泛应用, 为人们提供了一个广阔的信息空间, 也为信息检索提供了一个广阔的发展平台。互联网的开放性和自由性使得网络信息资源呈现出数量巨大、异构性、分散性和动态性特征。但由于网络信息时效性强以及互联网缺乏必要的监督和质量控制, 使得大量垃圾信息混于高质量信息当中, 增加了有效信息获取的难度, 影响检索效率。因此, 使用有效的检索工具才能使得网络信息资源为人们所充分利用。
1 网络信息资源点与检索工具
上世纪90年代中期出现的搜索引擎技术目前已经成为检索各类网络信息资源最主要的检索工具。搜索引擎一般工作流程是借助于网络自动搜索软件 (Robot、Spider等) 访问浏览网页并抓取文件, 并通过已浏览的网页中的链接访问更多网页。在抓取网页的同时对页面文件进行分析分解以及索引, 建立索引数据库。当用户在搜索引擎界面输入搜索词后, 搜索引擎对搜索词进行处理, 按照处理后的搜索词在索引数据库中找出所有包含相关内容的网页, 并更具排名算法计算出排名顺序然后按照一定的格式返回到搜索页面。普通的搜索引擎缺点在于返回的检索结果数量巨大, 无关和冗余信息较多, 用户必须从中进行筛选。虽然布尔运算、截词运算、自然语言检索等技术使用大大提高了准确率, 但对用户检索素养要求很高。针对以上问题, 学者把研究对象放到对词意的挖掘上, 探索实现基于概念匹配的检索技术和方法, 基于本体的语义检索成为研究重点。
2 语义检索基本要素和原理
随着人工智能以及自然语言处理的发展, 尤其是语义网技术的兴起, 自上个世纪以来语义检索研究得到了迅猛的发展。虽然对于语义检索在概念上到目前为止没有统一的界定, 但是不同的研究都有一个共同之处就是基于对信息资源的语义处理时限效率更高的检索[1]。本体是语义检索的基础, 其主要任务是对信息资源进行语义表达。
本体 (Ontology) 原本是一个描述客观事物本质的哲学概念, 是对客观存在的一个系统的解释和说明。如今, 本体是一种能在语义和知识层次上描述概念体系的有效工具, 用来描述概念以及概念之间的关系, 通过概念之间的管理来描述概念的语义。本体作为一种最先进的知识表示方式能够充分的描述所以的数据结构, 是推理和关系数据库的结合[2]。概括的讲本体能够在人们和应用系统之间达成对术语含义的共享和共同理解, 通过函数 (functions) 、关系 (relations) 、原则 (axioms) 和实例 (instances) 、类 (classes) 这5种元素表达本体中的知识, 使其具有逻辑推理和语义识别功能, 帮助检索系统跨越目前基于关键词的检索过程中的上述问题以实现语义检索[3]。目前实现网络检索的技术主要有两种:第一种, 依赖于编码处理, 以分类模式来描述信息资源以实现检索的目的;第二种, 是通过全文检索查找文本中包含用户指定的词语的信息源。语义检索的语义信息的提取和处理是基于语义网方法与技术的查询处理与文档标注及索引。基于本体的查询处理包括:查询消歧和查询扩展, 通过消岐, 明确查询的确切所指, 准确反映用户的信息意图, 继而通过加入与其语义相关的其他概念来实施扩展。在对文档进行语义标注与索引的基础上, 先进行实例检索, 再据此返回所有以检出实例标注的文档信息是语义标注文档检索的一种普遍思路。相对于传统的网络检索, 基于本体的语义检索的优势在于体现语义信息, 准确表达用户的查询意图。
3 常见语义检索系统介绍
3.1 一体化医学语言系统 (UMLS) UMLS (Unified Medical Language System)
作为计算机化的情报检索语言集成系统, 是美国国立医学图书馆 (NLM) 主持的一项长期开发研究计划。它不仅是自然语言处理、语言规范化以及语言翻译的规范化工具, 更是实现实现跨数据库检测的词汇转换系统并且还可以帮助用户连接情报源, 包括书目数据库、事实数据库、计算机化的病案记录以及专家系统过程中对于其他的电子式生物医学情报的一体化检索。UMLS包括情报源图谱 (Information Sources Map) 、语义网络 (Semantic Network) 、专家词典 (SPECIALIST Lexicon) ) 和超级叙词表 (Metathesaurus) 四部分。其中超级叙词表是术语、生物医学概念、等级范畴、词汇及其涵义的广泛集成。1997年第8版的超级叙词表收录了739439个词汇, 这些词汇来源于30多种生物医学词表和分类表的能表达33万多个概念的, 词汇量达到空前规模。而语义网络是为超级叙词表中的所有概念提供语义类型及相互关系结构的工具, 是为建立概念术语间相互错综复杂关系而设计的。UMLS的语义网络不仅运用了常规的语义控制手段, 如属分、相关关系控制、语义等级, 同时在语义规范和语义关系分析、延伸等多方面有许多创新。
3.2 语义网 (Semantic Web)
为了能够在网络环境下也同样实现语义检索的功能进而开发研究了语义网的W3C项目。W3C项目是将网络上的数据通过一种方式进行连续和定义, 通过这种定义和连续可以根据人的不同需求实现计算机将数据自动进行整合以及再利用, 从而达到更有利于人机协作的目的。资源描述框架 (Re-source Description Framework, 简称RDF) 是语义网的核心构件。在网络中, 一般用元数据对资源进行描述, 而RDF则是处理元数据的一个基础。RDF认为一个具体的元数据是由属性值 (Statements) 、属性 (Properties) 和资源 (Resources) 构成的三元关系模式[4], 实际上是关于一个特定的资源特定属性的取值声明。使用RDFS语言, 元数据的设计者不仅可以定义所描述资源的类别、属性以及词汇, 还可以定义这些属性或者对象的关系以及对象与属性之间的相互关系, 同时还可以进一步定义这些资源的对象、属性以及属性应用类别和取值条件等, 通过这些定义从而能以计算机理解的标准方式对元数据进行描述语义内容以及元数据的结构关系。
3.3 Word Net
Word Net是一种基于认知语言学的英语词典, 它是由普林斯顿大学的计算机工程师、心理学家和语言学家联合设计的不仅是把单词以字母顺序排列, 并且是按单侧的意义组成的一个“单词的网络”。Word Net将所有的英语词汇按词性分为功能词、形容词、动词、名词和副词五类。动词被组成各种推演关系;名词在词汇记忆中被组成主题的层次;而形容词和副词被组织在N维超空间中。根据Word Net关系分析最大的优势是能在他的单词网里通过相关关系消除歧义, 因为Word Net分析主要是关系分析。Word Net在名词的语义消歧率可以超过60%。
4 结语
从以上三个语义系统来看, 无论是相对封闭的ULMS系统还是开放式的语义网、wordnet系统都具有较强的灵活性和扩展性。相对于常见的关键字信息检索, 语义检索不需要用户使用专业的检索策略, 也不需要语法严谨的检索式, 用户可以将自己的信息需求通过自然语言直接表达出来。语义检索在后台经过大量的计算, 分析用户的用户的语义文档信息, 充分利用各种语义关系消除歧义将用户真正需要的准确的信息资源反馈给用户, 将用户的检索效率提升60—80%。因此, 语义检索无疑是当前信息爆炸条件下最适合的网络信息检索方式。
摘要:互联网给用户的信息检索带来便利的同时也导致大量冗余信息出现, 使得检索效率低下。语义检索通过对用户检索要求的语义分析使得检索效率以及检索准确度大大提升。本文在分析语义检索基本要素和检索原理的基础上, 介绍三种常用的语义检索系统, 体现语义检索在网络信息检索环境下的优势。
关键词:语义检索,本体,语义网
参考文献
[1]黄敏, 赖茂生.语义检索研究综述[J].图书情报工作, 2008, (6) :63-66.
[2]Studer R, Benjamins R, Fensel D.Knowledge Engineering, Principles and Methods[J].Data and Knowledge Engineering, 1998, 25 (1-2) :16l-197.
[3]翁畅平, 沈娟.基于Ontology的个性化语义检索系统研究[J].图书馆理论与实践, 2009 (10) :77-80.
【网络信息检索及其局限性】推荐阅读:
网络信息检索与技巧05-27
山东大学网络教育学院 现代信息检索技术1doc 答案10-06
公共信息网络发布信息保密管理规定07-20
信息技术网络研修总结07-02
快速浏览网络信息教案09-25
网络与信息安全技术小结06-06
浅析网络时代信息传播06-26
走进信息网络时代作文06-27
远程教育网络信息系统07-03