基于本体理论的档案学及其应用研究论文

2024-06-13 版权声明 我要投稿

基于本体理论的档案学及其应用研究论文

基于本体理论的档案学及其应用研究论文 篇1

本体理论的概念最初是从哲学的层面转化而来的,档案学主动吸纳了本体理论的精华部分并将其应用到档案学的研究中来,接下来笔者将具体论述一下本体理论的相关概念。

1.本体理论的含义。中国哲学的本体观念及本体构建的方法,早就在先秦诸子百家争鸣时期就奠定了基础,经过魏晋南北朝时期的发展,发展到宋明理学时期,儒家学说和道家学说的融合,达到了成熟阶段,中国哲学的本体观念在这一时期得到了充分的展示。中国传统哲学本体理念是在生存论的基础上发展起来的,中国哲学没有真正意义上的本体论[1]5,但是在伦理规范建立的时候,由于人们对于自然和人的理解就产生了本体论,而且本体观念与认识论在后来的发展过程中一直互相渗透、相互影响。

其实,我们在政治课上通过对实践论和认识论的学习,就已经对本体理论有了一定的认识。像是我们知道的思维和存在何者为世界的本原,思维和存在何者为第一性,何者为第二性的问题,这些问题都可以作为研究本体理论的基石。也就是说在哲学的范畴之中,所谓的本体理论就是回答何者为世界的本原,也就是关于世界本性的问题。

这个时候我们可以来分析一下我们日常生活中“本”这个字的概念。本和末是相对的两个字。我们都听过这么一句话,说“物有本末,事有始终”。这里所说的“本”就是事物的根源、根基,所以人们在生活中总是喜欢追本溯源,反对“本末倒置、舍本求末”等等。这也就引申出了本的重要含义,像是“本部、本题”这两个词中的“本”就是重要的、中心的意思;像是“本人、本国、本乡、本土”这四个词中“本”就是自己的或者是自己方面的意思;再像是“本质、本意”这两个词中的“本”就是本来的、原来的意思[2]104。所以说,本体的概念总是追求最根本的东西,为自己的思想和行为寻找最终的根据。

2.国内关于本体论的研究。为了深入地认识本体理论,我们有必要了解一下国内关于本体理论的研究现状和发展趋势。随着本体理论的深入发展,这一理论不断成熟,而且运用到很多领域。

国内在本体方面的研究是比较晚的,最多也就是十年的时间,也就是说我们国家最近这几年才开始重视图书馆学、情报学、档案学等方向。不管是在理论方面还是实践方面,国内的研究都赶不上国外,只是在近几年有了突飞猛进的发展。举一个最简单的例子,就是“中国知网”,在中国知网中的文献检索记录就可以很好地反映我国国内本体论的研究方向。

从表一中我们可以看出来,在中国知网数据库中,关于本体的文献篇数在急剧上升,在2005年以后的这个时间段的研究成果是比较多的,而且也比较集中,从图一来看更为直观一些。一方面,国内对于本体的研究和应用最鲜明的特点就是,理论研究和技术都比较少,这跟国外本体领域是截然相反的。可以说,目前我国已经有相关的研究团队,但也只是初具规模,数量还是很少。最主要的原因应该就是档案学领域专业的研究人员很少。虽然国内有众多的关于本体理论的研究,但也只是停留在论文或者是一些小型的本体构建上,那些被广泛使用的本体系统少之又少。另一方面,我国的国内研究主要是侧重于对本体本身的研究,而且大部分研究人员只是简单地进行相关的讨论,未能形成系统全面的本体领域。所以说,我们国家的本体研究还是落后于其他国家的。

二、档案学本体论的研究

1.档案学的学科性质。作为档案学领域的研究人员,我们首先就要明确什么是档案学,它作为一门独立的学科,其学科性质是什么。在研究档案学的内涵的同时,要知道档案学最重要的就是它的基础理论,包括档案学理论的相关利用的重要内容,尤其是我们要突出档案作为第一手资料的原始记录性[3]39。

2.确定档案学的学科特点。档案学的学科特点在几十年的发展中日渐完善,真实性、原始记录性等特点随着时间的推移,其内容更加详尽,与档案学本体论中的“完美”相呼应。同时,档案学也在时代的变化之中不断发展其新的学科特点,积极与时代相结合,成为一门独具先进性与创新性的学科。

3.确定档案学的学科体系。学科体系主要是指某个学科中研究的类型以及互相之间构成的有机的联系。档案学也是如此,分为以下几种类型:档案学基础理论的研究、档案学应用技术的研究、档案学的开发和利用的研究[4]9。这些类型依次相连,缺少其中的一项,档案学的学科体系就不是一个统一的整体,各个环节相互配合,促进了档案学系统的高效运作。

4.确定档案学的研究方法。档案学的研究方法可大致分为两类:第一类是同其他学科相一致的研究方法,由于各学科的研究方法多种多样,在这里就不详细地进行介绍了。主要介绍的是档案学特有的研究方法:现实与历史相结合的研究方法、国际化与中国化的研究方法、现象与本质相结合的研究方法,这些都是由档案学本身所具有的特点而决定的[5]256。

三、档案学本体理论的应用

从哲学的角度看,理论指导实践这一方法论说明了我们研究一个学说其最终的目的是要服务于实践的需要,这一理论在档案学本体论中也有了充分的体现,下面就具体阐述档案学本体论在保护古建筑和口述档案方面的作用。

1.对于古建筑保护方面的应用。

(1)对古建筑的本体领域进行检索。对于古建筑的保护其实就是将有关古建筑方面的知识进行重组与继承发展的过程。而这些知识大多记载在此学科领域知名专家学者所发表的著作、依据工作实践所形成的经验中。档案信息的收集和整理、保存一直是档案工作的重中之重,目前,我们的古建筑保护部门在对信息进行整理的过程中仍然使用传统的模式,检索速度很低,甚至影响了整个档案工作的发展。

(2)利用案件推理的方法进行古建筑保护。在对古建筑的保护过程中,有些古建筑具有相似的特征,這就使得它们的保护方法同样具有相似性。所以,工作人员要利用之前在古建筑保护过程中相关案例所得到的经验与知识来进行类似保护工作[6]175。但是,如果单凭记忆来查找在文档系统中录入的相关案例具有一定的难度,而且有时也不能准确地想起与之相似的古建筑保护的文件及内容。为了更好地对古建筑进行保护和利用,我们可以采取案件推理的研究方法,将古建筑所蕴含的所有的文化和价值通过案件的推理进行充分的显示,尤其是档案内容的真实性。

2.对口述档案保护方面的应用。

口述档案对于民族文化的传承具有特殊的价值,包括文化价值、民族感情价值、科学文化价值等,而这些价值实现的前提是对口述档案加以重点保护,使其流传下来,为社会公众所利用。

(1)从档案本体论出发建立口述档案数据库。传统的口述档案传承形式是以“传承人”为传播渠道来进行的,这种方式效率低下,容易使档案的原始记录性受损,可能造成部分档案的失传。因此,我们要运用计算机本体技术来建立专门的口述档案数据库[7]427。目前,建立口述档案的数据库迫在眉睫,这是对非物质文化遗产进行保护的重要措施,要用文字、声像、图表、多媒体等形式对口述档案进行全面记录,建立口述档案数据库,利用此类数据库能确保口述档案的长期保存,使其能以更加丰富的形式呈现在读者面前,将传统的技艺与现代科学技术结合起来,实现其长久的流传,便于社会公众的利用。

(2)从本体论的本质出发——保护口述档案传承人。“口述档案”是我国非物质文化遗产其中的一个方面,口述档案的传承人如今越来越少了,如果这些群体全部消失的话,可想而知,这项非物质文化遗产也将成为历史。因此,从档案学的本体论角度出发,我们要从事物的本质中进行研究,如何保护这些口述档案的传承人至关重要。我认为首先国家应将口述档案的重要性认识起来,派专人记录老一辈传承人所掌握的一些口述档案,将其集中记录下来;另一方面,我们要培养新一代的口述档案传承人,国家加强对此项事业的资金投入与政策支持,让广大人民积极地参与到其中,确保这项技艺能代代相传。

近年以来,本体在各个领域都有很大的发展,本文从档案学的视角出发探究了档案学本体理论及其相关的应用,具体地阐述了什么是档案学本体论。同时也从理论层次的角度进行了具体分析,从如何对古建筑进行保护和对口述档案进行保护的事例中,阐述了档案学理论体系在实践方面的重要作用,人们可以利用本体所提供的语义查询相关的信息,而且非常准确、快速,这在一定程度上使得档案资源能够最大限度地实现自身的价值,满足信息用户的需求。对本体的研究进行展望我们就会发现,对本体的研究和应用还处于起步阶段,仍然还有很多问题。比如本体的构建问题,目前还没有一套成熟的方法论,我们都希望在未来,档案学能与日益先进的、各种在计算机领域、社会科学领域的本体论进行结合,从而促进档案事业向前发展。

参考文献

基于本体理论的档案学及其应用研究论文 篇2

由于组织联合作战军事演习需要耗费大量的人力、物力和财力,因此仿真想定成为缩短联合作战训练与实战的距离,辅助军队研究联合作战的重要方法和途径。在作战仿真系统充分发展的同时,对仿真结果正确性的要求也越来越高,现有的仿真校验大多从模型的角度来检查验证,已经不能满足联合作战仿真想定校验的需求。从信息联通、部队编组、作战决策等决定战争的基本要素看,联合作战是建立在网络平台的基础上的作战行动,网络结构是对其进行组织、指挥、控制和管理的基本框架,因而本体(Ontology)因其处理复杂异构信息且更加灵活的特性,适用于对信息量大、结构复杂的联合作战仿真想定系统进行校验。为解决上述问题,本文将本体理论引入联合作战的仿真想定校验。

2 本体理论

本体的概念来源于哲学,即对客观存在本质的系统描述。1993年,T.R.Gruber将其定义为“Ontology是概念模型的明确的规范说明”[1],并得到了广泛认同。Studer等对上述两个定义进行了深入的研究[2],认为Ontology是共享概念模型的明确的形式化规范说明。这一定义包含了4层含义:概念模型(conceptualization)、明确(explicit)、形式化(formal)和共享(share)。“概念模型”指通过抽象出客观世界中一些现象(Phenomenon)的相关概念而得到的模型。概念模型所表现的含义独立于具体的环境状态。“明确”指所使用的概念及使用这些概念的约束都有明确的定义。“形式化”指Ontology是计算机可读的。“共享”指Ontology中体现的是共同认可的知识,反映的是相关领域中公认的概念集,即Ontology针对的是团体而非个体的共识。

本体现已广泛应用于知识工程、自然语言处理、数字图书馆、信息检索和Web异构信息的处理和面向对象设计等领域,被当作是人机交流的语义基础。特别是1998年万维网创始人Tim Berners-Lee等人首次提出语义网(Semantic Web)的概念并在2001年进一步给出了语义网的体系结构(如图1)后[3],本体被公认为是语义Web实现的关键理论。

本体作用主要如下[4]:一是本体的分析澄清了领域知识的结构,从而为知识表示打好基础。本体可以重用,从而避免重复的领域知识分析。二是统一的术语和概念使知识共享成为可能。从本体的作用可以看出,它可以使想定领域的知识结构更加清晰,实例的描述更加统一,加上本体良好的查询推理机制,为实现仿真想定的校验提供了良好平台。

3 基于本体的仿真想定校验框架

基于本体的仿真想定,实质上是以本体作为领域内部不同主体之间进行交流(对话、互操作、共享等)的语义基础,并利用语义WEB本体语言(如OWL)建立仿真想定的形式化描述框架概念模型,如图2所示。

在此基础上进行的校验,实际上是在形式化描述代码基础上,对所建立本体模型的推理校验。与传统想定校验的“头痛医头,脚痛医脚”相比,本体语言具有更好的表达性、推理机制和可扩展性,更适合于复杂异构信息分散在不同战场空间的联合作战仿真校验。从图3可以看出,仿真想定的校验要在构建仿真想定的本体模型的基础上,归纳出仿真想定校验规则,再运用本体的查询和推理机制,采取分层校验方法,从语法层和语义层两个层次进行校验,得出推理结果后由想定用户进行修正。

4 仿真想定的校验方法

4.1 构建仿真想定本体

想定本体可以从军事领域的叙词表中转换,具体转换方法可参考文献[5],本体的构建要整理出这一领域相关的主要概念,并归纳分类,然后定义类属性,最后创建实例。目前,本体的构建可以依靠工具来完成,构建本体的工具有两类,一类是基于AI的本体描述语言工具,另一类是基于WEB的本体描述语言工具。比较流行的基于WEB的工具是Protégé,它开放了源代码,提供了本体建设的基本功能,使用简单方便,有详细、友好的帮助文档,模块划分清晰,提供完全的API接口,因此,推荐使用Protégé来构建仿真想定本体。

4.2 归纳校验规则

仿真想定出现的错误一般可以归结为两类,一是语法层次的不匹配,二是语义层次的不匹配,因此,仿真想定校验的规则也应包含两个内容,一是本体语言的规则,一是领域规则,分别对应与仿真想定输入过程中出现的语法层次不匹配和语义层次不匹配两种情况。本体语言的规则是本体语言本身包含的规则,它是本体描述语言构建的知识库的固有属性,如rdfs:Class subclasses rdf:resource,rdfs:Property subclasses rdf:resource。领域规则是在领域内进行查询推理的过程中,为了防止领域内的知识冲突而建立的规则。例如在联合作战领域,我们就可以指定这样一条领域规则:“一个作战单位至少有一个指挥所”,也就是说当存在一个作战单位,但是作战单位没有指挥所,即出现错误。

4.3 运用本体查询推理机制校验

本体的查询推理机制目前应用比较广泛的领域是信息检索,仿真想定校验可以借用这种机制,将想定谋划和录入中出现的错误与规则库内的规则进行查询与推理,以达到校验错误的目的,仿真想定的校验分语法层和语义层。

语法层校验主要针对概念之间、概念与实例之间以及实例之间的关系,使其与建模人员的知识一致,主要用于检验建模过程的正确性。采取的方法为使用推理机引擎,运用描述逻辑(DL)进行校验,校验的内容体现在相容性判定和一致性判定,运用相容判定实现概念的自动分类,帮助建立合理正确的概念层次结构;运用一致性检测查验概念定义的冲突,验证知识表达的正确性。

语义层校验是用户在建立自定义推理规则的基础上,运用OWL查询语言如OWL-QL或SPARQL对本体和规则库进行匹配查询,并将冲突项提示用户,语义层校验的流程图如图4所示。

5 结束语

本体理论、作战仿真和想定校验的研究,目前都有相对成熟的理论,但将它们结合到一起的理论和应用并不多,特别是联合作战和军事仿真已经为现代战争的制胜点,仿真想定的校验又是确保军事仿真可信度的关键,因而,研究基于本体的仿真想定校验方法,在理论上具有一定先导性,而本体理论应用于仿真想定的校验,也为人与仿真系统的交互提供了共享的一致的理解,使得想定校验更加智能、效率更高、通用性和开放性更好。但作战领域本体的构建是基于本体的想定校验的基础,也是一项复杂的基础工程,必须相关专家的介入才能够完成,需要做大量的前期工作,给实现基于本体的想定校验带来了一定的难度。

参考文献

[1]Gruber T R.A Translation Approach to Portable Ontologies[J].Knowledge Acquisition,1993,5(2):199-220.

[2]邓志鸿,唐世渭.Ontology研究综述[J].北京大学学报:自然科学版,2002(5):730-738.

[3]Berners-Lee T,Handler J,Lassila O.The Semantic web.Scientific American,2001,284(5):34-43.

[4]梁晔,周海燕.本体论与语义Web[J].北京联合大学学报:自然科学版,2007,67(3):39-43.

基于本体理论的档案学及其应用研究论文 篇3

〔关键词〕个性化;兴趣分类本体;用户模型;本体

〔中图分类号〕G251.5 〔文献标识码〕B 〔文章编号〕1008-0821(2012)09-0080-04

个性化信息服务是数字图书馆的发展方向,数字图书馆个性化服务针对不同的用户提供不同的信息服务,以满足他们不同的需要。数字图书馆个性化服务的实现过程是[1]通过对用户信息需要、兴趣爱好和访问历史的收集分析,建立一定的用户模型,并将此模型应用于网上信息的过滤和排序,因此用户需求的获取和用户建模是实现个性化服务的关键因素。由于用户兴趣不断变化的[2],反映用户兴趣的需求模型也要动态变化,但目前用户的兴趣多以关键词表达的,个性化服务也是基于关键词匹配的,并没有理解用户兴趣的语义含义。本体的概念源于西方哲学,从哲学的范畴来说,本体是客观存在的一个系统的解释。目前,本体已经成为语义Web的核心内容,将本体应用于个性化用户建模可以较好的解决理解用户兴趣语义这一问题。

1 本体的相关理论

本体的概念被引入到人工智能领域和计算机领域,其目的是克服计算机系统之间存在的“语义鸿沟”。目前,本体已经成为语义Web的核心内容,也是语义Web的语义基础。

一个本体[3]可以由类或概念、关系、函数、公理、实例等5种元素组成。根据数字图书馆个性化的情况,将本体分成3类[4]:

(1)领域本体:描述特定领域中概念与概念之间的关系。

(2)任务本体:描述特定任务或行为中概念与概念之间的关系。

(3)应用本体:描述的依赖于特定领域和任务的概念及概念之间的关系。

2 数字图书馆个性化服务的内涵

数字图书馆个性化服务是一种满足用户个体信息需求的服务方式,目前数字图书馆的个性化服务主要是通过个性化检索和个性化推荐的方式实现的,数字图书馆个性化推荐系统是从海量数据中向用户自动推荐出符合其兴趣爱好或需求的资源,如中国知网(CNKI)知识网络服务平台(KNS)将读者相似文献的链接及推荐文献阅读服务,数字图书馆个性化服务的一般思路是:根据用户的个性化需求,建立用户模型,根据用户模型对用户进行过滤,将用户可能感兴趣的文献自动推荐给用户,再根据用户对推荐内容的反馈,对用户模型进行修正,再进行下一轮的推荐。

3 基于本体用户模型的设计

个性化服务系统首先获取用户的兴趣偏好信息,建立起用户的兴趣模型,采用本体描述用户兴趣时,把用户的兴趣以层次结构来描述,从而为用户提供更加全面的推荐。

基于本体的个性化用户模型主要包括用户行为的收集、用户兴趣的抽取、用户兴趣的更新、兴趣模型的表示以及个性化兴趣本题库这几个部分,如图1所示。

图1 基于本体的个性化用户兴趣模型

基于本体的用户模型由3个部分组成[5]:用户个人信息、个性化领域本体、个性化信息需求,用一个三元组表示为:User Model=(Persona,Person0,PersonR),式中Persona表示用户的个人信息,即用户的姓名、性别、年龄、学历、专业背景等,Person0表示用户信息的个性化领域本体,PersonR表示用户的个性化需求。

3.1 用户兴趣本体的表示

在实际中,每个人都有兴趣、爱好,体现在浏览数字图书馆信息内容方面,虽然每个用户都有不同的信息需求,但是一定的知识背景、工作性质决定了用户会有相当稳定的兴趣和信息需求,为了区分用户的兴趣类别,本文参照中图法建立起数字图书的分类本体,是一个只含类及其子类的树状结构,上层父类是对下层子类共同属性的概括,而下层子类是对上层父类的细化,所有子节点之间形成平等的兄弟关系,分类层次越细,描述用户的兴趣类别就越具体,图2是生物本体部分结构图,用户的兴趣本体映射来自此本体,一般是此本体的子集。该本体主要用于分类,其中只含有Subclass Of关系,没有其他属性。

用户的兴趣本体是兴趣分类本体的部分映射,用户的兴趣本体只映射到兴趣类别的那一层,例如一个用户的感兴趣图书的类别是{运输经济、中美关系、食品卫生},那么该用户的兴趣本体就是如图3这种形式:3.2 基于本体的用户兴趣度的获取

要获取用户感兴趣的图书,就有必要分析用户的访问日志,数字图书馆网站服务器真实记录了用户访问网站的所有日志,其中不仅记录用户的基本信息,而且记录了用户访问的路径,反应页面的关系,数据挖掘从这些日志中挖掘出用户行为有用的模式,兴趣度是用户对某一网站感兴趣的程度,数字图书馆可以根据用户的兴趣度进行个性化服务,从文献[3]可知,通过访问网站的时间和频度来计算用户的兴趣度是一种有效的定量计算的方法,主要表现在用户如果对某一网页感兴趣,则必然浏览该网页的时间更长和会经常重复浏览该网页,使用F=(n/N+t/T)l/L[6]公式来定量计算用户的兴趣度,其中n为访问该节点的次数,N为本次的访问次数,t为访问本节点消耗的时间,T为访问网站的总时间,l为本次访问的节点数,L为网站的总节点数,从Web日志中可以计算出用户的兴趣度,以江苏广播电视大学超星数字图书馆为例来计算用户的兴趣度,数据来源于江苏广播电视大学超星数字图书馆 2011年3月22日的一段日志:

2010 12-31 05∶54∶28 220.177.9.112-210.28.216.236 80 GET/09/diskRKF/RKF27/04/000073.pdg SSDOWNLOAD/3.8.0.0002+unRegister日志各段数据的含义为:

①访问时间——2011-03-22 05∶54∶28

②用户IP地址——220.177.9.112

③服务器地址和端口——210.28.216.236 80

④用户请求信息的方法——GET

⑤用户访问的节点——/09/diskRKF/RKF27/04/000073.pdg

⑥以未注册用户的身份下载——SSDOWNLOAD/3.8.0.0002+unRegister

以IP为116.54.82.62的用户在2010年12月31日访问江苏广播电视大学超星数字图书馆的日志为例,进行数据格式化处理,如表1。

江苏广播电视超星图书馆共有22个总节点数,由表1可以得出,此用户的兴趣度为:

文学=(3/5+39/61)3/22=0.17

经济=(2/5+22/61)2/22=0.07

3.3 基于本体的用户模型的更新

本文借鉴文献[7]中用户模型更新的思想,采用激活扩散模型对用户描述的兴趣度进行更新,激活扩散模型是搜索关联网络、神经网络、语义网络的一种方法。

激活扩散算法如下:

输入:含兴趣值的本体化用户描述

输出:含更新的激活的本体化用户描述

其具体表示为:

For each Cj∈CON do

IS(Cj)=IS(Cj)+Cj.Activation;

End

CON={C1,C2,…,Cn}∥用户给予兴趣值的概念,如本文中C1为文学,C2为经济。

IS(Cj)∥表示概念Cj的兴趣值,如本文中文学的兴趣值为0.17,经济的兴趣值为0.07

Cj.Activation∥激活值

Cj.Activation=IS(Cj)*sim(di,Cj)

sim(di,Cj)∥用余弦相似度度量书名向量di与概念Cj的相似值。

4 基于本体用户模型的实现

本模块主要用于用户的兴趣表示以及用户模型的更新功能。

4.1 图书信息分类本体的建立

为了实现该模型,首先建立图书信息分类,通过参考中图法分类,使用protege3.4.8建立一个含有图书类别的概念,作为实验的本体,图4是经济类图书部分分类的层次结构,分类本体起着重要的作用,表现在:

(1)分类本体映射到用户的兴趣本体。

(2)分类本体辅助完成用户模型的更新。

4.2 用户兴趣的获取

当建立分类本体后,可以根据每个用户的兴趣构建兴趣本体,在数字图书个性化服务中,采用用户注册的方法来获取用户初始化兴趣。用户注册时,除了注册用户的一些基本信息外,还要选择用户的兴趣类型。

4.3 用户兴趣的更新

在数字图书个性化服务中,用户只需要完成一次注册,当其兴趣发生变化时,不需要用户手工定制兴趣类型,采用激活扩散模型完成用户兴趣的更新。这样,可以根据用户的浏览爱好对兴趣模型进行更新。

5 基于本体用户模型的个性化服务推荐流程

个性化服务的目的是从海量数据中向用户自动推荐出符合其兴趣爱好的资源,个性化推荐服务的主动方是系统平台,自动向用户进行推荐,基于本体用户模型的个性化推荐服务的流程如图5,其过程如下[8]:

(1)用户注册登录进入个性化服务系统,在注册过程中,除了注册基本信息,还要进行个性化定制,形成初始的用户模型。

(2)用户在浏览数字图书馆时,形成的浏览访问日志,对日志分析后与初始的用户模型迭加,形成该用户的基于本体的用户模型。

(3)系统推荐的用户潜在的需求的服务被推送到个性化推荐服务,用户进行浏览。用户对服务推荐结果的浏览行为也被系统用于更新用户模型。

6 结 语

数字图书馆资源的迅速发展,面对海量的资源,为了帮助用户找到其感兴趣的信息,个性化服务成了研究的热点。用户模型作为用户兴趣的可计算描述,已经成为个性化服务研究的重点。在传统的基于向量的用户模型中,各关键字互不相关,导致语义信息的缺失。本文使用分类本体得到用户的兴趣本体,可以改善传统用户模型语义不足的缺陷。

参考文献

[1]罗宇红.数字图书馆个性化信息服务实践研究[J].图书馆论坛,2010,(8):75-77.

[2]潘家武.基于领域本体的数字图书馆动态用户兴趣模型的构建[J].图书情报工作,2010,(8):64-67.

[3]邓志鸿,唐世渭,张铭等.Ontology研究综述[J].北京大学学报:自然科学版,2002,(5):730-738.

[4]肖敏.领域本体的构建方法的研究[J].情报杂志,2006,(2):70-74.

[5]熊回香,陈姗,许颖颖.基于Web 3.0的个性化信息聚合技术研究[J].情报理论与实践,2011,(8):95-99.

[6]郭家义.数字图书馆个性化服务信息行为的收集与分析[J].图书馆杂志,2003,(1):25-27.

[7]Ahu Sieg,Bamshad Mobasher,Robin Burke,Web search personalization with ontological user profiles[C].Proceedings of the sixteenth ACM conference on Conference on information and knowledge management,November 06-10,2007.

[8]曾春,邢春晓,周立柱.个性化服务技术综述[J].软件学报,2002,(10):1952-1961.

基于本体理论的档案学及其应用研究论文 篇4

整体/部分WP关系是现实世界中的一个非常重要的关系,在解剖学、生物医学、CAD等学科中,WP关系无处不在,它反映了现实世界中一个对象和其组成部件之间的关系。因此,无论在软件工程还是在知识工程的模型建立中,WP关系扮演了一个重要的角色。特别随着本体论在计算机领域的深入应用,WP关系已经被认为是本体分析中的一个重要形式分析基础[1]。但在本体的研究中,存在着形式化程度不够的问题,人们常用自然语言解释这些特征,然而这样的解释通常是不准确的。另外,随着计算机应用的普及,处理的数据越来越复杂,涉及到的WP关系也越来越复杂,难免在建模过程中出现错误。特别是知识库处于不断的更新之中,这时也难免出现新旧知识的不一致及知识冗余的问题,但目前的研究对WP关系中的错误检查涉及得太少。因此,首先基于本体模型,给出了WP关系的特征的形式化描述。在此基础上,利用WP关系的相关特征给出了WP关系中常见错误的形式判定规则。

1 WP关系概述

一个WP关系包括一个整体对象(类)和一个部分对象(类),所以WP关系是一种二元关系。在现实世界中,一个实体由许多部件构成,实体中的整体对象具有管理和控制部分对象的功能[2],这是WP关系与其它关系的本质区别。所以在WP关系中,存在着许多其它关系没有的特征,在这些特征中,有的是每个WP关系都具有的,而有的仅仅是某些WP关系才有的。因此在 文献[2,3,4]中,从两个方面研究WP关系的特征:所有WP关系都具有的特征,被称为WP关系的主要特征,仅存在于某些WP关系中的特征,被称为WP关系的次要特征。因为次要特征体现了不同WP关系的特点,所以次要特征通常作为对WP关系进行分类的标准[5]。

WP关系的主要特征[4]包括:

(1)显现特征

是整体对象的一种性质,它综合反映了所有部分对象的功能,不能由其组成的部分对象的任何性质计算得到。例如汽车的性能。

(2)合成特征

是整体对象的一种性质,它由构成整体对象的所有部分对象或某些部分对象的性质计算而来。例如汽车的重量。

(3)在类型层反对称

如果一个对象类A是对象类B的部分,反过来,如果对象类B是对象类A的部分,则A=B。

(4)在实例层非对称

即在实例层是反对称和反自反的。

WP关系的次要特征[4]包括:

(1) 封装性

即内部信息对外界是不可见的。

(2) 生命周期

对象的生命周期指一个对象从创建到消亡的过程。

(3) 传递性

即如果A是B的部分,B是C的部分,则A是 C的部分。

(4) 共享性

即一个部分对象(类)可以是2个或2个以上整体对象(类)的部分。

(5) 可分离性/不可分离性

不可分离性即指部分对象不能脱离整体对象而单独存在,反之则为可分离的。

(6) 易变性/不变性

不变性即指在一个WP关系中,部分对象与整体对象是不能被同类中的其它对象所替换,是同时创建和同时消亡的,反之是易变的。

2 基于本体的WP关系的特征的形式化分析

本体是应用领域的概念化表示,基于本体的概念模型描述了应用领域中的术语和术语之间的关系以及构成术语及术语间关系的规则,因此一个本体定义如下:

定义1 一个领域本体O由六元组(C,A,R,F,S,X)构成,其中C是领域中概念的集合,A是领域中概念的属性的集合,RC中概念间关系的集合,F是领域中函数的集合,SC上所有实例的集合,X是领域中永真断言的集合,记作O=(C,A,R,F,S,X)。

基于以上定义的本体框架,概念集合C中的一个类的定义如下:

定义2 在一个领域本体O中的概念集合C中,一个类D由六元组(CD,AD,RD,FD,SD,XD)构成,其中CD是组成类D的所有部分类的集合,AD是概念D的属性的集合,RD是定义在CD上关系的集合,FCD上函数的集合,SDD的实例的集合,XD上永真断言的集合。当CD=Ø时(Ø表示空),称为原子类,否则称为复合类,记作D(CD,AD,RD,FD,SD,XD)。

以下讨论的类都是复合类。在定义2中,对于CD中的每一个类D′,DD′ 构成一个WP关系。

基于以上定义,以下研究WP关系的特征的形式化描述。为了形式化定义这些性质,首先说明定义中用到的符号:大写字母A,B,… 表示类,小写字母a,b,…表示实例;定义符号◇∈R表示WP关系,ab表示ab的部分,◇tR表示在时刻t的WP关系,atb 表示在时刻t,ab的部分;create(a)表示对象a的创建操作,如创建成功则为“真”,否则为“假”;del(a)表示删除对象a的操作,如删除成功则为“真”,否则为“假”。

2.1 WP关系的数学性质

在WP关系中,一个实例:自己不能是自己的部分[4]。例如在一辆汽车中,左前轮不能是左前轮的一个部分。但对象类却不是这样,例如汽车部件类可以是汽车部件类的部分类[2]。因此,WP关系在类型层是反对称的,在实例层是非对称,另外传递性在WP关系中并不一定总是成立的[2,5]。

定义3 在本体O中,∀D1,D2∈C,如果D1◇D2,D2◇D1,则D1=D2,称该WP关系在类型层是反对称的。

定义4 在本体O中,∀d1,d2∈S,如果d1◇d2,d2◇d1,则d1=d2 ,且∀dS,dd不成立,称该WP关系在实例层是非对称(即是反对称和反自反的)。

定义5 在本体O中,∀D1,D2,D3 ∈C,如果D1◇D2 ,D2◇D3,则D1◇D3时,称该WP关系是传递的。

2.2 显现特征与合成特征

合成特征[4]是整体对象中的一种性质,它由构成整体对象的所有部分对象或某些部分对象的性质计算而来。例如汽车的重量是由汽车的各个部件的重量计算得到。而显现特征[4]也是整体对象中的一种性质,它综合反映了所有部分对象的功能,不能由其组成的部分对象的任何性质计算得到。例如汽车的性能是汽车各部件的综合反映,难以从组成汽车的各部件的性质计算得到。这两种特征都是通过整体类的属性反映出来的,形式描述如下:

定义6 在类D(CD,AD,RD,FD,SD,XD)中,设CD={ D1,D2,…,Dn},即DkD(k=1,2,…,n),如果∃D.property∈AD,使得D.property =Φ(Di1.property1,Di2.property2,…,Dim.propertym),其中,DijCD,Dij.propertyjADij,j=1,2,…,m,mn,Φ是一个函数,则称该属性为具有合成特征的属性。

定义 7 在类D(CD,AD,RD,FD,SD,XD)中,设CD={ D1,D2,…,Dn},即DkD(k=1,2,…,n),如果∃D.property∈AD,使得不存在任何函数Φ,使D.property=Φ(Di1.property1,Di2.property2,…,Aim.propertym)成立,其中,DijCD,Dij.propertyjADij,j=1,2,…,m,mn,则称该属性为具有显现特征的属性。

2.3 共享性

在WP关系中,一个部分对象(类)可以是2个或2个以上的整体对象(类)的部分时叫共享。整体/部分关系中的共享有以下三种,定义如下:

定义 8 一个本体O中的两个不同的类D(CD,AD,RD,FD,SD,XD)和E(CE,AE,RE,FE,SE,XE),如果存在本体O中的一个类B,BCD,BCE(即BD,BE),并且∃bSB(类B的实例集合),∃dSD,∃eSE ,使得btdbte成立时,称为全局共享。

全局共享即为一个部分对象可以被不同整体类的对象共享。例如,一篇文章既可以发表在杂志上,同时也可以被其它报纸引用发表。报纸和杂志属于不同的类。

定义9 一个本体O中的类D(CD,AD,RD,FD,SD,XD),如果存在本体O中的一个类BCD,即BD,并且∃bSB,∃d1,d2∈ SD ,d1≠d2,使得btd1和btd2成立时,称为局部共享。

局部共享即为一个部分对象可以被同一个整体类的不同对象共享,例如,一堵墙可以被不同的房间共享,不同的房间是属于同一个类。

定义10 在类型层是共享的,但在实例层是不共享的,即在一个本体O中的两个不同的类D(CD,AD,RD,FD,SD,XD)和E(CE,AE,RE,FE,SE,XE)中,如果存在本体O中的一个类B,BCDBCE, ∀bSB,∀dSD,∀eSE,de,使得btdbte不能同时成立时,这种共享称为概念共享[4,6] ,称类B具有排它性。

例如在类型层上,轮子类可以被两轮车类和三轮车类共享,但在实例层上,一个轮子不能同时既是两轮车的轮子又是三轮车的轮子,因此这种共享在类型层是成立的,但在实例层不成立[2]。

2.4 可分离性/不可分离性与易变性/不变性

可分离性是指部分对象可以脱离整体对象而单独存在,例如轮子可以脱离汽车单独存在,反之是不可分离的,例如心脏是不能脱离人体而存在的。易变性即为在整体对象存在的生命周期里,部分对象可以被同一个类中的其它对象所替换。例如,一辆汽车的轮子可以被同类的其它轮子所替换,反过来,不变性即为在一个WP关系中,组成WP关系的整体对象和部分对象是永远不变的,即它们具有相同的生命周期,同时创建同时消亡,例如人的大脑和人。因此可以看出,如果一个WP关系是可分离的,它一定是易变;如果一个WP关系具有不变性,则它一定是不可分离的[2,6],以下我们仅给出不可分离性和不变性的形式定义。

定义11 一个本体O中的类D(CD,AD,RD,FD,SD,XD),设BCD(即BD),如果∀aSD,(bSB,使得create(a)⇔create(b),del(a)⇔del(b),且在ab存在的任何时刻t,ba成立,则称这种WP关系具有不变性。

定义12 一个本体O中的类D(CD,AD,RD,FD,SD,XD),设BCD(即BD),∀bSB,如果在b存在的时刻t,∃aSD,使得bta成立,则称这种WP关系具有不可分离性。

不可分离性说明了在时刻t,当对象b存在时,它一定依附于某个对象a,但在b存在的生命周期里,b所依附的整体对象却可以改变。例如,心脏是人体的一部分,依赖于人体而存在,但是它可以从一个人体内移植到另一个人体内。

3 WP关系中的不一致性形式判定规则

综上所述,概念的WP关系满足以上特点和性质,因此可以用它们来判定知识库中的某些错误。在知识库中,由于知识不断的更新,通常会造成知识库中的错误,根据大量的事例分析,我们总结出WP关系中的三类错误:

(1)不一致性错误:即为有矛盾的知识;

(2)不完全错误:即为知识定义中的不完整性;

(3)冗余错误:即为重复的定义。

为了给出相应的形式判定规则,我们沿用了前面约定的符号,同时定义布尔函数Exclusive(A),当类A具有排它性时,即概念共享时,该函数为“真”,否则为“假”。为了简洁,以下的研究默认为在本体O中进行的。

3.1 不一致性错误

3.1.1 循环错误

(1)实例层的循环错误:

由于WP关系在实例层满足反自反性和反对称性,因此,一个实例不能直接或间接地(当传递性成立时)是自己的部分。其形式判定规则为:

Rule 1:If a◇a then error(“循环错误”)

Rule 2:If a◇b1 and b1◇b2 and……bn◇a then error(“循环错误”)

Rule 3: If (a◇b and b◇a and a≠b)then error(“循环错误”)

(2)类型层的循环错误:

由于WP关系在类型层满足反对称性,因此当引擎是汽车的部件,反过来,如果汽车直接或间接地(当传递性成立时)是引擎的部件时,也发生了循环错误。

Rule 4:If (A◇B and B◇A and A≠B) then error(“循环错误”)

Rule 5:If ((A◇B1 and B1◇B2 and…Bn◇B) or (B◇A1 and A1◇A2 and…An◇A)) and (A≠B) then error(“循环错误”)

3.1.2 语义错误

在一个对象类D(CD,AD,RD,FD,SD,XD)中,当一个对象不是另一对象的部分时,却错误地建模为WP关系。例如,将汽油作为汽车的一部件时,则发生了语义错误。

Rule 6:If not(D1◇D) and (D1∈CD) then error(“语义错误”)

3.1.3 共享性错误

在类型层是概念共享时,在实例层却是一般共享,则发生了共享性错误。

Rule7:If (D◇D1 and D◇D2 and D1≠D2 and exclusive(D)) and (∃d1∈CD1,∃d2∈CD2,∃c∈CD(c◇t d1 and c◇t d2) ) then error(“共享性错误”)。

3.2 不完全错误

一个对象类由若干个部分类构成,但如果没有完整的定义出一个类的所有部分类,就发生了不完全错误。

Rule 8:if (F◇D) and (F∉CD) then error(“不完全错误”)。

3.3 冗余错误

在WP关系中,一个对象(类)由许多部分对象(类)构成,而每一个部分对象(类)又由其它部分对象(类)构成。因此一个对象(类)与它的所有部分就构成了一个对象(类)的层次结构,在这样的结构中,如果一个WP关系出现了两次或两次以上时,则WP关系在实例层(类型层)上发生了冗余错误,另一方面,当两个类或者对象有着完全一致的定义但名称却不同时,也出现了冗余错误。

(1) 当一个类以两个不同的类名D1和D2重复定义时:

Rule 9: IF (CD1=CD2) then (“冗余错误”)

(2) 当一个对象以两个不同的对象名重复定义时:

Rule 10: IF (a=b) then (“冗余错误”)

(3) 当传递性成立时,如一个WP关系在一个类的层次结构中出现两次以上时:

Rule 11:If (A◇dA1 and A2◇d A3 and…An◇d B) and (A◇dB) then error(“冗余错误”)

(4) 当一个WP关系的实例的层次结构中的出现两次以上时。

Rule 12:If (a◇d a1 and a2◇d a3 and…an◇d b) and (a◇db) then error(“冗余错误”)

注意:在这里,我们强调符号“AdB”仅仅表示AB的直接后继,即AB之间无其它WP关系。

4 结束语

综上所述,在WP关系中,除了隐含着一个对象是另一个对象的组成部分之一外,还有更加丰富的语义关联,这些语义通过各种各样的特征表现出来。由于知识处于不断地增加与更新之中,难免造成知识库中知识的错误,导致知识库维护困难。因此首先基于本体对WP关系的特征进行形式化描述,在此基础上,提出了一序列相关知识的形式判定规则,这对知识库的维护是很重要的。今后我们将继续研究本体中其它关系的形式化表示及其相关的错误判定规则,同时研究并开发自动判定错误的工具。

摘要:整体/部分WP(whole/part)关系在计算机领域建模中无处不在。在一个WP关系中,由于整体对象具有管理和控制部分对象的功能,因此WP关系存在着许多其它关系没有的特征。但本体的研究中,存在着形式化程度不够的问题,人们常用自然语言解释这些特征,然而这样的解释通常是不准确的。另一方面,由于知识处于不断的增加与更新之中,难免造成知识库中知识的错误,导致知识库维护困难。因此本文首先基于本体对WP关系的特征进行形式化描述,在此基础上,根据WP关系的特征提出了一系列相关知识的形式判定规则。

关键词:WP关系,主要特征,次要特征,形式判定规则

参考文献

[1]Guarino N.Some organizing principles for a unified top-level ontology[C].In Spring Symposium Series on Ontological Engineering,Stan-ford,AAAI Press.1997:57-63.

[2]Barbier F,Henderson-Sellers B,Parc-Lacayrelle AL,Bruel J M.Formal-ization of the whole-part relationship in the unified modeling language[J].IEEE Transaction Software Engineering,2003,29(5):459-470.

[3] Henderson-Sellers B,Barbier F.What Is This Thing Called Aggregation[C].In Proc.TOOLS EUROPE’,1999:236-250.

[4] Henderson-Sellers B,Barbier F.Black and White Diamonds[C].In Proc.Second Int’l Conf.Unified Modeling Language(UML’98),1999:550-565,

[5]Winston M,Chaffin R,Herrmann D.A Taxonomy of Part-Whole Rela-tions[J].Cognitive Science,1987,11:417-444.

基于本体理论的档案学及其应用研究论文 篇5

随着信息技术的迅速发展, 用户对学术论文的查询和获取基本上依靠论文检索平台和学术搜索引擎。传统的论文检索算法通常基于查询项匹配和相似概念扩展, 利用词语集合BOW (Bag of Word) [1]来表达用户查询和文档内容, 在此基础上计算两者相关度, 对检索结果进行排序。随着语义Web技术研究的发展, 本体论和语义搜索[2]被应用于信息检索领域, 文献[3]提出用本体概念代替关键词进行检索, 利用改进的向量空间模型计算查询与文档的相关度;文献[4]考虑基于通用语言本体Word Net形成概念的同义词链, 并构建动态语义网络, 对文档进行检索和排序。针对中文论文检索, 文献[5]提出将本体论应用于论文检索, 根据语义词典的等价、上下位表达式来进一步扩展查询结果;文献[6]改进了概念相似度计算模型, 通过基于本体的扩展查询和过滤机制来提高准确率和召回率。

目前已有方法在一定程度上提高了论文检索性能, 但主要存在3个方面问题: (1) 文档表达上缺乏语义理解[7], 词语集合BOW或者概念集合不能体现出专业术语在领域知识内存在结构上和语义上的联系; (2) 基于上下位关系、近似概念的扩展查询方法粒度较粗, 容易产生“查询漂移”[1]; (3) 已有查询与文档的相关度算法依赖于概念匹配和词频统计, 以此为基础的结果排序准确性不高。

针对已有检索方法存在的不足, 本文从研究增强论文文档的语义表达入手, 以领域本体为知识背景, 用领域本体的概念来代替一般关键词, 以基于语义网络的语义模型来取代基于词语集合BOW的词汇模型。用语义网络来表示论文文档, 能更准确反映术语概念在内容、结构以及内涵上的关系, 充分利用本领域内的知识背景, 从而更准确有效地表达文档内容和用户查询意图。建立在语义表达模型基础的论文检索方法能够进行与领域知识相关的检索匹配和结果排序, 而不是简单针对查询项的关键字匹配。本文以计算机领域专业论文检索为例, 首先构建领域本体, 进一步构建语义网络作为论文文档语义表达;采用语义相似度算法度量查询与论文的相关度, 综合进行结果排序;最后通过实验验证提出方法的有效性。

1 领域本体构建

领域本体通过确定特定领域内共同认可的概念, 以形式化模式给出概念之间相互关系的明确定义, 提供对领域知识的共同理解。基于分类体系和叙词表扩展[8]是构建领域本体的常用方法。目前用于计算机领域的数字图书馆和论文分类检索方面的分类体系, 主要有国外的ACM计算机分类体系 (ACMCCS) 以及国内的《中国图书馆分类法》及《中国分类主题词表》。

本文以《中图法》为基本分类体系, 选取“计算技术, 计算机技术 (TP3) ”分支为例, 使用本体构建工具Protege, 基于OWL 2本体语言构建用于计算机领域论文检索的实验本体。该本体中概念主要可归纳为三种类型: (1) 分支类C:基本分类体系的节点, 形成基本层次框架; (2) 主题词T:对应《主题词表》中的检索词, 作为分支类C下的实例; (3) 实例I:对分支类C、主题词T下的具体对象进行更细致的描述, 弥补主题词数量有限, 描述不够精细的不足。本体中概念联系可归纳为概念间层次上或语义上相应二元关系RS。

定义1领域本体DO包含概念 (分支类C、主题词T和实例I) 及概念间关系二元组RS, 本体四元组表示为:DO= (C, T, I, RS) , 其中二元关系RS主要包括4种类型:

其中ISA表示分支类C间的层次关系;SeeAlso表示分支类C、主题词T中出注释到其他分支的参照关系;IncludeOf表示主题词T对应分支类C的所属包含关系;MarkedBy表示实例I被分支类C、主题词T所标识。图1所示为TP311分支部分领域本体片段。

针对词汇存在“多词同义”现象, 如“程序设计”与“软件设计”等, 为本体概念定义多个标签属性[2], 使多个同义词汇在语义上能映射到同一概念。考虑到论文专业术语大多意义明确形式唯一, 仅对于常见的同义检索词进行标签属性扩展。

2 基于领域本体的论文检索

2.1 论文检索算法流程

论文检索的算法流程包括两个阶段: (1) 构建文档语义表达模型:根据实验领域本体的概念和关系构建反映文档领域知识内容结构的语义网络, 主要有语义信息标注索引和语义网络构建2个步骤; (2) 论文检索排序:根据用户查询请求计算查询与语义网络之间相关度, 对文档进行排序。具体算法流程如图2所示。

2.2 文档语义表达模型构建

2.2.1 语义标注索引

文档预处理主要对论文文档标题、摘要、关键词部分的文本进行中文分词和去除停用词处理, 仅保留名词、动词、形容词和字符串等构成文档标引词集合WS。本文采用中国科学院开源的中文分词工具ICT-CLAS。

语义标注实现由文档预处理后的标引词到本体概念的映射, 考虑到论文中的概念基本上以显式的方式出现, 采用标签属性对应的标注方式[2]。

定义2文档d从标引词集合WS映射到领域本体DO (C, T, I, RS) 中的概念集合CS:

其中wjLabelPropertyOf ci表示标引词wj与概念ci的标签属性对应。一般地, 概念出现次数反映了概念相对于文档具有不同重要性, 采用TF*IDF算法计算概念对于文档的权重。

定义3概念ci在文档d的重要性权值:

其中Freq (ci, d) 表示概念ci在文档d中出现的频数, 为使对词频TF不因文档长度影响, 用与该文档中最大词频max Freq (cj, d) 的比值来表示, D表示检索空间的文档全集, Dci表示被ci标注的文档集合。为使标注信息与文档本身解耦, 方便提取和分析, 将概念和权值等标注信息建立正排索引和倒排索引, 并将索引元组独立存入关系数据库。索引建立过程如图3所示。

2.2.2 语义网络构建算法

语义网络SN (Semantic Network) 是人工智能中知识表示的一种方法, 由代表概念的节点和代表概念间关系的边组成的图结构。用语义网络模型来表达文档, 与词语集BOW模型相比能更准确反映概念的内容、结构和关系, 充分利用本领域内的知识背景[7]。构建文档的语义网络模型, 首先将文档中索引的概念节点以及领域本体背景中存在的关系边加入所形成网络中, 然后考虑到文档“概念稀疏”[3]的情况, 需要扩展相关概念来充实语义表达。基于上下位扩展方法粒度较粗, 本文采用综合路径和层次的距离方法[9]来控制扩展范围。

定义4领域本体DO中概念ci, cj间最短路径Lmin (DO, RS, ci, cj) 表示所有通过二元关系RS为边连接概念节点ci, cj的路径中边数最少的路径;距离Dist (ci, cj) 定义在最短路径Lmin上:

其中Pi, Pj表示概念ci, cj到本体中层次最深的共同父节点cp之间的层次差;Hp表示共同父节点cp所处的层次。

在已经建立的领域本体DO (C, T, I, RS) 中, 结合文档所标注的概念集合CS以及概念间路径和距离关系, 构建表示论文内容的语义网络:SN= (CS, RS) 。

语义网络构建算法SNCreate (DO, RS, CS, Thr)

DO:包含全部概念和关系集合领域本体;

RS:概念间的关系集合, 包含定义1列出的关系;

CS:文档中经语义标注后的概念集合;

Thr:概念扩展的距离阀值;

算法步骤:

算法中控制概念扩展的距离阀值Thr的取值取决检索扩展要求及本体树的层次和规模, 根据所建立领域本体的特点, 将扩展限制在概念密集的4~5层, Thr取值0.25。

2.3 相关度计算与排序

检索结果排序取决于查询与文档的相关度。基于语义的文档排序通常基于概念语义相似度计算, 主要考虑概念两方面的特征:路径长度和层次深度。其中路径长度受不同边 (概念间关系) 类型影响, 采用基于关系权值[4]的方法计算路径长度。

定义5语义网络SN中概念ci到cj路径长度length (ci, cj) 定义在最短路径Lmin (DO, RS, ci, cj) 上:

其中σr表示Lmin路径上的边对应关系r的关系权值, 关系类型对应不同权值, 赋予不同关系类型对路径不同的影响系数, 参考相关实验验证设置[4], 本文参考取值如表1所示。

定义6语义网络SN中概念ci, cj间的语义相似度:

其中length (ci, cj) 表示路径长度, depth (ci, cj) 表示ci, cj公共父节点所在的层次深度, α, β为路径长度与层次深度的调节参数, 参考基于分类体系本体的验证结果[10], 取值为0.2, 0.6。

对于用户查询Q, 进行定义2处理可得到形成表达查询的概念集合QS, 同时考虑分析用户的查询特点, 采用位置加权方法, 对概念较集中的位置 (如标题、关键字) 赋予不同的影响系数。

定义7用户查询Q概念空间QS与文档语义网络SN的语义相关度:

其中λpos为位置权值系数, 参考文献[4]分析结果, 分别对应标题、关键字、摘要的权重设置为2, 1, 0.5。

基于语义网络方法很大程度上依赖于所建立本体的概念精细程度以及文档中出现的概念数量, 考虑到“概念稀疏”问题, 结合基于语义网络和基于关键词方法, 对检索结果进行排序。

定义8用户查询Q与论文文档d的相关度:

其中Relk (Q, d) 表示采用向量空间模型, 用余弦公式计算出的基于关键字的相关度值。θ反映对基于语义方法的偏重, 取值可根据文档中的概念数量调节, 本文θ取值0.7。

3 实验验证与评价

3.1 实验设置

实验采用《中图法 (第四版) 》及对应的《主题词表<分类号-主题词>分表》为基本分类体系, 以“计算机软件 (TP31) ”分支为例, 建立实验本体, 概念情况如表2所示。

在开源检索系统Lucene上改进建立语义索引, 使用关系数据库MySQL存储标注信息和语义网络模型, 采用开源框架Jena进行本体解析, 基于JSP开发论文检索实验系统。

实验数据选择上从中文期刊论文平台CNKI上获取已分类的特定领域论文, 选取“计算机软件”分支下的来自国内计算机领域核心期刊的论文共1 021篇, 其中“程序设计”相关论文256篇、“软件工程”相关论文219篇、“数据库系统与理论”相关论文546篇, 构建实验数据集。

3.2 结果分析

目前检索系统性能评价指标主要有3个:准确率 (Precision) 和召回率 (Recall) 和F-度量值 (F-measure, 常用F1指标) 。具体定义如下:

其中Docr, Doca, Docg分别表示检索得到且相关的论文数、检索得到的论文数、所有相关的论文数。

在构建的实验数据集上, 分别采用基于关键字匹配方法 (KW) 、基于语义词典方法[5] (SD) 、基于概念相似度方法[6] (SS) 与本文方法 (SN) 进行检索性能比较。主要进行两方面的性能测试: (1) 综合检索性能测试, 关注准确率-召回率曲线; (2) 复杂查询适应能力测试, 关注综合指标F1, 分别构造5组查询, 用户查询的长度分别为1~5个关键词。测试结果比较如图4所示。

实验结果比较表明: (1) 准确率-召回率曲线对比可以看出本文方法的综合检索效能指标比其他方法有明显提升, 分别平均高出10.1%, 8.2%, 5.7%, 表明基于领域本体和语义网络方法能更有效地进行概念查询扩展和相关度排序。 (2) 针对查询复杂度的检索结果对比可以看出, 提出方法能适应详细复杂的查询输入, 当查询中包含多个领域专业词汇, 如图4 (2) 中组别4和5, 其他方法的检索性能明显降低, 本文方法对概念扩展进行有效控制, 优势突出。

4 结语

本文提出一种基于领域本体的论文检索方法, 利用学科分类体系构建计算机领域本体, 建立语义网络作为文档在语义层面上的表达, 计算查询与语义网络的相关度对检索结果进行排序, 实现基于语义的论文检索。本文方法能克服传统查询项关键字匹配, 基于相似概念简单扩展、缺乏语义理解、扩展粒度粗、检索结果相关性不高的问题, 实验结果表明该算法能够有效提高检索性能。下一步工作主要是考虑基于本体推理的论文形式化查询方法, 进一步提高论文检索的有效性和精确性。

摘要:针对传统的论文检索方法缺乏语义理解, 检索结果相关度不高的缺点, 采用基于语义网络的文档语义表达模型, 提出一种基于领域本体的检索方法。首先结合学科分类体系构建领域本体, 并对论文文档进行语义索引;然后根据本体知识和索引信息构建基于语义网络的文档语义表达模型;最后改进用户查询与语义网络的相关度算法, 综合关键词和语义的方法实现结果排序。实验结果表明, 该方法能有效地提高论文检索的准确率和召回率。

关键词:领域本体,语义检索,论文检索,语义网络

参考文献

[1]Christopher D Manning, Prabhakar Raghavan, Hinrich Schutze.Introduction to information retrieval[M].England:Cambridge University Press, 2008.

[2]Kiryakov A, Popov B, Terziev I, et al.Semantic annotation, indexing, and retrieval[C].Berlin:SpringerVerlag, 2003:484-499.

[3]Fernández M, Cantador I, López V, et al.Semantically enhanced Information Retrieval:An ontology-based approach[J].Web Semantics:Sci.Serv.Agents World Wide Web, 2011, 9 (4) :434-452.

[4]Rinaldi A M.An ontology-driven approach for semantic information retrieval on the Web[J].ACM Trans.Internet Technology, 2009, 9 (3) :Article 10.

[5]朱庆生, 邹景华.基于本体论的论文检索[J].计算机科学, 2005, 32 (5) :172-176.

[6]吕刚, 郑诚.改进的基于概念相似度的文本检索[J].计算机工程, 2010, 36 (12) :55-57.

[7]Baziz M, Boughanem M, Aussenac Gilles N.Semantic cores for representing documents in IR[C]//Proceedings of the ACM Symposium on Applied Computing (SAC’05) .New Mexico:ACM Press, 10111017.

[8]Prieto-Diaz R.A Faceted Approach to Building Ontologies[C]//Information Reuse and Integration 2003 (IRI’2003) .IEEE International Conference, 2003:458-465.

[9]崔其文, 解福.改进的领域本体概念语义相似度计算方法[J].计算机应用与软件, 2012, 29 (2) :173-174, 182.

上一篇:风花雪月初一作文下一篇:《疯狂原始人》观后感500字