领域本体构建方法研究

2024-10-25 版权声明 我要投稿

领域本体构建方法研究(共7篇)

领域本体构建方法研究 篇1

随着我国航天事业的高速发展,对海上测控系统提出了越来越高的要求.测量船执行任务时涉及飞行器、船栽设备、测量船工况等任务要素.本文根据任务要素的主要层次关系及它们之间的.约束关系,构建了海上航天测控系统领域本体TTC_Onto,其实现和应用可以有效地提高任务分析的灵活性和准确性.并给出了TTC_On-to的构建过程及其评价机制.

作 者:黄凯 张忠华 倪晓秋 HUANG Kai ZHANG Zhong-hua NI Xiao-qiu 作者单位:黄凯,HUANG Kai(西安交通大学电信学院,陕西西安,710049;中国卫星海上测控部,江苏江阴,214431)

张忠华,倪晓秋,ZHANG Zhong-hua,NI Xiao-qiu(中国卫星海上测控部,江苏江阴,214431)

领域本体构建方法研究 篇2

本体来源于希腊单词“to be”[1,2], 最初只是哲学的一个分支, 近十几年来随着本体研究的深入, 本体已经扩展到人工智能、计算机语言、数据库等领域并得到了广泛应用。在计算机范畴, 本体是一种共享知识库的方法, 通过框架系统的描述客观存在的概念以及概念间的相互关系, 定义了某个领域的公共词汇表, 供该领域的研究人员进行共享。到目前为止对于本体还没有统一的定义, 美国斯坦福大学的Gruber对本体的定义得到了广泛的认可[3]:“本体是用来帮助程序和人共享知识的相关概念的规范描述”。领域本体是用于描述特定领域知识的一种专用本体[4,5], 构建领域本体的目的是捕获该领域的相关知识, 确定领域中共同认可的词汇, 提供对领域知识的共同理解, 并以不同的形式化模式给出词汇之间相互关系的定义[6]。

在车间业务活动领域目前并没有形成行业认可的本体模型, 在进行车间业务活动建模时不同的建模人员之间由于表达习惯不同在对同一个概念进行定义与描述时存在语义上的差异, 导致知识很难进行共享并且不容易被计算机理解[7,8]。为了消除车间业务活动领域中的术语以及概念在语义上的歧义, 便于领域知识的获取、存储与共享, 本文建立了车间业务活动领域本体, 主要用于车间业务活动建模。

1 车间业务活动领域知识模型

车间在进行业务活动时涉及到一系列与业务活动相关的数据、状态、处理过程等信息, 这些信息是对业务活动客观事实的反映与描述, 对其进行分析与组织后可转换为业务活动领域知识。本文采用概念、特征和规则的三层结构对车间业务活动领域知识进行划分。概念层面的知识描述了车间业务活动领域中的术语、活动的属性、操作等;特征层面的知识描述了业务活动的状态、活动执行过程、活动的输入/输出等;规则层面的知识是对业务活动执行过程中的执行顺序、业务规则等的定义与描述。综上所述, 车间业务活动领域知识包括以下几个方面: (1) 车间业务活动领域的相关概念和术语。 (2) 业务活动的属性、操作、执行过程、输入/输出等特征。 (3) 业务活动执行顺序、业务规则等规则性知识。 (4) 业务活动的概念、术语、特征等之间的相互关系。

按照上面几个要素对车间业务活动领域知识进行分析得到图1中的元模型。

在图1元模型基础上对车间业务活动领域进行综合分析后可对其进行如图2中的划分:产品定义知识、计划管理知识、生产派工知识、动态调度知识、质量管理知识、现场管理知识、制造资源管理知识、生产监控知识与统计知识。

(1) 产品定义知识包括产品数据与技术要求等。产品定义是车间安排产品生产的基础和依据, 包括产品型号、名称、材料牌号、图号、尺寸要求、公差、表面粗糙度等。

(2) 计划管理知识包括任务接收、月计划管理、批次计划管理、详细作业计划管理等。计划管理是连接企业生产计划与车间计划的桥梁, 负责接收企业生产计划并进行分解, 生成可指导生产的车间月计划、批次计划与详细作业计划, 同时为绩效考核、节点控制等提供依据。

(3) 生产派工知识包括派工单生成与下发与派工修改。生产派工在车间计划生成后将计划下发到车间现场进行生产, 派工方式包括派工到设备、派工到人员等, 同时当计划发生变化后, 负责对派工结果进行修改。

(4) 动态调度知识包括外协管理、批次拆分与合并、任务挂起与终止等。动态调度对生产现场异常情况的处理, 保证生产顺利进行, 包括异常处理规则、任务临时更改规则、设备更换规则等。

(5) 质量管理知识包括检验信息管理、不合格品处理等。质量管理负责采集产品生产过程中的质量信息, 包括首检、三检、终检等, 还包括对不合格品判定标准与处理方式, 包括让步接收、返修、报废等。

(6) 现场管理知识包括现场数据采集、中转区管理。现场管理是对生产过程中的领活、完工等数据进行采集, 并对产品临时中转区进行管理, 是工时统计、绩效考核、生产监控等的重要数据来源。

(7) 制造资源管理知识包括工艺管理、图纸管理、设备管理、人员管理、工装管理等。制造资源管理对制造过程中需要用到的资源进行管理, 包括这些资源的数量、状态、位置等, 保证资源的可用性以确保生产过程顺利进行。

(8) 生产监控知识包括任务监控、设备监控、人员监控等。生产监控是车间管理层获得现场生产情况的重要手段, 在对现场管理中采集到的生产数据进行分析与汇总后以图表等形式展现给管理人员。

(9) 统计知识是对车间生产情况、成本、质量信息等的汇总, 包括年度、季度、月度生产统计、质量信息统计、成本统计、能耗统计等以及在统计过程中用到的规则与算法等。

2 车间业务活动领域本体元模型

车间业务活动领域本体是对车间业务活动领域知识的建模与描述, 可以作为业务领域知识的获取与存储工具。本文以活动为粒度对车间业务活动本体进行划分, 对车间生产及管理过程中涉及的活动以及活动进行的过程进行分析后从概念类、属性、关系、属性约束四个方面建立了图3中的本体元模型, 在元模型中:

(1) 概念类是对车间业务活动领域中类的定义, 定义了领域中的术语概念。概念类包括活动、事件、资源、规则。活动是领域本体的基本粒度, 是对车间为了完成某个特定目标而进行的业务活动的定义;在业务活动实现过程中需要进行一系列操作, 事件提供对这些操作的定义;资源是对活动与事件完成过程中涉及到的实体的定义, 例如零件、图纸、工艺等;在完成活动与事件的过程中需要遵守相应的业务规则与约束, 规则提供对这些业务规则与约束的定义。

(2) 属性表示车间业务活动领域中概念类的属性集合, 是对概念属性与特征的定义与描述。属性主要包括以下几个方面: (1) 概念的固有属性或内在属性; (2) 概念的外部属性如名称、描述等; (3) 概念的组成部分。

(3) 关系表示概念类之间、概念类与属性之间的关系, 包括part-of, instance-of, attribute-of, kindof四种基本关系, part-of表示概念类之间整体与部分的关系, 例如活动由事件组成, 两者间的关系即为part-of;instance-of表示概念实例与概念类之间的关系;attribute-of表示一个概念是另外一个概念的属性, 例如活动名称、活动描述与活动之间的关系就是attribute-of;kind-of表示概念间的继承关系。在实际本体建模中可不局限于这四种关系, 根据实际情况可以定义新的关系以满足实际情况需要。

(4) 属性约束表示在车间业务活动领域中属性的约束条件, 例如属性的取值范围、取值类型、个数等。

3 车间业务活动领域本体构建

根据车间业务活动知识的分析与建立的业务活动领域本体元模型, 本文在采集到的车间业务活动领域知识基础上建立了车间业务活动领域本体。车间业务活动领域本体的建立过程如图4所示。

本体建立过程分为以下五个步骤:

(1) 获取领域知识。基于已有领域本体与领域知识, 在领域专家的参与下获取车间业务活动领域的知识, 对已有领域本体与知识的重用能够提高知识获取的效率, 减少知识获取工作量。

(2) 确定术语。在收集得到的领域知识基础上, 对领域中的概念进行列举, 并将概念的性质和属性定义为术语。术语的获取是车间业务活动领域本体构建的关键环节之一。

(3) 确定本体中的类以及类之间的关系。确定本体中的类的过程即为领域中的术语给出明确的定义的过程, 本体中类与类之间的关系即术语间的相互关系, 关系可分为概念类之间的关系与概念类与属性间的关系两种。

(4) 确定类的特征或属性。对类的属性进行定义, 从各方面对类的组成结构进行描述, 并确定属性的取值范围、取值类型以及个数等。

(5) 建立本体。采用Protégé作为工具建立车间业务活动领域本体。在Protégé的图形用户界面中可以可视化地进行属性和实例的创建、修改和维护等操作;同时Protégé还提供了可扩展的API接口, 外部应用程序可以方便地与本体知识库相连;可以使用包括RDF、OIL、DAML、DAML+OIL和OWL等语言构建本体, 并支持数据库存储。OWL为定义概念、表达概念的属性及其相互关系提供了统一的语言基础, 因此采用OWL进行本体描述。

4 结束语

在车间业务活动领域目前并没有形成行业认可的本体模型, 导致车间业务活动领域中的术语以及概念在语义上存在歧义。为解决此问题, 本文构建了车间业务活动领域本体, 主要用于车间业务活动建模。首先采用概念、特征和规则的三层结构对车间业务活动领域知识进行划分, 通过对车间业务活动领域知识进行分析得到车间业务活动领域知识元模型;在元模型基础上对车间业务活动领域进行综合分析后, 对车间业务活动领域知识进行划分;从概念类、属性、关系、属性约束四个方面建立了车间业务活动领域本体元模型;最后根据车间业务活动知识的分析与建立的业务活动领域本体元模型, 构建了车间业务活动领域本体, 论述了本体建立过程。

参考文献

[1]George F.Luger, 著.郭茂祖, 等译.人工智能-复杂问题求解的结构和策略[M].北京:机械工业出版社, 2010:55-56.

[2]廖秋慧, 赵中华, 徐新成.虚拟制造技术在模具设计与制造中的应用[J].锻压装备与制造技术, 2004, 39 (6) :100-102.

[3]TGruber.A Translation APProaeh to Portable Ontology SPeeifications[J].Knowledge Aequisition.1993, 5 (2) :199-220.

[4]肖岚, 黄毅, 肖建.基于领域本体的业务组件描述与组合匹配[J].计算机集成制造系统, 2009, 15 (9) :1836-1843.

[5]王慧, 王卫卫, 宋艳君.液压机本体柔性化建模的研究[J].锻压装备与制造技术, 2003, 38 (5) :75-77.

[6]Florian And Van Der Gottschalk.Configurable Workflow Models[J].International Journal of Cooperative Information Systems (IJCIS) .2008, 17 (2) :177-221.

[7]王琦峰, 刘飞.基于语义服务的网络化协同制造执行平台[J].计算机集成制造系统, 2011, 17 (5) :961-969.

基于循环的领域本体构建方法 篇3

关键词:本体;领域本体;领域本体构建方法

中图分类号:G350文献标识码:A文章编号:1007-9599 (2010) 16-0000-02

Loop-based Domain Ontology Construction Method

Liang Yuqi,Wang Bing,Miao Juan

(Institute of Information Technology,Weifang261041,China)

Abstract:The body of knowledge organization has become a hot research field.Domain ontology as the ontology of the construction of the

cornerstone,there are many key technology worth exploring.Summarize the existing problems in construction technology,proposed a loop-based domain ontology building method,the core idea is to produce spiral

incrementin the loop,so that the field of ontology construction as a continuous improvement of the iterative process of ontology by constructing fishing test has a certain practicality.

Keywords:Ontology;Domain ontology;Domain ontology construction method

近年来,随着本体的概念被知识工程、信息检索等领域所借鉴,越来越多的研究机构对本体建模进行了研究,许多有关此项目的研究都有了很大的发展并逐步被应用到具体的研究领域。国内的本体研究也得到了广泛的重视,出现了不少研究成果。本体逐渐成为知识组织的热点研究领域。领域本体的构建作为本体研究的重要基石,还有很多关键技术值得探索。没有领域本体的构建,本体论的思想和精髓就不能得到充分的验证和实现。

一、领域本体构建方法存在问题

从目前的情况来看,领域识本体的建设处于探索性研究阶段,在这个过程中存在着很多问题,对不同问题的认识和解决会得出不同的方法论。

領域本体构建还没有成熟的方法论作为指导,更不用说对构建过程的规范管理;本体的评价方法没有统一的标准,更没有标准的测试集,不能对本体的构建成果进行合理评价,必然影响到下一个周期中的进化过程;建好的核心本体是可用的,但是并不能说它是够用的;共享和重用是本体的本质要求,在领域本体的构建过程中,如何保证这一点就是个非常重要的问题,现有的大多数本体都是某组织自发构建的,自成体系,没有依照某种规范,由于缺乏统一格式和框架,即使是同一领域的本体也难以复用,增加了重复劳动,这与本体的促进知识共享、提高效率的初衷相悖。

二、基于循环的领域本体构建方法

通过对上述这些问题的思考,促使我们考虑如何对领域本体构建方法进行完善与提高。提出了基于循环的领域本体构建方法,在循环中产生螺旋增量,使领域本体构建成为一个不断完善的迭代过程,如图1。循环方式允许和强调不断地判断、确定、修改本体知识库,每一轮循环都会产生新的螺旋增量,不断的发现新知识,每经历一个周期知识库就得到进一步的细化和完善。

(一)需求分析

1.明确领域本体构建的范围(即所处领域)、应用目的、使用群体(即目标用户)。在本体构建之初,确定好本体的领域和范围是非常重要的。通过明确的需求分析,将本体的应用作为本体构建的最终目标,有效的避免本体的构建与本体的应用脱节。

2.可行性分析。通过前一个阶段的分析,我们完成了对“用户需求”的了解,另一方面的需求分析将是对我们将要遇见的技术问题的了解和工具的选择等。

(二)知识的获取

首先通过收集领域信息充分了解领域知识。信息来源包括专家、书籍、网络、甚至是其他的本体。

1.现有领域知识的存在方式。以头脑风暴法、结构的参照、文本的形式化或非形式化的分析和一些知识自动获取工具获取如书籍、文献、网络、规定标准、数据库等显性知识;通过非正式交流、会议、个人交流、设计总结等形式使建立在个人经验基础之上,涉及无形因素的隐性知识,在本体构建中也要充分的考虑隐性知识,如领域专家的参与,这将对领域本体的全面性、和在本体评价中的专业权威性有较大的影响。

2.相关本体的获取。 本体提出的目的在于以一种通用的方式来获取领域中的知识,提供对领域中的概念的共同一致的理解,从而实现知识在不同的应用程序和组织之间的共享和重复利用。因此,在构建本领域本体之前考察现有的相关领域的本体,既可以为本领域本体的构建提供一定的方法和思路,同时可将已构建好的合适的内容复用到本领域本体中,避免重复劳动,将精力投入到更有价值的方面,实现本体的进一步的优化。

同时,领域本体构建的过程中应该充分考虑本体间的继承和交流。考虑选择合适的顶层本体,对领域本体构建进行标准化处理,最后将领域本体嫁接入顶层本体中;对相关的领域本体结构进行分析和研究,充分考虑本体间的合并和映射。

(三)本体开发过程

1.知识体系的选取。根据构建领域本体的人员对领域的了解层次不同,一般我们会选取一些知识体系作为主要的参照,如叙词表、文献目录等。

2.类框架的确定。每位研究者要采取什么方法主要依赖于个人对这一专业领域的理解程度和观点。如果开发人员对某一专业领域具备一套自上而下的系统认识论,那么利用自顶向下的方法就会事半功倍。由于“中层概念”在领域的概念中应该更具代表性,所以综合法对许多本体的开发者而言最便捷。如果想要收集到更多更广泛的实例,那么自底向上的方法更加适合。最终,无论选择哪种方法,都要从“类”的定义开始。

3.实例填充。利用选择的构建工具及用户对类结构定义的反馈,将收集的知识以属性填充到类的层次框架中,在这个阶段将类和实例的构建放在不同的循环周期中,一方面避免了类结构的调整对大量实例的定位的影响;另一方面,也可以根据确定的类的结构更好的收集本体的实例的知识。

4.属性填充。属性用来描述实例间关系,在这个阶段将实例和属性的构建放在不同的循环周期中,一方面避免了类结构和实例的调整对大量属性的影响;另一方面,也可以通过确定的类的结构和属性发现大量的本体的属性的知识。

(四)本体评价

和软件开发过程的测试阶段一样,本体也需要评价。领域本体评价不仅是技术层面的,而是理念、需求、技术管理与服务诸多关联要素评估的综合体;为了全面、客观地衡量领域本体建设,必须从实际出发,实事求是,探索创新,确定一套科学、合理、全面、客观的领域本体评价体系。

(五)本体进化、维护

具体领域的知识是复杂的,并且领域的边界是模糊的,领域之间总是存在交叉。一次性建成完善的本体是很难达到的,而且需要大量的人力和物力的投入,对于一般的研究机构和应用单位也是不现实的。本体的进化也存在一些技术问题:如标引技术、半自动构建等。

本体进化的方式可以是集成新的本体,进行本体间的合并与映射或嫁接入顶层本体。除了这些传统的方式,我们发现在语义Web的建设中,信息的编辑和发布需要专业的知识工人,他们了解领域本体的建设情况,手工或者半自动的利用本体对普通的页面进行语义标注,在标注过程中会不断的发现新的概念和关系。如果能把标注过程和本体建设过程结合起来,就可以非常容易的实现本体的进化。这种进化过程比专家定义容易操作,比机器学习准确规范,但是它需要有合适的工具支持。

三、本章小结

基于循环的领域本体的构建方法的核心思想是在循环中产生螺旋增量,使领域本体构建成为一个不断完善的迭代过程。循环方式允许和强调不断地判断、确定、修改本体知识库,不断的发现新知识,每经历一个周期知识库就得到进一步的细化和完善。该方法还首次提出将类、实例和属性的构建放在不同的循环周期中,使其产生螺旋增量,既在循环中发现知识;对领域本体构建过程的各个步骤进行了细节描述;说明了领域本体构建各个环节之间的联系和影响,便于构建过程中的整体把握。通过构建渔业领域本体检验具有一定的实用性。

参考文献:

[1]贾黎莉.Ontology构建中概念间关系的研究.北京:中国农业科学院,2007,6

[2]高晓云,温有奎.基于本体的隐性知识转化模型.情报理论与实践,2007,l:41-43

[3]丁晟春,李岳盟,甘利人.基于顶层本体的领域本体综合构建方法研究.情报理论与实践,2007,2:236-240

[4]马文峰,杜小勇.领域本体评价研究.图书情报工作,2006,10:68-71

作者简介:

梁宇琪(1984-),女,蒙古族,内蒙古赤峰市人,助教,硕士研究生,研究方向为数据库技术、计算机信息管理;

道德教育方法的本体探讨 篇4

道德教育方法的本体探讨

道德教育方法是道德教育的内在因素,方法的选择和应用直接影响道德教育的效果.通过对道德教育方法本体的`探讨,弄清道德教育方法的涵义、分类和功能,会更加明确道德教育方法对道德教育的重要意义.

作 者:杨华 YANG Hua 作者单位:北方交通大学,北京,100044刊 名:山西高等学校社会科学学报英文刊名:SOCIAL SCIENCES JOURNAL OF COLLEGES OF SHANXI年,卷(期):13(11)分类号:B82关键词:道德教育 道德教育方法 道德教育目标

领域本体构建方法研究 篇5

本体理论的概念最初是从哲学的层面转化而来的,档案学主动吸纳了本体理论的精华部分并将其应用到档案学的研究中来,接下来笔者将具体论述一下本体理论的相关概念。

1.本体理论的含义。中国哲学的本体观念及本体构建的方法,早就在先秦诸子百家争鸣时期就奠定了基础,经过魏晋南北朝时期的发展,发展到宋明理学时期,儒家学说和道家学说的融合,达到了成熟阶段,中国哲学的本体观念在这一时期得到了充分的展示。中国传统哲学本体理念是在生存论的基础上发展起来的,中国哲学没有真正意义上的本体论[1]5,但是在伦理规范建立的时候,由于人们对于自然和人的理解就产生了本体论,而且本体观念与认识论在后来的发展过程中一直互相渗透、相互影响。

其实,我们在政治课上通过对实践论和认识论的学习,就已经对本体理论有了一定的认识。像是我们知道的思维和存在何者为世界的本原,思维和存在何者为第一性,何者为第二性的问题,这些问题都可以作为研究本体理论的基石。也就是说在哲学的范畴之中,所谓的本体理论就是回答何者为世界的本原,也就是关于世界本性的问题。

这个时候我们可以来分析一下我们日常生活中“本”这个字的概念。本和末是相对的两个字。我们都听过这么一句话,说“物有本末,事有始终”。这里所说的“本”就是事物的根源、根基,所以人们在生活中总是喜欢追本溯源,反对“本末倒置、舍本求末”等等。这也就引申出了本的重要含义,像是“本部、本题”这两个词中的“本”就是重要的、中心的意思;像是“本人、本国、本乡、本土”这四个词中“本”就是自己的或者是自己方面的意思;再像是“本质、本意”这两个词中的“本”就是本来的、原来的意思[2]104。所以说,本体的概念总是追求最根本的东西,为自己的思想和行为寻找最终的根据。

2.国内关于本体论的研究。为了深入地认识本体理论,我们有必要了解一下国内关于本体理论的研究现状和发展趋势。随着本体理论的深入发展,这一理论不断成熟,而且运用到很多领域。

国内在本体方面的研究是比较晚的,最多也就是十年的时间,也就是说我们国家最近这几年才开始重视图书馆学、情报学、档案学等方向。不管是在理论方面还是实践方面,国内的研究都赶不上国外,只是在近几年有了突飞猛进的发展。举一个最简单的例子,就是“中国知网”,在中国知网中的文献检索记录就可以很好地反映我国国内本体论的研究方向。

从表一中我们可以看出来,在中国知网数据库中,关于本体的文献篇数在急剧上升,在2005年以后的这个时间段的研究成果是比较多的,而且也比较集中,从图一来看更为直观一些。一方面,国内对于本体的研究和应用最鲜明的特点就是,理论研究和技术都比较少,这跟国外本体领域是截然相反的。可以说,目前我国已经有相关的研究团队,但也只是初具规模,数量还是很少。最主要的原因应该就是档案学领域专业的研究人员很少。虽然国内有众多的关于本体理论的研究,但也只是停留在论文或者是一些小型的本体构建上,那些被广泛使用的本体系统少之又少。另一方面,我国的国内研究主要是侧重于对本体本身的研究,而且大部分研究人员只是简单地进行相关的讨论,未能形成系统全面的本体领域。所以说,我们国家的本体研究还是落后于其他国家的。

二、档案学本体论的研究

1.档案学的学科性质。作为档案学领域的研究人员,我们首先就要明确什么是档案学,它作为一门独立的学科,其学科性质是什么。在研究档案学的内涵的同时,要知道档案学最重要的就是它的基础理论,包括档案学理论的相关利用的重要内容,尤其是我们要突出档案作为第一手资料的原始记录性[3]39。

2.确定档案学的学科特点。档案学的学科特点在几十年的发展中日渐完善,真实性、原始记录性等特点随着时间的推移,其内容更加详尽,与档案学本体论中的“完美”相呼应。同时,档案学也在时代的变化之中不断发展其新的学科特点,积极与时代相结合,成为一门独具先进性与创新性的学科。

3.确定档案学的学科体系。学科体系主要是指某个学科中研究的类型以及互相之间构成的有机的联系。档案学也是如此,分为以下几种类型:档案学基础理论的研究、档案学应用技术的研究、档案学的开发和利用的研究[4]9。这些类型依次相连,缺少其中的一项,档案学的学科体系就不是一个统一的整体,各个环节相互配合,促进了档案学系统的高效运作。

4.确定档案学的研究方法。档案学的研究方法可大致分为两类:第一类是同其他学科相一致的研究方法,由于各学科的研究方法多种多样,在这里就不详细地进行介绍了。主要介绍的是档案学特有的研究方法:现实与历史相结合的研究方法、国际化与中国化的研究方法、现象与本质相结合的研究方法,这些都是由档案学本身所具有的特点而决定的[5]256。

三、档案学本体理论的应用

从哲学的角度看,理论指导实践这一方法论说明了我们研究一个学说其最终的目的是要服务于实践的需要,这一理论在档案学本体论中也有了充分的体现,下面就具体阐述档案学本体论在保护古建筑和口述档案方面的作用。

1.对于古建筑保护方面的应用。

(1)对古建筑的本体领域进行检索。对于古建筑的保护其实就是将有关古建筑方面的知识进行重组与继承发展的过程。而这些知识大多记载在此学科领域知名专家学者所发表的著作、依据工作实践所形成的经验中。档案信息的收集和整理、保存一直是档案工作的重中之重,目前,我们的古建筑保护部门在对信息进行整理的过程中仍然使用传统的模式,检索速度很低,甚至影响了整个档案工作的发展。

(2)利用案件推理的方法进行古建筑保护。在对古建筑的保护过程中,有些古建筑具有相似的特征,這就使得它们的保护方法同样具有相似性。所以,工作人员要利用之前在古建筑保护过程中相关案例所得到的经验与知识来进行类似保护工作[6]175。但是,如果单凭记忆来查找在文档系统中录入的相关案例具有一定的难度,而且有时也不能准确地想起与之相似的古建筑保护的文件及内容。为了更好地对古建筑进行保护和利用,我们可以采取案件推理的研究方法,将古建筑所蕴含的所有的文化和价值通过案件的推理进行充分的显示,尤其是档案内容的真实性。

2.对口述档案保护方面的应用。

口述档案对于民族文化的传承具有特殊的价值,包括文化价值、民族感情价值、科学文化价值等,而这些价值实现的前提是对口述档案加以重点保护,使其流传下来,为社会公众所利用。

(1)从档案本体论出发建立口述档案数据库。传统的口述档案传承形式是以“传承人”为传播渠道来进行的,这种方式效率低下,容易使档案的原始记录性受损,可能造成部分档案的失传。因此,我们要运用计算机本体技术来建立专门的口述档案数据库[7]427。目前,建立口述档案的数据库迫在眉睫,这是对非物质文化遗产进行保护的重要措施,要用文字、声像、图表、多媒体等形式对口述档案进行全面记录,建立口述档案数据库,利用此类数据库能确保口述档案的长期保存,使其能以更加丰富的形式呈现在读者面前,将传统的技艺与现代科学技术结合起来,实现其长久的流传,便于社会公众的利用。

(2)从本体论的本质出发——保护口述档案传承人。“口述档案”是我国非物质文化遗产其中的一个方面,口述档案的传承人如今越来越少了,如果这些群体全部消失的话,可想而知,这项非物质文化遗产也将成为历史。因此,从档案学的本体论角度出发,我们要从事物的本质中进行研究,如何保护这些口述档案的传承人至关重要。我认为首先国家应将口述档案的重要性认识起来,派专人记录老一辈传承人所掌握的一些口述档案,将其集中记录下来;另一方面,我们要培养新一代的口述档案传承人,国家加强对此项事业的资金投入与政策支持,让广大人民积极地参与到其中,确保这项技艺能代代相传。

近年以来,本体在各个领域都有很大的发展,本文从档案学的视角出发探究了档案学本体理论及其相关的应用,具体地阐述了什么是档案学本体论。同时也从理论层次的角度进行了具体分析,从如何对古建筑进行保护和对口述档案进行保护的事例中,阐述了档案学理论体系在实践方面的重要作用,人们可以利用本体所提供的语义查询相关的信息,而且非常准确、快速,这在一定程度上使得档案资源能够最大限度地实现自身的价值,满足信息用户的需求。对本体的研究进行展望我们就会发现,对本体的研究和应用还处于起步阶段,仍然还有很多问题。比如本体的构建问题,目前还没有一套成熟的方法论,我们都希望在未来,档案学能与日益先进的、各种在计算机领域、社会科学领域的本体论进行结合,从而促进档案事业向前发展。

参考文献

领域本体构建方法研究 篇6

农业科学是一门复杂的系统科学, 其中包含了大量的概念和关系。随着网络和信息技术的发展, 互联网逐渐成为农业信息传播的主要媒介。为了提高农业领域相关信息的搜索效率, 需要将农业科学中的概念和关系抽象为简单可重用的农业知识组织, 而本体作为“共享概念模型的明确的形式化规范说明[1]”, 能够帮助解决农业知识组织和管理的问题。

目前本体已经在很多领域中得到了应用, 包括信息检索[2,3], 信息抽取[4]和知识管理[5]等方面, 但这些本体大都以手工构建为主, 构建周期长、耗费大[6]。同时关于本体自动化构建方法论已有了一些研究成果, Zhong Ning等人提出使用各种文本挖掘技术和自然语言处理方法[7]构建领域本[8];Maeduche等人提出一种半自动化本体学习框架[9], 采用稳定协作模型范例来构建语义网上的本体, 扩展了传统本体的工作环境。国内外对农业领域本体研究也取得了一定进展, 但已构建的农业领域本体中除了一般的手工构建外, 多集中在叙词表与本体融合转换、基于通用词典 (如How Net和Word Net) 的半自动构建和关系数据库转换生成等方面[10,11]。这些方式都必须以丰富清晰的术语集为基础, 不能从相关的网络资源和科技文献中自动构建本体。

本文结合国内外研究成果的优缺点, 主要就以下三方面做了改进:首先, 研究和应用结合, 本研究构建的本体为农业信息检索提供知识组织, 拥有完整的研究机制和实施方案;其次, 扩宽数据来源。采用Web网络资源中相关文献作为概念语料来源;其三, 改进研究方法, 以领域词典为依据, 从领域语料中提取领域概念, 使用关联分析和聚类技术发现领域概念间的关系, 并对传统的凝聚层次聚类算法进行了改进。

1 研究架构

本文把农业领域本体自动构建划分为信息抽取, 领域概念获取和领域概念关系发现三个阶段, 构建流程如图1所示。首先运用信息抽取技术从Web网络资源中分别获取领域语料和领域词典;然后, 对领域语料进行处理, 依据领域词典从领域语料中自动提取领域概念;接着以基于共现的关联分析和改进的层次聚类分析为工具发现领域概念间的关系。最后根据领域本体概念和概念间的关系构建农业领域本体并应用到农业信息检索中。

2 农业领域本体自动构建设计

根据农业领域本体自动构建的三个阶段, 以下各小节将阐述农业领域本体构建过程中各阶段的设计和算法描述。

2.1 Web资源抽取

本文采用基于包装器的Web信息抽取技术, 通过设定一系列的抽取规则将相关网站中的农业科技文献的题目、摘要和关键词按要求提取出来作为领域语料, 再抽取农业科学词典作为领域词典。其基本流程如下:首先通过分析网页结构和html的语言特点, 生成html的DOM (Document Object Model) 树, 然后根据DOM树中对应的节点确定目标数据项的定界符———即对感兴趣语义项的上下文描述[12], 从而唯一确定该数据项。

2.2 领域概念的获取

提取领域概念的关键问题是如何有效地从领域语料中自动获取有效术语。利用领域词典对领域语料进行分词, 同时进行数据清洗提取出中文术语, 在此基础上, 运用TF-IDF方法对候选中文术语进行领域相关度判断, 从而确定领域概念集合。

1) 语料的分词和清洗

利用领域词典作为分词词典进行分词并对分词结果过滤清洗, 能够改善聚类效果, 发现领域概念间的关系。本文基于领域词典运用正向最大匹配方法对提取到的领域语料进行分词, 过滤掉词语中停用词和高频无用词, 判断词语属性, 去除数词、状词和连接词等, 留下名词、动名词等。数据清洗后得到的术语就是候选领域概念。

2) 术语领域相关度判断

领域概念出现在特定的领域文本中, 具有一定的领域特征, 因而可以通过对术语进行领域相关度判断识别领域概念。本文使用TF-IDF公式进行相关性判断, TF-IDF (Term Frequency Inverted Document Frequency) 非常有效地将每个术语的局部权重和全局权重结合在一起, 其计算如下:

式中的第一个乘数代表词频TF (Term Frequency) , 其中TF (fi, dj) 表示术语fi在文本dj中出现的次数。max TF (fk, dj) 代表术语fk在文本数据集的各文本中最大的出现次数。式 (1) 中的第二个乘数代表反文档频数IDF (Inverse Document Frequency) , 其中N代表整个文本数据集的文本总数, DF (fj) 代表术语fj的文档频数DF (Document Frequency) , 即术语fj在多少个文本中出现。TF表示术语的局部权重, IDF表示术语的全局权重。由此计算出术语的领域相关度程度, 并筛选相关度比较高的术语作为领域概念。

2.3 领域本体的构建

本文引入关联分析技术和聚类技术, 并且对传统的凝聚层次聚类算法进行了改造, 得到了领域概念间关系, 然后利用领域概念和领域概念间关系构建领域本体。

1) 领域概念的关联分析

本文采用基于共现的关联分析发现领域概念关系。它是以邻近联系法则知识结构和映射原则为方法论基础, 将各种信息载体中的共现信息定量化的分析方法[13]。分析步骤如下:

首先, 利用共现分析理论统计两个领域概念的共现频次, 得到领域概念的共现矩阵。其次, 利用Jaccard系数计算领域概念间的相关度, 得到领域概念的相关矩阵。由此得到领域概念之间相互关联的紧密程度。再次, 从领域概念相关矩阵中得到每个领域概念向量, 然后利用余弦相似度求出每两个领域概念的相似度, 得到领域概念的相似性矩阵, 从而可以分析领域概念相互之间的一致性和相似度, 进行领域概念聚类。利用Jaccard系数计算相关度如式 (2) 所示。余弦相似度的公式如式 (3) 所示。

式 (2) 中, cij是领域概念i与领域概念j共同出现的次数;ci、cj分别是领域概念i和领域概念j在所有文本中出现的总次数。式 (3) 中, wik为领域概念ti在对应的n维向量中第k维上的取值;wjk为领域概念tj在对应的n维向量中第k维上的取值。

2) 领域概念间聚类

分类关系一般利用凝聚层次聚类方法获取, 这是一种基于相似度的从下向上的聚类方法, 可达到较高的精度, 但时间复杂度较高。K-means聚类算法则与之相反, 精度较低, 但是聚类速度较快。文献[14]中提出了基于“最小最大”原则初始质心优选的K-means聚类算法, 可以改善传统K-means聚类效果, 本文使用并改善文献[15]提出的基于K-means的层次聚类算法方法, 把文献[14]中的优化初始质心K-means聚类算法和传统的凝聚层次聚类法相结合, 设计了基于优化初始质心K-means的层次聚类算法来发现领域本体的典型关系。算法的主要过程如下:

Step1使用优化初始质心的K-means方法生成k个类。

Step1.1遍历领域概念相似矩阵选择最小值, 并将其对应的领域概念作为初始质心。

Step1.2再次遍历领域概念相似矩阵, 选择每个非质心概念与已有初始质心的最大相似度值, 得到最大相似度值集合, 选取集合中的最小值并将其对应的领域概念加入初始质心中。

Step1.3循环Step1.2步骤至质心元素的个数不小于领域概念个数的算数平方根, 根据式 (4) 计算其深度Depth, 找到最大值, 将其之前的领域概念保留作为初始质心领域概念。至此, 可以确定初始质心和k值。

Step1.4对每个领域概念分别从相似矩阵中获取与各种质心相似度, 获取最大值, 将领域概念和最大值存入对应的簇集中。获取每个簇集中最小的相似度值min_sim, 计算1-β× (1-min_sim) , 获取簇集中相似度大于1-β× (1-min_sim) 的领域概念, 计算这些领域概念的均值点, 将得到的均值点领域概念作为该簇集的新质心领域概念。

Step1.5循环Step1.4步骤, 直到各个簇集不再改变, 至此领域概念的聚类处理完毕。

Step2运用凝聚层数聚类算法, 把Step1得到的每一个领域概念聚类生成聚类树。

Step3再次运用凝聚层次聚类法, 将Step2中生成的聚类树树合并成为一颗完整的聚类树。

3) 领域本体的构建

通过使用基于K-means的层次聚类算法对领域概念进行聚类, 得到领域概念关系。本文主要分析的是概念间的分类关系, 得到上位、同位和下位三种关系。根据领域概念和概念间的关系, 构建树状的领域本体。

3 系统实验与分析

3.1 系统实验

本文针对构建农业领域本体进行了实验, 从万方数据知识服务平台获得2007年至2011年五年内2 036篇农业相关论文的关键词和摘要作为领域语料, 从数据堂 (www.datatang.com) 抽取农业科学词典, 其中包含农业相关词近2万条, 将其作为领域词典。通过TF-IDF筛选后, 留取了293个领域概念, 对这些领域概念进行关联分析, 得到一个293×293的相似矩阵, 如表1所示。

根据相似性矩阵, 进行基于K-means的层次聚类算法, 聚类结果如图3 (b) 所示。得到领域概念和领域概念间典型关系, 可构建出农业领域本体如图2所示。

3.2 算法分析

1) 聚类时间复杂度分析

本文采用UPGMA (unweighted pair-group method with arithmetic means) 的凝聚层次法。它的时间复杂度为O (n2logn) , 其中n是领域概念总数。基于优化初始质心的K-means的改进层次聚类算法的时间复杂度为O (k (n/k) 2log (n/k) +k2logk) , 其中k是K-means聚类算法产生的类数, 当k>1时, 该算法的效率会高于传统的凝聚层次聚类算法, 且当k值越大时, 聚类效率越高, 图3所示为两种聚类方法的结果对比。

2) 算法结果分析

在领域本体获取后如何评估领域本体生成算法, 国内外对此研究很少, 较多是与手动构建的本体进行对比。本文对构建领域本体间关系的凝聚层次聚类算法进行改造, 因而把聚类效果和本体效果结合在一起对领域本体生成算法进行评价。使用F-测量值 (F-Measure) [16]对聚类结果评价, 效果比较如表2所示, 由此可见基于K-means的层次聚类方法在运行效率和聚类结果方面都取得了较大改进。

4 农业领域本体的应用实施

将以上研究的农业领域本体构建方法应用到农业信息检索中, 本文构建了一个基于本体的农业搜索引擎平台, 运用垂直搜索引擎原理, 对传统专业搜索引擎的结构进行改造, 将本体作为网页分析过滤和关键字相关性判断的标准, 得到更为高效的体系结构。如图4所示为平台的某个搜索界面, 该平台集成了Web网络信息的抽取、本体的构建和基于本体的农业搜索等功能。

5结语

教育资源本体构建与检索研究 篇7

【关键词】本体 教育领域 本体构建 本体检索

【课题项目】本文为山东省高等学校科技计划项目“基于本体的教育资源表示与集成研究”的成果之一,项目编号:J13LN03。

【中图分类号】G64【文献标识码】A 【文章编号】2095-3089(2016)31-0002-02

随信息技术的不断发展,教育信息资源数量随各教育部门信息化建设的进程不断增加,层出不穷的学习资源在给学习者提供便利的同时,也让学习者面临难于选择合适资源、资源内容不符合自身要求等问题。近年来本体(Ontology)在信息领域引起大家的重视。作为一种有效表示知识层次和语义的概念模型,本体论已被广泛应用于图书情报处理、知识管理、网络搜索、数据集成、语义Web服务等领域之中。

一、本体理论

在哲学概念中,本体是指对事物自身的抽象,描述的是事物的性质或其根源。在计算机界,普遍认为“Ontology是共享概念模型的明确的形式化规范说明”[1]。这个定义主要包括四个主要方面:概念模型(conceptualization)、明确(explicit)、形式化(formal)、共享(share)。

本体的目标是获取、描述和表示相关领域的知识,提供对该领域知识的共同理解,确定领域内共同认可的词汇,并从不同层次的形式化模式上给出了这些词汇(术语)和词汇间相互关系的明确定义[2]。构造本体对实现知识共享和重用、提高系统通讯和互操作、提高系统可靠性都有重要意义。

在计算机领域,本体论包含类(class)、关系(relations)、函数(functions)、公理(axioms) 和实例(instances)5个基本的建模元素。

本体的实现要通过本体语言进行。本体语言种类繁多,既有专用的本体语言,也用基于某种标准的本体语言。在网络资源处理中,OWL(Web Ontology Language)是W3C组织推出的标准网络本体语言。

二、本体的构建原则

本体的构建是一个复杂的系统化过程,目前没有一个标准的本体构建方法。本体构建原则最有影响的是Gruber(Toward Principles for the Design of Ontologies Used for Knowledge Sharing)在1995年提出的5条规则[3]。

1.清晰(Clarity)

本体必须明确的定义相关术语的含义。该定义必须是客观的,与其周边因素相互独立。

2.一致(Coherence)

本体所定义的公理及使用自然语言进行描述的文档应当一致,并支持延展的、与定义相一致的推理。

3.可拓展性(Extendibility)

本体应是可拓展的,以已有的定义为概念基础,可以不需对已有定义进行修改就对拓展出的新术语进行定义。

4.编码偏好程度最小(Minimal encoding bias)

构建本体时,对概念的描述尽可能采用通用的方法,不要依赖某一种特殊方法。

5.本体约定最小(Minimal ontological Commitment)

本体构建时只需考虑最基本的共享知识即可,这样可以尽可能的减少约束。

这5条规则对本体的构建提出了基本的原则和思路,但并没有提供明确的易于操作的手段。在本体的构建中,我们要根据实际应用的需求,灵活使用这些规则,构建出高质量的符合我们要求的本体。

三、教育领域本体构建

本体的建设应当面向用户的需求,根据教育资源信息处理的特点,教育领域本体应该能够清晰地表示教育领域主要的概念术语、属性以及相互关系,对教育领域活动所具有的属性规律进行形式化的描述[4]。用户的学习程度、知识的更新、技术的发展等,都是本体构建时需考虑的因素。

本文结合教育资源建设中的课程资源建设,提出一种本体构建方法,流程图如下(图1)。

1.需求分析

该阶段的任务是明确整项工作的目标、用途、知识范围。主要包括:本体构建的目的是什么,要针对何种应用、达到何种目标?本体针对什么样的目标人群,构建过程中涉及哪些知识领域?本体构建要采用哪种本体语言?对于课程资源建设来讲,就需考虑课程建设的最终目标、针对的学习者情况、涉及的知识点及其衍生的知识点等。

2.确立目标任务

该阶段对本体构建的过程进行详细规划。要根据本体构建的最终目标,结合具体的需求和资源情况,制订出详细的实施计划。需明确的内容包括本体构建的方法、参加任务的人员情况、人员的分工、任务的时间节点、各阶段需达到的目标等。

3.本体信息采集

该阶段需对领域相关信息进行充分的分析,相关的专业文献、书籍、网络信息、其它的本体等,都是该阶段需关注的内容。中国图书馆分类法编委会教育专业分类表编辑组编辑的《教育主题词表》是信息采集中一个重要的参考和依据。对于课程资源,需要采集各知识点,明确知识点所针对的资源及知识点的前导后继、相互关系等。

4.确定重点概念,形成概念体系

在信息采集的基础上,通过对知识的分析和征集专家的意见,确定该领域中的重点概念,并用精准的术语进行描述。对于课程资源中的重点知识,应按照一定的规则对它们进行划分,形成不同的知识范围,在同一范围内,在考虑前导后继、整体和部分的基础上,去除重复的和不相关的知识。

5.利用本体语言和工具,进行可视化编码

选择合适的本体语言工具,进行可视化编码,建立可实现检索和扩展的本体库。本体的表示语言很多,其中OWL(Web ontology Language)是语义表达能力最强的描述语言。[5]

6.本体确认与评价

对本体进行编码描述后,还需通过测试进行本体确认和评价,包括是否满足本体构建需求、本体描述是否清晰、关系的完整性等。

7.存储

按照本体存储介质的不同,本体的存储方法大致分为基于内存的存储方式、纯文本存储方式、基于数据库的存储方式和专门的管理工具方式四种,其中研究最多、应用最广的就是基于数据库的存储方式。[6]课程资源建设一般采用以数据库存储为主,其它手段为辅的存储方式。

本体构建完成后,还应按照构建需求和学科的发展,对资源库进行进一步的优化完善和后续建设。

四、教育领域本体检索

传统的信息检索模式是使用搜索引擎,利用关键词进行查询,检索结果的准确性不是太高。利用本体技术检索能加强用户与资源之间的语义沟通,大幅提高检索结果的准确性。

在教育资源本体构建模型的基础上,建立教育领域本体语义信息检索模型,如图2所示。

该模型包括用户接口、语义处理模块、数据存储模块等几项内容。

用户接口负责实现同用户的交流,主要包括用户界面、语义查询接口、语义标注接口、服务调用接口、资源采集接口等,负责将用户的输入转换成本体相应格式,并调用语义处理模块进行处理。

语义处理模块主要包括资源预处理、概念提取、索引、查询等,负责完成信息的收集与检索功能。该部分的效率决定了整个系统的效率。

数据存储模块包括教育领域本体库、索引数据库、资源库,分别完成对领域知识、资源元数据和资源的存储。

五、总结

针对目前教育信息化建设中存在的问题,本文研究了利用本体在教育资源集成中的应用,提出了构建教育资源本体库和本体检索的模型。本体的构建是一个长期复杂的过程,不可能一蹴而就。本体技术及相关研究正在快速发展,相信随着相关技术的进步和成熟,各种基于本体的教育资源管理平台会大量出现,推动我国教育事业进一步发展。

参考文献:

[1]Paolo Ciancarini,A bibliograpghy on coordination.1997.

[2]廖军. 基于领域本体的信息检索研究[D].长沙:中南大学,2007.

[3]Gruber T. Towards Principles for the Design of Ontologies Used for Knowledge Sharing. International Journal of Human?鄄Computer Studies,1995;43(5~6).

[4]马捷.教育领域本体构建研究[J].情报理论与实践,2012(7):104-108.

[5]Muller H M,Kenny E E,Sternberg P W.Textpresso:An ontology?鄄based information retrieval and extraction.

上一篇:生活随笔:大学的感悟下一篇:英语写作中必备“过渡词”总结