信息检索策略(简略)(精选9篇)
调整检索策略和优化的一般方法:
1. 有主题词的数据库尽量选用主题词途径检索.因主题词有加权检
索(紧扣文章中心)、能够网罗同义词、可用副主题词限定、可进行下位主题词、下位副主题词扩检之优点。
2. 自由词检索时注意列全同义词。
3.当检出文献太多时,且其中一部分文献并非真正需要时,考虑采取以下措施,缩小检索范围。
(1)用主题词组配副主题词,提高文献的专指性;用加权检索或主要
主题检索等.(2)不用或少用自由词检索
(3)采用限定字段检索,如限定在篇名、主题词、语种、特征词等字
段内等。
(4)增加and联结概念组面;
(5)用not排除某些不必要的概念
4.当文献量检出小于期望值时,考虑扩大检索范围主要措施有(1)用主
题词检索时使用(Explode)扩展命令;选用全部副主题词;采用非加权检索等。
(2)减少使用and组配次数,多用or组配,需要时用截词符以;
(3)采用自由词,并考虑其同义词;
在现代的工作和学习当中,各类的信息检索是必不可少的,以前人们查询信息是通过期刊、杂志、报纸、图书等途径。但随着因特网的出现,特别是近年来的快速发展,对人类传统的信息组织检索和获取方法构成了很大的冲击,使得人们在世界范围内很方便地进行信息交流和资源共享。因此,如何能在因特网上较快地找到所需的专题信息是目前最困扰用户的难题。本文归纳几种常用网络检索专题信息的方法和检索策略。
1 网络信息检索的途径
1.1 基于网络目录的信息检索
因特网上的目录型检索工具一般称为网络目录(Web Directory),又称分类站点目录、专题目录或主题指南、站点导航系统等。网络目录通常是按网络资源的主题性质进行分类,以某种分类体系为依据,将信息资源分为若干主题范畴,然后再细分为各学科专题目录,最后列出具体的相关网站,形成一个又信息链组成的树状结构,即:总目——专题目录——链接——文本。著名的如Yahoo、sina、网易等都提供基于目录帮助的网址。
这种途径是通过引导网络用户的查询概念(而不是确切的词条)来帮助用户找到所需的网络信息。
1.2 基于搜索引擎的信息检索
搜索引擎(Search Engine)是Internet上具有查询功能的网页的统称,它是一种利用网络自动搜索技术,对因特网各种资源进行标引,并为检索者提供检索的工具。基于搜索工具的检索方法接近于通常所熟悉的检索方式,即输入检索词以及各检索词之间的逻辑关系,然后检索软件根据输入信息在索引库中搜索,获取检索结果,并输出给用户。
目前搜索引擎已多达数百种,如Web Search Engine(万维网搜索引擎)、Usenet Search Engine(新闻论坛搜索引擎)、Meta-Search Engine(元搜索引擎)等类型。通用的搜索引擎有百度、Google等。
元搜索引擎,又称多元搜索引擎,它实际上本身不具备搜索索引,而靠其他原始引擎的搜索或索引接口来完成其搜索任务的引擎。元搜索引擎可分为桌面元搜索引擎和在线元搜索引擎,桌面元搜索引擎指直接在用户的计算机上运行,相当于用户自己拥有一个元搜索引擎,一般为一个小软件。在线元搜索引擎著名的有Infospace、Dogpile等。
此外许多专题搜索引擎非常有用,专业搜索引擎又称垂直搜索引擎,是专为搜索高度相关的专业信息而设计的搜索引擎,它通过对网上某一领域的信息资源或行业的内容作了专业和深入的分析、挖掘后,精细分类、过滤筛选,信息定位更精准,虽内容量偏少,但能精确锁定内容。如视频搜索引擎Cblinkx、Tvix等。
这种途径大多是需要网络用户的提出关键词进行检索,并且对各种搜索引擎的功能和用法要有一定的了解和掌握。
1.3 利用其他途径检索
利用上述的两种一般的途径,许多信息的检索结果数量庞大,并且准确度和内容方面不尽如人意。此时,我们还可以考虑一些其他途径,常用的途径有利用商业数据库,这种数据库汇集了大量丰富的与学科或领域有关的研究机构、实验室、电子书籍、学术期刊、会议论坛和专家学者等;利用专题信息网,很多信息在专题信息网上查询更加有效,例如查专利,可以取世界知识产权组织专利数据库(PCT)、中国专利全文数据库等;还可利用一些学会站点或虚拟图书馆等等。
这种途径是针对各种专题信息需求进行有效的检索,用户对该领域应该有一定了解,并对此类查询有归纳和积累。
2 网络信息检索的一般策略
网络环境下的信息检索与传统环境下的检索有很大不同,虽然网络信息资源的范围、数量很巨大,网络检索工具及检索方法也是纷繁众多,但用任何单一方式去迅速、准确并相对全面、完整地找到相应资源仍不是很容易。
网络信息检索策略即检索的基本思路,是根据检索要求选择便捷的方法、适当的工具、在适宜的地方查找需要的资料。在进行具体检索策略的基本步骤是:确定检索任务;确定查找的资源的位置;确定检索词并构造检索式;选择适当的检索方法;执行检索;最后评价检索结果,并可以对检索结果进行再次修改检索式精练结果。
选择什么方法、使用何种搜索引擎、利用哪些参考源去查找某类信息或资料是有一定规律可循的,而掌握网络检索规律的前提,是对搜索引擎和有关参考资源的认识和了解,而认识和了解搜索引擎和有关参考资源需要一定的检索经验的积累。
3 网络信息检索的技巧
很多人在进行网络检索时,总会问什么是最好的技巧?有没有快速的方法?其实这些问题往往是用户对搜索引擎的原理不了解,语法不熟悉,特定资源的位置不清楚而产生的。虽然很多资料总结和提出一些检索的常用途径和一般策略,但是具体在检索中却并不如人意。这里本文根据自身工作中的实践列出几点好的技巧,以期有所帮助。
“工欲善其事,必先利其器”。所以,首先掌握搜索引擎的使用方法。如:Google的基本搜索(+,-,OR),学会使用两个关键字进行复杂专题信息检索。检索复杂专题依靠单个关键词查准率很低,要提高查全检准率,需进行详细的主题分析,选择多个关键词构造检索式。
其次,熟悉常用的辅助搜索方法:通配符、大小写、句子、忽略字符以及强制搜索,并尽可能使用一些高级搜索语法,如Google的site、link、inurl、allinurl、intitle等语法。
最重要的一点,对各种类别的资源检索要分类归纳和总结,形成自己的一个检索数据库。比如笔者对论文、期刊、图片、音乐等分别归纳了很多特定的检索工具和站点,并保存下来,当要查询某类资源时方便查找,这主要靠日常积累。这里推荐一个好的站点,中国搜索引擎指南(www.sowang.com),该站点有很多资源和检索工具的分类,并有不少经验心得。
参考文献
[1]沈红玉.网上专题信息的检索[J].牡丹江师范学院学报(自然科学版),2006,2.
[2]王颖.因特网信息资源检索方法和技巧[J].吕梁教育学院学报,2006,2.
[3]吴东辰.国内外几种主要搜索引擎比较[J].福建图书馆理论与实践,2005,4.
[4]赵玉玲,滕飞.试论信息检索途径的多样性[J].重庆图情研究,2007,1.
[5]符绍宏,等.因特网信息资源检索与利用(第二版)[M].北京:清华大学出版社,2005,9.
【关键词】教学改革 情报检索 议题控制
【中图分类号】G642.0 【文献标识码】A 【文章编号】2095-3089(2016)04-0029-02
一、信息素养的研究现状
信息素养是近年来图书馆学、情报学、教育学等学科领域的一个研究热点[1]。国外有关信息素养的研究开始较早,根据文献查证来看,国内对于信息素养的研究自2000年进入发展其,2010年开始进入研究的热点状态[2,3]。根据《国家中长期教育改革和发展规划纲要(2010-2020年)》中指出,构建良好的信息素养一体化教育体系是培养高素质专门人才和拔尖创新型人才培养的重要举措[4]。通过“情报检索类”课程加强情报、图书馆等元素在学科结构中的重要性,是达成更好的落实信息素养和综合能力一体化培养目标的重要途径[5]。
通过设计调查问卷对本校研究生(硕士)和本科生进行调查,发现大学生在信息源的选取、信息的获取能力和技巧,信息的分类、整理和保存信息方面,都存在较大缺陷,信息素养的提高存在着较大的正规化和规范性的问题;同时,调查反映出,学生对于情报检索仅仅停留在了解了一些查询方法和数据库,这些都反映出要通过情报检索更好的提升高校学生的信息素养,需要采用多元化方法,促使学生自身主动学习的教育模式。
二、课程教改目标的制定
结合我校建设教学研究型大学的办学目标,情报检索在信息素养培养中的需要达到,在传授基础知识和方法的同时,需要协同各方力量,与其他课程教学的融合,达到为学生信息素养能力、综合能力和创新能力培养服务的目的。制定以下目标:
首先,提升学生主动性,建立课程和专业课程直接的知识势差,提升内在主动能力。其次,增加学生的专业认同,使专业培养和情报检索的课堂教学有效融合,从而养成使用情报检索为专业培养服务的习惯,培养和树立信息意识;再次,触发学生的求知欲望,培养学生的探究精神,将信息素养教育与创新教育相结合。
三、课程改革总体方案
1.课程目标
课程改革整体方案采用议题控制的教学手段,采取和学生边讨论研讨边细化讲解的策略,对情报检索课程围绕信息素养、综合和创新能力培养为目标,对教学过程、方法和内容制定详细方案。整体过程中遵循以下原则:
(1)坚持选择议题的新颖性、前沿性原则,结合专业选择专业发展中的重点、前沿问题探讨,坚持答案的不唯一性;
(2)坚持目标多元化,不仅要传授知识,而且更重视培养能力和思维,特别是创造性思维能力和思维;
(3)坚持多种方法的综合运用,应采用研究、讨论、案例分析、诊断式教学等多种方法并充分运用现代教育技术。
2.议题控制策略
教学方案的核心是通过议题控制策略来实施整体教学过程,如图1所示。
阶段1,根据专业背景制定议题;阶段2,根据选题讨论如何分解该议题,该议题为什么出现,讨论的是什么?关注什么?阶段3,将细化的内容表述到专业上,形成专业和情报检索过程的有效闭环。
3.阶段内采用的方法
(1)情境导入,主动探究。通过创设问题情境,诱导学生逐步明确探究的目标,即在以上阶段通过创设具有一定难度,需要学生努力克服,而又是力所能及的学习情境,通过教师引导和学生探索可以最终达到目标。
(2)互动合作,讨论启发。采取更加灵活、更加开放和更加有效的课堂组织形式,在更大的时空范围内将个人独立探究、小组合作交流、集体研究论证等教学形式有机地结合起来,从而得出正确的结论。在学生个人对所提出的问题,独立地、自主地、自由地、发散地探索的基础上有意识地组织小组合作交流。
(3)自选案例,模拟查新。以论文开题,课题立项,成果鉴定、查新等检索应用为选题,在课程的中间和结束阶段,巩固方法,教师与学生一同分析讨论,对所查文献的内容和水平进行评价,并撰写课题综述。这样既可以完成教学目的,又可以达到锻炼培养学生信息素养能力的目的。
4.教学内容改革
研究及实施过程中改革教学内容,注重实效,建立面向课题型的教学模式。体现三方面工作,一是压缩理论教学内容,二是突出应用能力培养和自主学习能力等整体信息素养的培养,建立体现文献检索课程教学重在应用的教学内容和课程体系,三是能够结合学生的专业培养,触发学生的主动性,发挥其潜在能力。
具体实施过程中,结合图1,对整体教学内容进行了较大的调整,整体结构如图2所示,正规过程完整实施仅需20学时。
“导向阶段”为情报检索的作用、发展等的概要介绍。
“分析”侧重于课题型的信息检索,信息分析,此阶段引入专业案例,例如论文开题,课题立项,成果鉴定等检索利用等。
“方法”要求详细设计,内容丰富,包括信息分类,各种载体,各种类型信息资源的检索和利用以及各种教学典型案例示范。
“知识点”主要是信息检索知识,如图书馆文献资源,网络信息资源,书目及联合目录,大型数据库的使用简介等。
四、 效果评价
本次教学改革,在教学内容、教师教学效果、教学方式的内容和形式等方面具有改善,这些教学改革在一定程度上得到了学生的认可。通过与往年检索课程的学习、教学效果的调查评价进行比较,在教学效果和教学方式上都取得了较为理想的反馈结果,如图3。
参考文献:
[1]张晓娟,张寒露,范玉珊,李复郡,贾涵. 高校信息素养教育的基本模式及国内外实践研究[J]. 大学图书馆学报,2012,02:95-101.
[2]黄如花,钟雨祺,熊婉盈. 国内外信息素养类MOOC的调查与分析[J]. 图书与情报,2014,06:1-7.
[3]周剑,王艳,Iris XIE. 世代特征,信息环境变迁与大学生信息素养教育创新[J]. 中国图书馆学报,2015,04:25-39.
[4] http://www.china.com.cn/policy/txt/2010-03/01/content_19492625_3.htm
[5]张东烜. 基于图书馆元素的信息素养教育学科结构改革评价研究——以深圳大学图书馆信息素养教育为例[J]. 图书馆学研究,2014,07:6-10+51.
“网络信息检索及专利信息检索”实习报告
一、实习目的1、熟悉网络信息的基本检索方式,了解几种常用的搜索引擎
2、熟悉我馆现有的中文献题目:multifunctional data acquisition and control system for experimental aerodynamics
作者:Yu.K.Biokin-Mechtalin
出处:Volume 71,Number 11(2010),2455-2664 英文电子资源的使用方法。
3、掌握利用网络检索专利信息的方法
二、实习题目(每种途径任选一题):
1.环境与生态系统;2.胶粘剂的研制;3.抗癌药物研究;4.纳米材料的制备;5.金刚石的应用;6.汞污染处理;7.热固性塑料成型; 8.包装技术; 9.安全控制系统10.控制释放技术
三、实习内容:
1.网络科技信息检索(http://library.qust.edu.cn/)1)万方数据资源的使用
a.选择检索课题(目)为:胶粘剂的研制 b.选择检索途径为:关键字
c.记录检索结果
文献题目:有机硅改性酚醛环氧树脂耐高温胶粘剂的研制 作者:王丁 程斌 刘峰 江民涛 黄朝 出处:中国胶粘剂 2007年16卷第3期 2)CNKI的使用
d.选择检索课题(目)为:热固性塑料成型 e.选择检索途径为:关键字 f.记录检索结果
文献题目:热固性塑料成型新工艺——注射模压成型 作者:陈中一
出处:工程塑料应用1984年01期 3)Springer LINK使用
g.选择检索课题(目)为:安全控制系统 h.选择检索途径为:关键字
2.专利信息检索
检索工具:国家知识产权局网站(http://)1)主题途径(任选一题进行检索)
a.选择检索课题为:.包装技术 b.记录检索结果:
专利名称: 金属锶铝罐包装技术 专利发明(设计)人:梅小明
专利权人:南京云海特种金属有限公司
申请(专利)号:02113127.9
2)专利权人途径(青岛科技大学;山东大学;清华大学;上海交通大学)c.选择检索入口为:青岛科技大学 d.记录检索结果:
专利名称:固体废物陶瓷生态砖 专利申请人:朱海涛 陈磊
申请(专利)号:200710113223.9
3)申请(专利)号途径(02150457.1;88100410.3; 88106349.5)e.选择检索专利号为:88106349.5 f.记录检索结果:
专利名称: 连续生产胶料工艺方法和设备
专利发明(设计)人:诺伯特·来比格;曼夫利德·迪恩斯特 专利权人:海尔曼·拜尔斯托夫机械股份公司
随着知识信息的不断更新,信息检索课已经成为增强学生情报意识,培养学生掌握利用文献,不断提高自学能力和科研能力的一门科学方法课。大量关于图书馆信息检索教学的文章表明,在当今信息技术的快速发展中,网络信息的搜集、整合、利用是当代大学生必备的技能之一,为此,各高校为提高大学生这方面的素养和能力,专门开设了信息检索课程,它是大学生开展信息教育的一门基础课程,通过学习掌握利用检索工具,从文献信息资源中获取知识情报的工具课程。在实用性上,一是提高学生信息搜集的渠道,拓展学习的知识面。二是在专业学习上,能够掌握知识的最新动态,避免走弯路。三是为毕业论文、科研课题提供广泛的知识基础。因此,高校文献检索教学在提高学生综合素质,造就终身学习的能力方面起着至关重要的作用。
随着网络技术的普及,现在高校信息检索教学已经完全脱离了手工检索,从本质上已经得到了彻底的改变。但是,部分高校教师和学生的观念有时跟不上网络信息的发展,存在教师教学的观念落后,师资队伍专业化水平较低,领导不重视等一系列问题。随着这门课程的不断推进,也呈现了一系列不尽如人意之处,综合各方面因素,一些大学生的信息素质和网络利用能力却有待提高,他们对文献检索课的需求也相当迫切,但是目前的文献检索课的教学中教材的实用性不强、教学方式方法还有待于进一步提升。本文针对文献检索课中普遍存在的问题,提出了几点建设性的意见和建议。
2 高校信息检索教学普遍存在的问题
2.1 在高校中,作为信息检索这门课程不是大学教学中的主流,一般得不到重视,无论是从师资的配备到软硬件的投入,所占的比例很低,专业的教师人数相对很少,大多都是兼任的学科馆员,对教师的培养力度也不足,这也是制约这门课程在高校教学中发展的一个重要因素。
2.2 在教学中,这门课因涉及的范围广,对教师的综合素质要求很高,灵活性也比较强,加之专业术语多,部分学生网络技术底子薄,不易接受,造成教学的效果不佳。
2.3 在各高校的教学模式中,普遍存在教学的形式比较单一,集中授课次数少,且大多是大课,人数多,课程安排少,忽视学生综合实践的能力,造成学生学习没有兴趣,未能达到课程开展的根本宗旨。
2.4 评价的方法比较单一。信息检索课程的开设,目的就是培养学生的信息素养,提高学生学习的能力;而在实际的教学中,大多存在为了考试过关为目的,考试的形式单一,大多是仅仅停留在理论上,忽略了能力的考核;从考试的形式上理论水平占了相当比例。教师和学生在观念上仅仅是作为一门课程,从教学和学习上就是如何提高考试的成绩,降低了这门学科的根本价值。
3 提高信息检索教学的策略
3.1 作为开展文献检索教学的图书馆,首先要从自身做起,转变领导和专任教师的观念,最好能够在教师中开展文献检索方面的培训讲座,让文献检索课的深入教师中,运用于教师的教学研究工作中,使得文献检索课得到学校和院系能够认识到文献检索课的重要作用,从而引起足够的重视。另外要通过多种渠道,让校领导了解并重视文献检索教学的重要性,从硬件和软件上加强投入和管理,重点是加强师资的培训力度,认清文献检索课的实用性和实践性,减少理论部分的内容,加强实践性;通过各院系的配合,让学生充分认识到文献检索课的实际意义,并能在以后的学习和工作中真正起到应有的指导作用,让学生充分认识到文献检索课的巨大作用。
3.2 硬件配置是可以在短期内到位,而师资配备和培养需要一个长期的过程,作为这样一个专业教学团队来说,教师的个人素质和能力决定着教学的质量;首先,要引进专业的师资队伍,通过各种渠道引进具有胜任并有发展潜力的教师,并通过不断的培养,打造一支专业的教学团队。其次,在师资紧缺短时间不能解决的,要在现有师资的前提下,加强培训,要在观念的转变,专业化的学习进修的基础上,加强师资的整合力度,在最短时间内提升教学的质量。
3.3 在教学中,不局限于教学大纲,大纲只是教学中的一个标准,是我们在教学当中最低的一个标准,是所有学生必须达到的,我们必须本着提高学生实践能力为目标,不仅仅完成教学大纲就了之,要站在学生发展的角度考虑问题,学以致用,要着眼于学生今后的学习工作,能否体现学生能否真正把信息检索的技能用在实处。
3.4 文献检索是一个实时性、实用性很强的学科,发展速度几乎与网络技术并进;教学中要以教材为基础,创造性地使用教材,根据学科特点,灵活性改进教材的呈现形式,提升教材的使用效率,要抓住文献检索教学的核心,根据知识的发展和网络技术的提升,不断适应网络时代对学生学习发展的能力,用多种形式建设文献检索教材。
3.5 在网络资源不断更新的前提下,各高校所购买的文献数据库变化比较快,文献检索教学的内容和形式也要不断更新,要考虑到不同专业,不同层次的学生对所需检索的内容和技能也会有较大的区别,教师应该重点对文献检索的原理和检索的技能进行重点讲解,在保证基本技能的学习上,又能灵活掌握检索的技能。
3.6 在课程的安排上,适当调整教学的进度、教学难度,结合不同层次学生的水平,制定不同评价的标准,针对不同年级学生的能力,教学内容有不同的侧重点。比如在大一或大二适当安排一些理论性较强和实践性简单的内容,大一学生,学习期间对文献查询的需求不多,检索的知识量和层次比较低,加之理论学习任务比较重,时间有限。在涉及一些专业性较强的教学中,可以安排在大学三年级或四年级。这时学生对专业课都有了较多的认识,大部分的学生都通过了国家外语四级考试,外语水平也有相当的提高,学生在知识层面已经达到了一定的水平,能力上也有所提高,如计算机水平、英语水平,对中文、外文的检索需求比较大,且面临着毕业前各种论文、调研报告,以及简单的科研课题的研究。
3.7 改进教学的方式和方法,在基础知识和专业理论水平达标的基础上,提高学生综合运用的能力,重点强化实践能力。例如:教师在教学中,要多组织学生进行实际的检索,就一篇论文或课题的信息收集进行示范,在问题中解决问题,在作业的布置中也可以就一篇论文或一个题目进行操作,可以以独立完成的形式,也可以小组合作共同完成,并通过集体的汇报讨论,最终达到提高学生信息检索能力的目的。
4 结语
作为一门学科,它的发源本身就是时代发展而产生的,作为文献检索课程,就是时代发展的产物,他是高校开展信息素质教育的重要阵地。在新的网络环境下,文献检索教学在内容和教学方法上必须与时俱进,通过改革教学方法和教学手段、更新教学内容实现与现代信息环境的接轨,培养适应现代信息社会需要的、具备较高信息素质的人才。
那么,如何进一步提升它的价值,是广大教师和教育工作者共同的责任;在当今这个网络和信息时代,学生、教师、科研工作者对文献检索的技能比以往任何时候的要求都更加迫切。这就需要得到各高校进一步探索和改进文献检索教学的方式和手段,就如何提高教学质量,提升大学生搜集信息、整理信息、利用信息的能力,最终达到创造信息的目标。
摘要:随着信息技术的快速发展,网络资源已经成为人们获取信息的最主要渠道,特别是在高校教学中,如何提高大学生科学获取信息的能力,是提高高校教育教学质量的重要的组成部分,本文结合当今高校图书馆在文献检索教学中存在的一些问题及改进的策略进行了分析,并提出了一些改进的措施。
关键词:高校图书馆,信息检索,教学改革
参考文献
[1]肖学斌.目前文献检索教学中的问题及改革探索.武汉:武汉图书馆
关键词:信息素养 信息检索 案例教学
1 信息素养涵义
信息素养(Information Literacy)概念的提出和对其的系统研究始于20世纪70年代。保罗·泽考斯基作为美国信息产业协会的主席指出,具有信息素养的人是能够将信息资源应用到工作方面的人,他们在解决问题的时候习惯通过各种信息工具和主要信息来源的技术和能力以形成信息方案。美国图书馆协会的定义:“能够认识何时需要信息并且具有检索、评价以及有效使用信息能力的人才是一个有信息素养的人。”图书管理员协会对有信息素养大学生的定义:第一,能够熟练地、批判性地评价信息;第二,能够精确地、创造性地使用信息;第三,能够有效地和高效地获取信息。总之,解决信息问题是培养大学生信息素养的关键。大学生信息素养是培养知识经济时代创造型人才的要求,也是中国高等教育改革的重要内容。
2 当前在校大学生信息素养的现状
2.1 信息意识不强。绝大多数的大学生利用网络仅仅是进行聊天和娱乐,如果不能够充分地了解图书馆的馆藏并且满足仅仅获取课本知识,这样就造成了既没有扩展课本知识的意识,更没有利用图书馆网络以及数据库解决问题的欲望,从而造成了信息资源的浪费。
2.2 信息能力出现障碍。缺乏信息检索知识,网上搜索仅仅依赖搜索引擎,不了解数据库及数据库资源内容,不知道如何检索数据库,外文数据库检索更是无从下手,对信息资源加工、归纳、鉴别、评价和综合能力欠缺。
3 改革教学内容、教学方法,丰富实践内容,为信息素养教育服务
信息检索的内容随着信息网络环境的不断发展扩大已经发生了翻天覆地的变化,网络检索是其发展的主要标志。随着信息网络的发展还出现了一些网络信息检索工具,其代表有百度、GOOGLE等。网络信息资源具有内容庞杂、类型丰富、分布广泛以及更新速度快的特点,因此,教学的内容和方法也应当顺应网络信息的变化,应当让学生在实践中能够应用检索的知识,这也是对当今大学生的要求。
3.1 为了充实信息检索课程教材的内容,将信息检索与利用代替原来的文献检索课,其内容包括五个方面:第一,介绍信息检索的基本知识;第二,使用信息检索工具,包括少量传统的手工检索工具、计算机信息检索基础、网络信息检索、数据库建设以及多媒体信息检索;第三,信息加工整理评价利用;第四,论文方法写作,包括综述文摘报告立项研究报告以及学术论文撰写方法等;第五,人文素质和信息道德教育,随着信息技术的不断发展,社会中存在很多的不良信息造成侵权信息犯罪时有发生,每个人都应在未来的信息化社会中遵循一定的信息伦理和道德准则来规范自身的信息行为。
3.2 为了提高学生的检索兴趣,在教学过程中应当恰当地使用案例进行教学,通过案例以及演示或组织讨论等在教学中形成互动,从而激发了大家利用检索解决问题的兴趣。教学中选择的案例应当能够充分体现各种检索系统和数据库是以计算机和网络为介质的特性。此外,还应当选择合适的案例提高学习应用各种检索系统的能力以提高学生的检索能力。为了将学生引导到具体的案例研究当中,在编写教学案例时应当根据检索工具的教学目标来进行。通过探索研究来解决各种检索问题并获得相应的知识来提高学生的实际动手能力。
3.3 加强上机实践,重视上机实践教学内容设计。OPAC公共书目检索系统:其功能日益强大,学习信息检索最根本的内容是学会使用OPAC,让学生学会简单检索、高级检索和全文检索。搜索引擎:搜索引擎是学生在学习文献课之前获得学术信息的主要工具。但多数只会简单使用搜索引擎,要引导学生掌握搜索引擎的高級语法。电子期刊与学位论文:以学校图书馆拥有的信息资源为基础,一般有中国知网、万方数据资源系统、重庆维普三家,在教学中应针对专业特色调整教学重点。电子图书:电子图书主要集中在图书馆,通过图书信息的查询,学生能复制图书内容,熟悉工具软件的使用。
4 结束语
为了在达到培养学生检索能力的同时还激发学生学习的兴趣,应当注重培养学生的实际动手能力,这就需要在检索课程中实行案例教学来实现。虽然案例教学取得了一定的成果,但是案例的选择、理论知识与案例分析的有机结合和协调等仍旧是在实施案例教学过程中值得重视的问题。只有老师很好地处理这些问题,案例教学才能取得最佳的教学效果。总之,信息素养教育适应信息社会的发展,主要培养学生的信息素养和能力。信息检索的教学应将信息素养教育贯穿全部教学过程,以提高信息意识为中心,注重培养学生的信息检索能力、信息吸收能力和信息整合能力,突出学生的信息实践能力和知识创新能力,充分发挥学生的主体性和积极性,积极提高教师自身的信息素养。信息检索课只有不断地改革和探索,才能完成其信息素养教育。
参考文献:
[1]赵婷,郭楠,裴允,陈秉塬.浅谈信息检索[J].价值工程,2010(18).
[2]贺茹,李生琦.基于语言本体库的中文信息检索系统的研究[J].价值工程,2007(10).
[3]周杰.高职院校学生信息素养的发展现状及提高措施[J].价值工程,2011(09).
关键词:信息源;信息检索模型;可视化;智能化;一体化
中图分类号:TP391文献标识码:A文章编号:1007-9599 (2012) 01-0000-02
The Status and Trends of Information Retrieval Model
Tian Huan
(Lanzhou Voc-Tech College,Lanzhou730070,China)
Abstract:This article provides an overview of the classification of information sources,a simple description of the concept of information retrieval.For classic Boolean retrieval,vector space retrieval,the probability to retrieve a more detailed analysis,and the direction of development of information retrieval model introduction.
Keywords:Information Sources;Information retrieval model;Visualization;Intelligent;Integration
一、前言
当今世界已经进入了信息化社会,大量的信息渗透到工业生产,社会生活的方方面面。在这爆炸性信息增长中,数字信息占据了最主要的方面,而传统信息载体的贡献比例越来低。有关研究报告显示,2006年全球每年制造、复制出的数字信息量共计1610亿GB,中国数字信息量为127.1亿GB,占全球信息量的7.9%;而受“富媒体”、用户创建内容和16亿网民三大因素推动,到2010年,全球数字信息量预计为9880亿GB,而中国的数字信息量预计为900.5亿多GB,将占全球信息量的9.1%。面对几乎无限的信息量,人们如何快速准确的找到自己感兴趣或者需求的信息是需要解决的一个关键问题。我国电厂检修的分级及检修现状。
二、信息源的分类
信息源的分类形式主要有以下几种:
按载体类型划分:书写型、印刷型、缩微型、机读型、声像型和数字型。
按内容划分:一次信息源、二次信息源和三次信息源。
一次信息源:也叫原始文献或第一手资料。以作者本人的科学研究或研究成果为依据而创作的原始文献,均属于一次信息源。如:期刊论文、科技报告、专利文献、学位论文、会议文献等。
二次信息源:将一次信息源进行加工、整理、提炼、浓缩、标引、编序后所形成的各种目录、题录、索引、文摘等信息源。如:信息检索工具。
三次信息源:对某一专题的一次信息源和二次信息源的有关信息进行检索、筛选、分析、加工,并结合编者的实地调查研究,进行综合分析后重新编制的成果。如:书评、专题述平、学科年度总结、动态综述、字典、百科全书、年鉴、手册、指南等工具书。
三、信息检索模型的概念及经典模型
信息检索模型(IRM,Information Retrieval Model)就是运用数学的语言和工具,对信息检索中的信息及其处理过程加以翻译和抽象,表达为某种数学公式。它决定于三个方面:1.处理查询公式和文档的视角;2.处理查询公式与文档关系的理论;3.查询公式与文档之间的算法。图1表示了IRM的分类体系。
图1 信息检索模型的分类体系
图1所示的经典模型为目前最常用的模型,主要包括布尔模型、向量模型和概率模型。
(一)布尔模型
布尔模型出现于20实际50年代。简单的说它为基于集合论的布尔逻辑运算,是一种基于特征项的严格匹配模型。首先,它建立一个二值变量的集合,如果查询文本中有相应的特征项,则变量可取“True”,反之取“False”。查询由特征项和逻辑运算符(“AND”、“OR”、“NOT”)组成。文本查询的匹配规则遵循布尔运算的法则。布尔模型的主要特点是它实现简单,易于理解,能处理结构化的提问,容易表示统一关系和词组,检索速度快。但是它也具有明显的缺点,传统的布尔逻辑运算比较严格,刚性较强,查询的结果不容易控制,无法提供定量的比较,无法满足特殊的查询要求。目前大多数文献数据库或检索工具都提供布尔运算的检索,如中国期刊全文数据库,维普,baidu或google。
(二)向量空间模型
向量空间模型(Vector Space Model)由Salton等人于20世纪60年代末提出。VSM概念简单,把对文本内容的处理简化为向量空间中的向量运算,并且它以空间上的相似度表达语义的相似度,直观易懂。当文档被表示为文档空间的向量,就可以通过计算向量之间的相似性来度量文档间的相似性。文本处理中最常用的相似性度量方式是余弦距离。VSM的优点:具有广泛的适用性,检索基于聚类文档,结果可以采用排序输出方式。但其缺点也很没明显:相似度计算量较大,不能处理布尔表达等结构化的查询。
(三)概率模型
Maron与Kuhns最早在1960年提出了概率检索模型。它是一种估计文献与用户需求的相关性、并根据求得的相关性结果提供从高到低的文献排列模型。它的运用是基于四个相关原则:想关心独立原则;词的独立性;文献相关性;概率排序原则。
四、信息检索模型的发展趋势
为满足当今信息检索的需要,除了对传统的信息检索模型进行改进外,新出现的检索模型盖帘主要体现在如下几个方面:
(一)智能化
智能化不仅仅是电脑硬件的发展趋势,也是软件,网络信息检索的发展趋势。智能化的检索模型不在基于机器语言,而是基于接近人类自然语言的检索形式。
(二)可视化
可视化将传统数据库的文本检索模式转为可见的图像方式显示,并且可以表达用户的检索过程。它能使用户更直观的分析文献与检索式语义的关系,有助于用户判断检索过程中的相关文献。
(三)功能多样化
信息检索模型功能多样化主要体现在两个方面:
(1)可以进行多媒体式的检索,不仅能按照文本输入进行检索、更能进行图片、视屏其他输入形式的检索。
(2)检索工具的一体化。面对互联网的不同文化与语言差异,检索工具能提供一体化的检索模式,支持多语言,多语境,促进不同地区、不通语言的用户更加方便的交流。
参考文献:
[1]孙坦,周静怡.近几年来国外信息检索模型研究进展[J].图书馆建设,2008,5
[2]张艳.信息检索模型的比较研究[J].电脑知识与技术,2009,8,5
[3]宋峻峰,张维明.基于本体的信息检索模型研究[J].南京大学学报(自然科学),2005,2,41
[作者简介]:田欢,本科就读于西北师范大学数学与信息科学学院计算机科学与技术专业,现就职于兰州职业技术学院,从事计算机专业教学。
一、信息检索简介
1. 概念
广义的信息检索范围很大, 可以说从书本、报纸以及其他的各种媒体中查找人们需要的信息都可以称为信息检索。
狭义的信息检索是特指利用计算机这个高效的工具对各种信息进行检索的技术。信息检索的内容包括文本、图像、视频和音频等多种, 但本文只讨论文本信息的检索技术, 特别是中文信息的检索技术。
信息检索是一门研究从一定规模的文档库 (D o c u m e n t Collection) 中找出满足用户提出的信息需求 (User Information Need) 的技术。
2. Web信息检索
Web的出现大大地促进了信息检索技术的发展。Web上有异常丰富但又十分混乱的信息资源, 其中绝大部分有用的信息还没有挖掘出来。这是因为目前还没有特别好的信息处理和检索工具。这一领域的开发仍然处于初级阶段。
3. 中西文信息检索比较
在文本信息检索领域, 西文信息检索的发展较为迅速。西文信息检索系统可以利用向量空间表示检索信息内容, 并将自然语言处理应用于信息检索, 大大提高了信息检索的准确性。中文信息的检索和英文信息的检索在很多地方是一致的, 但也有一些不同。比如中文词语之间没有空格, 因此在索引前需要进行词语切分。此外, 与英文相比, 汉语句法分析和语义理解更为困难。
4. 信息检索的模型
一般有两种信息检索模型:基于统计的模型和基于语义的模型。基于统计的模型是应用某些统计的手段从被检索文档和高标注等级文档中查询与用户需求匹配程度最好的文档;而基于语义的模型则尝试对需求实现一定程度语法语义分析, 即对自然语言文本进行一定程度的理解并重新生成查询。
基于统计的模型主要有:布尔模型 (Boolean Model) 、扩展布尔模型 (Extended Boolean Model) 、向量空间模型 (Vector Space Model) 以及概率模型 (Probabilistic Model) 等。
二、向量模型
向量模型是重要的检索模型, 其主要优点在于:a、通过对特征项的加权改进了模型的检索效果;b.模型的部分匹配策略允许检索出与查询条件相接近的文献;c.相似度的引进使得能够对查询结果进行排序, 以倒排文档方式提交结果。
1. 文档和项的向量空间表示
首先把一个文档进行分词处理, 并去除那些停用词, 如“我”、“的”、“人们”等。然后对剩余的词进行合并处理。
在一个给定的集合中先对每个文档进行以上的操作, 获得每个文档索引项的集合。再把所有文档的索引项进行合并, 形成了一个代表整个文档集合的索引项集合, 整个索引项集合表示了一个“空间”。在一个文档空间中, 可以给每个索引项赋一个权值, 代表这个索引项在这个文档中的地位。如表1所示, 文档1的向量空间是 (3, 4, 5) , 文档2的向量空间是 (2, 3, 3) 。
与文档空间相对应的一个概念是“项空间”, 它是指一个索引项在文档集合中的各个文档权值的集合。如表1所示, 索引项“经济”的向量空间是 (4, 3, 0, 0) , 索引项“金融”的向量空间是 (5, 3, 0, 5) 。
于是文献和查询均可用由项构成的向量来表示:d= (t1, t2, ……, tn) 。项的权重 (term weight) :对于有n个不同的项的系统, 文献D= (t1, t2, ……, tn) 。
2. 项权值
项t k (1≤k≤n) 常常被赋予一个数值Wk, 表示它在文献中的重要程度, 称为项t k的权重。因此, 我们一般用D= (w1, w2, …, wn) 的形式表示文献。特征项的权重计算, 是人为赋予的, 因此主观性较强, 但比较权威的确定权重的方法是运用TF-IDF公式, 即Wik=tfik/dfk=tfik×idfk, 其中tfik为特征项Tk在文档Di中的出现频率, 称为项频率 (term frequency) ;dfk则是文档集D中出现特征项Tk的文档的数量, 称为文档频率;idfk为dfk的倒数, 称为反转文档频率 (inverteddocument frequency) 。另外, 还应考虑到文档的长度, 否则长文档易被检出, 而短文档会被漏检, 所以通常还要对上面公式进行标准化处理。
假设有三个项:“经济”、“金融”和“计算机”, 它们在不同文档中的权值如表1所示。
根据这个表, 可以画出权值和文档的三维向量空间。
3. 计算向量之间的相似程度
相似度S (Similarity) :指两个文档内容相关程度的大小, 当文档以向量来表示时, 可以使用向量文档向量间的距离来衡量, 一般使用内积或夹角θ的余弦来计算, 两者夹角越小说明相似度越高。由于查询也可以在同一空间里表示为一个查询向量 (见图1) , 可以通过相似度计算公式计算出每个文档向量与查询向量的相似度, 排序这个结果后与设立的阈值进行比较。如果大于阈值则页面与查询相关, 保留该页面查询结果;如果小于则不相关, 过滤此页。这样就可以控制查询结果的数量, 加快查询速度。
三、以经济信息检索为例的实例分析
经济发展依赖于自然资源的开发与利用, 也离不开经济信息资源的开发和利用。开发经济信息资源, 实际上是对人类智力的开发, 是一种知识和科学技术的开发, 一种生产技能和管理技能的开发。现在, 经济信息已经渗透到现代生活的各个领域, 有效地地开发和利用经济信息, 提高经济信息的传播速度已经成为现代经济发展的一种推动力, 能够大大提高劳动者的智力水平, 从而促进经济的发展。因此, 在以经济建设为中心、大力发展社会主义经济的过程中, 必须不断地开发和利用经济信息资源。
经济信息是一种社会资源, 作用于经济活动过程, 已经成为现代社会经济发展的一个先决条件。现代经济建设是一个庞大而复杂的系统, 需要依据大量的经济信息去控制、指挥、协调和组织系统的内部关系, 系统和系统之间也需要靠经济信息去联系, 才能使经济活动达到人们预期的目标。在科学技术迅猛发展的社会里, 经济信息资源显得更加重要。
假设现有一个包含4篇经济金融类相关信息文档的集合, 这4篇文档如下:
D1:金融投资的对象是金融资产……
D2:金融资产是获得投资收益的资产……
D3:证券投资、基金投资和期权投资组成金融投资……
D4:获得投资收益是证券性金融投资的主要目的……
检索表达式Q为:金融投资的资产收益。
首先, 需要对文档和检索表达式进行分词处理, 其结果如下:
D1:金融/投资/的/对象/是/金融/资产/……
D2:金融/资产/是/获得/投资/收益/的/资产/……
D3:证券/投资/、/基金/投资/和/期权/投资/组成/金融/投资/……
D4:获得/投资/收益/是/证券/性/金融/投资/的/主要/目的/……
Q:金融/投资/的/资产/收益/。
然后除去停用词, 去除后的文档如下:
D1:金融/投资/对象/金融/资产/……
D2:金融/资产/获得/投资/收益/资产/……
D3:证券/投资/基金/投资/期权/投资/组成/金融/投资/……
D4:获得/投资/收益/证券/金融/投资/主要/目的/……
Q:金融/投资/资产/收益/。
计算项的权值根据公式
各个索引项的df和idf值如表2所示
各个索引项在文档中的频度如表3所示
则各个索引项在文档中的权值如表4所示
检索表达式的权值很简单, 如表5所示
采用内积法计算向量的相似度, 则可以看出, 文档D3与检索表达式的相似度最高, D1、D2、D4相同且低于D3。
四、算法分析总结
算法的计算复杂程度还需要进一步探讨, 目前这些研究都还不够深入, 许多问题还有待于进一步探讨;同时由于自然语言的复杂性, 新查询向量的查全率和查准率虽然有所提高向量模型是以假设向量空间的各维之间相互正交 (即各关键字之间相互独立) 为前提的, 因而不可避免地存在由此带来的损失关键字间的相关性的缺点, 可它把对文档内容和查询要求的处理简化为向量空间中向量的运算, 克服了布尔模型的二值评价的缺点, 可以计算出文档与查询式的相关程度, 因而可以很容易地进行输出结果的排序, 用户相关性反馈机制也很容易实现, 尤其是具有对处理海量数据的适应性等种种优点使得它自诞生以来, 至今都有很强的生命力。
参考文献
[1]雷景生林冬雪符浅浅:基于改进向量空间模型的Web信息检索技术研究[J].计算机工程, 2005, 1:14~16
[2]王晓黎王文杰:基于向量空间模型的文本检索系统[J].微电子学与计算机, 2006, 23:188~190
[3]包金龙:基于向量空间模型的信息检索系统的设计[J].情报检索, 2005, 7:44~45
[4]安茹娜:浅析经济文献信息的开发和利用[J].科技情报开发与经济, 2007, 12:54~55
[5]刘海峰王元元:基于向量模型的文本检索若干问题研究[J].情报杂志, 2006, 10:57~59
语义网并非独立的另一个Web, 而是现在的Web的一个延伸。在其中, 信息有定义完好的含意, 更利于人机之间的合作。将语义网融入现在Web结构的初步努力已经在进行中了。不久的将来, 当机器有更强的能力去处理和“理解”现在它仅仅进行显示的数据时, 我们将看到很多重要的新功能。
World Wide Web本质的特性便是其广泛性全球性。超文本链接的威力在于“任何事物之间都可以相链接”。因此, 无论是潦草的草稿, 还是精致的作品, 无论是商业信息还是学术内容, 无论何种文化和语言, 网络技术对它们都应该是一视同仁的。信息在各个方面有所不同, 其中的一个区别就是, 有些信息是主要提供给人使用的, 而有些则主要是给机器用的。到目前为止, Web大多数开发成为人们阅读文档的媒体, 而在提供可自动处理的数据和信息方面, 则发展较慢。语义网就是想弥补这方面的不足。
和Internet一样, 语义网将尽可能分散化 (Decentralize) 。这种类似Web的系统能够在各个层次产生大量令人激动的事物, 包括从大企业到个人用户, 能够提供今天还不能或很难预见的好处。分散化需要一定的妥协:应当抛弃网络互联必须保持完全一致性的想法, 因为那样可能动不动就跳出那句声名狼藉的“错误404:网页没有发现”。而允许一定的不完全一致性, 网络的相互链接数目会呈指数性增长。
知识表现为使语义网工作, 计算机必须能访问结构化的信息集合以及一套推理规则, 据此进行自动推理。在Web被开发出之前很久, 人工智能研究人员就已经研究过这样的系统。这个技术通常称为知识表现, 和Web出现之前的超文本的境地类似:它的确是个好主意, 也有一些非常好的范例, 但是它还无法影响和改变世界。它蕴含了能产生重要应用的种子, 但是要充分发挥其潜能, 它必须和一个全球系统联系在一起。
二、目前的Web搜索与语义网对比
传统的知识表现通常是集中化的, 要求每个人对于共同的概念, 如“电视”和“钢笔”, 使用完全一样的定义。但是, 集中化控制比较死板, 而且这种系统的规模和范围增长过快, 很快会变得难以管理。
并且, 这些系统往往小心地对允许问的问题加以限制, 这样计算机才能给与可靠的回答。问题就像数学中的哥德尔理论:任何足够复杂的系统如果是可用的, 就必然存在不可解决的问题。也就像那个最基本的悖论的复杂版本:“本句话是错误的。”为避免此类问题, 传统的知识表现系统通常各自都有针对数据作推理的一套有限和特殊的规则。即使数据可以由一个系统传到另一个系统, 规则则不然, 由于规则所处的环境完全不同了, 它往往不能运用到另一个系统中了。
相反, 语义网的研究者认为要获得多样性, 必然会有自相矛盾的情况或无法回答的问题出现。描述规则的语言要尽量具有表达力, 让Web能尽可能广泛地进行推理。这个思想和传统的Web相似:在Web开发的早期, 恶意批评者指出它永远无法是一个组织良好的库;没有集中的数据库和树状结构, 人们无法确保找到任何东西。他们曾经是正确的。但是, 系统的表现能力使我们能获得大量的信息, 而搜索引擎 (十年前看起来不切实际) 现在能从中对许多材料产生出非常完整的索引。因此, 摆在语义网面前的挑战是, 提供一种语言, 能同时表达数据以及根据数据进行推理的规则, 并且允许任何现存的知识表现系统中的规则都能输出到Web上。
在Web上增加逻辑性——使用规则去推理、选择行为的步骤并回答问题的方法——是语义网组织面临的一个任务。这个任务涵盖了数学和工程化决策, 使其更加复杂。逻辑必须强大到能够描述复杂的对象属性, 但也不能太复杂。
语义网并不“仅仅”是执行单个任务的工具。如果设计合理, 语义网还能从整体上帮助人类知识的发展。
人类的努力都无外乎这样一个永远的矛盾:那就是小部分人独立高效行动, 但是又必须融入更大群体。一小部分人能迅速有效地进行创新, 不过这就产生了一个小团体, 它的概念其他人无法理解。在一个大群体中进行协调, 不但慢, 而且需要大量的交流。世界就在这两个极端之间忙碌着, 把小团体中的个人想法, 逐步推向更广的范围, 让更多的人随着时间的推移而逐步理解。
三、结束语
语义网虽然是一种更加美好的网络, 但实现起来却是一项复杂浩大的工程。面对纷繁复杂的问题, 人尚且难以决断, 更何况计算机。希望日益发展的计算机网络技术使我们普通用户早日享受到了语义网技术所带来的便捷, 领略它超级强大的网络功能。
参考文献
[1]张晓林.Semantic Web与基于语义的网络信息检索.情报学报, 2002