信息检索意义(共8篇)
(一)避免重复研究或走弯路 我们知道,科学技术的发展具有连续性和继承性,闭门造车只会重复别人的劳动或者走弯路。比如,我国某研究所用了约十年时间研制成功“以镁代银”新工艺,满怀信心地去申请专利,可是美国某公司早在20世纪20年代末就已经获得了这项工艺的专利,而该专利的说明书就收藏在当地的科技信息所[7]。科学研究最忌讳重复,因为这是不必要的浪费。在研究工作中,任何一个课题从选题、试验直到出成果,每一个环节都离不开信息。研究人员在选题开始就必须进行信息检索,了解别人在该项目上已经做了哪些工作,哪些工作目前正在做,谁在做,进展情况如何等。这样,用户就可以在他人研究的基础上进行再创造,从而避免重复研究,少走或不走弯路。
(二)节省研究人员的时间
科学技术的迅猛发展加速了信息的增长,加重了信息用户搜集信息的负担。许多研究人员在承接某个课题之后,也意识到应该查找资料,但是他们以为整天泡在图书馆“普查”一次信息就是信息检索,结果浪费了许多时间,而有价值的信息没有查到几篇,查全率非常低。信息检索是研究工作的基础和必要环节,成功的信息检索无疑会节省研究人员的大量时间,使其能用更多的时间和精力进行科学研究。
(三)是获取新知识的捷径
在改革开放的今天,传统教育培养的知识型人才已满足不了改革环境下市场经济的需求,新形势要求培养的是能力型和创造型人才,具备这些能力的人才首先需要具备自学能力和独立的研究能力。大学生在校期间,已经掌握了一定的基础知识和专业知识。但是,“授之以鱼”只能让其享用一时。如果掌握了信息检索的方法便可以无师自通,找到一条吸收和利用大量新知识的捷径,把大家引导到更广阔的知识领域中去,对未知世界进行探索。是谓“教人以渔”,才能终身受用无穷。
德国柏林图书馆门前有这样一段话:“这里是知识的宝库,你若掌握了它的钥匙,这里的全部知识都是属于你的。”这里所说的“钥匙”即是指信息检索的方法。说明一下,如果只是简答,你只需要选取每个点的标题即可。
信息检索是获取知识、信息的基本手段。如何有效、快速、准确地在信息海洋中找到人们所需要的信息,使之成为重要资源,已是信息时代人们的重要需求,因而,信息检索技术在信息社会中将发挥越来越重要的作用。主要体现在以下几个方面: 1.能够全面地掌握有关的必要信息,增强决策的科学性
掌握一定量的必要信息,是进行研究、搞好工作的首要条件,也是进行正确决策必不可少的前提条件。科学的决策,源于对信息资料的充分了解与认识,信息检索是国家、部门、单位和个人等决策者获取信息的重要途径。因此,信息检索会使国家、部门、单位和个人的决策建立在科学基础之上,大大增加了决策的科学性,减少了决策的盲目性。2.提高信息利用的效率,缩短获取信息的时间
信息检索可以使用户在短时间内获取有需求紧密相关的信息,使用户有更多的时间去完成更重要的工作,从而大大提高了工作效率。3.有利于信息用户获取所需的全部信息
信息检索工作往往依存于一个或多个很大的信息库,信息库中存储着很全面的各种信息。通过信息检索工作,一次就可查获信息用户所需要的全部信息。4.提高信息素质和科研工作的成功率
所谓信息素质,是指获取信息的强烈意识,掌握信息检索的技术和方法,拥有信息的鉴别利用的能力。信息素质的提高,可增强信息意识,熟悉检索技巧,有利于科学研究工作的顺利开展,同时可提高科研工作的成功率。5.促进社会的进步和经济的发展
一法律院校开设法学文献信息检索课程的意义
1. 可以培养和提高学生的法学信息素质
法学信息素质即是强烈敏锐的信息意识和熟练的信息获取技能以及创造性思维活动。开设法学文献信息检索课是培养法律院校学生的信息素养能力和研究能力, 培养其查找法律信息的方法以及驾驭、运用法律资源的能力, 使其掌握综合应用文献信息的知识和方法, 这不仅是一种实践性训练, 也是一种研究思维的训练。这是法律职业者必备的素质之一。每一项法学研究的选题、研究和成果评定, 都需要掌握有关的法学文献信息, 不了解法学学科的研究历史、现状和发展趋势就可能出现选题不正确、重复研究、成果无创新, 甚至研究无意义的情况, 从而造成人力、物力、财力和时间的巨大浪费。有了法学文献信息检索就可以通过这个渠道了解古今中外法学已有的成果, 扩大视野与知识面, 把握法学动态, 从而汲取有价值的东西为我所用, 可以避免重复劳动, 不走或少走弯路。
2. 可以提高人们的自学能力和独立研究问题的能力
授人以鱼, 不如授之以渔。教师在给大学生传授基本理论、专业知识的同时, 应注意培养与提高他们的自学能力和独立工作能力。学生在校学习期间不应仅获得“黄金”, 更重要的是获得“点金术”, 离开老师这根“拐杖”也能走路, 毕竟我们一生所获得的知识, 只有很少一部分来自学校。也就是说人的一生靠自学获得的知识远远超过在学校获得的知识。尤其是在知识激增、信息爆炸的今天, 如果没有自学能力, 就无法跟上时代的步伐。正如美国著名图书馆学家焦胡森 (Johuson) 在《图书馆咨询》中所说:“知识有两种, 一种是我们知道的某主题的知识, 另一种则是我们知道什么地方能够找到知识的信息。”通过法学文献信息检索课的学习, 使学生懂得怎样获取、选择、判断和利用法学文献信息, 培养学生阅读、分析、研究法学文献的能力等, 从而有助于培养与提高他们的自学能力和独立研究问题的能力。有了这些能力, 在校时可以开阔专业视野, 扩大和深化已学到的专业知识和技能;毕业后, 就可以不断更新知识, 开拓专业领域。也就是说, 无论是在学习还是工作岗位上, 都能积极主动地从历史和当前的法学成果中汲取有用的东西, 从汪洋般的法学信息流中快捷准确而又全面地获得最新信息, 并对所掌握的法学文献信息进行分析综合创新, 从而独立自主地进行学习研究工作。
3. 可以减少查找法学文献信息的时间, 提高学习和工作效率。
古今中外浩如烟海的法学文献资料是人类巨大的知识宝库和文化遗产, 是人们从事法学学习、法学研究和法律工作必不可少的物质条件。但是, 查找、搜集、整理法学文献信息工作往往需要占用人们大量时间, 而随着法学和法制建设的发展, 法学资料势必迅猛增长, 人们花在查找、搜集、整理法学文献信息工作上的时间必然随之增大。因此, 开设法学文献信息检索课可以了解检索工具和检索系统, 熟练掌握法学文献的查找方法和途径, 能够减少查找法学信息的时间, 提高学习和工作的效率。
二法律院校开设法学文献信息检索课存在的问题
1. 学生信息意识淡漠, 实际检索能力低下
信息意识是进行各种信息活动的灵魂, 也是学生学习掌握实体信息获取和利用方法的源动力。目前, 各院校学生普遍信息意识淡漠, 实际检索能力低下, 缺乏信息获取特别是信息利用的实践经验。学生缺乏必要的与专业课课程学习或研究相结合的信息检索与利用实践, 多是以教师讲座为主、学生讨论为辅的被动式学习方式, 学生主要是直接通过教师或书本获取知识与结论, 往往形成了一种“教师一言堂”模式, 即教师在台上针对某一具体的数据库进行某一具体问题的演示操作, 把检索步骤与过程甚至结果都一一演示出来, 学生则在台下跟着教师的思路一步一步地走或自顾看书。这种教学方式容易使学生形成了一种缺乏创造力的单一封闭的定向思维, 这是造成学生信息意识和实践检索能力低下的主要原因。
2. 教学内容跟不上法学的发展
随着社会主义法治建设进程的不断深入, 法制建设迅猛发展, 随之而来的是法律文献数量也迅速增加, 我国近十年出版的法律图书正以每年五千种的速度出版发行, 法律报刊每年发行也超过一万种, 年发表文章数十万篇, 法律专业的电子出版物、数据库、网站发展也在飞速发展。与法律文献快速增长不相称的是法学文献信息检索方面的研究远远滞后, 虽然许多法律院校开设了文献信息检索课, 但在教学内容上基本与普通院校开设的课程内容相同, 没有突出法律专业特色, 涉及的法律资源检索不多。使用的教材内容陈旧单薄, 计算机检索、网络检索及数据库的介绍更新慢, 搜索引擎和网址的推荐也明显滞后。
3. 计算机检索实践课效果不理想
计算机检索实践性很强, 如果没有充足的实习条件就很难达到理想的教学目标。而目前的计算机检索实践却大受教学设备的限制, 如计算机数量有限、数据库不全等, 这些限制往往使学生对理论知识的学习与上机实习脱节, 造成了检索实践课的效果不好。
三提高法学文献信息检索课质量的途径
1. 更新教学内容
传统的法学文献信息检索课注重讲授检索理论、手工检索方法、策略等理论知识而忽视了联机检索、数据库和网络检索的实践操作。因此, 根据信息社会的需求必须更新教学内容, 加强计算机检索教学及实践课内容, 并且在教学内容安排上, 针对不同层次的学生分别在不同阶段开设不同内容的法学文献检索课。
(1) 对新入学新生, 开设“信息意识基础”的教育内容, 帮助新生认识获取和利用信息的重要性。系统地介绍图书馆的布局与资源状况, 让学生了解图书馆的馆藏结构, 掌握必要的检索系统, 使学生对图书馆有全面具体的认识, 初步了解文献检索最基本的理论和作用。
(2) 对中年级学生, 通过一段时间的法律专业学习, 掌握了基础的法律理论知识后, 应适时地开设法学文献信息检索理论及方法的教育内容, 使学生熟练地掌握各种信息检索方法, 主要讲授计算机法律检索及电子资源利用。
(3) 写毕业论文阶段, 学生的信息需求明确, 信息检索要求专而深。此阶段应针对毕业论文的写作进行教学辅导, 介绍论文写作的格式、检索步骤、主要的检索渠道、一些专业论文数据库的检索途径等。
2. 更新教学方式
文献检索课应采取以主动性学习为主、被动性学习为辅的整合教学模式。教师应从知识的灌输者转化为知识的搜集者和课堂教学的组织者。课堂上多采用启发式、互动式教学, 重视学习探索过程, 而不是只注重检索结果的多少。也就是说, 重视的不是检索结果本身而是得出有效答案的过程, 让学生通过主动的探索和发现来获得直接的学习经验, 从而使学生独立思考, 来有效地提高学生发现问题、分析问题和解决问题的能力。在教学中, 应该充分认识到实习的重要性。文献信息检索课是一门实践性很强的方法技能课程, 所谓课堂上讲十遍不如动手操作一遍。因此, 强化教学实习, 增加上机操作课时非常必要。通过实践来训练与提高学生实际操作技能, 培养创新精神和解决问题的能力, 才能令学生将理论与实践有机地联系起来, 真正地做到学以致用。
3. 提高教师信息素质
搞好法学文献信息检索课建设的关键在于教师。这要求任职教师不仅要具备图书情报检索的专业知识, 还要对法学理论和法律各部门有一定的了解, 这样在教学过程中才能做到针对性和实用性, 提高学生的学习兴趣;同时, 检索技术在日新月异地发展, 这些都要求任课教师不断地有针对性地进行继续教育培训, 以补充其专业知识, 同时教师自身也应不断提高检索技能, 掌握最新的检索方法。
参考文献
[1]林青云.教育的变革:培养终身学习能力——高校图书馆与用户信息素质教育[J].情报探索, 2003 (4) [1]林青云.教育的变革:培养终身学习能力——高校图书馆与用户信息素质教育[J].情报探索, 2003 (4)
[2]罗敏.案例教学在文献检索课中的应用探讨[J].大学图书馆学报, 2007 (3) [2]罗敏.案例教学在文献检索课中的应用探讨[J].大学图书馆学报, 2007 (3)
【关键词】网络信息;检索
随着信息技术的高速发展,信息资源的越来越显得重要,而网络信息资源也逐步成为这个信息时代的核心资源。信息检索技术也很快得到发展,在此网络信息检索随着网络的发展也应运而生。网络信息检索,就是将描述特定用户所需网络信息的提问特征,与信息储存的检索标识进行异同比较,从中找出与提问一致或基本一致的网络信息的过程。相对传统文献检索,网络信息检索显现出了很多的优越性,如不受时间地点的限制,检索方式多样化,多元化等。但是我觉得网络信息检索的发展还不是十分完善,仍存在些问题,如目前检索工具在信息搜集缺乏统一的规范管理,检索过程会出现很多雷同,甚至无用的垃圾信息等。以下从网络信息检索目前存在的问题,及针对问题面临的以后的发展方向进行了探讨。
随着网上信息资源的膨胀发展,一种搜索引擎,无论它多么完善都不可能满足一个人所有的检索需求。如果遇到文献普查、专题查询、新闻调查与溯源、软件及MP3下载地址搜索等情况,人们就更需要使用多种搜索引擎来比较、筛选和相互印证。为解决逐一登陆各搜索引擎,在各搜索引擎中分别多次输入同一检索请求等烦琐操作,基于网络检索工具的检索工具产生了。
目前这列检索工具只要有两种:集成搜索引擎和元搜索引擎。所谓集成搜索引擎是在一个检索界面上链接若干种独立的搜索引擎,检索时,一次检索输入,可以指定搜索引擎也可以要求多个引擎同时检索,搜索结果由各搜索引擎分别以不同页面提交的网络检索工具,其实是利用网站链接技术形成的搜索引擎集合。集成搜索引擎制作与维护技术简单,可随时对所链接的搜索引擎进行增删调整和及时更新,尤其大规模专业搜索引擎集成链接,深受特定用户群欢迎。如国内天网搜霸和百度搜霸,国外比较著名的有“搜索之家” “网际瑞士军刀”等。
另一个是元搜索引擎,用户只需递交一次检索请求,由元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将所有查询结果集中起来以整体统一的格式呈现到用户面前。国外比较著名的元搜索引擎有Vivisimo、EZ2WWW、Kartoo、SurfWax、Fazzle等。目前国内现在还没有见到真正意义上的元搜索引擎。元搜索引擎虽没有网页搜寻机制,亦无独立的索引数据库,但在检索请求提交、检索接口代理和检索结果显示等方面,均有自己研发的特色元搜索技术支持。目前元搜索引擎技术主要有并行处理式和串行处理式两大类。并行式元搜索引擎运行时是将查询请求同时发向各个独立搜索引擎,然后将的结果按特定的顺序呈现给用户;串行式元搜索引擎运行时是将查询请求先发向某个独立搜索引擎,待其返回结果后再将请求发往另一个独立搜索引擎。
从第一个元搜索引擎Metacrawler诞生至今,这一新型的网络检索工具异军突起,发展迅速,目前可用的元搜索引擎已近百种。由于元搜索引擎的功能受着源搜索引擎和元搜索技术的双重制约,元搜索引擎比较理想的并不多见。信息检索专家邢志宇将元搜索引擎存在的问题归纳如下:(1)大多元搜索引擎不支持多语种,尤其是汉语检索;(2)一些元搜索引擎实现检索语法转换的能力有限,不支持指定字段检索,不能充分发挥各个独立搜索引擎的高级检索功能;(3)部分元搜索引擎无源搜索引擎列表,用户不能自主选择和调用源搜索引擎;(4)大部分元搜索引擎仅支持调用AltaVista、Excite、GoTo.com、Yahoo!、Infoseek、Lycos等常用的搜索引擎,一些大型搜索引擎如NorthernLight、HotBot等被排除在外,人为地限制了搜索资源的利用;(5)在检索结果上,元搜索引擎只能返回十几、数十条“相关度”较高的结果,大量可能有价值的源搜索引擎的检索结果被忽视,影响检索结果的全面性。
Internet的发展使信息采集、传播和利用无论是从规模还是速度都达到了空前的水平。我觉得未来网络信息检索技术的发展方向如下:
1.智能化
现有的检索引擎存在着查全率和查准率低的问题,未来的搜索引擎技术必须具有能及时挖掘新信息和及时能链接新增的信息,多途径检索功能,用户可以交互式检索,搜索出满意的信息。提高网络信息检索技术水平并实现智能检索,智能化是网络信息检索未来主要的发展方向。智能检索是基于自然语言的检索形式,机器根据用户所提供的以自然语言表述的检索要求进行分析,而后形成检索策略进行搜索,智能检索技术就是采用人工智能进行信息检索的技术,它可以模拟人脑的思维方式,分析用户以自然语言表达的检索请求,自动形成检索策略进行智能、快速、高效的信息检索。最近几年,智能信息检索作为人工智能的一个独立研究分支得到了迅速发展,而且目前已有一些搜索引擎支持智能检索,但智能化程度还不高,这方面还有待进一步的发展。
2.标准化
现在的网站信息瞬息万变,杂乱纷繁,很是需要进行分类整理。目前虽然有大量的搜索引擎,但还没有一个统一严格的分类方法来管理,网络信息资源在组织分类上需要制定一个统一的分类标准。还要规范网络术语,提高资源共享的程度,这样可以有效保证用户的检索效率。
3.个性化
科技的发展要以人为本,随着科学技术的发展,个性化服务也将成为网络信息检索的一个发展方向。随着互联网的飞速发展,每个人的对信息的需求将不再满足于标准化、单一化的大众需求。不同的人需要不同的服务,如残疾人士对网络信息检索的要求就要区别于常人,要是信息检索能很好的识别语音检索就能很有效的满足他们的信息需求。如何使用户更方便、快捷地使用各种检索工具,满足用户各种检索要求,个性化服务也会成为网络信息检索重要的发展方向。
传统信息检索与现代信息检索的区别与联系............................................2 【引言】:...............................................................................................2
一、传统信息检索.................................................................................2
二、现代信息检索.................................................................................2
三、传统信息检索和现代信息检索的异同...........................................3
四、国内外研究现状..............................................................................3
五、信息检索的发展趋势......................................................................6 传统信息检索与现代信息检索的区别与联系
【摘要】: 信息检索的发展是随着科学技术的进步而发展的。人类已经 进行了四次信息技术革命,目前正 在进行第五次信息技术革命。信息技术的革命使得信息检索也不断地得到改进,信息检索技术主要有四个阶段:初始阶段、手工检索 阶段、计算机检索阶段、网络检索 时代。信息检索手段分传统信息检索和现代信息检索。传统信息检索是指手工信息检索,现代信息检索包括计算机信息检索和网络信息检索。
【关键词】: 网络信息检索 传统信息检索 信息技术革命 比较研究 计算机检索 手工检索 网络检索 信息检索技术 检索手段 文献信息
【引言】:
一、传统信息检索
传统信息检索-手工检索是利用各种专门用于检索的印刷出版物,即常说的检索工具来查找所需要信息的手段。其检索方法主要有以下几种:(1)直接检索:这是人们最常用的一种查找信息的方法,如去图书馆查阅各种图书、期刊及其他资料,找到需要的信息,需花大量的时间和精力,在过去文献较少时,还能达到目的,而在信息大量产生的年代里犹如大海捞针。
(2)间接检索:就是利用各种检索工具获取线索,再根据线索查找原始文献信息的方法。也就是手工检索。间接检索还分为:1追溯放:通过已知文献所赋的参考文献“由一变十,由十变百“地进行追溯查找有关信息还可以利用各种”引文索引”等工具进行追溯检索。2.工具法:利用各种检索工具进行查找文献,是文献检索最常用的方法。
二、现代信息检索
现代信息检索是指计算机及网络信息检索。计算机检索是以计算机为基础的信息存储检索。它是在手工检索、机械检索及光电检索基础上演变过来的,且在不断地发展。(1)计算机单机检索:是计算机检索的初形式。随着计算机存储介质的发展变化,也在发生不断变化。目前主要有三种方式:计算机磁盘检索,计算机磁带检索和计算机光盘检索。
(2)网络检索:计算机网络检索是近几年来发展起来的,目前它主要有三种形式:图书馆的局域网络的检索,联机检索系统的检索和internet网上检索。
随着计算机技术的普及、通讯及网络技术的发展,现代信息检索技术已不再是图书馆情报专业人员的专长,而是人人都应掌握的基本技能。
三、传统信息检索和现代信息检索的异同
(1)检索语言:检索语言就是检索信息时所使用的信息词汇,在检索语言上,手工检索与计算机检索基本相同,不同的是计算机检索可以使用较多的自然语言,internet网上检索一般使用自然语言。
(2)检索概念的组配:手工检索主要是以人脑进行检索概念的组配,而计算机检索则是利用布尔逻辑、位置逻辑等逻辑运算符进行概念组配,internet网上检索概念组配方式尚不成熟。其中计算机检索的概念组配最为严谨,手工概念组配的检索组配最灵活。
(3)检索途径:检索途径也就是检索入口,是根据信息的某种特征所进行的检索,手工检索与计算机检索的基本检索途径是相同的,如著作、分类、主题等。但计算机检索的检索途径要更加广泛和灵活,可以从年代、题目、文章、语种等途径进行检索,并能进行多途径同时检索。
(4)检索工具的特点:传统检索:
1、检索范围窄
2、检索速度慢
3、检索效率差
4、检索入口少
5、用户负担大
6、工具内容更新速度慢
7、工具体积庞大
8、信息密度低。现代信息检:
1、检索范围广
2、检索速度快
3、检索效率高
4、一种检索输入、多种检索输出
5、检索人性化
6、更新速度快
7、检索界面简洁
8、信息密度大。
四、国内外研究现状
21世纪是信息大爆炸的时代,海量的信息在满足人们工作、生活和研究需求的同 时,也给人们检索和利用信息带来了空前的挑战,快速、准确、有效地检索到所需要信息已成为每一个信息检索者的迫切愿望。满足用户的最大需求不仅要求提高信息检索系统的易用性和信息检索技术,还应充分分析和了解用户的信息检索特点,发现影响用户利用网络信息行为的障碍,有针对性地为用户提供帮助。
(1)中国研究现状
(1-1)研究主题
国内信息检索研究主要集中在用户检索行为特征、基于认知信念的用户信息检索研究、网络环境对信息检索的影响研究、国内外信息检索研究述评、特定情境下的信息检索以及利用特定数据库的信息行为研究等方面,呈现出研究主题涉及范围广、分布分散、深度不够的特点。此外,图1显示,近10年中聚焦消费者群体、学生群体、科研人员、网络用户和旅游群体等5类用户研究的文献就有57篇。虽然也涉及医学用户、老年用户信息检索特征的研究,但主题研究论文仅一两篇,不占研究的主流地位。因此,就研究主题分布而言,国内在上述5类用户研究方面具有一定的深度和规模,其他主题研究明显还不够深入,有待进一步加强.(1-1-1)关于消费者群体的研究 在网络环境下,为应对铺天盖地的商品广告和网络商店,消费者必须要有一定的检索技能,才能查找到自己 需要的商品,并甄别和选择出价格合理的商品。基于消费者信息需求的多样性和检索行为的多元化,选择消费者群体检索行为特征作为切入点的论文较多,共有15篇。其中研究的重点集中在电子商务交易过程中的信息行为、消费者搜索特定商品的策略和行为等方面,如乳制品、房地产、非处方药品信息的搜索特点。在消费用户信息检索特点研究中,研究者比较注重调查研究。例如,唐亮通过调查统计,在研究消费者网络信息搜寻行为及其影响因素的基础上,探讨了风险性感知、复杂性感知、重要性感知、产品知识、网络使用能力、市场敏感度等因素对
消费者信息需求感知的影响,同时对影响消费者选择搜索引擎和门户网站的因素进行探讨。因此,这类研究论文不仅对丰富消费者网络信息搜寻行为的理论有一定的参考价值,而且对于企业根据消费者获取信息的特点调整产品的宣传策略也有一定的借鉴意义。
(1-1-2)关于学生群体的研究
高校中大学生和研究生是检索利用各类信息资源的主体。据统计,大学生群体信息检索的研究论文有11篇,研究生群体的有1篇,由此可以看出,大学生群体信息检索无疑是信息检索研究的重点。学生群体研究主要针对本科及以上学历的学生。研究者主要通过问卷调查和统计的方法,分析高校本科生在网络环境下的信息检索,其中包括信息检索技能、策略、动机和信息素养等对信息检索的影响并提出相关建议。例如石德万等通过实证分析得出“学生查询互联网信息时,主要是通过搜索引擎查找相关的网站,然后再进入网站查找所需信息,其次是根据已有的知识和经验访问已知的网站查找信息”,对图书馆如何应对读者的信息搜索习惯提出了加强文献检索课检索技巧培训、建设信息导航,提高高校图书馆的网络信息服务能力,优化本科生网络信息检索 教育等方面的建议。此外,不少论文通过调查和研究发现影响高校学生网络信息检索的主要因素有基本特征因素如性别、专业、年级、上网频次;网络环境因素如对网络信息与非网络信息的认知比较、网费、对网络的 熟悉程度与检索技巧、用户培训、上网时间与地点等。
(1-1-3)关于科研人员的研究
科研用户一般包括大学的科研工作者、教师、各个科研机构的研究人员以及博、硕士研究生等。这一群体在利用网络数据库时一般具有较强的目的性,即根据科研项目的主题检索科技信息,他们对网络数据库的查准率有较高的要求。由于科研人员的特殊性,即科研工作创新迫使他们需要不断地进行探索,进而导致信息需求的“不确定”
。因此,在研究过程中,他们一方面处于长期存在信息需求的状态,另一方面,需求信息具有一定的模糊性。研究论文针对用户信息需求的特点,结合网络信息检索实践,从认知行为学和心理学的角度探索了科研人员利用web2.0以及各类网上数据库的检索行为。例如胡昌平等通过论述科研人员克服信息查询障碍,借助图书馆工作人员优化检索过程和改善检索结果,揭示了网络环境下高校科研人员的一些重要的检索行为特征,为提高科
研人员以项目为中心的信息利用水平提供了借鉴。因此科研用户检索行为研究不仅对改善网络信息资源的组织方法、导航系统、标识系统,而且对优化搜索引擎也有着很强的现实指导意义
(2)国外研究现状
(2-1)研究方法
国内关于信息检索研究主要采用定性和定量相结合的方法,最常用的是通过问卷调查或者是在线调查采集数据。采集有代表性的样本是获得正确调查数据的重要保证,同时能够保证得出结论的正确性和研究结果应用于实践的可行性。例如刘磊等调查的学校有南京大学(综合类院校代表)、南京理工大学(工科类院校代表)京师范大学(人文类高校代表)、南京农业大学(农林类高校代表)等,涉及的学科专业有法律、国际贸易、英语、汉语言文学、历史、生物、园艺、环境保护、农学、医药、化工、车辆工程、电子信息等学科专业。该项调查内容丰富,调查对象覆盖面宽,有很强的代表性。但有些论文针对医务人员信息检索所做的调查,只选取某一个医院的部分人员作为调查对象,由于样本太小,难免产生片面性结论的弊端。
(2-2)研究主题
在国外近2800篇的论文中,研究领域较广,涉及到检索行为模型研究、不同职业人群的检索行为研究、检索任务对检索行为的影响研究、搜索引擎对检索行为的影响研究等。其主要的主题内容分布如下。
(2-2-1)对不同职业用户群信息检索的研究
国外检索行为的研究中,用户群的信息检索研究是一重要研究领域。在医生、护士、工程师、教师、管理人员、学生群体等研究中,医务人员和学生检索行为则又是其研究的重点。国外关于学生群体的研究较为精细,不仅根据大、中、小学生不同年龄和学习特点展开了信息检索研究,而且根据不同年龄段学生的信息需求、检索技能、检索策略制定、选择检索工具的特点以及学校用户教育在方法和内容等方面的衔接展开了研究。
由于医务人员信息量较大,因此他们对信息检索的依赖性较大。哈伦大学的经过研究,发现医务人员信息检索研究主要涉及3个主题。一是医生信息需求的频率和类型研究;二是医生信息需求的内容研究,包含信息资源利用模式、信息检索耗费时间、信息检索壁垒与信息检索技巧;三是信息资源研究,包括利用资源的数量、信息来源比较、信息资源利用排名、印刷型与电子资源利用比较、PDA的利用、电子数据库和网络利用研究等。
(2-2-2)对不同学科用户群信息检索的研究
学科的差异性必然带来信息需求和检索行为的迥异。该类文献研究主要聚焦在不同学科研究人员的检索方法、信息源以及面临的障碍等。例如,S.Nii Bekoe Tackie和Musah Adams在对VRA.工程师的研究调查中,发现工程师们需要相对简洁、详细且实用的信息,他们检索的动机受所需解决问题的类型的影响,从而更倾向于通过同事间的交流获得信息。因此,他建议扩大图书馆的信息交流空间,提高检索质量来吸引工程技术人员利用图书馆。BradleyM.Hemminger等人通过网上调查,研究网络环境对信息检索的影响,发现越来越多的人对网络资源的依赖性较大,利用图书馆的人日趋减少。这些研究成果提示图书馆,应对网络环境,必须充分运用营销手段努力推销自己,延伸和拓展服务手段,更大范围地覆盖研究人员的信息需求。
五、信息检索的发展趋势
随着网络的飞速发展,网上资源也日新月异,呈爆炸性增长趋势。面对如此浩瀚多样的信息资源,计算机技术,通信技术,信息检索存储技术的快速发展,手工检索的“手翻、眼看、大脑判断”的检索方式已经很难适应当今信息的发展速度,因此,信息检索开始从手工检索过渡到计算机检索。
信息检索,是以科学的方法,利用检索工具和检索系统,从有序的信息集合中检索出所需的信息的一种检索方式,是人类为了合理的分发情报和充分的利用情报而采取的一种重要的交流方式,于是乎,信息检索已经成为现代社会信息化和个汇总应用关系的关键。
在这个高速发展的信息时代,信息就是商品、信息就是财富、信息就是资源、信息就是机会,人人都渴望及时获得有用的信息,如果说信息是人来赖以生存、发展的本能,那么信息检索就是每个人必须具备的一种基本技能。因此,信息检索在这个时代起着举足轻重的作用:1.信息检索是读书治学的基本功。无论是在学习还是在工作期间,都需要进行各种信息检索的培养和训练;2.信息检索是科学研究的组成部分。科学研究首先是从课题调研掌握资料起步的,信息检索有助于掌握本课题的进展动态,开拓思路,避免重复劳动,把研究水平提到新的高度;3.信息检索是科学决策的先导。信息化时代的经济管理、政治控制、艺术创造乃至心理状态的演变等,均受到各种社会信息的影响。适时掌握相关信息才能实现有效的管理。
目前,信息检索已经发展到网络化和智能化的阶段。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的信息内容扩展到开放、动态、更新快、分布广泛、管理松散的网络内容。因此,在未来的时代信息检索必将出现信息智能化、个性化、专业化、多样化的检索引擎。
智能搜索引擎是结合了人工智能技术的新一代收索引擎,它使因特网信息检索从基于关键词检索提高到基于知识或概念检索,并对知识有一定的理解及处理能力,能够实现分词技术、同意词技术、概念搜索、短语识别及机器翻译等技术。智能检索是基于自然语言的检索形式,机器根据用户所提供的以自然语言表述的检索要求进行分析,而后形成检索策略进行搜索。用户所需要做的仅仅是告诉计算机想做什么,至于怎样实现则无须人工干预,这意味着用户将彻底从繁琐的规则中解脱出来。在检索服务方面,提高检索质量需求最基本的一点就是判定用户是在寻找快速的回应还是精确地检索结果并分析查询中隐含的“意义范围”,即词语在不同领域的含义。个性化信息检索是指能够为具有不同信息需求的用户提供个性化检索结果的技术。即对不同用户提供的同一种查询词语也能按照不同的用户需求而生成不同的检索结果。从实现原理上看,目前的个性化信息检索的方法主要有三种,分别为基于文本内容分析的方法、基于点击流量的方法和基于超链接分析的方法。基于文本内容分析的方法通过获取用户的查询历史和访问网页等文本信息,甚至有时还能结合用户主动提交的,反应自身兴趣的关键词来得到个性化检索结果。而基于点击流量的分析方法则使用了一些间接反映用户个性化需求信息的方法,往往能更有效地提供个性化检索的服务。再如基于超链接的个性化检索方法,它主要利用修改网页的标准PageRank值来反映用户的个性化信息需求。
面对这样一个新知识、新技术不断涌现、只是新陈代谢频繁的世界,想要一劳永逸的获得知识是不现实的,我们只有终身学习、不断获取、更新知识,才能不被社会所淘汰。要有效、快速的获得和利用最新的信息,就必须掌握信息检索的技能。
【参考文献】:1.周文荣:网上数据库检索[j]情报科学;2001年08期
选定一个课题,独立完成。(制定题目要注意主题明确,关键词最好在三个或以上,这样方便检索的进行。另外大四同学最好用自己的毕业论文题目作为检索课题)。
整个检索报告分四部分组成,即课题背景分析、检索结果、综述、检索心得或检索课题引申这四部分。
【课题分析部分】(10分)
1、要求介绍课题的主要内容,有关的课题中涉及的概念、定义以及综述的范围,使读者对全文要叙述的问题有一个初步的轮廓。
2、说明自己查询的课题所属学科、中英文关键词(英文关键词可借助字典网站进行翻译),拟选用的数据库。
【检索结果部分】(70分)
1、要求分别使用三个以上中文数据库查询。分别注明查询每种数据库时的检索策略,每个数据库分别选取有代表性的1篇,复制相应的文摘著录格式。
2、使用两个以上英文数据库查询。列出检索策略(即检索式),每个数据库中挑选2篇检中的切题文献,复制相应的文摘著录格式,并翻译所有摘录结果的篇名及文摘的第一句话。
3、利用专利数据库网站,查找切题的中英文专利文献各1篇,给出检索策略,复制相应的文摘信息,英文专利翻译篇名及文摘第一句话(根据所选课题,自定关键词自由选做)。
4、用您之前申请的订阅器订阅有关您这个课题相关的中文期刊一本,英文期刊一本以及百度或其他搜索引擎的关键词订阅一条。复制相关页面。
【综述部分要求】(15分)同学们在搜集好与课题有关的参考文献后,阅读所搜集到的文献资料,并进行归纳、整理及分析比较,用自己的语言阐明所查主题的历史背景、现状和发展方向等。不少于400字。(本部分一定要自己总结,切忌抄袭)
注:真正意义上的“文献综述”,可以理解为“关于文献的文献”,是对文献再加工而成的第三次文献,即综述的作者并不需要自己去做第一手的工作,但却可以凭借自己的学识和判断力对某一领域的研究做出综合性的介绍,并加入自己的预测和判断。
简单地说,你的文献综述应当告诉别人
三件事:Why、What&How
第一,论文题目的意义或作用(前言部分)why
第二,我读了哪些书或者资料,发现了哪些问题(主体部分)what
第三,我应当从哪里入手做我的毕业论文或毕业设计。(总结部分)how 文献综述高度浓缩了几十篇甚至上百篇散乱无序的同类文献之成果与存在问题或争论焦点,对其进行了归纳整理,使之达到了条理化和系统化的程度。它不仅为科研工作者完成科研工作的前期劳动节省了用于查阅分析文献的大量宝贵时间,而且还非常有助于科研人员借鉴他人成果、把握主攻方向以及领导者进行科学决策。
【学习本课程的意见与建议】(5分)
通过完成整个专题报告,你遇到了哪些困难?如何解决?你在本课程学习中最大的收获是什么?现行的考试方式是否合理?你对改善本课程的建议?
通过该课题的检索与分析评价,引发了你哪些更深刻的思考?
注意:1.将整个检索报告整理好,写清楚题目、学生姓名、班级、学号,在9周的周4之前交到学习委员。
2、务必交打印稿(或手写稿),否则零分。学习委员将电子版发送到我邮箱。
3、独立完成,如发现相同的实习报告,均以零分计,并上报有关部门。
可选课题:
3班:微生物淋溶法去除污泥中的重金属
2城市大气中VOCs的组成及分布特征
3不同强度干霾期间气溶胶垂直分布特征
4进水碳磷比对连续流反硝化除磷工艺脱氮除磷效果的影响
5不同屋面雨水径流中PAHs污染特性对比分析
6城市轨道交通运营安全管理协同机制
7两级生物选择同步除磷脱氮新工艺
8基于表面活性剂的斜板洗涤器脱除憎水颗粒研究
9壳聚糖季铵盐絮凝剂处理丁苯橡胶废水的研究
10电化学氧化除氨氮过程中羟基自由基及中间产物定量分析11无机-有机复合混凝剂处理夏季引黄水库水的对比研究
12麦草碱预提取制备低聚木糖并改善纸浆及黑液性能
13生物硫铁复合材料处理含铜废水及机理研究
14生物活性炭法处理ABS树脂生产废水
15基于模糊神经网络的A^2/O工艺出水氨氮在线预测模型
16污泥为燃料的微生物燃料电池运行特性研究
17化学氧化和砂滤对净水工艺中颤蚓污染的协同控制
18渤海中部底质沉积物重金属环境质量
19木质素季铵盐表面活性剂的合成20沉积物对粪固醇的吸附行为研究
21超声波强化Fenton试剂深度处理制浆中段废水
22猪粪、木屑混合物蚯蚓堆制处理中蚓体Cu、Zn富集的影响因素23混凝-光催化联用技术处理制浆中段废水的研究
24亚磷酸盐降解微生物的筛选、鉴定和降解特性
25复合式絮凝床处理制浆中段废水中试研究
26巢湖夏季水华期间水体中溶解性碳水化合物的研究
27淀山湖营养物输入响应关系的分位数回归分析
28中国南部沿海近岸西加鱼毒素研究
29电镀厂污染土壤重金属形态及淋洗去除效果
30五氯酚对稀有鮈鲫胚胎毒性效应研究
31土壤及地下水污染点不同暴露途径的健康风险比较
32基于自然保护区属性的管理成本分析
33城市河流型饮用水水源地选址方案评价研究
34相对资源承载力模型改进及其应用
35中国水土重金属污染的防治对策
36广州市分行业能源消耗及国内外贸易隐含能研究
37不同磷初始浓度对紫萍生长及磷吸收效率的影响
38基于浮游生物群落变化的生态学基准值计算方法初探
39河流-湖泊系统中溶解有机质的示踪及迁移
40青年湖沉积物中氮赋存形态的季节性变化
41近岸海域环境功能区概念辨析及其存在的问题和对策
42改良型氧化沟-浅层气浮工艺处理制浆造纸废水
43高架桥对街道峡谷内大气颗粒物输运的影响
44西辽河流域不同土地利用结构硝酸盐氮输出通量模拟
45双酚A对稻田土壤细菌群落特征及土壤酶活的影响
46资源枯竭型城市可持续发展对策研究
47污水处理过程中苯系物和氯代烃三相分布规律
48猪场废水厌氧消化过程中的除磷效果
49水化普通硅酸盐水泥吸附水中氟化物的动力学与热力学解析
50基于改进输出系数法的矿区重金属面源污染负荷核算模型51有机生活垃圾不同微生物接种工艺堆肥腐熟度评价
52工业能源消费碳排放量核算及影响因素分解
4班:
基于QUAL2K模型的珠江流域安全纳污能力研究
污泥活性炭对染料的吸附动力学研究
重污染感潮河道底泥释放特征及其控制技术研究
一种区域环境风险评价方法——信息扩散法
处理实际生活污水短程硝化好氧颗粒污泥的快速培养
长江三角洲氮收支的估算及其环境影响
基于遥感和GIS的景观尺度的区域生态健康评价
细菌群落结构对水体富营养化的响应
城市物质代谢的能值分析与生态效率评估
经济增长与环境污染关系实证研究
珠江流域氮磷营养盐动态特征及主要影响因素
快速城市化对区域生态环境影响的时空过程及评价
饮用水中有毒污染物的筛查和健康风险评价
广州市夏季大气中多氯联苯和多溴联苯醚的含量及组成对比
温度对水华微囊藻及孟氏浮游蓝丝藻生长、光合作用及浮力变化的影响 95 人工合成麝香的环境污染、生态行为与毒理效应研究进展
天津市大气污染源排放清单的建立
中国湖泊水环境基准的研究进展
中国能源相关的氮氧化物排放现状与发展趋势分析
我国非点源负荷研究中的问题探讨
膜-生物反应器在我国的研究与应用新进展
采矿区和冶炼区水稻土重金属污染及其潜在风险评价
重金属污染对人体健康风险的研究
处理生活污水湿地植物的筛选与净化潜力评价
交通活动对公路两侧土壤和灰尘中重金属含量的影响
重金属铜、锌、镉、铅复合污染对土壤环境微生物群落的影响 106 区域水安全评价指标体系初步研究
中国城市污泥的重金属含量及其变化趋势
广州市大气可吸入颗粒物(PM_(10))中多环芳烃的季节变化
湿地生态环境需水量研究
基于信息熵的城市生态系统演化分析
土壤重金属的积累及其变化趋势
城市边缘带化工园区土壤重金属污染评价
珠江三角洲及南海北部海域表层沉积物中多溴联苯醚的分布特征 114 环境样品中多环芳烃的前处理技术
复合型生物絮凝剂成分分析及其絮凝机理的研究
CTMAB-膨润土从水中吸附氯苯类化合物的机理——吸附动力学与热力学 117 珠江三角洲地区土壤重金属污染控制与修复研究的若干思考
好氧/厌氧污泥胞外聚合物(EPS)的提取方法研究
论土壤重金属有效性测定指标的可靠性
浅水湖泊沉积物中磷的形态及其与水相磷的关系
磷肥对砷污染土壤的植物修复效率的影响:田间实例研究 122 广东省土壤重金属含量的空间分布特征
胞外聚合物EPS对活性污泥沉降性能的影响研究 124 湖泊生态系统健康评价方法研究
重金属复合污染农田土壤的微生物群落遗传多样性研究 126 一种城市生态系统健康评价方法及其应用
河流表层沉积物中多环芳烃的分布与生态风险评价 128 广东地区土壤中有机氯农药残留及其分布特征
水库周边不同土地利用方式下氮、磷非点源污染模拟研究 130 模糊评价因子的熵权法赋权及其在水质评价中的应用 131 基于生态系统健康的生态承载力评价
人资1W 学号:10213103
姓名:陈磊 班级:10摘 要:随着教育信息化工程的整体推进,要求数字化学习资源的建设也要同步地向前发展。正确认识数字化学习资源建设的现状,并提出正确有效的举措与做法,对于数字化学习资源的建设具有重要的指导作用。
关 键 词:数字化学习资源、发展趋势、应用与开发、质量监控
一、关于数字化学习资源的内容———要关注国际上教育思想的转变
1.1在考虑数字化学习资源建设的过程中,首先应当看到,从上世纪90年代末到本世纪初这几年间,整个国际教育界的教育思想有一个大的转变。[1] 由于在网络环境下既有丰富的学习资源,又有很强的交互性,便于自主学习、自主探究,所以,随着网络的普及,在建构主义理论的支持下,基于网络的“以学生为中心”的教育思想在上世纪90年代初期、中期甚至到90年代末都一直很流行,而传统的“以教师为中心”的教育思想则受到严厉的批判。与此同时,在教学过程中教师必不可少的主导作用(如正确的启发引导、重点与难点的分析把握、促进新知与旧知之间的联系等等)也被当作糟粕扔掉了。
与国际教育界上述教育思想观念的转变相适应,数字化学习资源建设的内容也要相应地实现由支持“以教为主”或“以学为主”,转变为支持“学教并重”。1.2 支持“以教为主”的数字化学习资源,由于其主要关注点是辅助教师解决教学中的重点、难点,提高教学效率,更好地向学生传授知识(而对学生自主学习、自主探究等活动则缺乏相应的关注与支持),故其内容强调要为一线教师的学科教学提供多媒体课件、CAI课件、典型课例、教学设计方案和各类试题等资源;支持“以学为主”的数字化学习资源,由于其主要关注点是要促进学者的自主学习、自主探究活动和小组的协作学习、协作探究活动(而对如何辅助教师的“教”,则缺乏相应的关注与支持),故其内容应是能起认知探究工具作用与协作交流工具作用的数字化学习资源。
二、关于数字化学习资源的管理———要关注两个新的发展趋势
关于数字化学习资源的管理,有两个新的发展趋势值得我们关注。
2.1目前对数字化学习资源的管理,主要考虑的问题是如何通过数据库存储方式对学习资源的数据内容进行有效的管理,但管理数字化学习资源的最终目的,是为了能在教学过程中充分地利用这些资源。所以,我们在建设数字化学习资源的过程中不仅应当关注学习资源的数据内容管理,同时也应当关注(甚至更应当关注)学习资源应用环境的支持与管理。
学科群资源网站是以不同学科的数字化学习资源为核心,建设起一个集资源共建共享、在线课件开发、联机备课、学科信息发布、互动交流等功能于一体的多学科、多层次的学科网站群,目的是使数字化学习资源的利用能更加符合教师和学生的思维方式与行为习惯。
2.2目前,绝大部分省、市或地区的数字化学习资源都是分散存储于该省、市的各个学校或该地区的不同学习资源网站上,应当采用何种机制才能对分散存储的资源进行有效管理并进行共建、共享,这是数字化学习资源建设关注的焦点之一。我们认为,建立“区域内分布式资源网络管理系统”是有效解决大范围数字化学习资源整合与共享问题的较佳方案。建设区域内分布式资源网络管理系统的核心技术包括两项内容:
2.2.1对资源目录的集中管理
本地区的学习资源中心(例如省电教馆)要为广大用户提供一个能覆盖本地区所有数字化学习资源网站的资源目录管理系统,以便本地区不同学习资源网站之间的互相访问与资源共享。而且,还要有专人对该资源目录系统进行经常性维护,从而达到本地区范围内各资源站点目录的同步更新与统一管理。与此同时,系统还应提供专用的教学搜索引擎,以实现对不同资源站点上相关信息的快速查询与检索;当用户需要打开某个资源时,资源目录管理系统应提供重定向功能 2.2.2对资源数据的分布式存储
数字化学习资源网络系统是由多个资源站点组成的,资源网内每一个提供资源信息服务的站点都是资源网中的一个节点———用于存储实际的物理资源,资源节点之间基于一定的信任授权关系进行资源互访,资源元数据信息与本地区学习资源中心目录管理系统中的目录信息保持同步,因此可以实现网络系统内数字化学习资源的分布式存储和集中式管理,并在本地区范围内提供广泛的基于共享的数字化学习资源服务。
三、关于数字化学习资源的质量监控———评审机制的建立和实施
3.1当前数字化学习资源的建设呈无序状态,很多单位在组织资源建设时,只注重数量而忽视质量。应该通过建立有效的数字化学习资源评审机制,并提高评审结果的科学性和权威性来规范资源建设行为。与此同时,还应制定具有可操作性的数字化学习资源评价指标体系,这种评价指标的制定要突出数字化学习资源的教育特性和新课程标准对学习资源的要求,并要以素质教育和创新教育为基本出发点。3.2 为了保证数字化学习资源评审的科学性与有效性,应当采用专家评审与群众(用户)评价相结合的方式。
专家评审应建立包括几方面专业人员的评审小组,通常应该包括学科教学专家、教育技术专家、信息技术人员、统计人员(对资源评审结果进行统计)等。在整个评审过程中每个成员应各司其职,把好相应环节的质量关。
群众(用户)评价从时间上看,分为使用前评价和使用后评价两种。使用前评价是根据事先制定的数字化学习资源评价指标体系,为不同用户编写不同的问卷来获取评价信息及相应的得分———使用前的评价得分。使用后评价则主要依据公开发布该资源后被引用情况的统计信息(如被点击次数、被下载次数、被引用次数等)以及用户使用该资源后在网上的评论信息,把二者结合起来(即把被引用情况的统计信息和网上的评论信息结合起来)进行综合评价,才能得出相应的得分———使用后的评价得分。再对使用前评价和使用后评价所产生的两种得分作加权统计———由此即可得出群众(用户)评价的总得分。
最后,将专家评审的结果与群众(用户)评价的总得分二者结合起来,这才是能够保证数字化学习资源评审科学性与有效性的最终结果,并可以此作为确定该数字化学习资源评价等级以及收费标准的主要依据。
【参考文献】
信息检索的核心问题是判别相关文档和无关文档。根据相关度的判别方法不同, 发展出了不同的信息检索模型。本文主要是基于向量空间模型的信息检索。
1.1 关键词检索———向量空间模型
向量空间模型把用户的查询请求和文档看成是由相互独立的一组词条 (t1, t2, …, tn) 组成的, 对于每一词tj根据其在文档中的重要程度赋予一定的权值wi, 构成文档向量和查询向量。设被检索的文档表示为向量, 用户的查询向量表示为, 则通过计算向量之间的距离来判定检索文档和查询请求之间的相似度, 从而将文档信息匹配的问题转化为向量空间中矢量匹配问题。
目前最常用的权重估计公式是著名的TF-IDF公式:
其中tfki为特征词tk在文档di中的词频, N为文档集中文档的总数, nk代表在文档集中出现特征词tk的文档数目。
两者之间的相似度也可以用向量的夹角的余弦距离来度量, 计算公式为:
1.2 关键词检索的步骤
步骤1:处理文档集中的文档, 求得特征项---文档矩阵空间;
步骤2:当新的查询到来, 对其进行处理, 求得查询特征向量, 并对其进行标准化处理;
步骤3:利用公式 (2) 计算查询向量与文本向量的相似度;
步骤4:对相似度按降序排序, 将相似度排序靠前的文档作为检索结果输出。
2 基于语义的中文信息检索
传统的信息检索技术虽然已经在很大程度上得到了实际的应用, 并取得了相当的成功。但该技术越来越不能满足人们的要求, 主要原因有以下几方面: (1) 传统信息检索采用基于关键词匹配或其扩展的检索技术, 而关键词匹配是机械的基于表层的匹配, 检索的查全率、查准率比较低; (2) 自然语言中存在众多同义词和近义词, 传统的信息检索技术依赖于用户的查询词, 缺少语义分析和扩展能力, 难以保证较好的检索性能; (3) 用户的问题表述和待检索信息的内容不完全一致, 造成内容和问题的不匹配问题, 这就要求检索系统要有一定的推理能力和理解能力。
为了解决这些问题, 研究者们将目光投向了对词形背后意义的挖掘上, 通过增加语义信息, 把信息检索从传统基于关键词层面提高到基于知识层面, 实现了语义检索。
2.1 基于潜在语义分析的信息检索
传统的检索技术使用不同的方法把文本和查询表示成为词的集合, 但某种形式上仍然是词的匹配, 而没有进一步做语义上的分析。为了进行更自然更人性化的查询, 检索系统能够处理自然语言中的同义、多义现象, “潜在语义分析”被应用到信息检索中来。
2.1.1 基本思想
潜在语义分析 (Latent Semantic Analysis, LSA) 是一种发现潜在语义并分析文档、词和语义三者之间关系的方法。其基本思想是通过统计方法, 发现文档中词语-概念 (语义) 之间隐含存在的某种潜在的语义结构。同义词之间应该具有基本相同的语义结构, 多义词的使用必定具有多种不同的语义结构。LSA通过对文档分析, 提取并量化表示这种潜在的语义结构, 进而消除同义词影响, 提高文档表示的准确性。
2.1.2 潜在语义分析空间构造方法
奇异值分解 (SVD) 是最早提出也是目前普遍使用的典型LSA空间的构造方法。通过对文本集的词-文本矩阵的奇异值分解计算并提取K个最大的奇异值及对应的奇异矢量构成新矩阵来近似表示原文本集的词条-文本矩阵, 其具体实现如下:
(1) 首先构造一个m×n的词-文本矩阵, 用Am×n={aij}m×n表示即:
(2) 根据奇异值分解定理对Am×n进行分解:Am×n=Um×r·Sr×r·Vr×n, 其中U称为Am×n的左奇异向量, V为Am×n的右奇异向量, S为对角矩阵, 对角线上的元素称为Am×n的奇异值。
(3) 由奇异值的性质, 由U的前K列、V的前K行和S的前K个奇异值, 可以得到Am×n的K秩近似矩阵:Ak=UkSkVkT, 且当K→rank (Am×n) 时, Ak是原矩阵的最优近似。
Ak是对Am×n的一个近似, 在某种意义上保持了Am×n中所反映的词条和文本之间联系的内在结构 (潜在语义) , 同时也去除了因词语的同义或多义而产生的“噪声”。依据于Ak矩阵, 就可以将文档的词空间转化为语义概念空间。
2.2 基于本体概念的信息检索
所谓本体是共享概念模型的明确形式化规范说明。通俗地讲, 本体的作用就是用来描述某个领域概念以及概念之间的联系, 使得这些概念和联系在共享范围内有着明确、唯一的定义, 达成一种共识, 这样人机之间就可以进行交流。
2.2.1 本体的概念模型
由本体的定义可知, 一个本体是关于一个领域的概念集合, 概念含义通过概念之间的关系来体现。概念语义空间是语义查询扩展和语义检索实现的基础, 它的研究及应用是语义检索技术研究重点。它实际上是基于概念的语义索引, 主要内容是确定概念以及概念之间的语义关系。目前概念语义空间的表现形式有以下几种:概念语义树:一种概念描述的分层组织结构;概念语义网络;语义词典。
由于本体具有良好的概念层次结构, 因此用分类树的方法建立起概念之间的上下层关系。树中的节点表示概念, 而两个节点间的边表示概念间的语义关系。概念之间的语义关系主要包括同义关系、近义关系、上位关系和下位关系。在语义树中越靠近根节点的概念越抽象而越往下的节点概念越具体。
两个概念节点在语义树中的距离越大, 它们的相似性就越低;反之, 两个概念节点的距离越小, 其相似度越大, 两者之间可以建立一种简单色对应关系。因此采用节点间路径长度来衡量其语义距离的方法, 来计算概念间相似度。设X, Y为概念语义树中的任意两个概念, 两者的相似度计算如下:
其中len (X, Y) 为概念X和概念Y之间的路径长度, α为0-1之间的可变参数。
2.2.2 语义概念查询扩展
如果存在两个查询Q1和Q2, Q1哿Q2, 其中Q1是基于概念集C1的, Q2是基于概念集C2的, 并且C1和C2在语义上是相关的, 那么就称Q2是Q1的语义查询扩展。语义概念查询扩展包括同义词扩展、语义蕴涵扩展、语义外延扩展和语义相关扩展。
为了缩短用户查询意图与检索结果的语义偏差, 必须正确提取查询语义。目前从概念语义空间提取查询语义的操作有以下五种: (1) 同义扩展操作:即由当前概念找到其同义概念的操作; (2) 细化操作 (Find-Son Operation) :即由当前概念找到其所有子概念的操作, 通过此操作实现语义蕴涵扩展; (3) 范化操作 (Find-Father Operation) :即由当前概念找到其父概念的操作, 此操作实现语义外延扩展; (4) 实例化操作:即由当前抽象概念找到其所有具体概念的操作; (5) 抽象化操作 (Find-supperClass) :即由当前概念找到其抽象概念的操作。通过上述五种操作可以实现对查询语义的提取, 从而实现语义概念查询扩展。
2.2.3 基于本体概念的信息检索的基本思想
该方法通过借鉴传统的VSM思想, 同时根据本体自身的特性, 把文本向量和查询向量转换成有本体概念组成的语义向量。并对查询语义向量进行语义扩展, 通过计算文本向量和扩展向量中概念的相似度得到两者的语义相似度。根据语义相似度的大小进行排序, 将满足条件的结果返回给用户。
3 结束语
本文主要讨论了三种信息检索技术, 从传统的基于关键词的检索到吸引广大研究者眼球的语义检索, 实现了把信息检索从基于关键词层面提高到知识层面。传统的基于关键词信息检索, 已取得了很大的成功, 但是它不能从根本上表达用户的查询请求。
语义检索是把信息检索与人工智能技术、自然语言处理技术相结合的检索技术, 它从语义理解的角度分析信息对象和检索者的检索请求, 提高了检索性能。但由于自然语言理解和人工智能等领域的局限, 语义检索技术将有一个长期深入研究的过程。
摘要:在现有研究的基础上, 对信息检索技术进行概述, 首先对基于关键词匹配的信息检索技术进行了讨论, 并指出其不足。其次针对关键词检索中存在的问题对两类语义检索进行了研究, 实现了把信息检索从基于关键词层面提高到知识层面。
关键词:信息检索,VSM,本体概念,潜在语义分析,查询扩展
参考文献
[1]RICARDO BAEZA-YATES BERTHIER RIBERIRO-NETO.现代信息检索[M].王知津, 贾福新, 郑红军, 等, 译.北京:机械工业出版社, 2005.
[2]SALTON G, BUCKLEY B.Term-weighting approaches in automatic text retrieval[J].Information Processing and Management, 1998 (5) .
[3]张新华, 骆昌日, 曹浪舟.基于VSM的中文信息检索[J].高等函数学报 (自然科学版) , 2006 (4) .
[4]DEERWESTER S, DUMAIS S T, FURNAS G W, et, al.Indexing by Latent Semantic Analysis[J].Journal of the American Society for Information Science, 1990 (6) .
[5]余正涛, 樊孝忠, 郭剑毅, 等.基于潜在语义分析的汉语问答系统答案提取[J].计算机学报, 2006 (10) .
[6]罗景, 涂新辉.基于概率潜在语义分析的中文信息检索[J].计算机工程, 2008 (2) .
[7]STUDER R, BENJAMIN V, FENSEL D.Knowledge Engineering Principles and Methods[J].data and Knowledge Engineering, 1998 (1-2) .
[8]王国琴, 甘利人.基于语义检索的概念空间研究[D].南京:南京理工大学, 2004.
[9]周明建, 告济.知识管理中的联想检索[J].计算机应用, 2004 (7) .
关键词 互联网 信息检索 技术
中图分类号:TP393 文献标识码:A
计算机技术的发展与完善,信息检索便成为了重要的桥梁。早在上世纪六十年代,美国海军机械试验中心使用IBM701型机,初步建成了计算机情报检索系统,这也预示着以计算机检索系统为代表的信息检索自动化时代的到来。单纯的手工检索和机械检索都或多或少显露出各自的缺点,因此,新型的信息检索方式应运而生。1965年,美国系统发展公司研制成功ORBIT联机情报检索软件,开启了联机情报检索系统阶段。与此同时,美国洛克公司研制成功了著名的Dialog检索系统。且随着20世纪70年代卫星通信技术、微型计算机以及数据库产生的同步发展,用户得以冲破时间和空间的障碍,实现了国际联机检索。联机检索是计算机、信息处理技术和现代通信技术三者的有机结合。随着互联网的迅速发展及超文本技术的出现,基于客户/服务器的检索软件的开发,实现了将原来的主机系统转移到服务器上,使客户/服务器联机检索模式开始取代以往的终端/主机结构,联机检索进入了一个崭新的时期。信息检索系统类型包括:参考数据库检索系统,它以二次文献数据库为主,提供文献的题录、文摘数据或事实数据。全文数据库检索系统是近年来随着数字化技术不断成熟而发展起来的,系统能提供文献的全文数据,包括图表、图像等多种形式的媒体。Internet搜索引擎主要提供网上资源的链接,某些搜索引擎也提供简单的网页介绍或检索词的上下文。
从信息检索方式来说,命令检索方式,指的是检索过程中,每一项检索提问,必须通过具体的命令来完成,这些检索命令通常需要用户熟记。这种方式虽然对于初级用户来说比较麻烦,需要记很多的命令,但是对熟悉系统的用户来说,命令方式有其步骤简单的优点,尤其是完成一些复杂的检索算法时,操作步骤简单。单检索方式实际上是将各种检索指令转化成菜单选项,系统的功能和检索指令通过菜单和子菜单的选项来实现,用户通过菜单一目了然,只需根据需要在菜单上选择某一项,或进行检索,或显示命令中的纪录等。菜单驱动的检索方式对初级用户是比较友好的,用户不需要培训就可以自行检索,很容易入门,但对于较复杂的检索算法,常常需要进入层层菜单才能完成。其次,命令与菜单相结合的方式既保留了指令检索的方式,又提供了菜单的某些直观的功能。而主题法和分类法在信息检索中的原理基本相同。信息储存是对文献进行收集、标引及著录,并加以有序化编排。
信息检索是从大量的信息中查找出用户所需的特定信息的过程,而实施检索的主要方法就是利用各种检索工具。在主题概念表达上分类语言的一个显著特点是用码号(如字母或数字)作为文献的标识,标引或检索时都必须使用分类号。主题语言则是直接以自然语言中的话词作为标引和检索的标识。在主题概念的组织上主题法与分类法都要将主题概念组织成可迅速查找的检索工具或检索系统。分类语言主要是按学科体系或逻辑体系组织的,由于分类体系不是显而易见、易于掌握的,因此用户在使用分类检索工具或检索系统时,往往难以确定新主题、细小主题以及复杂主题在体系中的准确位置。主题语言按照语调的字顺来组织主题概念,因而可以直接依名检索。在主题内在关系的显示上分类语言中主题内在关系主要通过上下位类、同位类以及交替类目、参见类目和类目注释来显示。尤其在体系分类表中,类目之间的等级关系可以通过类目排列的位置、乃至字体的不同而直接明显地展示由来。因而分类法系统的系统性、等级性强,便于进行浏览性检索,并可以根据检索的需要进行扩检和缩检。主题语言中,主题内在关系主要通过建立词间参照系统的方式来显示。此外也通过辅助索引进行分类显示。所以,在主题词表中,相关主题之间的关系难以直接地、一目了然地展示出来,因而在族性检索、尤其是较大范围课题的检索中,不如分类语言。在标引方法上使用分类语言标引时,主题分析的重点是辨别确定文献主题的学科性质,以便进一步确定所属类目。
此外,从信息检索技术角度来说,布尔逻辑检索技术就是指利用布尔逻辑运算符进行检索词语和代码之间的逻辑组配运算,从而获得检索结果的一种检索方法。这是计算机信息检索中最基本的也是最常用的技术。对于一般用而言,截词检索(Truncation)是一种常用的检索技术,特别是在西文检索中,更是广泛使用。截词检索就是对词的片断进行比较,检索者将检索词在合适的地方截断,然后以截出的词语片断进行检索。在检索系统中,为了提高检索的准确率,缩小检索的范围,通常用一些限制的手段和方法。使用这些方法进行检索通常称为限制检索(Limit Search)。常用的限制方法就是字段限定。此外,全文本检索技术(Full text Searching)是对数据库纪录的全文文本检索,即纪录中的每个词都可以作为检索入口,且可以限定词与词之间的语义关系。全文本检索也有人把它称为自由文本检索。随着信息技术的进一步发展,尤其是功能更加强大的搜索软件的普及,已经为广大用户带来了极大的便捷。