网络信息检索与技巧(推荐8篇)
1.数学免费网络信息资源的分布
数学免费网络学术资源分布十分广泛,并以全文文献、目次、摘要等形式存在。由于全文文献具有信息完全、理论推理完整等特点,本文所指的数学免费网络学术资源特指全文文献。全文文献集中地分布在数学专业网站、预印本数据库、开放存取数学文献、个人主页等交流系统。
1.1数学专业网站。 这是一类由数学学会、数学机构、数学研究所、高等院校的数学院系建设和维护的网站,主要通过电子化自身的馆藏资源和整合网络上的数学资源,提供电子期刊和图书的全文浏览,内容包括提供期刊、会议、论文集、专著、演讲等资源,且内容和资源类型不断增长扩大。如美国数学会、加拿大数学会、欧洲数学会等可提供该会五年前出版杂志的全文电子信息,并免费浏览、下载。
1.2数学预印本数据库。预印本是指科研工作者的研究成果还未在正式出版物上发表, 而出于和同行交流的目的自愿先在学术会议上或通过互联网发布的科研论文,科技报告等文章;电子预印本:是电子版的预印本,是指可以通过网络进行传播和共享的预印本。目前数学专业协会、大学等常建有预印本数据库,并可免费下载。著名的有Arxiv.org( arxiv.org/)美国洛斯阿拉莫斯(Los Alamos)国家实验室建立的电子预印本文献库,提供数学、物理、计算机科学等方面的电子预印本;The Mathematics Preprint Search System (mathnet.preprints.org/)本身不提供全文,但提供数学预印本文献的访问地址全文链接服务。
1.3开放存取数学文献。开放存取是指论文可以在公共网络中免费获取,它允许所有用户不受经济、法律和技术限制地阅读、下载、复制、散发、打印、搜索或超链接论文全文。提供开放存取数学文献有著名的瑞典Directory of Open Access Journal(DOAJ)整理的一分开放期刊目录;另外如Springer、Elsierver、Wiley等商业数据库出版的数学书刊部分内容也提供开放存取,但提供的许多期刊文献不具有连续性。
1.4数学专业研究人员的个人主页。一些数学研究者将自己的教学信息、研究方向、发表的论文等信息在网络上发布,并建设了个人网页,以便集中性地提供信息供大家学习、研究、探讨、参考。像陶哲轩的个人主页就www.math.ucla.edu/~tao/可以看到其部分研究成果全文。
1.5其他零散存在的免费资源。这类资源散布在包括论坛,BBS、博客、ftp、网盘等上。数学电子全文书则多存在于论坛、网盘等存储介质中,如verycd、rapidshare等,而数学中国论坛www.mathchina.com/cgi-bin/leobbs.cgi不但广泛存在着相关学术资源,而且还可以在线讨论与数学有关的问题。
数学免费网络学术资源为研究提供了广瀚的信息,但如何快捷准确地查找、收集、利用这些资源,即掌握这些资源的检索途径却是需要解决的另一个问题。
2.数学免费网络学术资源的检索途径
2.1通过综合搜索引擎、专业搜索引擎
搜索引擎是人们查询互联网信息资源的强有力的工具,也是搜索数学网络资源最常用的方法。它的工作原理是通过网页搜索软件在众多Web中收集信息,并建立索引数据库。搜索引擎著名的有Google、Baidu、lookforebook、ebookee等,其中Google以查找外文文献见长,Baidu以搜索中文文献见长,都可以通过题名、作者、关键词、以及三者之间的组合来检索,并且通过限制检索范围来精化检索结果。通过电子图书搜索引擎如www.lookforebook.com,www.ebookee.net,查找并常能获得全文电子图书。
专业搜索引擎是面向特定专题或学科领域,以互联网网络信息资源为对象,利用计算机自动搜集符合特定专题或学科所需的信息资源,是当前科研院所,教学单位以及数字资源建设中网络信息资源采集的有力工具。这种搜索引擎以Google Scholar和Scirus最为有名。Google Scholar(scholar.google.com)由谷歌于11月推出,可广泛搜索众多学科、学术著作出版商、专业性社团、预印本、各大学及其他学术组织的经同行评论的文章、论文、图书、摘要等。SCIRUS是由荷兰Elsevier Science经多年研究推出的专为搜索科学信息而设计的搜索引擎。Scirus索引内容包括同行评审文章、专利、杂志、预印本,以及诸如arXiv或Orgprints的电子预印本(eprints)等,并具有为科学家与研究人员专门设计的独一无二的功能,最早的文献可以追溯至19以前。专业搜索引擎与综合搜索相比,收录范围和文献都较少,但精度较高。
2.2通过专业数据库、开放存取数据库
专业数据库是指以数学学科为收录对象的数据库,包括预印本数据库、文摘数据库等。中国数学文摘和德国数学文摘提供部分免费信息,美国的数学评论则必须付费才能使用。数据库提供作者姓名、篇名、来源、分类号等检索接口,提供论文和杂志的链接,点击刊名或文章名则有可能获得全文。例如在德国数学文摘数据库查找Studia Mathematica杂志,点击检索结果中第一个链接,只能看到摘要,点击后一个链接,则可看到该刊前的全文。
开放存取数据库中收录了许多杂志的全文文献。Directory of Open Access收录的数学和统计期刊为230多种, JSTOR(www.jstor,org)提供65种数学和46种统计学杂志,数据库提供目录检索和综合检索两种形式,有的能够获取全文。FreeFullText.com网站维护了一个超过7000种的提供免费阅读全文的网络学术期刊资源列表,收录的期刊涉及经济、医学、生物学、农业、计算机、物理、数学、教育等广泛领域。
2.3直接登录数学信息站
学科信息门户(Subject Information Gateway)是将特定学科领域的信息资源、工具和服务集成为整体,为用户提供方便的信息检索和服务入口,用以满足用户对科研和教育的信息需求。数学信息站主要收录数学领域的信息资源、工具、和为用户提供有关数学的新闻、研究热点、期刊论文、会议文献等等。数学的站还建有学科导航链接,可以通过目录式层层点击,寻找需要的信息,也可以通过各网站的搜索引擎搜索查找需要的内容。这部分网站中的数据库的内容,多属于不可见网页,无法被搜索引擎索引。主要的网站有:
(1)The Electronic Library of Mathematics (www.emis.de),它是由European Mathematical Society (EMS)创建的EMIS(The European Mathematical Information Service),为用户免费提供包括EMS出版物(Journal of the EMS)、MATH、MATHDI等数据库和电子图书馆的资源检索、会议预报、活动预告和EULER、Jahrbuch Project等多种信息服务。
(2)数学世界(mathworld.wolfram.com/),该网站主要是为老师、学生和家长解决在数学学习方面的问题。它的导航目录包括数学专题、资源类型、数学教育、各层次教育等,该站点的搜索引擎有两种,一种通过Google、Yahoo等搜索引擎搜索全部因特网,一种是搜索本站点的资源。
以上是获取数学免费网络资源的主要途径。在搜索过程中,还要注意检索技巧。
3.数学免费网络学术资源的检索技巧
3.1构建恰当的检索式,提高检索的精确度
分析检索课题,明确文献检索的类型、年代、文献量等要求,根据不同的检索要求,构建检索式。分析主题概念,明确核心词和次要词的同义词、近义词及隐含的意思,力求主题词能准确表达检索的需要。如walk regular graph同义词“distance regular graph”在Google Scholar检索,获得的检索结果数量不一致。构建数学文献的检索表达式应注重布尔逻辑算符 “与”AND 、“非”NOT、“或”OR,截词运算符有*、?、$、位置运算符、字段限定等使用。同时注意对含有 “and”、“of”、“the”没有实际检索意义的表达式中加上“ ”进行限定。检索表达式的构建是检索结果是否符合要求的`前提之一,在检索过程中,不断地调整逻辑运算符,以扩大或缩小检索范围,使检索结果优化。
3.2灵活选择搜索引擎和数据库
网上信息繁多,搜索引擎和数据库收录的文献内容、范围不同,文献类型和数量规模也不尽相同,根据对文献的不同需求,了解某一研究方向的最新研究成果,就要选择数据更新周期短、速度快的搜索引擎和数据库,要了解某一研究方向的全过程、写综述等,希望获得所有的文章,就要选择收录范围广全的搜索引擎和数据库。所以选择合适的搜索引擎和数据库是得到良好检索效果的前提之一。
3.3检索策略的动态调整
在完成检索的每个步骤中均可能产生误差,因此检索过程往往还要根据检索的结果情况进行多次判断,多次调整,通过调整检索词、检索方式、利用 Filetype:、Site:、link:、info:等限定要查找文献的文件格式、网站或域名、与某个网页的链接、网页信息等,达到检索的目的和要求。比如在查找一篇关于“Geometry of t-Spreads”的论文时,在Google中获得779条结果,发现结果大多为文章的摘要信息,考虑到预印本或可以检索到全文,在检索框中添加e-prints,可获得388条结果,通过排在第二的网址即可获得全文。
3.4分析检索结果网页中的链接信息,找到需要的文献
在检索过程中,常常遇到检索结果网页中没有要查找的文献内容,这时可以使用ctrl+F查找相关内容。关注网页中的其他链接信息,有时会有意想不到的收获。有时也会出现链接内容的死链问题,可以通过直接复制链接的网址,或是检索链接网址中的内容,迂回查找文献信息。
4.结语
数学免费网络学术资源随着专业信息的电子化建设越来越多,单一的搜索引擎、专业机构等都无法收录、覆盖全部的数学类文献资源。检索文献的过程中,我们一方面要了解网络专业信息的分布特点选择合适数据库和搜索引擎,掌握检索技巧,一方面锻炼选择检索方略和查询手段的心智能力,不断总结检索技巧,从而达到较好的检索效果。
参考文献:
刘 海 祁 雯.值得关注的电子预印本资源[J].医学信息.2009,(8)
唐崇忻.专业搜索引擎在高校图书馆个性化信息服务中的应用[J].高校图书馆工作.,(2)
知识与技能:了解搜索引擎的类型及其特点,知道常用的搜索引擎,熟练掌握其使用方法;熟练运用逻辑运算符构造检索表达式。
过程与方法:通过亲历网上获取信息的活动,学会从搜索意图中提炼出合适的关键词,选择不同的搜索引擎,拟定恰当的检索表达式进行高效检索。
情感、态度与价值观:体验有效获取信息的成就感,增强利用网络信息检索解决问题的意识。
二、教学重点与难点
重点:关键词的选择以及检索表达式的构造。
难点:关键词的选择。
三、教学设计说明
网络中的信息资源分散,缺乏足够的加工深度。为了能够快速地从网络中获取有用的信息,掌握获取信息的策略是非常重要的。
在义务教育阶段,学生已经学习过搜索引擎的使用,但他们更多地热衷于搜索的内容,并没有很好地掌握搜索技巧,搜索信息的效率很低。在课堂教学的开始,我就利用2008年影响人们生活的重要事件——雪灾,提出了“在高峰时期,广州火车站滞留了多少乘客”的问题,让学生使用搜索引擎上网查找答案。通过学生的亲自实践,体会策略和技巧对信息检索的重要意义,激发起学生学习的兴趣。在此基础上,继续以“2008年大雪对社会生活的影响”的信息检索为例,带领学生分3个环节经历使用搜索引擎解决问题的全过程:分析主题,确定检索内容——精选关键词——巧构检索表达式,实施检索。并在第三个环节设计了一个实践活动,由学生使用第二环节中师生共同讨论确定的关键词,使用不同的搜索引擎进行深层次检索,进一步感悟检索的策略与技巧。
四、教学过程
(一)设置情境引入课题
师:人们常说“瑞雪兆丰年”。看到外面下起了纷飞的大雪,农民们非常高兴。可是,2008年初,一场席卷三分之一个中国的大雪,带给人们的却不是喜悦,连续2 0多天的大雪造成了交通中断、电力中断、供水中断、电信中断,变成了一场世纪大雪难。
由于大雪造成交通中断,许多人滞留他乡,无法回家与亲人团聚,仅广州火车站就滞留了几十万的乘客。那么,大家是否知道,在高峰时期,广州火车站滞留了多少乘客?
生:10万,15万,60万。
师:大家是从哪些渠道获得的这些信息?
生:电视,报纸,网络。
师:看来,同学们获取信息的渠道还是很多的。不过,大家所了解的数据并不一致,比较可信的数据究竟是多少呢?下面请大家利用身边的工具,上网查找问题的答案。
学生上网查找滞留的人数。
教师巡视、观察并参与学生的检索过程,与学生一起分析和筛选得到的数据。对于得到10万、17万数据的学生,提醒他们要注意信息的时效性,毕竟1月27日、1月30日的数据,只是刚启动“春运应急预案”时滞留的人数,肯定不是峰值。对于得到60万数据的学生,提醒他们注意信息的权威性,并提醒学生注意使用不同的搜索引擎进行检索,以便对多种渠道收集的数据进行印证。
师:这似乎是一个很简单的问题。从同学们检索的过程来看,大家都使用的是百度、谷歌等常用的搜索引擎,然而每个人查找的速度却有很大的差别。这说明,要能够快速地在网上获取到有效的信息,需要一定的策略与技巧。
师:所谓检索策略,就是为实现检索目标而制定的计划或方案,是对整个检索过程的谋划。也就是说,在弄清信息需求实质的前提下,选择检索途径、检索用词,运用逻辑运算符拟定检索表达式,按照一定的检索步骤实施检索,并根据需要进行反馈调整等,直至查找到需要的资料。
下面我们以“2008年大雪对社会生活的影响”的信息检索为例,说明优化检索策略与步骤的方法。
设计意图:由于对搜索引擎的认识停留在表面,学生平时上网获取信息时无法高效地获取有用的网络信息。这个环节的目的,就是通过学生的亲自实践,体会策略与技巧对信息检索的重要意义,激发起学生学习的兴趣。
(二)共同讨论学习新课
1. 分析主题确定检索内容
师:信息检索的第一步,就是在明确了解查询的目的和要求的基础上,确定信息检索的具体内容。
师(配以照片呈现):由于临近春节,大批外地民工返回家乡,但雪灾导致铁路大动脉——京广铁路设备受损,多班列车被迫取消。京珠高速公路因路面积雪、结冰而封闭,数万车辆滞留。长江流域许多城市的机场因积雪被迫关闭,大量航班取消、延误。因雪灾封路,电煤运输不畅,部分发电机组被迫停产。大量线塔因覆冰太厚,不堪重负而倒塌,导致部分地区供电系统瘫痪。受到降雪天气影响,不少地区食品供应紧张、价格大幅上涨。
师生共同分析,确定检索的大范围为雪灾的灾情及成因,雪灾对交通、供电、物价、供水等方面的影响。
设计意图:对检索内容进行主题分析,是正确选用关键词和逻辑运算符的先决条件,也是实现检索质量和效果最优化的基础。否则,获取信息的范围太大,容易在网上“迷路”。这一环节以教师为主导,师生共同分析,确定检索的大范围。
2. 精选关键词
师:全文搜索引擎通过使用索引数据库来搜集和组织因特网资源,当我们在搜索框中输入所选的关键词后,搜索引擎就从数据库中检索出符合该关键词的所有相关网页,然后按一定的顺序将结果返回给我们。这类搜索引擎的代表是谷歌、百度。它们是基于关键词检索的,那么,什么是关键词呢?怎样选择关键词呢?
学生根据自己的检索经验,说什么是关键词。
师(总结):关键词是指你所选择的最能描述所要查找信息的词语。如果要搜索关于雪灾的各个方面的情况,可以选择什么样的关键词呢?
学生筛选多个相关的关键词,进行多轮的单个关键词检索,比较检索结果,分析如何选择关键词才能有更高的效率,并填写表1。
在此基础上,教师引导学生总结确定关键词的经验:(1)不使用太泛的词或曝光率太高的词,否则会返回大量的无用结果。(2)在检索时,应严格避免使用多义词,因为检索工具是不能理解多义词的。例如:此处用“雪灾”比用“大雪”效果更好。(3)避免使用错别字。(4)尽量使用专指性强的词或短语。
师生共同分析,确定三组关键词:
●雪灾、冰雪天气、雨雪天气……
●灾情、成因、供电、交通、物价、旅游、环境……
●影响、中断、关闭、断线、上涨、污染……设计意图:帮助学生学会从复杂的搜索意图中提炼出最具代表性和指示性的关键词。为了避免单纯、枯燥的知识讲解,我设计了一个单关键词的检索活动,由学生根据检索到的内容,在教师的引导下,总结如何选择关键词。这些经验主要是由学生亲自体验得到的,而不是由教师“强加”的,因而学生理解得更深刻。
3. 巧构检索表达式实施检索
师:在前面的检索过程中,大家可以看到,如果只输入一个关键词,返回的结果很多。
教师演示以“雪灾”作为关键词的检索,在“百度”中可以得到约25,200,000个相关网页。
师:对于这25,200,000个结果,我们不可能逐个打开浏览。我们可以进行如下处理:一是先查看几个具体的网站,根据这几个网站反映出来的对于某些关键词的敏感程度,修改检索时使用的关键词,以进一步缩小检索结果;二是使用逻辑运算符对多个关键词进行组配,构造合适的检索式,更加准确地表达需要检索的内容,获得更加精确的检索结果。例如:输入多个关键词时,不同的关键词之间用空格隔开,使用减号去除检索结果中不需要的内容。
教师演示以“雪灾交通”和“雪灾交通影响”作为关键词的检索结果。
师:三是对检索结果进行浏览和筛选,找出满足信息需要的检索线索。搜索引擎一般能够对网页的重要性做出评价,因此排列在前的检索结果包含了更多的所需信息。
师:如果返回结果极少,可能是检索式设定的范围太窄了,解决的办法是“A OR B”的检索式,把与检索主题相关的、有检索意义的词尽量都用上,扩大检索范围。
由于不同的搜索引擎之间的逻辑运算符并不完全通用,教师可以简单演示一下搜索引擎的高级搜索功能。
设计意图:逻辑运算符的使用并不复杂,学生在义务教育阶段已经掌握,关键是在恰当的时候使用恰当的运算符。这一环节引导学生对搜索到的信息进行鉴别与评价,并灵活运用逻辑运算符进行扩检和缩检,特别是使用多关键词的“与”运算来细化搜索条件,提高搜索精确度。
(三)实践活动深入感悟
师:通过前面的学习,大家进一步理解了信息检索的策略与技巧对高效信息收集的重要性,并在老师的带领下,亲历了优化检索策略与步骤的全过程。下面,请大家根据设计好的关键词列表,进行不同的搭配组合,围绕2008年雪灾对社会生活影响的一两个方面进行深层次检索。要求综合使用全文搜索引擎、目录索引搜索引擎。在遇到困难时,首先应使用搜索引擎的帮助系统,也可以向同学和老师求助,并注意归纳和总结检索的体会。
全体学生根据选定的方向进行检索,并填写表2。
在一轮检索结束后,选择部分学生在全班交流检索结果和检索经验。在此基础上,借鉴全班学生的经验,学生再进行第二轮检索,进一步感悟检索的策略与技巧。
设计意图:虽然高一学生已经有了一定搜索引擎的使用经验,但并没有很好地掌握信息检索的策略与技巧。因而,在前面的环节中,教师带领学生一起经历使用搜索引擎解决问题的全过程,让学生学习和感悟信息检索的策略与技巧。这个环节的实践活动,则以学生的自学为主,使用不同的搜索引擎进行深层次检索,并借助全班学生的经验,全面总结检索的策略与技巧。
(四)归纳总结内化提升
师生一起总结检索的流程。
师:正如教材所介绍的,每种搜索引擎的收集面各不相同,再好的搜索引擎也有其局限性。只使用一种搜索引擎进行检索是不明智的,我们应尝试多个搜索引擎,这样才能得到满意的结果。当然,搜索技巧还有很多,我们一节课内不可能囊括所有的技巧,与其他技术一样,信息检索能力的提升,还需要同学们在今后的实践中不断地去体验和总结。
关键词:情报检索语言;网络信息资源;信息语言组织
中图分类号:G354
当前,网络信息资源并没有一个绝对权威性的定义,但以网络为载体的信息,不可否认有着非常大的膨胀与拓展空间,并逐渐形成了一个非常强大的全球性信息库,对很多人的生活与工作方式产生了很大影响,在信息处理过程中,其方式与手段也在日益产生改变。而信息组织语言与网络信息资源之间的关系很难进行简单的界定,因此,对情报检索语言与网络信息资源组织的关系进行研究是非常有必要的。
1 情报检索语言对网络信息的作用
网络信息资源从字面角度看,可以将其理解成为一种以网络为基础的、多种大量信息资源的集合体。但是,网络信息资源既然是一种拥有强大信息资源的分布式空间,其在基本结构上也一定会出现一种对信息无序因素进行有序化处理的现象。而无序因素产生的原因非常多,最重要的原因在于:因为国家与地区之间所产生的元素存在一定的差异,服务器便会根据这样的差异进行相关调整,加之网络信息的特殊性,其在产生、发布、传播、使用的过程中随意性非常大,而世界范围内尚没有一种统一的规范或组织对其进行管理,从而导致网络信息资源呈现出凌乱松散的互联状态。
针对这种情况,急需一系列有效手段对其进行组织与整合,而抛开程序性语言不谈,情报检索语言也是语言组织系统中非常重要的组成部分。网络信息传递拥有很强的及时性,这使得网络条件下信息的含义表达在对情报检索语言进行组织的过程中,能够在检索层次以及词汇标引等方面进行有效展开,而这一过程一定要运用与之对应的自动化信息组织方式[1]。其原因在于没有进行结构改造或专业规范化程度相对较高等情报检索语言并不能真正实现与网络信息形态的完美融合。但是,其不单单具备传统信息语言处理的相关功能,还符合未来的发展需求,所以,其还是一种发展潜力非常大的信息处理语言。
2 情报语言与网络信息的原始形态
在网络信息中,文件系统领域内所涉及到的信息大多是表达意义相对好理解的“线形逻辑结构”,如果运用非结构化的格式形态对其所表达出来的信息进行处理,便很难真正做到对结构中相对复杂知识单元的有效处理。所以,情报语言便成为文件系统在显示程序、视频、图形等信息过程中应用性最强的语言反映,而在信息检索的层面中,对情报语言并没有真正展开其多元化的系统层次。
为了实现对已知知识单元的系统揭示,非结构化信息在进行处理的过程中需要形成一种系统化的数据库技术,而这种技术运用的主要信息组织方式为自由文本。在情报语言的组织形式系统中,自然语言是其最为主要的关键词,以信息内容的基本形式为依托,通过自然语言进行信息检索点的设置,以完成在指定范围内实现“自然”与“任意”两方面的检索目的[2]。与传统意义上的文献检索有所区别,这种通过任意文件进行储存的方法可以运用自然语言进行检索,以非文献实体为依托,对未进行标引的文献进行一次获取。
3 情报语言与网络二次信息的关系
网络二次信息资源语言组织所形成的目录绝大部分都是以目录指南的方式对信息进行分类检索的。在等级式目录的构成结构中,其主题指南主要采用的组织方式为人工语言,以实现对信息的筛选与加工,但需要按照相应的逻辑层次进行组织,以实现知识树的构建,所以,该系统具有比较明显的序化特征,在应用的过程中,也比较符合人类的思维习惯[3]。但如果单纯的在这个范围之内进行语言组织,那么主题指南也会因为信息发展的日渐快速而难以穷尽。而对索引软件的使用则可以对信息完成自动标引,在建库过程中也相对较快,在查全率方面的提升较快,但由于其反馈信息的多样性与复杂性,在查准率方面并不是非常理想。在网络二次信息资源的检索过程中,情报检索语言的应用价值非常高,其不仅仅具备对目录指南的分类浏览功能,还在关键词检索方面发挥了重要作用,当前已经成为一种普遍应用的网络信息检索工具。
4 情报语言与网络信息需求的关系
网络信息的多样性、复杂性以及大量性等特征,决定了网络资源中不可避免的会存在一些“信息泡沫”,而在当前的技术环境下,人们很难将其完全消除,但如果运用信息价值评价的相关标准对信息进行科学的衡量,能够在一定程度上使网络信息中的“泡沫”成分受到限制[4]。不过信息价值的评价标准会因个体的不同存在差异,当前相对有效的方法是以检索需求为标准,将网络用户划分成几个不同的类型,每一种类型中用户所制定的信息价值评价的标准要大体相同。而检索工具也同样不可或缺,在对情报语言进行应用的过程中,也需要将其按照类别进行科学划分。事实上,没有一种网络信息检索工具能够将网络中的全部信息分毫不差的全部囊括其中,这种设想不仅不现实,也完全没有必要,同样的道理,也没有一种情报检索语言能够完全彻底的应用到所有信息检索中。
5 网络情报语言与传统检索的比较
在网络信息资源中,无序因素占有很大比例,在一定程度上导致了网络信息资源的紊乱,但网络的便捷性与广阔性却不可否认[5]。不过,虽然网络信息可以在很大程度上使文献资料的信息载体得到有效延伸,然而网络这种信息状态与传统图书馆信息相比,却远没有那么稳定。因此,网络虚拟图书馆走进了人们的视野,这种图书馆拥有特定的检索功能,其所拥有的信息资源虽然相对较广,但也不可能完全囊括全部的网络信息资源。所以,在网络信息的环境下,传统的理念产生出了一种新型结构,使得情报检索语言的优势通过自然语言的成分逐渐凸显出来,可以完成以用户需求为基础的网络信息组织。
6 结束语
网络信息资源中的语言组织需要建立在满足用户的基础之上,而情报检索语言这种原本并非网络信息的语言也在随着技术与理念的进步而得到发展,在网络信息检索领域拥有非常大的进步空间。
参考文献:
[1]贺晓利,郝艳红,白葆红.中国图书情报学核心期刊的发展态势研究——基于核心期刊的多指标比较分析[J].农业图书情报学刊,2013(25):224-225.
[2]刘亚辉,周海炜,屈维意.知识共享型战略联盟竞争情报工作模式研究——基于A设计院的分析[J].情报杂志,2013(19):105-106.
[3]周汝英,傅荣贤.情报语言机读化及其语言学难题[J].温州师范学院学报(哲学社会科学版),2014(15):129-130.
[4]涂佳琪.国内三大中文搜索引擎检索性能评价的实证研究[J].中山大学研究生学刊(社会科学版),2013(20):206-207.
[5]李兰,马恒通.网络信息资源研究的新创获——评《网络信息资源评价指标体系的建立和测定》[J].图书馆,2011(25):206-207.
作者简介:胡必楠(1983.09-),女,绍兴人,助理工程师,研究方向:计算机应用。
信息检索能帮助人们快捷、正确、全面地获取所需知识,最大限度地节省查找时间,使我们的信息检索过程变得事半功倍,更使信息能够得到充分的利用。这学期我们开设了信息检索这门课,刚拿到书,随便翻了几页,我便觉得这门课很简单,就像用百度google搜索一样容易。然而在实际检索中,想要准确快速检索到自己需要的信息,却殊为不易。
不知不觉,经过一个学期的信息检索课程学习,开始慢慢了解认识到它的重要性。在当今社会生活的人,几乎天天每时每刻都与信息打交道。可能我们已经感觉到有的人做事往往轻易成功,而有些人则不易成功,这在很大程度上是由于前者有较强的信息意识,能够把握较多的信息,对所做的事情能够作出正确的判定,因而他们的成功率也就比较高。信息检索是查找信息的方法和手段,它能使人们在浩如烟海的信息海洋中迅速准确全面地查找所需信息。可以说信息检索对于人们的学习、生活和工作等各方面都是非常有用的。它可以充分发挥人类知识宝库的作用,有利于开发智力资源;信息检索可提高效率,节省科研人员的时间,减少人力或投资方面的费用;获取知识的捷径和终身教育的基础知识的不断增长,正逐步加快原有知识的老化程度。有的专家认为,大学生一生所用的知识,知识百分之十左右是在学校学来得,而绝大部分要在工作中不断地获得;它帮助研究人员继承和借鉴前人的研究成果,避免重复研究或少走弯路。
在当今信息量极大、通信业极为发达的时代,掌握信息更加重要。对于管理者在管理工作中所做出的正确决策,经营者在经营方针上做出的正确抉择,商贸者在谈判中能做出正确的判断等,只要能够及时准确、全面获取信息,他旧能够获取成功。生活在信息社会的人们掌握了信息检索技术并能够灵活运用,能够在激烈的社会竞争中取胜,旧能提高我们的生活质量,推动社会的进步。面对以前的检索,才知道那即使是成功的,也不过是信息检索中的网络Inter检索的一小部分,对于现在则是小巫见大巫了。而何况那是一种完全部成功的网络检索,面对的是成万上千的数据,往往遭到我所需要的数据时,是经历了无数次的阅览及无数次错误信息的筛选,就最终找所需题目而言,那都是中辛酸的乐果而已!
对于现在的学习了信息检索的感受,是应该可想而知的了。尽管,我并没有学得很好,有很多的东西我都不懂,但我能从中感觉到许多的东西,那是自己需要长时间学习或是自己长时间都不好学的东西。然而最获益匪浅的应该是关于学校的图书馆的使用,明白了一点,图书馆的文化就是大学里文化的大部分,是最大于有别于高中学习的特点。我明白的在深的便是关于信息检索的那种应有的气氛和氛围,素质。我很喜欢信息检索,不仅仅是因为他是我的一个十分重要的学习工具,还是一种很好的文化,素质,使自己应该具备的!
一、基本说明
1模块:高中信息技术基础
2年级:高中一年级
3所用教材版本:上海科技教育出版社
4所属的章节:第二章第三节
5学时数:45分钟(机房授课)
二、教学设计
1、教学目标:了解网络信息检索的几种常用方法;掌握利用搜索引擎获取网络信息的策略与技巧;能够根据问题确定信息的需求与,并选择适当的方法获取信息。
2、内容分析:本课是《信息技术基础》(必修)第二章第三节的内容,旨在培养和提升学生获取网络信息的能力,使其成为每位学生在信息社会必须掌握的生存技能,并为学生学会有效组织和处理信息奠定基础,是学生继续学习和不断发展的不竭动力。本节强调通过体验和感悟网络信息活动中的操作与应用,培养学生掌握利用网络获取信息的过程和方法,为学生的学习、生活和发展提供服务。另外,本节还注意引导学生形成自主学习意识、与他人合作意识,也为必修模块的其他章节和各选修模块开展多元化交流与合作奠定基础。
3、学情分析:学生已有使用网络检索信息的感性经验,老师要结合学生原有的认知基础加以归纳提升,使学生形成多网络信息检索的理性认识,并在实践中不断总结积累自己利用网络检索信息的经验,不断提高自己的网络信息检索水平。但是学生之间的差异比较大,老师要注意营造交流学习的氛围。
4、设计思路:由问题“你知道有关中秋节的传说故事吗?”引出利用网络获取信息的学习任务,在学生交流探究并实践的基础上,让先查到的同学汇报自己的检索结果和所使用的方法,带动全班同学的学习积极性和学习兴趣,一起参与到课堂教学中来,师生一起用探究学习和交流学习的方式总结出常用网络信息搜索的方法。
在此基础上进一步引导学生学习常用信息检索方法——关键词查询法,掌握关键词的提炼和组合,然后通过抢答比赛让学生去体会和总结网络信息检索的策略与技巧。
中国的传统节日形式多样,内容丰富,是我们中华民族悠久历史文化的一个组成部分。最后让学生综合运用本节所掌握的网络信息检索策略与技巧全面了解中国重大传统节日的相关文化,以此来增进学生对传统文化的了解和继承。
三、教学过程
教学环节及时间
教师活动
学生活动
对学生学习过程的观察和考查及设计意图
创设情境问题引入
3’
播放不到一分钟的中秋送月饼的flash动画片,然后引出话题:农历八月十五日,是我国传统的中秋节,也是我国仅次于春节的第二大传统节日。那么你知道中秋节有哪些传说故事吗?
学生回答
激发学生兴趣,让学生很快进入信息技术的课堂氛围。
课程实施
37’
试
一
试
5’
组成员之间交流探讨,试一试如何利用因特网查询中秋节的传说故事?
老师巡回
老师带领大家总结出常用的网络信息检索方法:
1、目录检索
2、关键词查询
、学生小组探索。
2、先查到的同学汇报自己的检索结果和所使用的方法
根据学生的探索了解学生已有的网络信息检索水平
想
一
想
7’
以上两类信息搜索方法中我们平时用的最多的是哪一类方法?你知道为什么吗?这两种信息检索法有什么区别?
在学生归纳的基础上,老师总结出两种信息检索方法的特点:
查询方式
比较项目
分类检索服务网站
关键词查询服务网站
实现方式
分类目录
搜索引擎
操作方式
层层点击
输入关键词
优点
得到比较系统的信息
得到具体的信息
缺点
难以准确找到具体信息
不适合找到系统的信息
、学生回答。
2、学生归纳比较两种信息检索方法。
培养学生归纳总结能力。
赛
一
赛
9’
老师读完题目后,小组成员分别利用不同的网络信息检索方法查询问题答案,先查到的,举手示意,经老师同意后汇报自己的查询结果。
答对者,给所在小组加十分,抢答答错者(包括抢答不遵守规则者)扣十分,其他小组继续抢答。整个比赛结束时得分最高组为优胜组。
学生检索问题答案进行抢答。、结合活动开展,巩固信息检索方法的使用,利于学生掌握新知。
2、通过分组活动培养学生的团结协作精神。
想
一
想
7’
小组成员之间交流比赛过程中自己利用网络搜索信息的体会,想一想如何才能使用搜索引擎准确快速地找到自己需要的信息,并推举小组代表总结发言。
师生共同总结出搜索引擎的使用技巧:
1、关键词的选择最重要。
(1)提炼关键词
(2)组合关键词
用布尔运算符组合关键词:
AND或“+”、空格
oR或“|”
NoT或“-”
2、不要局限于一个搜索引擎。
3、强制检索的方法——加英文双引号。如查询谚语“raincatsanddogs”的汉语意思。加英文双引号可大大提高搜索的速度和准确率。
、小组交流。
2、推举代表总结。、培养学生探究学习的能力。
2、培养学生归纳总结能力。
练
一
练
9’
背景:
保护好属于中华民族的传统节日,是我们的一种责任!在我国已经延续了几千年的传统民间节日端午节,却于XX年被韩国抢先申报为该国文化遗产。在各种洋节日益盛行的今天,端午节等传统节日日渐式微。
中国的传统节日形式多样,内容丰富,是我们中华民族悠久历史文化的一个组成部分。
请结合小组抽到的信息检索题目,查查相关中国传统节日的来历、习俗、传说、诗词并与同学交流。
请推举小组代表介绍:
小组查询的是关于中国哪个传统节日的内容?
具体查询方法是:
查询结果如何?
学生根据抽到的题目进行信息检索。
通过该环节对中国各传统节日相关文化的搜索,来加强学生对民族文化的认识和继承,树立起对民族文化的珍惜与爱护之情。
拓展
1’
不管是从因特网获取信息还是从其他途径获取信息,必须保证获取信息的途径和方法是合法的,严禁不合法的信息获取行为——偷窃国家或单位机密信息;运用偷拍、窃听等手段侵犯他人隐私;使用威胁或黑客入侵手段等。
使学生知道在使用网络的过程中,应该遵纪守法,自觉抵制不良信息,负责任的参与信息实践,养成良好的网络道德行为和习惯。
总结
4’
让学生谈本节课的收获,老师补充。
学生一起回答
回顾本课,对所学作总结,学生再回忆一遍,加深印象
四、教学反思
采取这种主题活动式教学,对教师的要求更高。要想组织好一堂课,教师必须精心设计课堂,把活动安排得更细致,并要考虑周全。最重要的是要引起学生的极大兴趣,这就需要教师有非常好的引导,并在过程中给予学生帮助与指导。要有随机应变、驾驭课堂的能力,能调动气氛。当要各小组讨论时,要能及时调动学生积极参与,教师巡视时发现学生的闪光点及时进行肯定与表扬,进而带动整个课堂的气氛。课堂设定的评价机制要明确,活动要达成的目标要明确。
当今社会是一个信息时代,而每天的信息量却又如此繁多,令我们措手不及,电脑作为我们研究生获取信息的重要工具,如何最高效的应用它为我们服务,是我们当代研究生面临的重要问题。所以对于网络信息检索的意义就不言而喻了它的意义主要表现在以下几个方面:
(一)掌握网络信息检索技能是当代大学生所应具备的基本技能之一。
当代社会日趋复杂,瞬息万变,整个世界进入一个新技术革命发展的信息时代,诸如“信息社会”、“信息高速公路”、“数字图书馆”、等新生词汇不断出现,以致信息知识贯穿、渗透到人们的生产、生活与科研等各个领域,并且决定着我们的生活、学习和工作。这种时代迫切要求大学生掌握多种基本技能。其中,文献信息检索与电脑、外语形成所谓的三大基本技能,掌握网络信息检索技能可以提高自己查检、鉴别、选择与利用文献信息的能力,有利于获取新的信息,吸收所需的专门知识,从而更好地进行自学、从事科研和开展各种管理活动。
(二)掌握网络信息检索技能有助于同学们了解和把握有关学科的起源和发展过程。掌握文献信息检索技能,可以了解前人在各个领域中所取得的积极成果和有关学科的发展概貌,从而找到读书治学的门径,确定读书的重点和方向。
(三)掌握网络信息检索技能是接受终身教育的必要手段。
当前,世界范围内图书文献的数量增长异常迅猛,已经呈现“信息爆炸”、“信息污染”的复杂局面。面对如此广泛巨大,且在不断猛增的文献信息与知识量,任何图书馆、文献信息部门和档案馆均无法全部收藏。任何人别说是通晓各门学科知识,就是通读某一学科或某一领域的全部文献都相当困难,哪怕大致浏览涉猎也是如此。就同学们来说,即使是拼命地学习,也无法在大学期间学完将来从事工作所需掌握的全部知识。何况有些学科知识还存在着陈旧老化的问题。这就要求同学们在毕业后还要接受终身教育,不断扩大和完善自己的知识结构。所以,同学们应将刻苦学习、掌握知识与培养文献信息检索与利用技能结合起来,学会用最少的时间和精力选取和掌握更多的专门知识,培养接受终身教育的基本功,以便获得最佳的学习效果。
网络信息资源检索有多种方法,那么我就简单列出几种供大家参考。
1、利用搜索引擎
搜索引擎是指利用一种被称为“蜘蛛”的软件工具在WEB上搜索,将找到的文献编入自己的数据库中。用户检索时直接输关键词,搜索引擎根据一定的规则将检索式与其数据库中的文献进行匹配,从而生成结果清单。
2、利用搜索目录
它将各站点按主题内容组织成等级结构,检索者依照目录逐层深入,直至找到所需文献。
关键词:网络信息,检索策略,专题数据库,解放,海南
对于海南岛地理位置和在国防战略上的重要地位,王会均曾将其比喻为人的“右眼”、“右拳”,渡海解放海南岛战役是为争夺海南岛而展开的,1949年12月至1950年5月1日,中国人民解放军第43军和第40军在琼崖纵队以及当地群众的积极接应配合下,与退守海南岛的国民党军进行艰苦战役,最终打败了国民党军,解放了海南岛。这次战役的胜利创造了世界战争史上的奇迹,是解放军战士、琼崖纵队及当地群众克服千难万险的革命斗争精神的伟大胜利。今天回顾这段历史,有弘扬爱国主义精神、纪念革命烈士、鼓舞团结人民群众建设美好明天、记录历史、总结军事经验、完善军事理论等重大意义。
“渡海解放海南岛战役专题数据库”是海南师范大学图书馆几位工作人员根据读者需要创建的海南地方特色专题数据库,网址是http://210.37.2.188/libary/index.asp,收集的是与渡海解放海南岛战役有关的纪实性文献。迄今为止,与这段历史相关的文献资料经过了60年的积累,数量非常多,而且,每年五、六月份,海南各媒体都会有关于战役的新信息报道出来,海南当地有关社会实体组织、政府网站等都有大量相关信息发布。本专题数据库要做的就是收集、组织这些文献信息,对其进行二次开发,以丰富地方文献特色馆藏,便于读者快速、系统地获取这些信息。为了收集这些文献信息,本课题组成员查阅了部分纸质史料,实地寻访红色遗迹,采访党史专家及英烈家属,收集知情者的“口述历史”。在文献资料收集的过程中,作者发现与本专题密切相关的网络信息非常丰富,但分散、无序。如何从分散无序的网络信息中,找到符合本专题需要的文献资料,本文从以下几个方面进行探讨。
一、渡海解放海南岛专题数据库网络信息的特点
1. 数量庞大。
经过六十多年的积累,目前相关信息已经相当丰富,而且绝大部分已经数字化、网络化,仅仅Google图书搜索一项,就可以检索到287条密切相关书目。
2. 分布分散。
除了专题文献信息数据库之外,我们知道,在对网络信息进行检索的时候,可以使用的检索工具很多,而且利用不同检索工具检索出的数据重复性并不大,这些文献分布相当分散。
3. 排列无序。
与本专题相关的网络信息数量庞大,载体形式及文体类型多样,包括图书、视频、音频、图片、论文、新闻报道等。这些文献信息在网络上呈无序状态排列,查找起来无迹可寻,需要花费大量时间,很不方便。怎样全面、准确地将如此海量,但分散、无序的网络数据收集起来?
二、根据要收集文献的不同类别选择不同的检索工具
我们常用的检索工具有两大类,一类是搜索引擎,一类是数字图书馆或数据库。人们习惯于使用搜索引擎,虽然搜索引擎不断改进技术,但是它的发展还是落后于网络的发展,在识别和索引数字图书馆或数据库这些非文本信息方面还是无能为力。所以为了检索到更多的有效网络信息,除了搜索引擎,我们必须选择数字图书馆或数据库作为检索工具。
经过分析,本数据库文献收集的信息检索工具分为以下六大类: (1) 图书书目类。这类文献的检索工具主要用到了以下六个:海南省教育科研数字图书馆、国家图书馆、中科院联合目录、CALIS联合目录、Google图书搜索和OCLC的WorldCat (Online Computer Library Catalog,世界上最庞大的图书馆目录)。 (2) 研究论文及论著类。这类数据的检索主要用到的数据库有:读秀学术搜索引擎、超星电子图书、中国知网(CNKI)、重庆维普、开世览文(CASHL)和海南省教育科研数字图书馆六个。 (3) 视频信息类。主要用到了百度视频、优酷视频、土豆网视频、酷6网视频和56网视频。 (4) 图片信息类。使用“解放*海南”在百度图片进行检索,仅此一个数据库,就得到数量非常丰富的图片信息,其中有历史照片、纪念章、纪念碑、新闻图片和影视剧截图等。 (5) 海南各家新闻媒体等实体单位及其网站类信息。这类检索工具:包括海南广播电视台、海南日报社、海口晚报社、海南特区报社、南国都市报社、海南海南省档案馆、海南省史志办、海南省党史办、海南省博物馆、海南军事博物馆、海南省各市县史志办、海南各大报纸刊物以及电视新闻媒体等各实体单位及其网站。 (6) 外文文献类。本专题选择的外文文献数据库有CASHL(中国高校人文社会科学文献中心)数据库、海南省教科研数图外文搜索(即读秀外文数据库检索)和CADAL(大学数字图书馆国际合作计划)数据库。
三、根据网络信息的内容特点提炼恰当的检索词
检索词的选择很关键。怎样有效地提取检索词,各个专题有不同的做法,本专题认为,选择检索词首先要熟悉网络信息内容的特点,根据信息内容提炼恰当的检索词。其次,在计算机检索系统中,检索词一般有规范词、规范化的代码和自由词三种形式,“选择检索词的时候,如果所选数据库具有叙词表或主题词表应优先选用叙词或主题词作为检索依据,联机检索的检索用词一般来源于系统词表”。如果选择的检索工具没有词表可查,可以使用自由词作为检索词,注意从专业角度出发选择自由词,尽量不使用一词多义的词。本文抽取检索词的时候主要考虑到了以下几个方面: (1) “渡海”有“跨海”“横渡”等同义词,应当用逻辑或组配; (2) “海南”是一个地域的限制词,下属有十多个市县,因此相对来说海南是个上位词,下属市县如儋州、文昌等为下位词,应当用逻辑或组配; (3) 历史时期的“海南”还称为琼州,这属于同义词,应当用逻辑或组配; (4) “战役”有“作战”“战斗”“战争”等同义词,应当用逻辑或组配; (5) 本战役中,四次重要的登陆点为儋州白马井镇超头海滩、文昌赤水港、临高角、玉包港,在数据库中具有非常重要的意义,所以,这四个词也必须是检索词,和“海南”一词之间用逻辑或组配; (6) 有若干有名的历史事件和历史人物,在这次有名的战役中占有重要地位,有的成了这次战役的专有名词,这些词有“中国人民解放军第四野战军、40军、43军、邓华、赖传珠、洪学智、琼崖纵队、木帆船、伯陵防线、儋州白马井镇超头海滩、文昌赤水港、临高角、玉包港、薛岳、世界海战史”,在检索的时候应该特别关注; (7) “毛泽东”是指挥这次海战的最高指挥官,检索时应当给予特别关注。
四、根据检索结果随时调整检索式
在检索过程中,需要根据各个检索工具的资源情况,对检索工具中设定的相关字段和本数据库设计的检索词进行全程匹配,不断调整检索式,以达到满意的检索效果。“在联机检索中……通常要对检索提问式进行‘预检’,采用‘扩检’或‘缩检’等措施,优化检索提问式。”本专题采用的就是这种做法。例如,先使用“海南*渡海*战役”在读秀学术搜索中进行预检,得到的检索结果过于庞大,就将检索式调整为“海南*渡海*战役*登陆点*白马井”,加上“登陆点”和“白马井”两个检索词进行缩检,就得到了检全率和检准率都比较高的869条数据。这样,就扩大和提高了渡海解放海南岛战役纪实数据库信息收集的广度和深度。
五、检索结果分析与评价
本文针对本专题数据库的需要,仅就评价指标中比较重要的个别点进行论述,比如信息覆盖面和范围(即检全率)、信息来源、信息真实性、权威性(即检准率)和检索工具的可检索性、易用性。
1. 渡海解放海南岛战役书目的检索结果。
首先,由于本专题信息属于海南地方文献,所以海南本地的馆藏资源———海南省教育科研数字图书馆体现出了明显的优势;其次,由于Google图书搜索是在全文范围内检索,检全率明显提高了,但相对来说检准率有所下降,所以在编写检索式的时候,要加上特殊关键词“白马井”对检索结果加以限制,否则,检索到的数据就有5680条之多,要逐一对其进行筛选,挑选出密切相关数据,需要花费很大精力。
2. 研究渡海解放海南岛战役文献的检索。
首先,特别推荐读秀学术搜索引擎,由于是全文检索,检索结果检全率非常高,故此,笔者编写的检索式为“海南*渡海*战役*登陆点*白马井”,除了多加了关键词“登陆点”作为限制之外,又增加了关键词“白马井”来限制检索结果,这样,检准率也就有了一定保障,得到的869条数据均为密切相关的文献,证明该检索工具可以做到高检全率与高检准率兼备,非常不错;其次,作为电子图书检索工具,超星电子图书也是非常不错的,在超星电子图书进行检索时,编写了五个检索式分五次进行检索,在检全率很高的情况下,笔者分别添加了“登陆点”、“登陆*伯陵防线”、“登陆*琼崖纵队”、“毛泽东*韩先楚”、“邓华*叶剑英”这些关键词进行限制,也得到了较多的检索结果,在没有排重的前提下,总数据量为465条,当然,在同一检索工具中利用不同检索式检索,得到的结果预计有一部分是重复的,需要排重。
3. 视频信息检索。
首先,百度视频的检全率与检准率最高,经过检索,得到300多条密切相关信息,其中包括影视剧、新闻访谈录、新闻纪录片等。其次是56网视频,在得到的64条数据中,44条都是密切相关数据,检全率与检准率都比较高。
参考文献
[1]王会均.海南文献资料索引[M].文史哲出版社, 1987.
[2]夏淑萍, 邓珞华.计算机文献检索[M].武汉大学出版社, 2005.
关键词:Prefuse 社会网络 知识图谱 信息检索 合作网络
中图分类号: G254.9 文献标识码: A 文章编号: 1003-6938(2012)05-0079-06
近年来,随着多种知识图谱分析工具的出现,一些研究者利用知识图谱软件(主要是CiteSpaceⅡ)对信息检索学科进行了分析,如Rorissa A和Yuan X(2011)在2000~2009年数据的基础上用CiteSpaceⅡ对信息检索学科进行知识图谱构建和学科分析[1];国内同样有学者利用该软件对信息检索的子领域进行分析,但这些研究存在数据源时间跨度短、在一定程度上依赖于知识图谱软件的功能,而且未对信息检索学科合作网络进行分析研究。通过上述考虑,本文尝试一种新的知识图谱框架,基于该框架通过社会网络算法构建信息检索合作网络并进行解读,以便为国内外从事信息检索研究的有关学者提供参考借鉴。
1 基于Prefuse的知识图谱系统设计
2005年,Heer J、Card SK、Landay JA三人共同撰文提出了Prefuse的信息可视化框架[2]。Prefuse为数据建模、数据可视化以及用户交互提供了丰富的软件库,可以支持表格、图和树显示,还具有支持动态显示、动态查询等功能。Prefuse基于传统的MVC架构进行开发,其可视化时需要经过如下处理过程[3]:
(1)抽象数据(Abstract Data)。Prefuse对数据进行可视化的首要步骤是获取数据,并为数据提供了指定的接口和程序,可以显示表、图和多种树形结构。本文主要使用XML格式的数据,通过把数据转化成XML格式,如DOITrees、GraphML、TreeML格式,完成抽象数据的处理过程。
(2)数据过滤(Filtering)。主要是将抽象数据进行提取、转化,使其适用于显示。首先选取要进行可视化的一系列元素,如一个图形或显示在散点图上的重点区域。然后形成一些可视化的属性(称为VisualItems),如源数据中显示的文字、数字,显示时的坐标点、颜色、大小等等。然后通过Action提供为上层组件。
(3)数据渲染(Rendering)。即图形绘制的过程,可视化元素(VisualItems)通过渲染器(Renderers)绘制到屏幕上,其中用到上面形成的组件如颜色、位置、大小等等。Prefuse实现了一些基本渲染器,通过渲染器工厂RenderFactory进行管理。
(4)交互显示(Interactive Display)。功能由Display组件完成,用于显示ItemRegistry中注册的组件。可视化交互功能通过ControlListener接口实现,主要是提供对鼠标、键盘的监听功能。
本文通过对数据的预处理、数据抽取、矩阵形成,进行聚类或社会网络以后,把生成结果转化成Prefuse可支持的TreeML、GraphML格式,借助Prefuse可视化框架,完成聚类显示、社会网络显示的功能。
2 信息检索学科分析的知识图谱构建
2.1 数据源获取
本研究数据来源于Web of Science的SCI-EXPANDED、SSCI、A&HCI、CPCI-S、CPCI-SSH数据库,用“Information Retriev*”作主题检索,检索时间选择20世纪50年代至今(截止至2011年11月25日),词形还原打开,得到的检索结果共计46561条记录。以此作为构建信息检索学科知识图谱的数据集,以下简称为“数据集”。
2.2 数据处理
(1)提取作者数据。在原数据库中,通过数据表paper的“authors”字段,可以获得每篇文献的作者数据,在作者字段中,为方便去重和区别不同作者,每个作者姓名以数据集中提供的全名进行表示,当文献是合作文献时,作者之间以分号进行分隔。选择paper的“authors”字段的所有数据,通过编程对获取的每个作者条目进行切分,从而得到所有作者数据。
(2)构建合作者对应关系。建立表author_author,其中包括两个字段“firstauthor”和“secondauthor”。通过处理,共得到548,182条作者与作者对应数据。在构建“作者——作者”对应表时,第一作者与第二作者及其他作者不分权重,即所有作者的重要程度相同。构建作者与作者对应关系表时,通过对步骤一获得的每一条合作者数据进行遍历,得到作者与作者对应关系。
(3)生成合作者数据。对表author_author中的数据,根据“firstauthor”字段进行分组合并,对“secondauthor”进行合并,合并过程中剔除重复元素,“secondauthor”对应数据以分号进行连接,同时统计出每个作者的合作次数,然后将合作者数据插入表coauthor中。
处理完成后,共得到96,778个作者的合作者信息,其中与其他作者合作频次最高的为Bryant, Stephen H.,合作频次为245。与其他作者合作频次达到200次以上的作者共22人(见表1)。
2.3 合作者网络构建
由于本文的研究重点是确定合作者中的团体和其研究内容,所以文中采用无向无权网络,构建过程如下:
(1)定义社会网络数据结构。合作者网络的定义包括节点、边和社会网络三个部分。节点包括aid和aname两个字段,为网络中最基本的构成元素,由类Node表示;边由节点和与该节点关联度为1的节点的集合构成,其中与该节点关联的节点数即为该节点的度,由类Edges表示;社会网络由节点的集合和边的集合两部分构成,其中社会网络还可以获取子网络,由类SocialNetwork表示(见图1)。
nlc202309032218
(2)构建合作者网络。合作者网络的构建根据数据库中的合作者表coauthor和作者文献产量表author_paper进行构建,合作者网络的节点基于合作者的合作频次和每一位作者的文献产量进行选择,然后根据其合作情况提取边信息。在coauthor表格中有96,778条合作者信息,表author_paper中存储有数据集中所有作者的文献产量信息,共100,985条。
由于本文的研究目的是提取代表性的合作者社团及其研究方向,所以在合作者数据中作者提取了合作频次超过53的前300条合作数据;另一方面,为了减少网络复杂度高从而导致信息表征的不足的影响,仅提取文献产量在10以上的作者,共407位高产作者。
以上步骤具体由类SocialNetworking完成(UML结构见图2)。通过合作者网络构建,共得到142个节点和71条边。
(3)获取合作者群体。在得到的合作者网络中,每个子网络代表一个合作群体,通过获取子网络,可以得到合作者网络中最大合作群体以及其他合作群体。通过对各群体中的节点数、各节点的度、以及作者、作者发表的文献特征进行提取,可以获得各个合作群体的研究重点、研究特征等特性。
本文对合作群体的获取,通过社团结构搜索算法进行,算法具体在SocialNetworking类的getSubNetWorkNodes方法完成,经过对合作者网络的合作群体进行搜索,共得到21个合作群体,节点数最多的合作群体包括45个节点,节点数为22的群体有1个,节点数为11的群体有2个,节点数为5的群体有2个(见表2)。
[子网节点数\&45\&22\&11\&5\&4\&3\&2\&\&子网数\&1\&1\&2\&2\&2\&9\&4\&共计21个\&][表2 合作群体数及相应节点数]
2.4 知识图谱生成
对社会网络的可视化基于GraphML文件和Prefuse可视化框架进行。首先需要把上一步生成的合作者网络转化为进行可视化的GraphML文件,然后通过Prefuse框架提供的可视化接口,对GraphML进行读取、渲染以及最后的展示。详细流程为:
(1)生成可视化表征文件。采用GraphML进行图形描述。GraphML格式最初由GML转化而来,符合XML语言规范。通过编程将得到的合作者网络数据进行转化,转化为GraphML格式的文档(结构见图3)。
(2)知识图谱显示。生成代表类别的GraphML文件以后,就可以通过Prefuse所提供的可视化组件进行图谱显示了,完成信息检索合作者网络的知识图谱绘制。
从整个合作者网络图(见图4)可以看出整个网络图可以分为不同的子图,对其中各个子图的节点分布并不均衡,最大的子图有45个节点(见图5),位于图中央,依次是有22个节点的子图(见图6),最小的子图仅仅2个节点,位于整个图的边缘。
3 信息检索合作网络知识图谱的解读
3.1 整体合作网络特性分析
其中,fj表示合著者人数为j的论文数;N表示论文总数,k表示合著者人数的最大值。
经过统计,在得到的46,561条数据中合著文献数达到38,506条,占文献总数的82.70%,所以合著率为82.70%。其中合著人数最多的文献有54个作者,合作者人数分别为2人、3人和4人的文献数及所占合著文献比例如表3所示,这三种情况共占合著文献的79.13%。通过计算得到其合作指数CI为2.99,说明篇均作者2.99人。
3.2 最大子网络分析
针对合著网络中的节点最多的两个子网络进行具体分析,包括节点的度分析和子网络中的合著子群分析。
通过编程统计,得到两个子网络中每个节点的度,表4显示了节点数为45和22的子网络中度数较高的前10为作者。
图7中以径向图形式显示了节点数为45和22的合著网络子图,结合表4,可以从图中直观的看到以Zhang, L、Sprink, A和Schacter, DL为中心,组成了网络中规模较大的科研群体。节点数为22的子图中形成了整个网络中节点数最多、边最为密集的凝聚子群,在这个凝聚子群中,节点度数最少的是Kohler, S和Markowitsch, HJ,度值为3,Tulving, E和Cabeza, R节点度值最大为9,共有10个节点,平均节点数为6.2,该凝聚子群是信息检索领域凝聚力最强的合作群体,是信息检索研究的重要科研群体。
[节点数为45的子网络\&节点数为22的子网络\&节点姓名\&节点度\&节点姓名\&节点度\&Zhang, L\&8\&Cabeza, R\&9\&Spink, A\&8\&Tulving, E\&9\&Zhang, Y\&6\&Houle, S\&9\&Huang, HL\&6\&McIntosh, AR\&8\&Li, J\&5\&Schacter, DL\&7\&Ma, WY\&5\&Craik, FIM\&6\&Zhang, J\&4\&MOSCOVITCH, M\&5\&Liu, Y\&4\&Nyberg, L\&5\&Chen, J\&4\&Nilsson, LG\&5\&Zhang, HJ\&3\&Rugg, MD\&4\&][表4 节点数为45和22的子网络
nlc202309032218
中度数较高的前10为作者]
3.3 合作网络研究者分析
评价科学家在网络中的地位及其影响力通常有:发表文献数、文献被引次数、度值、中间中介数等指标。本文选用发表论文数、作者被引次数和节点度值三个指标。表5显示了发表论文数、作者被引次数和作者节点度值较高的研究人员,通过表格可以看出,Sprink A发表论文数和网络中的节点度值都位于前列,Tulving E的作者被引次数和节点度位于前列,其他的28位研究人员并不存在同时在高产、高被引和高合作群体同时出现的情况,所以通过表格可以反映出信息检索研究人员在高产、高被引和高合作群体中不存在很强的一致性。
[作者\&产出\&作者\&被引次数\&作者\&节点度数\&Chen, HC\&60\&Salton G\&4145\&Cabeza, R\&9\&Spink, A\&54\&Tulving E\&1494\&Tulving, E\&9\&Zhang, J\&42\&Baezayates R\&1084\&Houle, S\&9\&Crestani, F\&39\&Belkin NJ\&1054\&Zhang, L\&8\&Schacter, DL\&38\&Vanrijsbergen CJ\&965\&Spink, A\&8\&Del Bimbo, A\&36\&Deerwester S\&767\&McIntosh, AR\&8\&Jarvelin, K\&35\&Robertson SE\&717\&Schacter, DL\&7\&Snasel, Vaclav\&35\&Squire LR\&633\&Zhang, Y\&6\&Zhang, HJ\&33\&Porter MF\&569\&Huang, HL\&6\&Rugg, MD\&32\&Anderson JR\&558\&Craik, FIM\&6\&][表5 发表论文数、作者被引次数和节点度值统计表]
4 结语
本文主要对信息检索领域的合作网络进行知识图谱构建和解析。通过数据预处理提取构建合作者网络的合著数据,然后通过社会网络算法构建合作网络,再通过编程将网络转化为GraphML格式的文件,提供给Prefuse可视化接口进行知识图谱显示,完成合作网络的知识图谱构建。在此过程中自行实现社会网络算法,实现合作者网络的提取。借助构建知识图谱和数据统计,对信息检索的合作网络进行分析,分析了合作网络的整体特性、最大的两个合作者网络、凝聚性最强的合作网络,然后对信息检索的合作网络研究者与高产作者和高被引作者进行了综合分析。
参考文献:
[1]Rorissa A, Yuan X. Visualizing and Mapping the Intellectual Structure of Information Retrieval[J]. Information Processing and Management, 2011,(48):120-135.
[2]Heer J,Card SK, Landay JA. Prefuse: A Tookit for Interactive Information Visualization[C].CHI,Portland, 2005:
421-430.
[3]Chu H. Research in Image Indexing and Retrieval as Reflected in the Literature[J]. JASIST, 2001, 52(12):1011-1018.
[4]刘鹏.科研合作复杂网络模型的研究[D].广州:暨南大学信息科学技术学院数学系, 2011.
[5]Suyeon Kim, Euiho Suh, Hyunseok Hwang. Building the knowledge map:an industrial case study[J].Journal of
Knowledge Management,2003,7(2):34-45.
[6]Ding Y, Yan E, Frazho A etc. PageRank for Ranking Authors in Co-citation Networks[J].Journal of the American Society for Information Science and Technology,2009, 60(11):2229-2243.
[7]林莉. 科研论文合著网络结构与合作关系研究[D].长春:吉林大学社会医学与卫生事业管理, 2010.
[8]李亮,朱庆华. 社会网络分析方法在合著分析中的实证研究[J]. 情报科学,2008,26(4): 549-554.
[9]张英杰,冷伏海. Twitter类网站微信息组织及用户关系网络研究[J].图书情报工作,2010,54(16):116-119.
[10]Hsinchun Chen[EB/OL].[2012-03-20].http://en.wikip
edia.org/ wiki/Hsinchun_Chen.
[11]王知津等. 十五年来我国网络信息检索研究述评[J]. 情报科学,2004,22(4):385-389.
[12]王智红等.近十年来我国网络信息检索研究主题分析[J].情报杂志,2009,28(7):1-6.
作者简介:唐蓓(1979-),女,硕士,上海工程技术大学图书馆馆员,研究方向:信息可视化;夏秋菊(1985-),女,硕士,上海工程技术大学图书馆助理馆员,研究方向:知识管理。
【网络信息检索与技巧】推荐阅读:
山东大学网络教育学院 现代信息检索技术1doc 答案10-06
网络与信息安全技术小结06-06
网吧网络与信息安全制度09-14
信息检索与利用论文07-19
公共信息网络发布信息保密管理规定07-20
信息技术网络研修总结07-02
快速浏览网络信息教案09-25
浅析网络时代信息传播06-26
走进信息网络时代作文06-27