《信息检索讲稿》(共8篇)
第一章 信息检索概述 第一节 信息资源的概念与类型
一、信息资源的概念
信息资源是人类存储与载体(包括人脑)上的已知或未知的可利用的信息。信息中的载体信息和主体信息是使信息资源的最基本的组成部分。
二、信息资源的特点 1. 客观性。信息不是能源,也不是物质,无论是否认识到,信息总是存在着。2. 寄载性。信息必须借助于一定的符号存储与一定的载体中(包括人脑),才能被表现,没有载体,就没有信息。信息与载体,两者不能割裂开。3. 传递性。信息可以通过一定的载体在空间、时间上传递,从近到远,从古到今都能传递。4. 动态性。信息是对事物存在方式及运动方式的反映,随着事物的变化,信息也将变化。这里动态性是指信息的时效性。5. 相对性。人们认识能力与认识条件不同,信息接受者(信宿)获得信息与信息量的多寡不同,从这个意义上说,信息的价值具有相对性。6. 增长性。信息资源的使用,不但不会使信息资源减少,再利用中,还会产生更多的信息。7. 共享性。使用同一种信息资源,均不需要任何的限制条件,信息资源共享的双方或多方均不回损失信息内容,相反还会产生新的信息。8. 规模性。信息资源作为整体要有一定的量,分散、片面地信息不能较好地反映事物的情况。
三、信息资源的类型
按照信息资源的开发程度来区分,可分为潜在信息资源与现实信息资源两大类。现实信息资源又可分为口语信息资源、体语信息资源、实物信息资源、文献信息资源、网络信息资源和多媒体信息资源。1. 口语信息资源。交谈、聊天、授课、讨论等方式获得的信息资源。特点是传递迅速,互动性强,但稍纵即逝、久传易出差异。因此通过这种方式了解到的信息应记录下来,并加以证实。2. 体语信息资源。以手势、表情、姿势如舞蹈、体育比赛、杂技等方式传递的信息资源。
特点是直观性强生动丰富、印象深刻、富有感染力,但此类信息的容量有限。3. 实物信息资源。以实物如文物、产品样本、模型、碑刻、雕塑等形式表示的信息资源。
特点是直观性强、感觉实在、信息量大,但需要通过知识、智慧、经验和工具挖掘大量隐含的信息。
4.文献信息资源。以文字、图形、符号、声频、视频等方式记录在各种载体上的知识和信息,包括图书、连续出版物、小册子以及学位论文、专利、标准、回忆录、政府出版物等特种文献。
特点是经过加工、整理,较为系统、准确、可靠,便于保存与利用,但也存在信息相对滞后,部分信息尚待证实的情况。文献的一些主要类型: 1)图书。国家标准《情报与文献工作词汇·传统文献》(GB13143—91)对图书(book)的解释是:一般不少以49页并构成一个书目单元的文献。图书是文献中最古老、最重要的类型。按文种来分可分为:中文图书、日文图书、西文图书等;按作用范围可分为通俗图书、教科书、工具书等;按写作方式可分为专著、编著、翻译、编译等;按出版卷 可分为单卷本、多卷本等;按刊行情况可分为单性本、丛书、抽印本等;按版次情况可分为初版、重版、修订本等。2)连续出版物。具有同一题名、定期或不定期以分册形式出版、有卷期或年月标识、计划无限期连续出版的文献。包括期刊、报纸、出版物及其他连续报告、会议路、专著性丛刊等。连续出版物是与图书并列的最主要的文献类型,其特点是内容新颖、报道及时、出版连续、信息密集、形式一致等。据统计目前世界上连续出版物有130万种,限期连续出版物约50万种。3)特种文献。有特定内容、特定用途、特定读者范围、特定出版发行方式的文献,包括学位论文、研究报告、专利、标准、产品样本、会议录、档案和政府出版物。国内外同行称这类文献为“灰色文献”(grey literature),尽管这类文献并非很成熟,但他们内容新颖专深、实用性强、信息量大、参考性高,利用率大,是极为重要的信息资源。4)网络信息资源。以电子形式存贮于成千上万台计算机组成的网络中的信息资源。它包括各类数据、电子文件、学术论文、图书、软件、商业活动等各种信息。因特网(internet)在20世纪70年代起源于美国,截至2000年底,已连接全球200多个国家和地区近5万多个网络、485万台主机、1.2亿个用户,并以每月20万个新用户的速度递增。
中国从1994年开始发展因特网,据《中国因特网发展状况统计报告》报道,截止2002年6月30日,中国上网计算机总数已超过1613万台,上网用户总数达到4580万,CN下注册的达126146 个;规范和因特网浏览器。2)北欧的万维网索引(NWI,Nordic Web Index)是利用北欧各国的5个合作服务点而建立的,该系统以元数据为基础,可以实现包括题名、文献作者和URL等字段的检索。
3)欧洲研究与教育信息服务之开发项目(DESIRE,Development of a European Service for Information on Research and Education)。该项目在基于主题的信息网关中为记录是用一般的元数据格式,编制了用于转换的映射表。
元数据在中国的应用。
1)文化部科技司的数字式中文全文文献通用格式。该格式是作为一个行业标准供中国大陆各级图书馆以计算机可读形式建立馆藏数字化中文全文文献资源。该标准适用于采用中文全文检索技术的计算机系统。
该标准规定了文本、图像以及多媒体等类型文献元数据的规范和定义,可用于普通图书、古籍、连续出版物、标准文献、科技报告、学位论文、地图资料、缩微资料、计算机文档等类型文献的元数据处理。
2)中国大陆的数字图书馆项目:
a中国实验型数字图书馆。建设一个规范化的分布式数字式资源库,在资源组织和描述上,强调符合项目总体技术的统一要求。该项目计划由中国国家图书馆、上海图书馆、深圳图书馆、中山图书馆、南京图书馆、辽宁图书馆参与,模仿美国数字图书馆计划,侧重技术方案的实现,兼顾资源的数字化。
b 中国数字图书馆工程。其中需要建立数字图书馆国家中心的元数据共享检索系统和元数据资源中心,该中心使用并行数据库技术和分布式计 算机系统来支撑海量的元数据系统。
c 清华大学建筑数字图书馆。提供中国营造社史信息导航、学科资料成果信息导航以及新营造学社资料方面的服务。
d 北京大学的中文Metadata标准研究。以中文文献为资源实体对象,研究中文文献元数据标准,并在其基础上制定中文文献元数据示范数据库。
第三节 信息资源标引法
标引是通过对文献或信息资源的分析,选用确切的检索标识,如分类号、主题词、关键词、人名、地名等,用以反映该文献或资源内容的过程。标引的英文是Indexing。标引是信息资源加工中的重要环节,使款目或记录编排的重要根据,对信息检索效果有直接的影响,通过标引,才可编成各种目录和索引等检索工具。
各种标引词存储于计算机内,才可实现文献或信息资源的检索。利用不同的检索便是进行标引,就形成了不同的标引方法,目前主要的标引方法有:分类标引法、主题标引法、关键词标引法和名称表引法等(人名、地名、书名)。
由于计算机信息检索系统和信息数据库的应用,还出现了自动标引。
一、分类标引
分类标引是指依据一定的分类语言,对信息资源的内容特征进行分析、判断,赋予分类标识的过程。
通过对信息资源赋予分类标识,信息机构可以将各种信息资源纳入相应的知识门类,建立起相应的分类检索系统。信息用户只要根据一定的信息资源特征,就可以按系统提供的途径查找到所需的文献。1.掌握分类标引的要求。具有准确性、充分性、一致性、实用性。2.掌握分类标引的规则。
传统文献的分类体系,是以学科为中心建立的类目体系,应在分析文献主体对象的同时考虑其内容的学科属性。
如:《华北地质构造》,按学科先归入“P54 区域大地构造学”类,再加华北地区区分号“822”,得出分类号“P548.22”
网络分类体系,是以主题或学科为中心建立的类目体系,应根据类目的设置特点各入其类。
工具书、目录、索引、文摘等一般归入Z 综合类后,再按专业分散处理。
3.了解几种常用的分类法。中国常用的分类法有《中国图书馆图书分类法》《中国科学院图书分类法》《中国人民大学图书馆图书分类法》《中国图书资料分类法》;国外常用的分类法有:《杜威十进分类法》《国际十进分类法》《美国国会图书馆图书分类法》《冒号分类法》等。
二、主题标引
是依据一定的主题词表和主体标引规则,赋予信息资源语词标识的过程。具体是在主题分析的基础上,以一定的词表和标引规则作为依据,将信息资源中具有检索意义的特征转换成相应的主题词,并将其组织成能表达信息资源内容特征的标识的过程。
1.掌握标引方式。标引方式是根据资源特点和使用需要确定的标引和解释文献主题的形式。标引方式有:整体标引、全面标引、对口标引、综合标引和分析标引。2.掌握标引规则。
3.了解几种常用的主题词表。中国常用的《汉语主题词表》(汉表)《中国分类主题词表》;国外常用的有《美国国会标题表》《医学标题表》。
三、关键词标引
使用非规范化的自然语言——关键词来表达文献或信息资源主题内容的过程。它属于主题标引的一种。
关键词目前被广泛的应用,也是最早用于计算机信息检索的自然语言形式。1.关键词标引的类型
关键词标引通过轮排生成各种类型的关键词索引,包括题内关键词索引、题外关键词索引、双重关键词索引。
1)题内关键词索引(KWIC)。选择标题中具有检索意义的词作为关键词。关键词排检点设于标题的中部;所有索引条目按关键词的字顺竖向排列。保留文献篇名关键词前后的上下文。
2)题外关键词索引(KWOC)。对(KWIC)索引的改进形式。将索引标目的位置从中部移至左端或左上方,标目下完整列举文献篇名。编制索引时,关键词置于左端,将条目轮流置于篇名中的每个关键词之下,整个条目按关键词的字顺排列。
3)双重关键词索引(Double KWIC Index)。采用双重标目,在篇名之外设置第一个主标目,再在篇名的左端按副标目(第二关键词)排列。双重关键词可以通过两个关键词的组配进行查找。2.关键词索引编制的步骤 1)将文献篇名输入计算机; 2)计算机自动进行分词和抽词,并取除介词、连词等非关键词; 3)进行论排,使每个关键词都轮流用作标目,同时保留其上下文; 4)排序和编辑。
四、名称标引
名称标引是用责任者、地名、题名表达文献或信息资源主题内容的过程。它包括责任者标引、题名标引、地名标引等。
1.责任者标引。责任者是指对文献中的著作内容进行创造、整理、负有直接责任的个人或团体。责任者有个人责任者和团体责任者,个人责任者包括第一责任者和其他责任者;团体责任者包括机构名称和会议名称,中国责任者标引时,采用直序的方法,外国责任者则视情况有的采用直序的方法,有的采用倒序的方法,名在前,姓在后。
2.题名标引。题名是指直接表达或象征、隐喻文献内容的主题及其特征,并是指个别化的名称。提名包括正题名、并列题名、副题名、说明题名文字等,标引时,选择适当的题名名称加以标引。
第四节 信息资源排检法
信息检索工具都采用一定的方法编排,使内容有序化,便于用户检索。信息检索工具常用的排检反方法分为两大类:一类是字序法,如字顺法和查字法;一类是类序法,如分类法、主题法,另外还有其他的如:时序法、地序法、谱序法。
一、字序法
又称字顺法或查字法,是按一定的顺序排检单字或复词的一种方法。一般的字典、词典、索引和百科全书都采用这种反方法。1.中文排检法。包括形序法、音序法和号码法。形序法有:笔画法。笔顺法。部首法。音序法有:汉语拼音排检法。注音字母排检法。号码法:四角号码法。
2.外文排检法。目前世界上有2000多种语言,多数有文字,适用范围超过5000万人口的语言有13种,其中联合国正式的工作语言有:汉、英、俄、西、法、阿拉伯语6种语言。
外文工具书的排检法主要有字顺排检法、分类或主题排检法、时序排检法、地序排检法和列表排检法等。
字顺排检法。机械地按照字母或词的顺序进行排列,是编制工具书最常用的一种反方法,一般包括书名、著者名和主题字顺。按字母系统可以分为:拉丁文字顺排检法、日文字顺排检法、俄文字顺排检法。
二、类序法
按照文献或信息资源的内容,分门别类排列的方法。它包括分类法和主题法。但分类法更多地是按代表类名的、由字母或数字代码组成的类号排列;主题则按主题类名的字顺排列。
注意分类法排列中除体系分类法之外还有四部分类法。
时序法。按照文献的写作、发表和出版年代或事物发生发展的先后顺序来编排文献的一种方法。一些时间性较强的工具书如:年表、历表、史事纪年和专门性表普等。比较重要的检索工具书如:《中国历史记年表》《中西回史日历》《中外历史年表》《国内外大事记》等。
地序法。按照文献中所涉及的国家、地域等为标识来编排文献的方法。利 用这一方法能集中同一国家或地区的全部文献,较全面地反映某一地区、某一国家的历史和现状。采用这一方法主要用于编制地理、地方志、和有关农业方面的检索工具,常用的如:《中华人民共和国分省地图集》《中国地方志综录》《历代地理沿革表》《中国名胜词典》《中国边疆图籍录》等。此法需要有辅助的索引配合,才能在不知所属地区时按地名查找。谱序法。按照机构建制、血缘关系依次编排文献的方法。常见的检索工具如《历代职官表》《辛亥以后十七年职官年表》等就是按照机构建制,从中央到地方逐级排列各政权机构的职官;世袭表和族谱则按照血缘关系依次排列,如洪秀全家的《洪氏宗谱校补本》(1981年版)
第三章 信息检索工具与数据库 第一节 检索工具概述
检索工具的定义:检索工具适用于报道、存储、和查找各类信息的工具。包括传统的二次、三次、印刷性的检索工具,面向计算机网络的联机数据库检索系统、光盘数据库系统、搜索引擎等各种网络检索工具。3.数据库检索系统的生产情况。《中国数据库大全》(国家计划委员会、国家科学技术委员会、国家信息中心编,国家计划出版社出版,1996年版)共收录中国自建的,能提供对外服务的,既有一定数据量的和使用范围的各种数据库1038个,均能提供对外检索服务,目前世界上能提供这类服务的数据库共有11339个。
4.搜索引擎概况。中国大陆有搜索引擎约60个,香港地区中文搜索引擎约有20个,中国大陆常用的,性能较稳定的各类中英文搜索引擎20余个,国外已开发的各类搜索引擎近200个。
四、检索工具的类型
按检索手段的不同,检索工具可以分为传统检索工具和网络检索工具两大类型。这里主要介绍传统的检索工具。
传统检索工具主要是各种类型的工具书。
工具书是根据一定的需要,比较完备地汇集某一方面的资料,并按特定的方法加以编排,专供读者查考检索有关知识、资料、事实的书籍。据工具书的体例和功能,可分为检索型工具书、参考性工具书、词语性工具书、表谱性工具书、图录性工具书和边缘性工具书6种类型。
1.检索性工具书。是在一次文献的基础上整理、编制出的提供文献信息检索的二次文献。包括树木、索引、文摘、文献指南。主要用于查找国内外书刊资料。
1)书目。是对一批单独出版文献的记录与揭示,并按一定的方法加以编排的检索工具,通常揭示书名、作者、卷册、版本、出版者、出版年、价格、内容简介等。据编制目的、收录范围和内容,可由以下4种书目。国家图书书目。揭示某一时期国家出版的各类图书的总目。如:《全国总书目》《中国国家书目》《全国新书目》《国际在版书目》《英国国家书目》 《美国在版书目:作者》《美国在版书目:书名》等。
国家报刊书目。揭示某一时期国家出版的各类报刊的总目。《中国报刊名录》《中国报刊大全》《中国当代期刊总览》《中文核心期刊要目总览》《乌利希国际期刊指南》《日本杂志总览》《Web网杂志目录》等。
此外还有专科或专题书目如:《台湾史关系文献书目》《大学生导读书目》 《中国现代文学总书目》《伦敦社会科学书目》《在版科技图书和连续出版物目录》等。
馆藏书目。揭示一个图书馆收藏图书的目录。有卡片目录和书本是目录两种。卡片目录通常配有3套即分类目录、书名目录和作者目录。供用户从不同的途径去检索。
书本式目录是馆藏目录的印刷型。可为到馆的用户查阅使用,也可为不到馆的用户提供函借或复印。
联合目录。是汇集某个地区或系统,乃至全国的图书馆或文献中心文献信息收藏实况的目录。把分散在各馆的书刊从目录上连成一体,使用户既能查到所需书刊,又能知道该书刊的馆藏所在,以便就近借阅。常见的有《西文参考工具书联合目录》《西文科技学术会议录联合目录》《天津地方史资料联合目录》《美国全国联合目录》《英国期刊联合目录》《美、加图书馆连续出版物联合目录》等。
2)索引。是将书刊里的论文题目、人民、地名、以及词句等分别摘录出来,并注明出处,按一定的方法编排起来的检索工具书。
论文题目索引。如:《全国报刊索引 哲社版》就是将全国公开发行和内部发行的2000多种报刊中所载的论文题目逐一分析著录出来,注明论文所在报刊的卷期、页码,专供用户查找有关论文之用,主要的索引还有《人民日报索引》《光明日报索引》《解放军报索引》《中国社会科学文献题录》国外的主要有:《书评索引》《美国地理杂志索引》《社会科学论文索引》 人名索引。主要的有《古今人物别名索引》《室名别号索引》《作家笔名索引》《世界姓名译名手册》《英语姓名译名手册》《俄语姓名译名手册》《德
语姓名译名手册》《发育姓名译名手册》《日语姓名译名手册》《世界文学家大辞典》《世界人物大辞典》《外国历史名人辞典》《外国人名辞典》等。地名索引。主要的有:《中国历史地名大辞典》《中国古今地名大辞典》《中外历史地名大辞典》《世界地名词典》《韦氏地名词典》《剑桥世界地名词典》等。
字句索引。主要的有:《汉语方言词汇》《中国俗语大辞典》《古今俗语集成》《通俗编》《俗语典》《中国谚语》《歇后语大全》《小说词语汇释》《中国古代格言大全》《中国名言大观》《警句格言分类大辞典》《世界名言博引辞典》《中外名言大全》《十三经索引》《论语引得》《韩非子索引》《荀子引得》《杜诗引得》《唐宋名诗索引》,国外主要的有:《牛津引语辞典》《通晓引语》《古典和现代引语大全》等。
3)文摘。是对一定范围内的论文或书籍中的内容进行浓缩,概括地陈述其主要论点、数据、结论等,并注明其出处,按一定的方式编排起来的检索工具。主要的有:《经济学文摘》《国外经济文摘》《中国医学文摘》《中国农业文摘》《管理科学文摘》等。国外的主要有:《书评文摘》《应用社会科学索引和文摘》《心理学文摘》《社会学文摘》《历史文摘》等。
4)文献指南。是说明各类文献特点及其查找方法,并具体介绍常用工具书及其使用方法的检索工具。主要的有:《古今中外人物传记指南录》《科技名录指南》《中外专利数据库检索指南》。国外的主要有:《英国政府出版物指南》《工具书指南》《化学情报源》《医学情报源》《经济学情报源》等。2.参考性工具书
指能为读者提供各种所需的具体资料的工具书。与检索工具书仅提供文献
线索相比较,参考工具书提供的资料更具体,包括百科全书、类书、政书、年鉴、名录、手册。
1)百科全书。是以词典形式编排的、荟萃各门知识的大型参考工具书。百科全书系统、扼要地阐述各科知识,并对每一学科提供定义、原理、方法、历史及现状、统计数字及参考书等方面的资料,并着重反映学术上的最新成就,通常分为综合性百科全书和专科性百科全书。综合性百科全书主要的有:《中国大百科全书》《环球百科全书》等,国外的主要有:《美国百科全书》《新不列颠百科全书》《钱伯斯百科全书》等;专科性百科全书主要的有:《科学技术百科全书》《中国医学百科全书》《中国企业管理百科全书》《化工百科全书》《材料科学与工程百科全书》《政治经济学百科全书》《最新网络百科全书》《能源百科全书》《药物制造百科全书》《海洋世界百科全书》等,国外的主要有:《美国学术百科全书》《优等生百科全书》《麦克米伦科学百科全书》等。
2)类书。是一种把古籍资料汇集在一起的资料汇编。大多按类编排,是中国特有的工具书种类。主要的有清《古今图书集成》、明《永乐大典》、唐《艺文类聚》、宋《太平御览》《册府元龟》,还有《三才图会》《图书编》等。汇集的内容有些是古书中的资料片断,有些是整篇的内容。3)政书。是记载历代典章制度的史书。是中国特有的工具书种类。给政书经过综合概括,以论述历代典章制度的沿革和发展。
主要的政书有:唐代杜佑的《通典》、宋代郑樵的《通志》、元马端临的《文献通考》,清修的《续通典》《续通志》《续文献通考》、《清通典》《清通志》、《清文献通考》,清刘锦藻《清续文献通考》等共10部。称为“十通”。
此外还有会典和会要。是记载一个朝代的典章制度的政书,但会典记事以官职为纲,注重记载章程法令和各种典礼;会要则分门别类记载,如《秦会要》《唐会要》等。
4)年鉴。是一种按连续出版的汇集一年内重要资料的工具书。年鉴可分为综合性年鉴、专门性年鉴和统计性年鉴。
综合性年鉴。全面地反映国家或国际上政治、经济、文化、科学等各个方面的发展状况和有关资料。主要的有:《中国百科年鉴》《中国年鉴》《广州年鉴》《广东年鉴》《武汉年鉴》等,国外的有:《世界年鉴》《惠特克年鉴》等。
专门性年鉴。通常围绕一定的学科、专业和专题等系统地收集有关的资料,反映其进展情况。中国主要的有:《中国对外经济贸易年鉴》《中国出版年鉴》《世界经济年鉴》《中国经济年鉴》《香港经济年鉴》《广州经济年鉴》《广东物价年鉴》《中国企业年鉴》《中国商业年鉴》《中国集邮年鉴》《中国农村年鉴》《中国教育年鉴》《中国人物年鉴》等,国外的主要有:《欧罗巴世界年鉴》《政治家年鉴》《联合国年鉴》《世界大事年鉴》等。统计性年鉴。用数字来说明有关领域的进展情况,为用户提供数值数据。主要的有:《中国统计年鉴》《中国人口统计年鉴》《中国城市统计年鉴》《湖北统计年鉴》《上海统计年鉴》等,国外的主要有:《联合国统计年鉴》《最新各国统计概览》《国际贸易统计年鉴》《联合国教科文组织统计年鉴》等。5)名录。是一种专门对人名、地名、机构名称进行汇集并给予简要揭示和介绍的工具书。名录可分为人名录、地名录和机构录。
人名录主要的有:《中华人民共和国党政军群领导人名录》《中国科学院科
学家人名录》《中国普通高等学校教授人名录》《工程人名录》等,国外的主要有:《国际名人录》《美国名人录》《民国时期中国传记词典》《中华人民共和国名人录》《20世纪主要作家》等。
地名录主要的有:《中国地名录》《全国乡镇地名录》《世界地名录》等。机构名录主要的有:《中国工商企业名录大全》《中国高等学校大全》《中国档案馆名录》等,国外的主要有:《美国大学与学院》《美国政府手册》《美国社团大全》《国际基金会指南》《科技机构名录》等。
手册。类似年鉴,但编辑出版时间不受限制,主要汇集某一学科或主题即概括全面又具体适用的知识和资料。手册可分为综合型手册和专门性手册。综合性手册。汇集多个领域的基本知识和参考资料,主要的有;《中华人民共和国资料手册》《生活科学手册》《新兴学科百科知识》《当代新兴学术手册》等。
专门性手册。汇集某学科和某专业的适用知识和参考资料。主要的有:《经济工作手册》《各国货币手册》《法学知识手册》《机械工程手册》《物理学手册》《数学手册》《世界近代史知识手册》《世界邮票知识手册》《国际经济组织手册》《国际组织手册》等,国外的主要有:《CRC化学物理手册》《医生案头参考书》《世界政治手册》等。
3.词语性工具书。主要包括各类字典和词典,都是汇集字、词、成语、并按一定的次序编排、解释的工具书。词语性工具书可以分为综合类、成语典故类和专科类三种。
综合类的主要有:《汉语大词典》《中华大字典》《新华字典》《中国书法大字典》《中文形音意综合大字典》《中国图书大词典》《难字小字典》《说文
解字》等,国外的主要有:《牛津动词短语词典》韦氏三版新国际英语词典》《美国传统英语词典》等。
第二节 数据库概述
数据库(DB DataBase)是数据管理的最新技术,是计算机科学的一个重要分支学科。数据库中存储的基本对象是数据(Data)。数据泛指计算机能够处理的各种事实、数字、字符等各类符号的集合。如文字、图形、图像、声音、银行的账户记录、产品的销售记录等。它们都可以经过数字化后存入计算机。
数据就是描述事物的的符号记录,用计算机进行存储时,同样要抽出能对事物进行描述的特征内容组成一个记录(record),如银行账户记录中,人们可将账户的账号、存款、余额、取款、日期作为重要的内容进行描述。如:210000001852,80000,50000,30000,2002/3/18 意思就是账号为210000001852 的客户,存款80000元,于2002年3月18日取款3万元,还余50000元。
一、数据库的界定
数据库是指长期存储在计算机存储设备上的、可供计算机快速检索的、有组织的、可共享的数据集合。数据库中的数据按一定的数据模型组织、描述和存储,其中的每条记录类似于工具书的每条款目,字段类似于(篇名、作者、中文刊名、年、期)类似于著录项目,使用关系模型组织的,其关系数据库则类似于检索途径较多。检索功能强大的,则由分类目录、主题目录、作者目录、书名目录组成“目录体系”。
通常对数据文件要执行的操作包括:从现有的文件中检索数据、更改
现有文件的数据、删除现有文件中的数据、向现有文件中插入数据、删除数据库中的现有文件等。
数据管理系统是位于用户与操作系统之间的一层数据管理软件,其管理功能具体体现在以下三个方面:
1.数据定义功能。指用户可通过数据库管理系统提供的数据定义语言(DDL)对数据库中的数据对象进行定义。如用描述数据长度的语句或表象分别定义“篇名”“作者”“中文刊名”“年、期”字段的存储空间;用数据命名语句定义“期刊篇名数据库中”的数据名称分别为“篇名”“作者”“中文刊名”“年、期;
2.数据操作功能。即用户可通过数据管理系统提供的数据操作语言(DML)实现对数据库的基本操作如:数据查询、数据更新、数据插入、数据删除; 3.数据库管理功能。数据库在建立、使用和维护过程中,为保证数据的安全、多用户对数据并发使用及发生故障后的系统恢复,因而要有数据库管理系统统一提供最基本的数据保护功能,统一控制数据库。
目前,在数据库的种类、数量,以及特定数据库本身数据记录的数量都在迅速增多,数据库的安全和定期维护工作越来越重要,需要专门人员来完成,这些人员被称为DBA即数据库管理人员,是IT方面的专业人员,包括一些系统程序员和技术助理,数据库管理员的功能是由一组人来承担,他们的工作是创建实际的数据库,执行需要实施各种决策的技术控制,并负责确保系统执行正确的操作。
因此可以说一个数据库系统是由数据库、数据管理系统、数据库管理员共同组成的计算机系统。他们之间的关系为:数据库是由数据库管理员
运用数据库管理系统建立数据库结构、增加记录、删除记录、修改记录、查询检索、以及进行日常的安全维护等操作的。
二、数据库的结构
可以从数据库管理系统和数据库用户两个不同的角度来考察数据库的结构。从数据库管理系统的角度看,是数据库管理系统内部的面喜爱能够数据库管理员的结构;从数据库用户的角度看,数据库的结构有集中式数据库结构、分布式数据库结构、并行数据库结构、异构数据库结构、客户/服务器结构和浏览器/服务器结构。下面从数据库用户的角度来介绍数据库的结构。
1.集中式数据库结构。指建立在单一计算机系统上的数据库。数据集中存储在一个大容量的外存储器上,数据库用户只能从这里获取所需要的数据。这类数据库可用网络连接,当需要对网络上两个以上数据库中的数据进行综合处理时,必须从一台机器退出后,在登陆到另一台机器上,因此这类数据库只适用于中、小企业、事业单位。
2.分布式数据库的结构。这类数据库的数据不是全部存储在一台计算机上,而是分散存储到一个计算机网络中的多台计算机上。虽然地点分散,但在整体结构上,它将整个数据库作为一个整体进行管路和控制,各台计算机具有完成局部应用的独立处理的能力,还可借助通讯子系统存取网上其它计算机上的数据,从而参与全局应用,达到共享。分布式数据库最重要的问题是考虑各台计算机之间的协同工作,它比集中式数据库管理要复杂得多。
3.并行数据库结构。并行计算机系统就是从应用多个微处理机、多个内存
和多个磁盘等硬件方面考虑协同工作的技术,系统可根据需要使用数个、数十个、甚至上千个微处理机协同工作,形成大规模并行处理计算机系统,可以完成一些单个维机无法完成的复杂任务。
并行数据库系统就是在并行机上运行的具有并行处理能力的数据库系统。它和分布式数据库的区别在于网络通讯方面,分布式大部分是串行方式,存在“时延”的问题,而并行式使用的是内部并行网,“时延”问题大大缓解,效率大幅度提高。
4.异构数据库结构。是指多个各不相同的数据库子系统组成的数据库系统,主要满足一些大型机构中的应用需要。如已使用了产品部件数据库,其帐目管理则使用网状数据库管理系统、公司销售人员管理则使用关系数据库管理系统。为更好地了解公司的整体情况如:资产情况、销售情况、帐目情况、人员情况、公司的新举措等,公司内便长期存在着异构数据库及其管理系统。
5.客户/服务器结构。是在计算机网络技术和分布式计算的基础上发展而来,它把一个计算机应用系统分成3个基本组成部分,即:服务器(为多个用户提供共享资源服务的计算机系统);客户机(为最终用户提供业务处理及用户界面的计算机系统);中间件(连接服务器和客户机的部分)。
在同一个网络中,客户机根据用户的业务需要,为用户提供相应的人-机交互界面,供用户向服务器提出数据服务请求;通过网络将服务请求传递给相关的服务器,服务器端按请求组织数据,并通过网络把服务结果传送给客户端;客户端完成最终业务处理或直接显示服务器反馈的内容。6.浏览器/服务器结构。是一种以Web为基础的新型的管理信息系统,该结
构客户/服务器结构中的服务器部分分解为一个数据服务器于一个或多个应用服务器即Web服务器,从而构成一个三层结构的服务体系。第一层为表示层,即浏览器;第二层是Web服务器,属功能层,完成用户的应用功能,第三层是数据库服务层即数据层,接受用户请求后独立进行各种运算。
这种结构简化了用户端,使用户操作更加方便,它还与Intranet/Internet完全兼容,具有良好的开放性。
三、数据库的类型
不管是传统数据库还是新一代数据库,都有一个共同的特点就是数据库应用类型的特殊性,即各种数据库的产生都是为某种特殊的(或具体的)的需要而出现的,进而成为数据库研究的不同的分支领域。
1.传统数据库。通常指由层次、网状和关系数据模型建立的各种数据库。他们主要应用于联机事务处理的各个领域。
1)情报数据库。20世纪60年代美国首创联机数据检索的先河,70年代推出国际联机检索服务,至20世纪末,情报数据库已成为数据库产品中最为成熟的应用系统。在世界上许多国家,联机情报检索系统已得到广泛的应用。
情报数据库的开发与利用最早以文献数据库为主,包括书目数据库(如MARC数据库)、一次文献数据库(如:化学文摘CA、工程索引EI、世界专利WPI等),现已发展成为全文数据库(如:美联社新闻全文库、金融时报全文库、中文期刊全文库等)。
按提供情报的等级来分,情报数据库可分为参考数据库和源数据库; 按存储的数据类型的不同,可分为文献数据库、数值数据库、事实数
据库和图像数据库;
按存储介质的不同,可分为磁带数据库、磁盘数据库和光盘数据库。参考数据库。参考数据库中的数据是文献或事实的参考内容。主要为用户提供查找源文献或事实的线索,指引用户获取原始信息的出处,如文献题录数据库,它提供一次文献的主要元数据。
源数据库。指包含原始文献信息全文、完整数据或节录的情报数据库。通常有全文数据库、数值数据库等。它可以直接提供用户需要的事实、数值或文字信息。
文献数据库。使用数据库方式组织的文献信息的集合。是开发最早、使用最为广泛的一种情报数据库,由情报单位或专门的机构生产、制作。内容包括文献的编号、题名、出处、日期、作者、内容等信息。
现代管理推动情报数据库从以文献数据库为主发展到以非文献型数据库为主,如:数值数据库、事实数据库、图像数据库等在应用领域逐渐占据了优势。
数值数据库。是指含有数值数据的一种源数据库。存储的是数字或用数字与某些特殊字符表示的数值信息,如:经济统计数据库、及其各类统计数据库等。
事实数据库。这类数据库中包含对客观事物的概念、属性和变化情况的描述信息,如中国科学院化学所建立的质谱数据库系统,有38711张国际标准质谱图,存储的数据属性包括化学名称、分子式、分子量、杂原子、离子峰等,还提供原始谱图阅读子系统谱图质量指数计算、统计分析子系统、香料化合物质谱检索子系统。
图像数据库。是用数据库方式组织的图像信息的集合,为用户提供图像数据和图像数据检索的方法,如:卫星测到的地形图信息库,天气云图信息库等。
不同行业的用户除了使用专业性强的数据库外,对跨学科的综合性情报数据库也有应用需求,因此,情报数据库无论从内涵还是外延来看,涉及面相当广泛,内容十分丰富。
2)图形数据库。是以数据库方式组织的图形信息集合。主要为用户提供图形数据和图形数据的检索方法。现代科学和许多工程领域已采用计算机图形系统,特别在计算机的辅助设计CAD中,图形数据库起着越来越重要的作用。
2.适用于专门应用领域的数据库。在传统数据库的基础上,结合各个应用领域的特点,研究适合该应用领域的数据库,是数据库技术发展的趋势之一。
1)统计数据库。SDB是用于存储、查询统计分析类型数据的特种数据库,数据来自军事、国民经济、科学等各部门,是一类重要的信息源。特点有: 分类属性和统计属性。分类属性数据用于说明计量数据的性质;统计属性的数据是用于统计分析的计量数据。如:在校博士生的统计数据库中有4个属性:省、市、年龄段、人数。其中“人数”表示计量数据,使统计属性;“省、市、年龄段”则表示参数数据,用于对“人数”加以类别说明,使分类属性。
分类属性层次结构复杂。如在以上的统计数据库中,属性“省”包括多个“市”,同时还包括多个“年龄段”,每个“年龄段”才对应最终的统计数
据。
宏数据与微数据。统计数据库可分为宏数据统计数据库和微数据统计数据库两类。如以上的博士生统计数据库的微数据可以包括姓名、年龄、性别、专业等属性,进行综合统计后,可得到各专业的人数,而产生宏数据统计数据库,其属性只有两个:专业、人数。
因此,在统计数据库中,微数据是描述实际领域中不可分实体的数据;宏数据是对微数据统计数据库进行综合分析的结果数据。
静态性。由于数据是从实际领域或科学实验与模拟中采集来的,当采集结束并修改错误后,所有数据将不会再进行修改,这就是统计数据库的静态性。
统计数据库的应用领域在环境保护、气象模拟、空间科学、信息管理等。
2)工程数据库。是存储、管理和使用工程设计所需数据的数据库。数据库所处理的信息主要是计算机辅助设计和计算机辅助制造CAM系统中所包含的数据。
工程数据通常可分为两大部分:一部分是存放在标准数据库中的标准数据,是静态的数据;另一部分是运用程序运行的结果或中间结果,是动态的数据。
现实设计中,一个工程对象往往有几
十、上百个简单实体组成,其工程数据包括产品的几何定义,工程分析、制造工艺、计划管理等方面,对产品设计、制造、管理和销售各个方面的内容都要涉及。因此工程数据拥有的数据是多方面的,除字符和数字外,还有图形,这是一种重要的数据
类型。在完成一个设计的工程中,一个图形对象可能由成千上百个零部件组成,所以形成的图形数据不仅结构复杂,而且数据量也非常地大,需要占据相当的内存空间。
3)空间数据库。比较重要的空间数据库有两种:一是计算机辅助设计数据库,它是用于存储设计信息的空间数据库,主要用于构造建筑物、汽车和飞机等实体的信息;还有一类是用于集成电路和电子设备设计图的信息。二是地理数据库。它是用于存储地理信息(如地图)的空间数据库。
空间数据库的信息适用于描述所有呈二维、三维和多维分布的关于区域的现象。空间数据既要表示物体本身的空间位置信息,还要表示物体所处空间的关联信息。
地理信息系统是目前研究较为热门的空间数据库应用,主要用数字、文字、图像、图形等来表征地理范围或地理环境固有实体或实体的数量、质量、分布特点、相互联系和规律性。地图数据、遥感图像数据、数字地形数据等都属于地理数据。
地理信息系统的用途有多种多样。包括车辆导航系统、公共服务设施的分布网络信息如:电话、供水系统、以及可为生态学家和规划者提供的土地使用信息等。
从20世纪80年代开发地理信息系统以来,该系统在解决道路、输电线等基础设施的规划逐渐转向更复杂的领域,用于解决全球性的问题。3.新一代数据库。指传统的数据库技术和其他计算机技术相互结合、渗透,使数据库中产生出新的内容,从而满足新的数据库应用领域要求的数据库。1)分布式数据库。研究始于20世界70年代中期,是在集中式数据库的基
础上发展起来的,他集成了两个不同领域的技术:数据库技术和网络通讯技术。这种数据库有如下的特点:
数据的分布性。数据库中的数据分布在计算机网络的不同结点上,而不是集中在一个结点上。
数据的逻辑相关性。在不同节点上的数据逻辑上属于同一个系统,数据间有相互的联系,不同于由网络连接的多个独立的数据库系统。
结点的自制性。每个结点有独立的计算机、自己的数据库和自己的数据库管理系统,可供其他结点上的用户存取以提供全局性的应用。
在大型公司和企业,数据的存储和使用都从集中式转为分布式,即在企业的各个地方都能访问共享信息,使企业的运作效率更高。
2)多媒体数据库。该研究始于20世界80年代后期,是数据库技术与多媒体技术相结合的产物。由文本、图像、声频、视频等多媒体数据组织起来的集成数据库。多媒体数据库有以下几个特点:
数据量大。播放1分钟的视频和音频数据需要几十兆字节的数据空间,而这样的数据空间可以放一个小型传统事物处理的数据库。结构复杂。可以是文字、图像、声音等复杂的混合数据。
时序性。要有一定的同步机制,如配音和文字需要与画面同步,这就要有时序性的要求。
数据传输的连续性。声音和视频数据的传输必须是连续而稳定的,否则会出现失真的情况。
多媒体数据系统在办公自动化、计算机辅助设计、计算机辅助制造、教育等领域中应用广泛,运用了大量的文本、图形、图像、声音等多媒体
数据,而这些多媒体数据的存储、管理、查询和更新等都不同于传统数据库中的数字、字符数据,要有专门的数据结构、存储技术、查询和更新方式来支持。
3)面向对象数据库。研究始于20世纪80年代,面向对象数据库的数据比较抽象,操作比较复杂,如一个地图对象可以定义为经度、纬度、地点的时间维;地形可以用点到点之间的等高线来定义等,除定义外,就地图对象而言,在它的各区域还含有隐藏的数据,如人口密度、植物、水源、建筑物的信息。这些即是派生出来的抽象数据类型。
4)实时数据库。实时数据库是有时间限制的数据和有时间限制的事物,如股票交易中,计算机所提供的“当前”股票的价格限制在不超过几秒的时间内,过了这个时间,这一股票价格便不再具有意义。
实际应用中,事物的实时要求决定了实时数据库不仅要具备传统数据库管理系统的逻辑一致性限制,还要具备时态一致性限制,定时性是实时数据库的根本特点,如“每3分钟取样1次”、“每天8点钟开机”、“若温度达到800度,则在3秒内加入制冷剂”等。
此外,新一代数据库还细分为演绎数据库、模糊数据库、主动数据库、并行数据库、事态数据库、移动数据库等。
4.数据仓库技术。数据仓库是指一个用于更好地支持企业或组织的决策分析处理的、面向主题的、集成的、随时间不断变化的数据集合。
在数据库的应用领域,当前的数据处理可以分为操作型处理和分析型处理。操作型处理。也叫事务处理,是指对数据库联机的日常操作,大多为企业的特定利用服务,主要是对数据库记录的查询、修改、删除、更新
等;分析型处理。则是用于管理人员的决策分析,这类应用要涉及大量历史数据的访问。
数据仓库即是用于决策分析处理的系统。
数据仓库作为决策支持系统DSS的一种有效而可行的体系化方案,包括3个方面的技术内容:数据仓库技术(DW,Data Warehousing)、联机分析处理技术(OLAP,On-Line Analytical Processing)、数据挖掘技术(DM,Data Mining)。
数据仓库。是进行分析决策的基础,以传统的数据库技术作为存储数据和管理资源的基本手段,以统计分析技术作为分析数据和提取信息的有效方法,以人工智能技术作为挖掘知识和发现规律的科学途径。因此,数据仓库是多学科相互结合、综合应用的技术。
联机分析处理技术。该技术专门用于支持复杂的分析操作,面向决策人员和高层人员,可以根据要求对大量的数据进行查询处理,并将查询结果以直观的方式提供给分析决策人员,在企业的运作、市场需求和制定企业未来的发展方向有重要的作用。
数据挖掘技术。是一种决策支持过程,主要基于人工智能、机器学习等技术,自动分析企业数据,进行归纳推理,从中挖掘潜在模式以帮助决策者做出正确的决策。如从大量股票行情历史记录中,挖掘出股票变化的规律和预测今后的趋势。
第四章 网络检索
第一节
因特网信息检索的特点
因特网通过标准通信方式(TCP/IP协议)将世界各地的计算机网络连接起来。在因特网上,信息存放在世界各地的计算机上,任何网络包括校园网、企业网、国家网,只要通过一个结点介入因特网,整个子网就有可能成为因特网的一个部分,网上用户就可以通过计算机和因特网共享信息资源或者交换信息。开放的信息资源和信息检索工具超文本链接和使用的简便性等特点,使因特网成为知识经济的重要组成部分。
一、开放性。因特网开放性表现在他提供大量免费信息资源和检索工具,允许用户随时查询,并提供大量信息交换场所,如获得公用共享软件,查询相关的事实和数据信息,还可随时查阅个图书馆目录和文献资料,使用远距离的信息资源。
其次,因特网还提供注册是信息(即有偿信息资源),因特网上信息查询站点众多,用户可根据自己的徐上网查询信息,国际上著名的联机检索服务受到冲击,纷纷再在因特网上设立信息检索网站,这些数据库的使用通常就需要支付费用。
再次,因特网上存在许多交流式信息,如新闻论坛,使用户足不出户即可参与各种主题讨论。
因特网向商业用户开放后,网上的信息更为丰富,在国际商业活动中,在开放的因特网中,用户能获得最新的商业信息,了解商业机会和发展趋势。
TCP/IP是一个协议集,它有以下的特点:它是开放的协议标准,可以免费使用,并独立于特定的计算机硬件和操作系统;可以运行在局域网和广域网中,更适用于网络互连;有统一的网络地址分配方案,使网络中的
每台主机都有唯一的地址。
因特网高度开放性带来的问题:新鲜权、非法信息的扩散。有人担心,因特网有可能出现不可预计的后果。
二、链接性。因特网的链接性主要体现在环球网(WWW, World Wide Web)上,www是因特网上最受欢迎、最普及、最新的信息检索服务系统,它把网上现有的资源全部链接起来,使用户能够查找已经建立了WWW服务器的站点(Site)的超文本或超媒体信息资源。
超文本。指的是计算机中的一种文档,用户在阅读这种文当时,从其中的一个地点移向另一个地点,获从一个文档已向另一个文档,都是按非线性或非顺序方式进行的,用户可以利用鼠标随时跳至于当前正在阅读的文档相关的新文档或新地点。
超媒体。是超文本的自然扩展,是超文本在内容和形式上的一种进步,使超文本与多媒体的组合。超媒体即使把死板的文档标成了活生生的文档,把个人计算机变成了多媒体设备,比音响、电视更为生动。
设计WWW的一个目的是为了能够很容易地检索到因特网上的文档,而不管这些文档在什么地方。当超文本作为WWW文档的标准格式后,人们制定了能够很快查找这些超文本文档的协议,即超文本传输协议(HTTP, HyperText Transfer Protocol)。
三、简便性。由于不受时间和空间的限制,世界各地的用户可以实时低、全天候地检索并获取各种形式的信息,因特网以交互方式,提供丰富、方便、界面友好的信息检索工具,通过这些工具的使用,用户可以获取所需的信息资源。
因特网提供的信息检索工具有:E-mail , WAIS , BBS , Gopher , Telnet, FIP Archie, WWW.其中,WWW界面极为方便,每个人都可以通过浏览器浏览和检索信息。
此外,因特网还提供各种类型、功能强大的搜索引擎,极大地方便了网络信息的检索。
第二节 传统网络信息检索服务工具
因特网发展迅速,新技术、新工具层出不穷,一些传统的工具至今仍在使用,一些则被新的工具所代替。
主要的工具有:远程登录、文件传输服务、电子邮件、电子公告牌、Archie、广域消息服务、Gopher、WWW、代理服务器和NAT。
第三节 搜索引擎
搜索引擎被称之为“网络之门”(Search Engine)。搜索引擎作为因特网的导航工具,是通过采集、标引众多的因特网资源来提供全局性网络资源控制与检索机制,目标是将因特网所有的信息资源进行整合,方便用户查找所学的信息。搜索引擎本身也是一个WWW网站,与普通网站不同的是:搜索引擎网站的主要资源是描述互联资源的索引数据库合分类目录,为人们提供一种搜索因特网信息资源的途径。
搜索引擎的索引数据库,以网页资源为主,有的还包括电子邮件地址、新闻论坛文章、FTP, Gopher 等因特网资源。
人的一生都在不断地学习, 然而善于学习比起纯粹地学习更为重要, 善于学习不仅是一种能力, 而且是未来时代的必备要求之一。尤其是在信息时代, 善于学习才能更好地迎接新的挑战, 适应社会的发展与变化。如今, 信息技术日新月异, 生活与互联网紧密联系, 人们可以在网络上搜索大量的信息, 于是“搜商”这一词渐渐出现在人们的视线中并获得了更高的关注度。搜商不仅能帮助人们解决生活中遇到的问题, 还能影响人们的生活水平和生活质量。
1 初步了解信息检索与利用
搜商的含义, 即有效率地搜寻资源、解决问题的素养和能力。搜商的核心是搜索的意识和能力。在《信息检索与利用》的第一节课中, 初次接触到搜商, 了解信息检索与利用这门课程的主要内容和作用, 发现学会了这门课程对我的专业有很大的帮助, 能够解决专业上和学习上的问题。同时我也对搜商产生了浓厚的兴趣, 在接下来的一次次课程中, 揭开了搜商的神秘面纱。在课后实践过程中, 学会利用课堂上学到的知识来解决学习上的困难, 尝试搜商的各种功能得到不同的搜索结果, 更深层次地学习搜商, 提高了搜商能力。
2 信息检索与利用的学习过程
第二节课中, 学习了图书馆信息资源的使用, 原来图书查询不用到图书馆一本本翻阅才能找到想要的那一本书, 为了节省时间和提高效率, 登录学院图书馆主页, 在搜索框中输入相关书籍的书名、作者、索取号来获取书籍的相关信息, 记下索书号和馆藏地点, 就能快速到图书馆找到这本书。在图书馆主页中进入数据库导航, 有中文数据库和外文数据库, 中文数据库有中国知网、读秀知识库、超星数字图书、书生数字图书、方正Apabi电子图书等。中国知网主要是论文和期刊资源, 其他的可以浏览电子图书, 这样就不需要购买书籍或是到图书馆借阅, 直接在网络上打开相关网址, 下载相关阅读器, 就可以阅读想要看的电子书籍。这样, 阅读就不会受到地点、时间、空间的限制, 打开了人们阅读的另一扇“窗户”。
中文数据库里还有超星名师讲堂、新东方多媒体学习库、超星发现等。超星名师讲堂主要是讲师视频, 与浏览电子书相比较, 看视频学习更能让人浅显易懂, 而不显得枯燥无味。新东方多媒体学习库主要是学习英语, 比如英语四级考试, 我就可以到新东方数据库找到学习英语的相关资源, 英语四级的真题及解析答案或是英语高分的攻略技巧。超星发现是检测论文重复率, 有时老师布置论文需要检查论文重复率, 那么就可以到超星发现检测。中文数据库还有其他的功能等待我慢慢挖掘, 除了老师讲解的内容, 还有其他的用途等着我实践与应用, 这也是搜商能快速提高的一种方法。
第三节课中, 老师介绍了中国图书馆分类法, 简称《中图法》, 分为五个基本部类, 22个基本大类, 所有图书是按《中图法》给出的分类号排列。我学会了如何看图书的索取号和图书馆的排架原则, 这样在知道图书的索取号后, 很快就能到图书馆找到这本书, 而不是毫无方向的四处打转, 浪费了大量时间还找不到自己需要的书籍。第四节课的主要内容是中国知网的使用方法和搜索技巧, 先学习了如何进入和登陆中国知网, 其次是搜索方法, 快速而有效地找到自己需要的资源, 比如跟踪名人学者, 找到他们发表的论文以及几种导出论文的方式。最后, 我了解了投搞论文的方法和建设个人数字图书馆, 并尝试建设自己的数字图书馆, 将理论和实践相结合, 对搜商的应用有了进一步的了解。
第五节课是关于期刊论文的撰写, 老师讲了论文的基本构成与要求和参考文献的书写格式以及大雅论文相似度检测。之前我不了解怎样才能写出一篇好的论文, 学了这门课程后, 我知道了论文的构成要素和搜索相关的论文资源, 参考别人的论文成果, 然后自己就可以写出一篇论文了。老师又介绍了中国期刊网, 主要有龙源期刊网、万方数据库和维普数据库。如果想看期刊杂志, 就可以不用到图书馆借阅或将期刊买回来翻阅, 只要自己到这三个数据库, 查询想看的期刊花费少量的资金就可以看到自己喜欢的杂志。还可以在数据库上检测论文相似度, 以前只知道在淘宝上检测论文, 现在学会了多种检测论文的方法。
第六节课主要是电子图书的检索与利用, 可以在网络上阅览电子图书, 一种是在图书网站上检索书籍, 另一种是在图书数据库上检索学术方面的书籍。我学习了如何在超星数字图书高级检索电子图书, 从中进入读秀知识库浏览电子图书, 有效率地搜寻和利用电子资源。另一节课学习了其他数字图书馆的高级检索与中国国家图书馆的图书检索和公开课, 接下来老师讲了百度高级检索技巧, 每一个技巧对我搜索信息有很大的帮助并且节省了一定的时间, 让我有更多的空余时间做自己喜欢的事情。
3 信息检索与利用的心得体会
之前我一直认为在学习知识方面需要读很多的书, 大脑要记住很多的知识, 然而互联网发展, 信息在不断地更新, 我发现需要学习的知识太多, 需要了解的范围太广泛。现在, 我学习了《信息检索与利用》这门课程, 发现自己能够运用一些搜索技巧以及找到解决问题的有效方法。通过课上学到的知识, 运用到生活中, 在图书馆借了一本书名为《我的搜主意比你多》, 作者黄泰山将他搜索的经验与读者分享, 所以我对搜商有了进一步的认识, 发现传统的独立思考效果也会受到限制, 独立思考只有个人的力量, 需要花费大量的时间才能解决问题。有时候没有那么多的时间, 难道就不能解决了吗?我为什么要花比别人多一倍的时间才能完成任务呢?
搜商除了可以帮助我解决问题以外, 还可以提高我的智商、情商和成功的概率。在我的专业领域, 多少接触过一些相关信息, 但我更加需要找到这个领域内最有价值的信息, 而不仅仅是相关信息。在第七节课中, 学会用不同的搜索引擎有效地得到信息资源。而我明白了搜索不仅仅是一件供人利用的工具, 还是检索到有效方法解决问题的路径。掌握了搜索技巧, 我在完成专业作业时, 设置准确的关键词, 利用相应的搜索引擎, 获得自己想要的信息, 快速地完成了作业。不仅在专业领域的学习, 想要提升其他能力, 搜商可以助你一臂之力, 搜索资料认识能力, 学习和研究经典案例, 找到提升能力的方法, 对该领域的最新研究成果、动态发展的了解, 也可以依托搜商获取最新的信息和资源。
4 总结
总的来说, 学习这门课程, 就像拿到一把开启知识库大门的钥匙。无论你欠缺哪方面的知识、技能, 都可以上网寻求帮助, 获得学习资源。在这个有互联网的时代, 每一天都在变化, 信息也在更新换代, 而我们也需要变化, 积累更多的知识, 适应未来的变化发展。搜商的学习不会止步于此, 每天学习一点, 未来收获更多。
参考文献
关键词:信息检索;搜索引擎;网络爬虫;中文分词;排序
中图分类号:TP393文献标识码:A文章编号:1009-3044(2007)15-30770-02
Analysis of the Key Technology of Chinese Information Retrieval
WANG Dong
(Dept of Computer Science & Technology, Qiongzhou College, Wuzhishan 572200, China)
Abstract:The paper makes a brief introduction on the Web Chinese Information Retrieval, and analyses some key technology on it. And the Chinese search engine technology popularly at present has been turned out. The author proposed some ideas, the experiences and the tentative plans, and eventually carried on the forecast on the intelligent Chinese search engine technology.
Key words:Information Retrieval;Search Engine;Web Crawler;Chinese Participle;Arrangement
1 引言
近年来,Internet迅速发展成为一个分布于全球的混合信息空间。为了帮助用户获得网络上的丰富信息,Web信息检索系统应运而生,其最新发展趋势是检索的智能化和垂直化。人们在享受信息检索工具带来方便的同时,“忠实表达”和“表达差异”等问题日益突显出来。随着人工智能、机器学习、语义Web等技术的快速发展,人们提出了智能化搜索引擎来解决传统搜索存在的弊端。下面笔者就Web中文信息检索的智能化技术提出自己的一些看法。
2 Web中文信息检索概述
WWW上的信息检索主要研究对整个HTML文档信息的表示、存储、组织和访问,即根据用户查询要求,从信息数据库中检索出相关信息资料,以文本数据为主要处理对象,提供根据数据资料的内容而不是外在特征来实现的信息检索手段。[1]
在Web信息检索技术领域,英文信息检索发展得较为完善,如信息的表示采用向量空间方法,基于内容相关性的查询反馈等。Web信息检索的发展是一个不断探索的过程,如今它己向第二代发展,功能也越来越强大[2]。然而,目前中文网络信息检索还存在着许多问题:1、查询方式单一,查准率和查全率不高。中文搜索引擎一般只有分类目录浏览和简单的关键词检索,缺乏高级的查询方式。但是中文是一种存在着大量音、形、义相近词汇的复杂语言,单一的检索方式经常会使得使用者得不到想要的结果;2、中英文混合检索问题。如:当你输入“MP3”时,有些网站会认为你在查找英文网页,进而自动将你送到一个英文搜索引擎上;3、专业的网络信息检索引擎较少;4、中文网络检索的相关性无法与英文媲美,检索字串与网页中文字的简单匹配并不见得就是语义上的匹配。
3 Web中文信息检索的关键技术
3.1 网络爬虫
网络爬虫(Crawler)是通过网页的链接地址来寻找网页的程序,它从网站的某一个页面开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。网络爬虫一般有两种策略:深度优先和广度优先[3,4]。深度优先是指网络爬虫会从起始页开始,逐个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。广度优先是指网络爬虫会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。第二种方式可以让网络爬虫并行处理,提高其抓取速度。网络爬虫抓取HTML文档时,需要把HTML标识符过滤掉,同时记录页面的版式信息,例如文字的大小、是否标题等,这些信息有助于计算单词在网页中的重要程度。
3.2 中文自动分词技术
对中文来讲,自动识别汉语文献中词的边界,将书面汉字序列切分成正确的词串,是理解自然语言的第一步,分词质量的好坏将直接影响到主题抽取的质量。现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
本文主要说明一下基于统计的分词方法,此方法一般不依赖于词典,因此也称为无词典分词法。该方法根据计算字与字相邻共现的频率来确定是否成词,共现信息体现了汉字之间结合关系的紧密程度,当紧密程度高于某一个阈值时,便认为此字组可能构成一个词。这种方法只需对语料的字组频度进行统计,不需要分词词典。但它也不足,比如说像“之一”、“有的”等词它们尽管不是词组,但一起出现的概率也很大,这样就会对词组分词产生一些偏差[5]。改进的方法是:先使用一部基本的分词字典进行关键词分词,同时使用统计方法识别一些新的词组,即把词频统计和字典方法结合起来,这样两者可以相得益彰,效果更好。此外,还可以把得到的搜索结果进行动态的归类,有条理地给出搜索结果,这样可以让用户清楚地寻找自己的搜索内容属于哪个类,节省用户在大量的搜索结果中查找所需信息的时间。
很多搜索引擎对中文的“一词多义”都束手无策。在这种情况下,我们可以采用系统和手工干预相结合的办法来解决这个问题。首先,系统查找知识库并得到搜索词的所有含义,同时进行相应的排序,而后系统把搜索词的各个含义以网页的形式呈现给用户。用户就可以选择自己感兴趣的含义。该方法避免了对关键词的曲解,同时避免了大量垃圾信息产生,因此极大地提高了查找效率。特别是在个性化搜索引擎方面,系统可以增加用户对个性数据库反馈的功能,这样当该关键词下一次出现的时候系统就会把用户的这次选择作为其默认选项。
3.3 搜索结果排序
传统的PageRank算法的工作机理是:若一个页面被多个页面引用,则这个页面可能是重要页面;一个页面尽管没有被多个页面引用,但被一个重要页面引用,那么这个页面也可能是重要的。在此基础上,我们可以进一步提出一些设想:1、某位用户所搜索的信息可能只涉及的某个领域,因此在使用PageRank算法时,可以考虑用户感兴趣的领域。例如,如果网站是介绍“电器”的,有10个链接都是从“电器”相关的网站链接过来,那这10个链接比另外10个从“体育”相关网站链接过来的贡献要大;2、网页设计者经常会根据强调内容的不同,给网页的不同部分加上不同的标记或用不同的字体等。因此,我们就可以根据页面版式信息来确定所搜索的结果和搜索词的相关程度;3、我们发现,当用户打开搜索结果中的某个页面,如果发现该页面没有他想要的内容,他就会立刻关闭;而如果有他要查找的内容,他则会驻留比较长的时间。因此可以采用用户在某页面的停留时间,作为搜索结果排序的参考之一。
目前的搜索引擎排序算法上还存在两大不足:1、正解相关性。相关性是指搜索词和页面的相关程度。仅仅通过链接、字体、位置等表面特征,并不能真正判断搜索关键词与文章的相关性。另外,很多文章尽管没有出现搜索词,但是文章表达的意思却与搜索词相关,这时搜索引擎将无法搜到这些相关网页。可见,表面特征搜索只能治标,而不能治本。解决问题的关键在于增加语义理解,让机器明白人的意图;2、搜索结果的单一化。在搜索引擎中,任何人搜索同一个词都会得到同样的结果。比如说用户输入搜索词“苹果”,如果用户是一个IT工作者,他也许想找到的是苹果计算机;而对于一个农民而言,他也许想找到的是如何栽培优质苹果的方法。而当前的搜索引擎尽管在个性化方面有了一些尝试,但距离人们想要的真正意义上的“个性化”还有很大的差距。
综上所述,搜索引擎的排序技术将会向两个方向发展,即:语义相关性和排序个性化。如果一个搜索引擎能从根本上解决这些问题,它将成为搜索领域的霸主。
4 Web中文信息检索的发展趋势
近年来,信息检索技术开始注重网页质量与相关性的结合,这主要是通过三种手段:1、对网上的超文本链接结构进行分析,如Infoseek和Google;2、对用户的点击行为进行分析,如Directhit;3、与网站目录相结合。信息检索最新的趋势是智能化(包括个性化),智能信息检索是基于自然语言的检索形式,机器根据用户所提供的以自然语言表述的检索要求进行分析,而后形成检索策略进行搜索。搜索引擎的智能化还表现在用自然语言与用户交流的能力,对知识的理解和处理能力。目前Internet 上的人工智能产品越来越多,如:智能搜索引擎、智能浏览器、学习智能体、知识共享智能体等已经从实验室进入市场[6]。
5 结束语
本文介绍了Web中文信息检索技术的基本理论,在此基础上,分析和研究了中文搜索引擎的三大关键技术:网络爬虫、中文分词、搜索结果排序,并就中文分词和搜索结果排序提出了一些设想。我们深信:随着互联网技术的不断发展,搜索引擎也将迎来革命性的变革,人们将在这个信息爆炸的年代里获得越来越精确和及时的信息。
参考文献:
[1]Venkat N Gudivada. Information Retrieval on the World Wide Web[J]. IEEE Internet Coputing,1997,(4):58-68.
[2]翁惠玉,马范援,朱义军,杨传厚. 网络搜索引擎的现状分析[J]. 情报学报,1999,18:100-102.
[3]李学勇,欧阳柳波,李国徽,钟敏娟. 搜索引擎中网络蜘蛛搜索策略比较研究[J]. 计算机技术与自动化,2003,22(04):63-67.
[4]李学勇,欧阳柳波,李国徽,王鑫.专业搜索引擎搜索策略综述[J].计算机工程,2004,30(13) :32-33.
[5]唐培丽,胡明,张勇. 基于中文文本主题提取的分词方法研究[J]. 吉林工程技术师范学院学报,2005,21(2):34-36.
信息检索中的检索词运用分析
信息检索的关键在于检索词的处理,文章针对信息检索中的检索词运用方法进行分析,并提出检索词的.处理技巧,以帮助用户提高信息检索效率.
作 者:李志勤 叶杨 Li Zhiqin Ye Yang 作者单位:天津市图书馆,天津,300191;天狮学院图书馆,天津,301700刊 名:情报探索英文刊名:INFORMATION RESEARCH年,卷(期):“”(4)分类号:G254.0关键词:信息检索 文献检索 检索技巧 检索词分析
一、公民因私事申请出国,凭居民身份证、户口簿或其他户籍证明,即可向本人户口所在地的市、县公安机关出入境管理部门领取《中国公民出国申请审批表》。
二、公民因私事出国申领护照,须向本人户口所在地的市、县公安机关出入境管理部门提出申请,回答有关询问并履行下列手续:
1.提交填写完整并贴有本人近期正面免冠照片的《中国公民出国申请审批表》一式二份和2张照片(照片规格为:小二寸,32mmX40mm);
2.交验居民身份证、户口簿或其他户籍证明;
3.提交与出国相应的证明:①出国探亲访友,须提交亲友的邀请信和邀请人在前往国的居住证明(归侨、侨眷凭其户口所在地的市、县侨办或侨联出具的归侨或侨眷证明,60周岁以上的公民和随父母或监护人出国未满16周岁的公民,只提交其所在单位或户口所在派出所出具的意见,免交亲友邀请信和邀请人在前往国的居住证明);②个人出国旅游,须提交旅行所需外汇费用证明(如申请人银行存款证明),其中参加旅行社组团出国旅游的,须提交有权组团旅行社出具的申请人所交出国旅游金额费用的正式发票,由申请人直接到户口所在地的市、县公安局出入境管理部门直接申请;⑧自费出国留学,须提交接受学校出具的入学通知书和必需的经济保证证明;④出国定居,须提交拟前往国家政府主管机关或驻华使、领馆的定居许可证明或拟定居地亲友同意去定居的证明;⑤出国继承财产,须提交有合法继承权的证明;⑥个人出国就业,须提交在前往国具有法律效力的聘请、雇用单位或者雇主的聘用、雇用证明(具有法律效力的证明是指经前往国公证机关公证或我驻外使、领馆认证的证明);⑦出国从事其他非公务活动,须提交国外相应的邀请函件(属出国进行文化交流的,须提交省级以上文化部门出具的同意证明)。
4.提交所在工作单位对申请人出境的意见,无工作单位的,可提交户口所在地公安派出所出具的意见。
①公职人员,由其组织人事部门按干部管理权限出具意见;②大、中学校在校学生,由所在学校出具意见;
③国有、集体企业员工,由所在企业法人代表或其授权的单位人事,保卫部门签署意见,法人代表本人申请出国,由相应的人事管理部门出具意见。个体劳动者、私营企业人员、工商联会员,分别由个体劳动者协会、私营企业协会、工商联出具意见。中外合资、合作企业的中方雇员,由相应的中方管理部门出具意见。④其他人员,由户口所在地的公安派出所或其人事管理部门出具意见。
三、公安机关出入境管理部门对出国申请应当在20个工作日(大、中城市在15个工作日),地处偏僻、交通不便的应当在40个工作日,作出批准或不批准的决定,并通知申请人。申请人在规定时间内没有接到审批结果通知的,有权查询,受理部门应当作出答复;申请人认为不批准出国不符合《中华人民共和国公民出境入境管理法》的,有权向上一级公安机关提出申诉,上级机关应当作出处理和答复。
四、持照人在护照有效期满前6个月之内,可申请延期,无须提交证明材料。特殊情况(如有效期不够外国签证期限的)可持有关签证证明提前申请办理。超过有效期的护照为失效护照.不办理延期手续。护照的延期,在国内,由原发照机关或户口所在地公安机关出入境管理部门办理;在国外,由驻外使、领馆办理。
五、有下列情形之一的,公安机关出入境管理部门可依法不批准其出国:
1.刑事案件的被告人或者犯罪嫌疑人;
2.人民法院通知有未了结诉讼事宜不能离境的;
3.被判处刑罚尚未执行完毕的(含附加刑);
4.正在被劳动教养的;
5.国务院有关主管部门认为出境后将对国家安全造成危害或者对国家利益造成重大损失的;
6.有编造情况,提供假证明等欺骗行为的。
六、经批准出国定居并已获前往国签证的,在出国前,须到户口所在地公安派出所办理户口注销手续(批准出国从事其他活动时间超过半年以上的,应办理户口登记手续)。
七、武汉市公安局出入境管理处为全市公民因私出国的主管机关,地址在武汉市汉口胜利街306号,其接待室从星期一至星期五全天对外接待咨询,为广大申请出国人员提供热诚服务(咨询电话 16899947)
武汉市公安局出入境管理处
中文期刊
[1]任芳芳.石油化工企业安全文化综合评价研究[D].东北大学: ,2008.[2]匡蕾.煤矿企业安全文化建设与评价指标体系研究[D].辽宁工程技术大学: ,2009.[3]刘芳.施工企业安全文化评价研究[D].哈尔滨工业大学: ,2010.[4]石玉威.中国大学生文化安全教育体系构建研究[D].长春工业大学: ,2010.[5]张晓梅.我国文化安全存在的问题及对策研究[D].东北林业大学: ,2011.学位论文
[1]陈荣芳.胜华化工安全文化构建研究[D].中国石油大学: ,2011.[2]李晓利.基于小波神经网络的化工安全评价研究[D].太原理工大学: ,2007.[3]李媛.基于道化学公司安全评价标准的化工安全评价计算机辅助系统的研究[D].北京化工大学: ,2004.[1]匡蕾.煤矿企业安全文化建设与评价指标体系研究[D].辽宁工程技术大学: ,2009.[2]刘芳.施工企业安全文化评价研究[D].哈尔滨工业大学: ,2010.会议论文
一、信息检索简介
1. 概念
广义的信息检索范围很大, 可以说从书本、报纸以及其他的各种媒体中查找人们需要的信息都可以称为信息检索。
狭义的信息检索是特指利用计算机这个高效的工具对各种信息进行检索的技术。信息检索的内容包括文本、图像、视频和音频等多种, 但本文只讨论文本信息的检索技术, 特别是中文信息的检索技术。
信息检索是一门研究从一定规模的文档库 (D o c u m e n t Collection) 中找出满足用户提出的信息需求 (User Information Need) 的技术。
2. Web信息检索
Web的出现大大地促进了信息检索技术的发展。Web上有异常丰富但又十分混乱的信息资源, 其中绝大部分有用的信息还没有挖掘出来。这是因为目前还没有特别好的信息处理和检索工具。这一领域的开发仍然处于初级阶段。
3. 中西文信息检索比较
在文本信息检索领域, 西文信息检索的发展较为迅速。西文信息检索系统可以利用向量空间表示检索信息内容, 并将自然语言处理应用于信息检索, 大大提高了信息检索的准确性。中文信息的检索和英文信息的检索在很多地方是一致的, 但也有一些不同。比如中文词语之间没有空格, 因此在索引前需要进行词语切分。此外, 与英文相比, 汉语句法分析和语义理解更为困难。
4. 信息检索的模型
一般有两种信息检索模型:基于统计的模型和基于语义的模型。基于统计的模型是应用某些统计的手段从被检索文档和高标注等级文档中查询与用户需求匹配程度最好的文档;而基于语义的模型则尝试对需求实现一定程度语法语义分析, 即对自然语言文本进行一定程度的理解并重新生成查询。
基于统计的模型主要有:布尔模型 (Boolean Model) 、扩展布尔模型 (Extended Boolean Model) 、向量空间模型 (Vector Space Model) 以及概率模型 (Probabilistic Model) 等。
二、向量模型
向量模型是重要的检索模型, 其主要优点在于:a、通过对特征项的加权改进了模型的检索效果;b.模型的部分匹配策略允许检索出与查询条件相接近的文献;c.相似度的引进使得能够对查询结果进行排序, 以倒排文档方式提交结果。
1. 文档和项的向量空间表示
首先把一个文档进行分词处理, 并去除那些停用词, 如“我”、“的”、“人们”等。然后对剩余的词进行合并处理。
在一个给定的集合中先对每个文档进行以上的操作, 获得每个文档索引项的集合。再把所有文档的索引项进行合并, 形成了一个代表整个文档集合的索引项集合, 整个索引项集合表示了一个“空间”。在一个文档空间中, 可以给每个索引项赋一个权值, 代表这个索引项在这个文档中的地位。如表1所示, 文档1的向量空间是 (3, 4, 5) , 文档2的向量空间是 (2, 3, 3) 。
与文档空间相对应的一个概念是“项空间”, 它是指一个索引项在文档集合中的各个文档权值的集合。如表1所示, 索引项“经济”的向量空间是 (4, 3, 0, 0) , 索引项“金融”的向量空间是 (5, 3, 0, 5) 。
于是文献和查询均可用由项构成的向量来表示:d= (t1, t2, ……, tn) 。项的权重 (term weight) :对于有n个不同的项的系统, 文献D= (t1, t2, ……, tn) 。
2. 项权值
项t k (1≤k≤n) 常常被赋予一个数值Wk, 表示它在文献中的重要程度, 称为项t k的权重。因此, 我们一般用D= (w1, w2, …, wn) 的形式表示文献。特征项的权重计算, 是人为赋予的, 因此主观性较强, 但比较权威的确定权重的方法是运用TF-IDF公式, 即Wik=tfik/dfk=tfik×idfk, 其中tfik为特征项Tk在文档Di中的出现频率, 称为项频率 (term frequency) ;dfk则是文档集D中出现特征项Tk的文档的数量, 称为文档频率;idfk为dfk的倒数, 称为反转文档频率 (inverteddocument frequency) 。另外, 还应考虑到文档的长度, 否则长文档易被检出, 而短文档会被漏检, 所以通常还要对上面公式进行标准化处理。
假设有三个项:“经济”、“金融”和“计算机”, 它们在不同文档中的权值如表1所示。
根据这个表, 可以画出权值和文档的三维向量空间。
3. 计算向量之间的相似程度
相似度S (Similarity) :指两个文档内容相关程度的大小, 当文档以向量来表示时, 可以使用向量文档向量间的距离来衡量, 一般使用内积或夹角θ的余弦来计算, 两者夹角越小说明相似度越高。由于查询也可以在同一空间里表示为一个查询向量 (见图1) , 可以通过相似度计算公式计算出每个文档向量与查询向量的相似度, 排序这个结果后与设立的阈值进行比较。如果大于阈值则页面与查询相关, 保留该页面查询结果;如果小于则不相关, 过滤此页。这样就可以控制查询结果的数量, 加快查询速度。
三、以经济信息检索为例的实例分析
经济发展依赖于自然资源的开发与利用, 也离不开经济信息资源的开发和利用。开发经济信息资源, 实际上是对人类智力的开发, 是一种知识和科学技术的开发, 一种生产技能和管理技能的开发。现在, 经济信息已经渗透到现代生活的各个领域, 有效地地开发和利用经济信息, 提高经济信息的传播速度已经成为现代经济发展的一种推动力, 能够大大提高劳动者的智力水平, 从而促进经济的发展。因此, 在以经济建设为中心、大力发展社会主义经济的过程中, 必须不断地开发和利用经济信息资源。
经济信息是一种社会资源, 作用于经济活动过程, 已经成为现代社会经济发展的一个先决条件。现代经济建设是一个庞大而复杂的系统, 需要依据大量的经济信息去控制、指挥、协调和组织系统的内部关系, 系统和系统之间也需要靠经济信息去联系, 才能使经济活动达到人们预期的目标。在科学技术迅猛发展的社会里, 经济信息资源显得更加重要。
假设现有一个包含4篇经济金融类相关信息文档的集合, 这4篇文档如下:
D1:金融投资的对象是金融资产……
D2:金融资产是获得投资收益的资产……
D3:证券投资、基金投资和期权投资组成金融投资……
D4:获得投资收益是证券性金融投资的主要目的……
检索表达式Q为:金融投资的资产收益。
首先, 需要对文档和检索表达式进行分词处理, 其结果如下:
D1:金融/投资/的/对象/是/金融/资产/……
D2:金融/资产/是/获得/投资/收益/的/资产/……
D3:证券/投资/、/基金/投资/和/期权/投资/组成/金融/投资/……
D4:获得/投资/收益/是/证券/性/金融/投资/的/主要/目的/……
Q:金融/投资/的/资产/收益/。
然后除去停用词, 去除后的文档如下:
D1:金融/投资/对象/金融/资产/……
D2:金融/资产/获得/投资/收益/资产/……
D3:证券/投资/基金/投资/期权/投资/组成/金融/投资/……
D4:获得/投资/收益/证券/金融/投资/主要/目的/……
Q:金融/投资/资产/收益/。
计算项的权值根据公式
各个索引项的df和idf值如表2所示
各个索引项在文档中的频度如表3所示
则各个索引项在文档中的权值如表4所示
检索表达式的权值很简单, 如表5所示
采用内积法计算向量的相似度, 则可以看出, 文档D3与检索表达式的相似度最高, D1、D2、D4相同且低于D3。
四、算法分析总结
算法的计算复杂程度还需要进一步探讨, 目前这些研究都还不够深入, 许多问题还有待于进一步探讨;同时由于自然语言的复杂性, 新查询向量的查全率和查准率虽然有所提高向量模型是以假设向量空间的各维之间相互正交 (即各关键字之间相互独立) 为前提的, 因而不可避免地存在由此带来的损失关键字间的相关性的缺点, 可它把对文档内容和查询要求的处理简化为向量空间中向量的运算, 克服了布尔模型的二值评价的缺点, 可以计算出文档与查询式的相关程度, 因而可以很容易地进行输出结果的排序, 用户相关性反馈机制也很容易实现, 尤其是具有对处理海量数据的适应性等种种优点使得它自诞生以来, 至今都有很强的生命力。
参考文献
[1]雷景生林冬雪符浅浅:基于改进向量空间模型的Web信息检索技术研究[J].计算机工程, 2005, 1:14~16
[2]王晓黎王文杰:基于向量空间模型的文本检索系统[J].微电子学与计算机, 2006, 23:188~190
[3]包金龙:基于向量空间模型的信息检索系统的设计[J].情报检索, 2005, 7:44~45
[4]安茹娜:浅析经济文献信息的开发和利用[J].科技情报开发与经济, 2007, 12:54~55
[5]刘海峰王元元:基于向量模型的文本检索若干问题研究[J].情报杂志, 2006, 10:57~59
关键词 信息检索 教学改革 主题案例法
分类号 G254.9
DOI 10.16810/j.cnki.1672-514X.2016.10.014
Research on Information Retrieval Course Reform:Design and Implementation of the Theme Case Teaching Method
Huang Yueshen
Abstract Aiming at the problems of the information retrieval course and the limitation of the existing case teaching method, this paper proposes the design of the theme case teaching method. This method takes the theme case as the main line to connect curriculum system, so as to guide students to establish a complete information retrieval thinking more effectively, and helps to realize the reform of the course from the teaching of information retrieval skills to the information retrieval thinking. In accordance with the theme case teaching method, it constructs the theme case library, and discusses 4 key factors including the structure, case design, content expansion, and the display of the theme case library.
Keywords Information retrieval. Curriculum reform. Theme case teaching method.
进入21世纪,我国高等教育改革进程加快,新的教育理念强调素质教育、自主学习能力和创新能力的培养。在此背景下,2002年2月,教育部颁布了《普通高等学校图书馆规程(修订)》,其中总则第三条明确规定当前高等学校图书馆五项主要任务之一就是“开展信息素质教育,培养读者的检索意识和获取、利用文献信息的能力。”[1] 这项规程赋予了信息检索课程新的时代任务,拉开了信息检索课程改革的大幕。关于教学方法的创新成为了课程改革的焦点和研究热点。
信息检索课程改革的核心是“教”与“学”两个方面,一是教师的“教育”需要转向检索思维的培育,具有启发性,二是学生的“学习”需要面向任务目标,具有实用性。教学改革不仅要求教与学双向而行,二者兼顾,同步创新,而且,实施方法须具有较强的可操作性。按照这个要求,本文针对当前信息检索课程中存在的普遍问题,提出了主题案例法的实施思路,分析了主题案例法相比于已有的案例教学法的优势,并深入探讨了主题案例库的构建策略。
1 信息检索课程存在的问题
当前,随着信息环境的巨大变迁、信息技术的飞速发展,信息检索课与信息环境、学生需求存在脱节现象,教学形势不容乐观。具体原因主要有4点。
1.1 教学目标特殊
一般课程的教学目标是帮助学生建立全新的知识体系,教学内容基本上是学生未知的知识,容易体现教学成效。相对而言,信息检索课并不是赋予学生全新的知识,而是在学生现有的知识基础上提高信息检索技能与策略,以帮助他们构建起系统化、个性化的检索思维。以此为目标,信息检索课的教学工作既不能落于俗套,缺乏启发性,又不能过于高冷,显得故弄玄虚,而是需要深入浅出,贴近实际。这要求教学设计与课程体系必须精益求精,能够给予学生新的启发和触动。看似简单的信息检索课,教学工作却并不轻松,这是课程不好上,上不好的深层原因。
1.2 教学内容平淡
目前,信息检索课多属于选修课,而且主要由图书馆老师兼任,他们白天上班,晚上上课,完成工作任务之余,还要应付课程任务。作为课程的主导者——教师们缺乏足够的时间、精力去深入地思考课程设计、创新教学方式,导致教学内容平淡,不仅没有达到教学目标,而且极易招致学生的抵触和反感。原被寄托培育学生信息素养厚望的信息检索课,沦为一门“鸡肋”课程。
1.3 教学设计乏味
信息检索是一门实用的课程,课程价值应体现为实用价值,教学设计应具有启发性。但是,在现实教学中却存在各种背离现象。如逐一讲解各种检索原理和方法相似的数据库,期望通过数据库的展示和理论的堆砌提升课程价值,但实际上对学生而言却是乏味的陈词,难以激发学习兴趣。
1.4 教学进程紧张
信息检索课不仅需要学生充分理解课堂知识点,而且还需要他们学以致用,这个过程不可能在课堂上全部完成,还需要学生课后反刍消化。但是,现在的信息检索课只注重课时内的教学,课时外的自学自省制度没有充分建立起来,致使学生忙于应付短平快的课堂学习,却疏于课后的自省学习。对学生而言,走马观花般的课堂学习不利于知识的内化,更勿论检索思维的培养和娴熟运用。
nlc202309081716
2 主题案例法实施思路
2.1 已有的案例教学法存在的问题和改进方向
2006年,华东理工大学唐永林老师首次提出将案例法引入到信息检索课程中,他认为应有针对性地引导学生运用基本信息检索理论和方法,对案例进行分析与讨论,深化对信息检索理论的理解[2]。此后,不少学者从激发学生学习兴趣的角度详细探讨了如何实施案例教学法[3-6]。虽然成果颇丰,但是,这些研究基本是在原有的课程体系中探讨案例法的实际运用和成效,只能作为对传统教学模式的改良。对此,早在2008年,学者杨光武在回顾信息检索课程的创新教学法时就深刻地指出,传统教学属于三段式教学:基础理论—理论应用—实训练习,现时的案例法只是在理论讲解时通过案例讲解强化学生的理解和记忆,是对传统教学的改良[7]。时至今日,这个问题仍未解决。2015年,常娥在《信息检索课案例教学法思考》中指出,当前的案例教学法圃于传统的信息检索教学理念的束缚,无论是检索案例的设计,还是检索案例的课堂教学,都与过去的上机实践课类似,未能发挥它在帮助学生构建立体检索思维方面的独特作用[8]。
针对当前案例教学法的症结,常娥进一步指出了案例教学法难于深入开展的原因为未形成完备的教学大纲和检索案例库,主要凭教师经验进行教学[9],并提出了解决问题的两个切入点。(1)重新认识案例教学法的地位与作用。应从课程设计的高度,考究以案例为中心的课程编排,用案例融汇知识、用案例联系实际、用案例启迪思维,而不是沿袭传统的课程编排方法,以检索理论和方法为核心,案例从属理论的老套路。(2)构建信息检索课主题案例库。多年来,案例教学法没能有效地深入推广的一个重要原因,是已有的实践研究主要是个人教学经验的总结,大家各说各的问题,没有在统一的框架内展开讨论,导致研究不能向纵深发展。因此,目前急需解决的问题是在总结现有教学经验的基础上,把教案体系、授课思路以主题案例库的形式固化,才能在此基础上进行更深入的探讨。
2.2 主题案例法的设计目标
与已有的案例教学法相比,主题案例法不仅是教学方法,而且是课程体系与学习体系的组织方法,它依托一系列的主题案例支撑起课程的体系结构,学生只要依次完成主题案例学习,就能系统地学习信息检索的全部流程与思维策略。
2.2.1 用案例统领知识
传统的信息检索课程以理论知识为主线串联课程,其弊端是过分强调理论的完备性,而忽视其实用价值,这是导致信息检索课问题百出的深层原因之一。例如,查准率与查全率这对评价检索结果的指标,理论上很完美,但实际上不符合当前的信息检索实务。在信息体量巨大的今天,要找全找准符合检索需求的信息是一件极难实现的事情,而且,通常情况下,检索者根本不需要这两项评价指标,只要能找到需要的信息解决问题即可。主题案例法的首要目标,就是把案例教学提升到课程体系的组织核心位置,以案例为中心融汇知识,从实用的角度重构知识体系,淘汰脱节的知识,留下适用的精华,拓展空缺的主题,永葆课程活力。
2.2.2 用案例启迪思维
传统的信息检索课程重在信息检索工具的利用和信息检索方法的讲解,其弊端是将信息检索局限在信息查找与获取阶段。然而,随着计算机与互联网技术的飞速发展,检索工具的普及度和易用性已有很大提升,再将信息检索课局限在工具讲解和技术分析上实无必要。信息检索课必须走出狭义的信息检索观,从广义的角度组织课程教学。信息检索是提出检索问题—分析检索问题—执行检索—分析整理检索结果—解决问题的过程。在此过程中,工具的使用只是其中一环,更重要的是检索者对问题的分析能力、对检索过程的掌控能力、对检索结果的利用能力,这要求今后的信息检索课必须强调对学生的检索意识和检索思维的培育和锻炼。
意识和思维的养成是一个主观的过程,修为看个人,外力仅起引导作用,绝不可能只通过知识灌输的方式来实现。为此,信息检索课应转变教学方式,重视案例教学的导向作用,针对学生在检索意识和检索思维方面的薄弱环节制定案例。例如,可以设计一些学生会遇到的问题包括如何读好大学?如何输入不会读音的生僻字?虽然这些题目表面上跟信息检索没有关联,但是实际上都可以通过信息检索来解决,而且用到的检索工具极为常用:利用图书馆的书目检索系统找“读大学”的指导书;使用百度搜索生僻字的字形结构就能获得解题线索。通过这些事例,就能让学生深刻地领悟到检索意识的重要性,即仅知道信息检索工具的使用方法并不等于能用好它们,还必须注重培养检索意识,在遇到实际问题时懂得灵活地使用检索工具。
3 主题案例库的构建方案
主题案例法是信息检索课程改革的支点之一,而主题案例库是主题案例法的具体实施方案。主题案例库不仅要发挥案例对理论知识的阐释作用,而且要通过组织主题案例体系串联起课程教学,有效引导学生的学习过程。主题案例库的建设重点不仅在于搜集精彩的个案为课程添姿润色,还在于建立起案例之间的主题关联,形成新的课程体系和学习体系,为教学工作提供新的思路和方向。
3.1 主题案例库的体系结构
传统的信息检索课程以传授检索技能为主,以资源和工具为组织体系,形成了特种文献检索、自科文献检索、社科文献检索、网络信息检索等课程内容。这种课程体系的优点在于对各类检索工具的使用技巧讲解深入,针对性强,但其弊端也显而易见,即在横向拓展检索技能的基础上,对检索过程的纵向构建不足,对学生构建检索思维的引导力不足。
针对传统检索课程体系的不足,现在的检索课程已将重点落在信息检索思维的培育与完善上,强调通过信息检索解决实际问题的能力。代表性课程包括:黄如花教授的《信息检索》MOOC课程[10],以信息检索在解决各类实际问题中的实施方法为线索组织课程内容,彻底颠覆了传统的信息检索课程体系;邓发云老师的国家精品课程教材《信息检索与利用》[11],在理论讲授的基础上,提供了大量的案例、思考训练题、讨论题,重在发挥案例讨论的启发式教学作用,是针对常规课程体系的有效改良;罗昭锋老师的《文献管理与信息分析》课程[12]的微课教学,将传统的课程内容转化为主题化的微课程,针对性、实用性强。业界关于信息检索课程体系的改良和变革,为主题案例库的组织设计提供了重要参考。
nlc202309081716
主题设计对整个主题案例法的实施起到关键的作用。按照信息检索课程的改革方向,应以信息检索思维在解决实际问题中的运用为教学目标。笔者认为,主题的设置必须围绕解决实际问题的需要,以解决问题为原点,依次设置分析检索问题—选择检索工具—构建检索策略(实施初次检索)—筛选检索结果—优化检索策略(实施多次检索)—利用检索结果六大主题,最后为解决问题提供有参考价值的信息结果。这个主题设计符合信息检索的一般流程,具有良好的通用性和实用性,容易学习。每个主题之间联系紧凑,既不冗余繁琐,又不缺乏内涵,主题的知识包容度高、拓展性强,可以根据信息环境和信息技术的发展,建立次级主题,从而保障课程的活力。
3.2 主题案例库的难点与对策
3.2.1 细化案例库的主题结构
主题是案例库的基础框架,主题结构细致深入,案例库才能丰满,课程内容才富有内涵和价值。反之,案例库只会徒有外表,给人故弄玄虚之感,结果适得其反。因此,在六大主题框架内,进一步细化主题结构是构建案例库的重要基础工作。表1列出了案例库的主题结构以及包含的知识点。
3.2.2 选择和分析主题案例
主题案例是案例库的核心要素,选择案例的标准以及分析案例的角度是制定案例时必须考虑的重要问题。首先,案例选择应满足两方面的条件,即普遍性和启发性。普遍性是指案例创设的情景应该是学生熟悉的,甚至是经历过的,这有利于学生理解和认同。启发性是指案例导向应该发人思考,引领学生从新的视角展开思考。其次,案例的分析角度应具有多元性,不仅要从检索技能的角度分析案例,更应该从检索意识、检索思维的角度剖析案例,这更能体现案例教学的优势。在制定案例时,还须注意精选案例,力求短小精悍。
按照上述原则,笔者针对“如何评估检索工具”主题,选用了百度作为案例对象,除了简要分析其原理、优点等学生熟悉的内容外,更重点分析它的局限性,这是学生容易忽视的地方。具体过程如下:通过使用百度检索“大数据”,对前20条结果进行分析,结果发现,百度知道、百度贴吧、百度文库、百度百科等百度旗下产品占据了10条之多。由此引导学生重新评价百度搜索引擎的客观性,并且思考如何避免“百度蒙蔽”现象,以及如何高效地搜索专题资源,让学生直观地意识到会用检索工具不代表能用好检索工具,还要进行科学评价、扬长避短、知贤善用。通过案例教学,引导学生发现自己在检索过程中的短板环节,进而思考应对措施,从而达到补强和完善检索思维的教学效果。
3.2.3 拓展新主题
永葆信息检索课程生命力的关键在于与时俱进。只有紧跟信息环境的变迁和信息技术的发展,切合当前主流趋势,不断拓展课程主题,才能继续扮演好引领者的角色,为学生带来超前的检索思维和先进的检索策略,才能满足学生对课程的期盼与要求。就课程特质而论,信息检索作为一门基于信息传播、信息技术与信息分析的工具课,与外部的信息大环境息息相关,外部变化需要及时地传递和反映到课程建设上。例如,针对当前网络流言猖獗、真假信息难辨的现象,笔者在“筛选检索结果”主题下拓展了二级主题“如何利用信息检索辨别网络信息的真伪”,通过选择和分析各类虚假信息的案例,引导学生建立起甄别虚假信息的5种思维方法,包括否定判断法、来源追踪法、逻辑分析法、人肉搜索法、存疑判伪法。又如,在大数据时代,需要强化对数据进行分析和利用的能力,为此,在“如何提取有价值的信息”的主题下建立“数据可视化分析”主题,讲授基础的数据分析流程和易用的可视化分析工具。
3.3 主题案例库的实现形式及功能拓展
为了适应在线学习的发展,主题案例库采用B/S架构实现,学生通过浏览器即可随时随地地进行课程学习。为了支持包括PC、平板电脑、手机等各种终端的访问需要,主题案例库采用两套页面布局方案,针对PC等大屏设备采用双列的框架式布局,针对手机等小屏设备采用单列的瀑布式布局。显示效果如图1、图2所示。
为了加强主题案例库的功能,可以采用“混搭”的方式,嵌入其他系统的优秀功能模块。例如,Moodle是一个功能成熟的在线学习平台,有丰富且成熟的课程互动功能,包括讨论、评论、提交作业等,只要进行适当的嵌入,就可以作为辅助功能融入到主题案例库中。在保持主题案例库已有组织形式的基础上,利用混搭方式嵌入第三方系统的优秀模块,扩展系统功能,使主题案例库更好地支持MOOC背景下的在线学习。
4 结语
在信息交流空前活跃、各种信息工具普及易用的信息环境下,信息检索观不可局限于获取信息的狭义观念中,必须从广义的层面认识信息检索,即以解决问题为目标的信息检索过程,课程内涵也必须随之从检索技能的传授扩展至检索思维的培育上。本文针对信息检索课存在的普遍问题,以及案例教学法在实施过程中存在的问题,提出了主题案例法的目标与思路,并深入探讨了主题案例库的实施方案。与已有的案例教学法相比,主题案例库的指导思路是以案例体系作为课程体系的组织框架。实施方法是以主题任务组织案例,以案例联结知识。以此为基础的学习过程能更有效地引导学生建立完整的信息检索思维。
参考文献:
[ 1 ] 张怀涛,慎明旭,岳修志,等.文献检索课的发展历程与发展对策[J].大学图书馆学报,2011(3):81-84.
[ 2 ] 唐永林,唐梦斐.文献检索课程的“案例教学法”初探[J].现代情报,2006(3):199-201.
[ 3 ] 罗敏.案例教学在文献检索课程中的应用探讨[J].大学图书馆学报,2007(3):101-103.
[ 4 ] 黄碧云,胡德华,罗爱静,等.信息检索精品课程中应用案例教学法研究[J].图书馆学研究,2007(1):58-60.
[ 5 ] 王敏,嵇绍春.案例教学法在文献检索课程教学中的应用[J].图书馆理论与实践,2013(1):101-102.
[ 6 ] 马建春.案例教学法在信息检索课教学中的应用探讨[J].图书馆研究,2011,41(1):120-122.
[ 7 ] 杨光武.项目课程法在文献检索课教学中的应用[J]. 大学图书馆学报,2008(4):81-84.
[ 8 ] 常娥.信息检索课案例教学法思考[J].图书情报工作,2015(8):54-58.
[10] 黄如花.信息检索[EB/OL].[2015-12-02].http://www.icourse163.org/course/whu-29001#/info.
[11] 邓发云.信息检索与利用[M].北京:科学出版社,2013.
[12] 罗昭锋.文献管理与信息分析[EB/OL].[2015-12-02]. http://mooc.chaoxing.com/course/874584.html.