中文信息

2024-06-06 版权声明 我要投稿

中文信息(共8篇)

中文信息 篇1

中文短信息

中文信息 篇2

一、信息检索简介

1. 概念

广义的信息检索范围很大, 可以说从书本、报纸以及其他的各种媒体中查找人们需要的信息都可以称为信息检索。

狭义的信息检索是特指利用计算机这个高效的工具对各种信息进行检索的技术。信息检索的内容包括文本、图像、视频和音频等多种, 但本文只讨论文本信息的检索技术, 特别是中文信息的检索技术。

信息检索是一门研究从一定规模的文档库 (D o c u m e n t Collection) 中找出满足用户提出的信息需求 (User Information Need) 的技术。

2. Web信息检索

Web的出现大大地促进了信息检索技术的发展。Web上有异常丰富但又十分混乱的信息资源, 其中绝大部分有用的信息还没有挖掘出来。这是因为目前还没有特别好的信息处理和检索工具。这一领域的开发仍然处于初级阶段。

3. 中西文信息检索比较

在文本信息检索领域, 西文信息检索的发展较为迅速。西文信息检索系统可以利用向量空间表示检索信息内容, 并将自然语言处理应用于信息检索, 大大提高了信息检索的准确性。中文信息的检索和英文信息的检索在很多地方是一致的, 但也有一些不同。比如中文词语之间没有空格, 因此在索引前需要进行词语切分。此外, 与英文相比, 汉语句法分析和语义理解更为困难。

4. 信息检索的模型

一般有两种信息检索模型:基于统计的模型和基于语义的模型。基于统计的模型是应用某些统计的手段从被检索文档和高标注等级文档中查询与用户需求匹配程度最好的文档;而基于语义的模型则尝试对需求实现一定程度语法语义分析, 即对自然语言文本进行一定程度的理解并重新生成查询。

基于统计的模型主要有:布尔模型 (Boolean Model) 、扩展布尔模型 (Extended Boolean Model) 、向量空间模型 (Vector Space Model) 以及概率模型 (Probabilistic Model) 等。

二、向量模型

向量模型是重要的检索模型, 其主要优点在于:a、通过对特征项的加权改进了模型的检索效果;b.模型的部分匹配策略允许检索出与查询条件相接近的文献;c.相似度的引进使得能够对查询结果进行排序, 以倒排文档方式提交结果。

1. 文档和项的向量空间表示

首先把一个文档进行分词处理, 并去除那些停用词, 如“我”、“的”、“人们”等。然后对剩余的词进行合并处理。

在一个给定的集合中先对每个文档进行以上的操作, 获得每个文档索引项的集合。再把所有文档的索引项进行合并, 形成了一个代表整个文档集合的索引项集合, 整个索引项集合表示了一个“空间”。在一个文档空间中, 可以给每个索引项赋一个权值, 代表这个索引项在这个文档中的地位。如表1所示, 文档1的向量空间是 (3, 4, 5) , 文档2的向量空间是 (2, 3, 3) 。

与文档空间相对应的一个概念是“项空间”, 它是指一个索引项在文档集合中的各个文档权值的集合。如表1所示, 索引项“经济”的向量空间是 (4, 3, 0, 0) , 索引项“金融”的向量空间是 (5, 3, 0, 5) 。

于是文献和查询均可用由项构成的向量来表示:d= (t1, t2, ……, tn) 。项的权重 (term weight) :对于有n个不同的项的系统, 文献D= (t1, t2, ……, tn) 。

2. 项权值

项t k (1≤k≤n) 常常被赋予一个数值Wk, 表示它在文献中的重要程度, 称为项t k的权重。因此, 我们一般用D= (w1, w2, …, wn) 的形式表示文献。特征项的权重计算, 是人为赋予的, 因此主观性较强, 但比较权威的确定权重的方法是运用TF-IDF公式, 即Wik=tfik/dfk=tfik×idfk, 其中tfik为特征项Tk在文档Di中的出现频率, 称为项频率 (term frequency) ;dfk则是文档集D中出现特征项Tk的文档的数量, 称为文档频率;idfk为dfk的倒数, 称为反转文档频率 (inverteddocument frequency) 。另外, 还应考虑到文档的长度, 否则长文档易被检出, 而短文档会被漏检, 所以通常还要对上面公式进行标准化处理。

假设有三个项:“经济”、“金融”和“计算机”, 它们在不同文档中的权值如表1所示。

根据这个表, 可以画出权值和文档的三维向量空间。

3. 计算向量之间的相似程度

相似度S (Similarity) :指两个文档内容相关程度的大小, 当文档以向量来表示时, 可以使用向量文档向量间的距离来衡量, 一般使用内积或夹角θ的余弦来计算, 两者夹角越小说明相似度越高。由于查询也可以在同一空间里表示为一个查询向量 (见图1) , 可以通过相似度计算公式计算出每个文档向量与查询向量的相似度, 排序这个结果后与设立的阈值进行比较。如果大于阈值则页面与查询相关, 保留该页面查询结果;如果小于则不相关, 过滤此页。这样就可以控制查询结果的数量, 加快查询速度。

三、以经济信息检索为例的实例分析

经济发展依赖于自然资源的开发与利用, 也离不开经济信息资源的开发和利用。开发经济信息资源, 实际上是对人类智力的开发, 是一种知识和科学技术的开发, 一种生产技能和管理技能的开发。现在, 经济信息已经渗透到现代生活的各个领域, 有效地地开发和利用经济信息, 提高经济信息的传播速度已经成为现代经济发展的一种推动力, 能够大大提高劳动者的智力水平, 从而促进经济的发展。因此, 在以经济建设为中心、大力发展社会主义经济的过程中, 必须不断地开发和利用经济信息资源。

经济信息是一种社会资源, 作用于经济活动过程, 已经成为现代社会经济发展的一个先决条件。现代经济建设是一个庞大而复杂的系统, 需要依据大量的经济信息去控制、指挥、协调和组织系统的内部关系, 系统和系统之间也需要靠经济信息去联系, 才能使经济活动达到人们预期的目标。在科学技术迅猛发展的社会里, 经济信息资源显得更加重要。

假设现有一个包含4篇经济金融类相关信息文档的集合, 这4篇文档如下:

D1:金融投资的对象是金融资产……

D2:金融资产是获得投资收益的资产……

D3:证券投资、基金投资和期权投资组成金融投资……

D4:获得投资收益是证券性金融投资的主要目的……

检索表达式Q为:金融投资的资产收益。

首先, 需要对文档和检索表达式进行分词处理, 其结果如下:

D1:金融/投资/的/对象/是/金融/资产/……

D2:金融/资产/是/获得/投资/收益/的/资产/……

D3:证券/投资/、/基金/投资/和/期权/投资/组成/金融/投资/……

D4:获得/投资/收益/是/证券/性/金融/投资/的/主要/目的/……

Q:金融/投资/的/资产/收益/。

然后除去停用词, 去除后的文档如下:

D1:金融/投资/对象/金融/资产/……

D2:金融/资产/获得/投资/收益/资产/……

D3:证券/投资/基金/投资/期权/投资/组成/金融/投资/……

D4:获得/投资/收益/证券/金融/投资/主要/目的/……

Q:金融/投资/资产/收益/。

计算项的权值根据公式

各个索引项的df和idf值如表2所示

各个索引项在文档中的频度如表3所示

则各个索引项在文档中的权值如表4所示

检索表达式的权值很简单, 如表5所示

采用内积法计算向量的相似度, 则可以看出, 文档D3与检索表达式的相似度最高, D1、D2、D4相同且低于D3。

四、算法分析总结

算法的计算复杂程度还需要进一步探讨, 目前这些研究都还不够深入, 许多问题还有待于进一步探讨;同时由于自然语言的复杂性, 新查询向量的查全率和查准率虽然有所提高向量模型是以假设向量空间的各维之间相互正交 (即各关键字之间相互独立) 为前提的, 因而不可避免地存在由此带来的损失关键字间的相关性的缺点, 可它把对文档内容和查询要求的处理简化为向量空间中向量的运算, 克服了布尔模型的二值评价的缺点, 可以计算出文档与查询式的相关程度, 因而可以很容易地进行输出结果的排序, 用户相关性反馈机制也很容易实现, 尤其是具有对处理海量数据的适应性等种种优点使得它自诞生以来, 至今都有很强的生命力。

参考文献

[1]雷景生林冬雪符浅浅:基于改进向量空间模型的Web信息检索技术研究[J].计算机工程, 2005, 1:14~16

[2]王晓黎王文杰:基于向量空间模型的文本检索系统[J].微电子学与计算机, 2006, 23:188~190

[3]包金龙:基于向量空间模型的信息检索系统的设计[J].情报检索, 2005, 7:44~45

[4]安茹娜:浅析经济文献信息的开发和利用[J].科技情报开发与经济, 2007, 12:54~55

[5]刘海峰王元元:基于向量模型的文本检索若干问题研究[J].情报杂志, 2006, 10:57~59

中文信息处理与汉字表征码 篇3

中国空空导弹研究院高级工程师华兴初认为,这些难题是方块中文字独有的、不可避免的固有技术问题,不必大惊小怪。凭中国现有技术水平,解决以上问题并无难度可言,是人们思想上千百年根深蒂固的“中文难”的阴霾,影响、阻碍了中文信息处理技术前进的步伐。

退休后的华兴初倾全力于解决中文信息处理难题上,经十余年艰苦努力,他在错综复杂的矛盾中,终于得出了中文信息处理技术的主要矛盾是民族化、大众化、规范化、国际化,而解决“四化”问题的关键在于编码的结论。也就是说,中文信息处理技术所有问题都可以归结为“四化”问题,而四个化的问题都可以用编码来解决,编码是所有矛盾的主要方面。根据这一理论,华兴初创造出了一种独特的汉字键盘输入法,并以“汉字表征码、编码方法与键盘”为名申报了国家发明专利,并获专利技术交易会特别金奖。可以预期,这项崭新的技术,将以其独特的理论、卓越的性能,开启中文信息处理的全新时代。

背景复杂 要求高远

经华兴初研究发现,中文信息处理一直存在六个问题:第一,中文信息处理没有民族特色,汉字还原率低,加上人们忽视汉字的排序功能,使得中文难学不仅得不到缓解,反而又增加了汉字信息处理难题。把用于教人识字的汉语拼音用来进行汉字信息处理的做法,没有产生预期的对汉语基础教育事业的发展及汉语走向世界的促进作用,全世界只有很少的人能掌握汉语拼音。

第二,中文信息处理技术的难度大,门槛高,别说是小孩,就连大学生也不能普遍接受,而至于外国人,那就更无可适从了。中文信息处理技术及其产品基本上只占领了国内一些具有汉语拼音条件的地方、单位与部门,国内市场正是因其自身的原因受到了限制,手机芯片知识产权92%在外国企业手中。国际市场更难拓展,中文的信息处理技术产业自然也就无力继续对国民经济形成明显的拉动作用。

第三,到目前为止,几千个有关中文信息处理的专利个个远离“四化”,中文计算机输入技术仍然处于低级无序状态,无法统一规范,直接阻碍了我国语言文字工作的信息化以及中文信息处理领域一切工作的规范化进程。

第四,汉字信息压缩技术还没有使中文信息的输出问题彻底解决,看不到中文字能像英文那样随意进、出电脑的可能性。这一问题的存在严重地制约着整个中文信息处理技术向现代化、国际化前进的步伐。

第五,英文不需专门建个字库,可我们却是建不完的字库,说明中文信息处理落后到何等地步。

第六,中文信息处理技术从无到有,一直处于探索之中,理论的缺失和错误是产生各种问题的主因,纯技术的“万码奔腾”式的研究方法反而使问题的解决离“四化”越来越远,主要理论错误是:

1.中文信息处理技术定位不当,人们没有认清它必须与语言文字学和计算机工程学既密切结合却又互相区别的特点及必须赋于面向全球大众的特点,使中文信息处理技术始终远离全球最大的用户群。

2.盲目渲染汉字的笔画,不能历史地、客观地、辩证地、科学地认识部件,把笔画和部件在中文信息处理技术中的地位完全搞了个颠倒。

3.对编码的重要性没有认识,使中文信息处理技术长期走弯路,出现技术倒退。

4.对中文信息处理这样一个错综复杂的系统工程,不用解决系统工程的办法分析与解决所遇到的问题,讳疾忌医,对创新理论与技术叶公好龙,甚至错误打压。阻碍和延误了中文信息处理技术的发展进程约20年的大好时光。

5.滥用智能技术有损中华文化的神圣与尊严,有碍中国国际地位的提升。

技术先进 方法简单

中文信息处理与汉字表征码从理论上和技术上科学、辩证地彻底解决了长期以来困扰中文信息处理领域的诸多弊端与问题。

首先,“表征码”把中文的部件按外形特征分类。它们绝大多数与我们天天见面因而是为人熟知的600多个部件,使人能在浩如烟海的数十万个汉字中见了任何一个字都不陌生,有利于降低学习难度,提高学习兴趣。

其次,“表征码”又把部件分成26个类型,并与26个键盘字母在音、形、义三方面相符。使中文信息处理达到了犹如英文一样的优异性能。因方块字出现的各种问题就此顺理成章地迎刃而解。

这样的汉字信息输入技术使中文信息处理变得只要像英文要背26个大、小写字母那样理解、背熟26个表征符就能让世界上每个大约9岁以上视力、智力正常的人都能学会进行中文信息处理,如同不懂英文的人打英文字母一样。

中文信息处理有重码字,怎么能说中文赶超英文?因为中文信息处理码长只取4位,而英文单词一半以上在8个字母以上。消灭重码,并不很难,无必要盲目追求,只要满足信息处理质量的需要即可。

为了提高信息处理质量,表征码的键盘输入技术,只要几条一听就懂的规则,就能达到见字就查字典,见字就敲键盘进行中文信息处理的效果。

功能卓著 涵盖极广

值得一提的是,中文信息处理与汉字表征码在众多方面都能体现出超越性的功能,以及极度完美的技术链接。首先,“表征码”具备中文排序和信息处理两大功能,而且都超过英文,足以扛起中文走向世界的重任。其次,“表征码”将部件形状、部件外形特征符号(表征符)、键盘字母三者在音、形、义三方面直接进行对应,使汉字能够见字直接翻字典;见字直接敲键盘进行中文信息处理,速度远比英文快;见字就能正确地、迅速地确定任一个汉字在规范化的字库,以及计算机内部码表中的位置。最后,中文信息处理技术的核心是民族化,而民族化的核心是编码、编码的核心是汉字的部件、部件的核心是它们的外形特征。这五个核心环环相扣,就能确保汉字表征码成为名副其实的民族化、大众化、规范化、国际化的编码,是真正属于汉字自已的编码。汉字表征码技术能确保中文信息处理能够涵盖古、今、中、外、繁、简所有汉字;所有视力、智力正常的人都能学会并掌握;涵盖所有汉字信息的应用与管理领域;尚未发现以往所有汉字编码存在的缺点。

影响深远 意义重大

中文信息处理与汉字表征码的发明,破解了千百年中文的种种难题。具备了在全世界推广应用的优越条件。

该项专利技术不仅可以广泛应用于IT行业、计算机、电子字典的键盘技术、中文信息的查、检、管理系统等众多领域,还可打破我国手机芯片知识产权基本由外国掌控的局面,对我国手机行业的发展具有较强的推动作用。该项专利技术的出现,不仅市场前景可以遍及全世界,可节约国家巨额不必要的投资,所产生的经济效益足以再一次拉动我国GDP的明显增长。还能实现中华文化向国际化的大步跨越,大力提升中国的国际地位,加速中文成为又一个国际化的文字与语言的进程。

中文信息 篇4

美国签证申请表(DS-160)中文信息表

(高校双语教师培训项目)

申请人信息 姓名:

姓名拼音: 曾用名:

曾用名拼音: 性别:

婚姻状况:

出生日期:

****年**月**日 出生地(省份、城市): 国籍:

其他国籍: 身份证号:

家庭住址(省份、城市、街道): 邮编:

邮寄地址(省份、城市、街道): 邮编:

近半年以内的实际居住地址(省份、城市、街道): 邮编:

家庭电话: 工作电话: 工作传真: 移动电话: 电邮:

护照、赴美签证信息 护照号: 护照本号:(护照首页右侧纵向一串黑色较小的数字)护照签发地(城市):

护照签发日期:

****年**月**日 护照到期日期:

****年**月**日

护照是否遗失或被偷过?

赴美信息

此次赴美费用由谁负担(如机构负担)机构名称:

机构地址(省份、城市、街道):

□邮编:

以往赴美信息

您是否去过美国?

□ 请提供最近五次赴美信息:

第一次赴美日期:

****年**月**日 停留天数:

第二次赴美日期:

****年**月**日 停留天数:

第三次赴美日期:

****年**月**日 停留天数:

第四次赴美日期:

****年**月**日 停留天数:

第五次赴美日期:

****年**月**日 停留天数:

您是否拥持有或曾经持有美国驾照:是

□ 最近一次赴美签证信息:

签证签发日期:

****年**月**日 签证类型:

签证号码(签证页右下角一串红色数字):

您此次是否申请同类型的签证:是

您此次和上次是否在同一个国家申请赴美签证,并且这个国家是您的主要居住国:是

是否留过十指指纹:

您的美国签证是否遗失或被偷过:

□ 您的美国签证是否被撤销过:

□ 您是否曾经被拒签过美国签证,或被拒绝入境美国: 是

家庭信息(父母信息必须完整填写,如已去世,也需要填写)父亲姓名: 姓名拼音:

出生日期:

****年**月**日

父亲是否在美国:

□ 母亲姓名: 姓名拼音:

出生日期:

****年**月**日

母亲是否在美国:

□ 是否有亲属在美国:

□ 亲属1姓名: 和你的关系: 在美国身份: 亲属2姓名: 和你的关系: 在美国身份: 亲属3姓名: 和你的关系: 在美国身份:

(如有其他亲属在美国,请按照以上格式接在后面补充下去)配偶姓名: 姓名拼音:

出生日期:

****年**月**日 配偶国籍:

出生地(省份、城市):

配偶联系地址(省份、城市、街道):

工作信息

现在工作单位名称(院系): 职务: 职称:

单位地址(省份、城市、街道): 邮编:

单位联系电话(办公室或综合部): 月薪(月薪请与您工资收入上的相符合): 工作职责简述:

以往工作经历(只需填最近五年以内的工作)第一份工作单位名称(中英文): 单位地址(省份、城市、街道): 邮编: 联系电话: 职务(中英文): 主管姓名:

工作起止日期:

****年**月**日

月工作职责简述:

第二份工作单位名称(中英文):

日单位地址(省份、城市、街道): 邮编: 联系电话: 职务(中英文): 主管姓名:

工作起止日期: 年

日 至

****年**月**日 工作职责简述:

(如有其他工作经历,请按照以上格式接在后面补充下去)

教育信息

初中学校名称(请提供中、英文名): 学业类型:(普通中学 / 职校)专业(职校):

学校地址(省份、城市、街道):

邮编:

就读起止日期:

****年**月**日

高中学校名称(请提供中、英文名): 学业类型:(普通中学 / 职校)专业(职校):

学校地址(省份、城市、街道): 邮编:

就读起止日期:

****年**月**日

大学学校名称(请提供中、英文名): 学历:

专业(请提供中、英文名): 学校地址(省份、城市、街道): 邮编:

就读起止日期:

****年**月**日

日日

硕士研究生学校名称(请提供中、英文名): 专业(请提供中、英文名): 学校地址(省份、城市、街道): 邮编:

就读起止日期:

****年**月**日

****年**月**日

博士研究生学校名称(请提供中、英文名): 专业(请提供中、英文名): 学校地址(省份、城市、街道): 邮编:

就读起止日期:

****年**月**日

****年**月**日

其他受教育经历

教育机构名称(请提供中、英文名): 机构地址(省份、城市、街道): 邮编: 教育性质: 专业(或课程):

就读起止日期:

****年**月**日

****年**月**日(如有其他受教育经历,请按照以上格式接在后面补充下去)

国内2位证明人信息

(不能是亲戚,需了解申请人的基本情况,建议填朋友、邻居或老师等)证明人1姓名: 姓名拼音:

住址(省份、城市、街道): 邮编: 电话:

email(可选填):

证明人2姓名: 姓名拼音:

住址(省份、城市、街道): 邮编: 电话: email(可选填):

其他

政治面貌:

最近五年内访问过的国家:

您是否属于某个专业性的、社会性的或慈善的组织,或是为其工作或为其做过贡献?

□ 如选“是”,所属组织名称:

请描述主要职责和所参与的活动:

你有没有在枪支,炸药,核能,生物化学方面的专业技能或受过相关培训?是否

□ 如选“是”,请描述所拥有专业技能或相关培训内容:

您是否服过兵役?

身体健康状况

有没有传染性疾病?

□ 如有,请具体说明:

有没有精神上的疾病?

如有,请具体说明:

有没有一些比较特殊、重大的疾病?是

□ 如有,请具体说明:

有无不良记录,如有请描述:

中文搜索引擎技术揭密:中文分词 篇5

搜索引擎技术的研究,国外比中国要早近十年,从最早的Archie,到后来的Excite,以及altvista、overture、google等搜索引擎面世,搜索引擎发展至今,已经有十几年的历史,而国内开始研究搜索引擎是在上世纪末本世纪初。在许多领域,都是国外的产品和技术一统天下,特别是当某种技术在国外研究多年而国内才开始的情况下。例如操作系统、字处理软件、浏览器等等,但搜索引擎却是个例外。虽然在国外搜索引擎技术早就开始研究,但在国内还是陆续涌现出优秀的搜索引擎,像百度(www.baidu.com)、中搜(www.zhongsou.com)等。目前在中文搜索引擎领域,国内的搜索引擎已经和国外的搜索引擎效果上相差不远。之所以能形成这样的局面,有一个重要的原因就在于中文和英文两种语言自身的书写方式不同,这其中对于计算机涉及的技术就是中文分词。

什么是中文分词

众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子I am a student,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道student是一个单词,但是不能很容易明白“学”、“生”两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。我是一个学生,分词的结果是:我 是 一个 学生。

点击阅读更多学院相关文章>>

分享到 中文分词和搜索引擎

中文分词到底对搜索引擎有多大影响?对于搜索引擎来说,最重要的并不是找到所有结果,因为在上百亿的网页中找到所有结果没有太多的意义,没有人能看得完,最重要的是把最相关的结果排在最前面,这也称为相关度排序。中文分词的准确与否,常常直接影响到对搜索结果的相关度排序。笔者最近替朋友找一些关于日本和服的资料,在搜索引擎上输入“和服”,得到的结果就发现了很多问题。下面就以这个例子来说明分词对搜索结果的影响,在现有三个中文搜索引擎上做测试,测试方法是直接在Google(www.google.com)、百度(www.baidu.com)、中搜(www.zhongsou.com)上以“和服”为关键词进行搜索:

在Google上输入“和服”搜索所有中文简体网页,总共结果507,000条,前20条结果中有14条与和服一点关系都没有。在第一页就有以下错误:

“通信信息报:瑞星以技术和服务开拓网络安全市场”

“使用纯HTML的通用数据管理和服务- 开发者- ZDNet ...”

“陈慧琳《心口不一》化妆和服装自己包办”

“::外交部:中国境外领事保护和服务指南(版) ...”

“产品和服务”

等等。第一页只有三篇是真正在讲“和服”的结果。

在百度上输入“和服”搜索网页,总共结果为287,000条,前20条结果中有6条与和服一点关系都没有。在第一页有以下错误:

“福建省晋江市恒和服装有限公司系独资企业”

“关于商品和服务实行明码标价的规定”

“青岛东和服装设备”

在中搜上输入“和服”搜索网页,总共结果为26,917条,前20条结果都是与和服相关的网页。

这次搜索引擎结果中的错误,就是由于分词的不准确所造成的。通过笔者的了解,Google的中文分词技术采用的是美国一家名叫Basis Technology(www.basistech.com)的公司提供的中文分词技术,百度使用的是自己公司开发的分词技术,中搜使用的是国内海量科技(www.hylanda.com)提供的分词技术。由此可见,中文分词的准确度,对搜索引擎结果相关性和准确性有相当大的关系。

点击阅读更多学院相关文章>>

分享到 中文分词技术

中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。

现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

1、基于字符串匹配的分词方法

这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器

1)正向最大匹配法(由左到右的方向);

2)逆向最大匹配法(由右到左的方向);

3)最少切分(使每一句中切出的词数最小)。

还可以将上述各种方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。统计结果表明,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最大匹配的错误率为1/245。但这种精度还远远不能满足实际的需要。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率,

一种方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。

对于机械分词方法,可以建立一个一般的模型,在这方面有专业的学术论文,这里不做详细论述。

2、基于理解的分词方法

这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。

3、基于统计的分词方法

从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

到底哪种分词算法的准确度更高,目前并无定论。对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。笔者了解,海量科技的分词算法就采用“复方分词法”,所谓复方,相当于用中药中的复方概念,即用不同的药才综合起来去医治疾病,同样,对于中文词的识别,需要多种算法来处理不同的问题。

点击阅读更多学院相关文章>>

分享到 分词中的难题

有了成熟的分词算法,是否就能容易的解决中文分词的问题呢?事实远非如此。中文是一种十分复杂的语言,让计算机理解中文语言更是困难。在中文分词过程中,有两大难题一直没有完全突破。

1、歧义识别

歧义是指同样的一句话,可能有两种或者更多的切分方法。例如:表面的,因为“表面”和“面的”都是词,那么这个短语就可以分成“表面 的”和“表 面的”。这种称为交叉歧义。像这种交叉歧义十分常见,前面举的“和服”的例子,其实就是因为交叉歧义引起的错误。“化妆和服装”可以分成“化妆 和 服装”或者“化妆 和服 装”。由于没有人的知识去理解,计算机很难知道到底哪个方案正确。

交叉歧义相对组合歧义来说是还算比较容易处理,组合歧义就必需根据整个句子来判断了。例如,在句子“这个门把手坏了”中,“把手”是个词,但在句子“请把手拿开”中,“把手”就不是一个词;在句子“将军任命了一名中将”中,“中将”是个词,但在句子“产量三年中将增长两倍”中,“中将”就不再是词。这些词计算机又如何去识别?

如果交叉歧义和组合歧义计算机都能解决的话,在歧义中还有一个难题,是真歧义。真歧义意思是给出一句话,由人去判断也不知道哪个应该是词,哪个应该不是词。例如:“乒乓球拍卖完了”,可以切分成“乒乓 球拍 卖 完 了”、也可切分成“乒乓球 拍卖 完 了”,如果没有上下文其他的句子,恐怕谁也不知道“拍卖”在这里算不算一个词。

2、新词识别

新词,专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词。最典型的是人名,人可以很容易理解句子“王军虎去广州了”中,“王军虎”是个词,因为是一个人的名字,但要是让计算机去识别就困难了。如果把“王军虎”做为一个词收录到字典中去,全世界有那么多名字,而且每时每刻都有新增的人名,收录这些人名本身就是一项巨大的工程。即使这项工作可以完成,还是会存在问题,例如:在句子“王军虎头虎脑的”中,“王军虎”还能不能算词?

新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于搜索引擎来说,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。

中文分词的应用

目前在自然语言处理技术中,中文处理技术比西文处理技术要落后很大一段距离,许多西文的处理方法中文不能直接采用,就是因为中文必需有分词这道工序。中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。因为中文需要分词,可能会影响一些研究,但同时也为一些企业带来机会,因为国外的计算机处理技术要想进入中国市场,首先也是要解决中文分词问题。在中文研究方面,相比外国人来说,中国人有十分明显的优势。

分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。目前研究中文分词的大多是科研院校,清华、北大、中科院、北京语言学院、东北大学、IBM研究院、微软中国研究院等都有自己的研究队伍,而真正专业研究中文分词的商业公司除了海量科技以外,几乎没有了。科研院校研究的技术,大部分不能很快产品化,而一个专业公司的力量毕竟有限,看来中文分词技术要想更好的服务于更多的产品,还有很长一段路。

上一页 123 4

点击阅读更多学院相关文章>>

中文信息 篇6

随着中国经济的高速发展,国际地位的不断提升,学汉语、说中文在马来西亚已经成为了一件时髦的事情。

近日,记者前往马来西亚新闻社办事,负责接待的3名马方技术人员虽然都不是华裔,却有2人都能听懂汉语。其中有1个马来人能够和记者用汉语交谈,这位名为谢赫·法伊德扎尔的技术员小时候是在华文小学就读。他解释说,现在不仅是华人要读华文学校,连马来人和印度人也选择让自己的孩子就读华文学校,以便将来就业时更具备竞争力。

为了更方便的给华裔服务 马来西亚官员上起了中文课

据马来西亚《光明日报》报道,为让大马官员在马来语以外多掌握一种语言,大马国民团结及融合局将获马来西亚汉文化中心及中国汉语口语水平测试考试委员会协助,为当地官员提供汉语教育。

马来西亚全国519名协调员将优先参与课程,以便他们在调解华裔小区问题时更能得心应手。首相署许子根表示,希望接下来大马教育部及卫生部等会跟随参与。有关计划由中马两国5个单位促成,包括国民团结及融合局、马来西亚国家翻译与书籍局、马来西亚汉文化中心,以及中国汉语口语水平测试考试委员会。

大马汉文化中心主席吴恒灿解释,这项汉语学习计划共有3等9级,每一级共有48个小时课程,预计将会在3个月内完成,继而要求学员参与汉语测试,一旦通过将获得学术证书。“学员可逐级完成整个3等9级的汉语课程,有关课程符合国际标准,课程则会以对话方式进行。”

学对外汉语 帮马来西亚官员学中文!

面对马来西亚当地政府对学习中文如此的支持,我们是否应该有所行动了呢!儒森汉语中国对外中文教育机构作为全球领先的对外汉语教师培训学校,推出的对外汉语教师培养模式帮助了很多有志于从事对外汉语行业的人跨过了语言和文化的门槛,成功实现了出国教汉语的梦想!

中文信息 篇7

1 中文分词概念

1.1 自动分词的重要性

自动分词是现代汉语句法分析器的一项基础性工作。汉语语言理解有着极其广泛的应用价值, 在人机接口、问答系统、汉外机器翻译等众多的应用领域中, 对输入文本进行句法分析是一项必不可少的处理任务。在Web文本信息过滤中, Web文本的特征表示是基础。要准确描述Web文本特征, 第一步就要对Web文本进行词汇分析, 而词汇分析阶段的主要任务就是标识出Web文本中的词。

在过滤任务中, 首先需要构建一个描述用户优先选择的用户需求表示模型, 然后建造文档模型, 即文档索引, 也就是文档内容的识别和表示, 包括语义内容和上下文属性 ( 如作者、编辑者等 ) 。最后将用户需求表示模型与系统的文档模型相比较, 以确定哪些文档符合用户的需要。其中用户需求表示模型和文档模型的建造都是以词 ( 语 ) 为基础的。

1.2 分词系统的主要目标

分词系统的总目标是建立一个开放的, 具有较高通用性和实用性的现代书面汉语分词系统。具体要求是:开放系统的特征是符合整个世界上可用的标准, 故一个开放系统可以连接到符合相同标准的其他系统。这就要求分词系统具有易扩充性、可维护性和可移植性等特点, 同时要求在开放的环境下切分精度和处理速度稳定在实用的程度。

作为各种高层次中文处理的共同基础, 分词系统必须具有很好的通用性。分词系统应支持不同的应用目标, 包括各种输入方式、简繁转换、语音合成、翻译、检索、文摘等等;支持不同领域的应用, 包括社会科学、自然科学和技术及日常交际、新闻、办公等;支持不同地区 ( 包括台湾、香港、澳门等地 ) 的汉语处理, 应能适应不同地区的不同用字、不同用词、不同语言风格, 不同专有名词构成方式等。

由于不同的应用对分词系统的要求不同, 因此各种信息资源、各种信息处理模块都要有较高的独立性, 可以方便地装入系统或者从系统中卸下, 从而提高系统的处理精度和处理速度。

2 汉语自动分词存在的困难

中文分词体现了汉语与英语的显著的不同。英语文本是小字符集上的己充分分隔开的词串, 而汉语文本是大字符集上的连续字串。把字串分隔成词串, 就是自动分词系统需要做的工作。可以这样设想汉语自动分词过程的困难:如果把某个英语文本中的所有空格符都去掉以后, 让计算机自动恢复文本中原有的空格符, 其难度可想而知。分词过程中需要对大量切分歧义现象进行处理。

在过去的20多年里, 汉语自动分词工作虽然也取得了很大成绩, 但无论按照人的智力标准, 还是同实用的需求相比较, 差距还很大。我们需要对这一困难的各个方面有充分的认识。

2.1 语言学方面的困难

词的定义不统一。汉语中词的抽象定义 ( 即“词是什么”) 与具体判定 ( 即“什么是词”) 问题在语言学界并未完全解决。调查表明, 母语为汉语的被试者, 对中文文本中词语的认同率只有70%。虽然国家标准《信息处理用现代汉语分词规范》给出了词和分词单位的非形式定义, 但是语言学界对词还没有给出一个为大家广泛接受的、严格且统一的形式定义。词的形式定义或者抽象定义问题也没有完全解决。

汉语的分词还没有形成一个公认的分词标准。这是人和计算机共同面临的困难。同一文本可能被不同的人划分为几种不同的分词结果。分词结果是否正确需要有一个通用、权威的分词标准来衡量。分词标准的问题实际上是汉语词与语素、词与词组的界定问题, 这是汉语语法学界的一个基本、长期的问题。

词的具体判定问题还没有完全解决。尽管《信息处理用现代汉语分词规范》提出了分词单位和一套比较系统的分词规则, 但是由于真实文本的复杂性和多样性, 实践与理论之间的重大差异, 仍然没有能够在词层面解决问题。问题的实质在于分词规范和分词词表的构造应该和汉语真实语料库结合起来考虑。同时, 除了定性信息外, 还必须引入定量信息。

2.2 计算机科学方面的困难

形式语言的局限性。形式语言可以准确地描述程序设计语言, 但用来描述无限的自然语言就显得无能为力了。没有合理的自然语言描述模型, 计算机就无法认识自然语言, 也就不能准确地自动分词。

知识表示理论不成熟。由于知识表示理论不很成熟, 许多课题有待解决, 要让计算机利用知识来切分歧义字段还很困难。

语义的理解和形式化。有的语句在不同的上下文环境中有不同的切分结果, 要正确切分这类语句, 就必须理解语句在特定环境中的意义。但是语句理解和形式化都是没有解决的问题, 所以让计算机正确切分这类语句十分困难。

3 中文分词应用于网络信息监管系统

网络信息监管系统是对计算机网络进行自动监测和审计的专用系统。可根据用户提供的监控信息, 进行网络信息截取和还原。由探测器、数据中心、客户端三部分组成。具有灵活、高效、操作简单、易维护等特点, 可以实时对敏感信息进行截取和还原。对网页内容进行分词学习, 从而提取网络敏感关键词, 生成敏感词库, 再针对词库对网络信息进行过滤筛查, 以此达到信息监管的目的。

主要功能是通过实时查看信息、分类检索信息、设置监控信息通过对网页新闻的分析, 得到了比较好的分词结果。虽然使用了双向分词算法, 但也还存在着一定的失误率, 主要原因是基于字典、词库匹配的分词方法对词库的依赖性较强。由于我们所研究的网页信息有较强的专业性 (大部分为军事性、政治性的信息) , 所以我们可以通过尽可能地扩大专业词库, 从而更大地降低分词失误率, 为进一步做好信息过滤打好坚实的基础。

摘要:中文分词是一种系统化从动态的信息流中抽取出符合用户个性化需求的信息的方法, 为用户提供及时、个性化的信息服务, 具有一定的智能和较高的自动化程度。笔者探讨了中文分词在网络信息监管系统的应用, 结论是应尽可能地扩大专业词库, 从而更大地降低分词失误率, 为进一步做好信息过滤打好坚实的基础。

关键词:中文分词,网络信息,监管

参考文献

[1]韩月阳, 邓世昆, 贾时银, 李远方.基于字分类的中文分词的研究[J].计算机技术与发展.2011 (07) .

[3]奉国和, 郑伟.国内中文自动分词技术研究综述[J].图书情报工作.2011 (02) .

[3]曹卫峰.中文分词关键技术研究[D].南京理工大学2009.

中文信息 篇8

关键词:中文信息处理  “N+V”结构  自动消歧

“N+V”格式是一种比较常见的同形异构结构,虽然表层形式简洁,从层次划分上不存在困难,但是内部可能存在不同的语法关系、语义关系。

一、“N+V”结构本体分析

(一)“N+V”结构的语法关系

本文所指“N+V”结构是指可以自足的、无其他成分或标记的合法语言单位,不包括“把N+V了”“N的V”等结构形式。根据冯志伟先生的潜在歧义理论,我们将这种结构底层存在的语法关系区分如下:

主谓关系,其中“N”作主语,“V”作谓语,二者之间是陈述与被陈述的关系,如:粮食丰收、妈妈做饭、小二黑结婚;

偏正关系,其中“N”为修饰语,“V”是中心语,如:口头创作、直线上升、文艺演出、汽车制造、语言研究、核试验;

既可以分析成主谓关系也可以分析成偏正关系,这种结构在没有给定语境时会产生理解上的歧义,如:机器生产、专业人员培训。

其中,前两种属于“格式真歧义短语”,它们具有相同的表层类型形式,但是对应着两种句法功能结构,计算机在处理时不能判断采取哪种句法结构,就会产生两种结果,而这种歧义对人来说是不存在的;最后一种属于“实例真歧义短语”,即实例化后产生的短语对应至少两种句法结构,这种歧义对人和计算机都是存在的。

除此之外,由于已经给定短语格式,其中成分的词类已经确定,不会作为结构歧义的产生原因;另一方面,只涉及两个成分的“N+V”结构,词与词搭配时不会产生不同的结构层次,也就不会成为结构歧义的产生原因。

(二)“N+V”结构的语义、语用关系

“N”和“V”之间的语义关系不止一种,“N”既可以作为施事支配“V”,又可以作为“V”的受事受到“V”的支配,还可以作为状语修饰“V”,当同一个结构能够分析出不同关系时就会产生歧义。如“机器”既可以作为“生产”动作的对象,又可以作为“生产”动作的施行者,就会产生歧义。因此,我们可以认为,不及物动词只能构成主谓结构和部分状中结构,而不会产生歧义,只有“V”可以带宾语并且能带体词性宾语时,才会反过来支配前面的“N”,才会产生理解上的区别。如“专业人员培训”中的“培训”是及物动词,“专业人员”既可以作为状语,表示“培训”动作的执行者,又可以作为宾语,表示“培训”动作的对象。

当进入结构的“N”和“V”之间构成动作与受事、对象关系时,有可能构成定中结构。当进入结构的“N”和“V”之间构成施事主体与动作关系时可能构成主谓结构。当这两种关系同时存在时,就会构成歧义结构,这也是歧义格式中最常见的双重歧义关系,还有一些歧义结构的语义关系比较特殊,如:西部开发(“N”既是客体又是地点)、每个人都给一本书(“N”既是主体又是与事)。而当这两种关系都不存在时,“N”通常表示“V”的某种方式、手段,或是动作的时间、原因、范围等,此时构成偏正结构中的另一种——状中结构。

名词性的“N+V”结构还具有一种特殊的语篇特征,即“N”失去话题性,不能被回指,而“V”失去谓词性,得到指称意义,有时可以被数量词修饰,如:一项季度考核、一份会议记录。据此,整个结构就产生指称的语义效果,具有类别义和概念性的倾向,伴随着“N”的改变,类别也会发生变化。

根据现有“N+V”结构的研究成果来看,学者们对定中式的研究比较多,其讨论主要集中在此结构的性质、产生机制和限制条件方面。

对于进入定中结构的“N”的限制条件,李晋霞提出高生命度、高个体度的名词不易进入;缺省宾语不能进入;区别性的下位名词更易进入;概念信息非常具体的“N”不易进入。耿国锋则提出语义抽象、泛化,分布上失去名词形态特征的名词比较容易进入,还有抽象名词、集合名词较容易进入。对于“V”的限制条件,马真、陆俭明《“名词+动词”词语串浅析》中提出四类排斥进入主谓结构的动词:企图类、成为类、“使”类和“着想”类;并提出进入偏正结构的动词必须是名动词。李晋霞则提出:强动作动词、特征动词、口语动词、黏着动词、不及物动词不易进入,但可以举出很多反例。耿国锋提出,动作具有无界性的动词、非完成性和非瞬时性的动词、及物性降低的动词比较容易进入,且进入后失去动词的典型句法功能。但是,名词性“N+V”结构处在不稳定的发展变化中,许多曾经排斥的情况已经有为数不少的用例,需要重新考虑相应的规则。

这些限制条件具有启发价值,但其中某些概念比较模糊,有些对音节的限制几乎只是现象描写,还有一些从词类角度总结的限制条件更是琐碎而充满例外,不适合直接作为计算机消歧的策略。

二、歧义成因与识别方法

计算机处理自然语言时,是以词类标记序列为对象的,除了需要切分和了解各个词的词类、意义之外,还需要知道搭配规则与结果。根据冯志伟先生的潜在歧义理论,抽象的歧义格式所包含的歧义在代入具体成分时可能消除或保留。这里我们将“N+V”歧义格式分化为单义结构分别进行歧义成因和消解的讨论。

(一)主谓结构

在主谓结构中,“N”担任施事或感事,是动作行为的发出者或主体。参照知网的信息结构库,我们将典型的主谓结构的模式总结为以下几类:

N→V=[施事](个人名词/团体名词)→(事件,行动)

N→V=[施事](动物)→(事件,行动/状态)

N→V=[感事](表人名词/表物名词)→(事件,关系/状态)

通常来说,人或动物更容易发出动作,作为施事构成主谓结构,比较常见;而没有生命的物体也可以进入这种结构,如:长江奔腾、工程竣工,它们可以作为动作的感事进入结构,所以我们可以制定这样的规则,其中zwp表示主谓结构:

R1    IF N∈ V的主体语义类(即N的语义类为V的主体语义类或其子集)

AND V[+单独作谓语]

THEN N+V≌zwp

END IF

此条件的实现方法在于建立以动词为中心的词汇网络,针对动词的每个论元关系建立词库,再作为外部调用。高生命度的名词容易将N+V语符串通过心理加工构成主谓结构,当听到这类名词时听众容易产生“怎么样?”的语义期待,这也是这类名词不易构成偏正结构的原因。而“N”为人所共知的著名人物时,容易产生歧义,例如:鲁迅研究。

“N+V”形式的独立的主谓结构单独成句时往往受到语义上的很大限制,通常只能用于祈使句、表示对比或在口语中提问与回答,比较容易识别。如:

你说。

——谁去?   ——小明去。

我忘了,他记得。

(二)偏正结构

在偏正状中结构中,“N”描述“V”具有的某种特性,往往表示非常态的情况。其中有一种是由“N”作状语与某种不及物动词共同构成的,如:直线上升、五点出发、火线入党等,区分度比较明显,可以制定这样的规则,其中zzp表示状中结构:

R2    IF V[+自身动作] or V [+趋向动词]

AND N∈ V的主体语义类①

THEN N+V≌zzp

END IF

对于其他偏正状中结构来说,语义具有如下几种模式:

“N”表示范围。这种模式中的“V”在语义上一定存在一个域外的施事论元,如:局部调整、全线出击、侧面打听。

“N”表示时间、处所、方式、工具。这几种模式都是状语的常见用法,如:电话报名、网上缴费、乡村支教。

这种名词作为状语直接修饰动词的现象,简洁便当且鲜明直观,在古代汉语中就已经存在,如:风驰电掣、天翻地覆、灰飞烟灭等,在成语中仍有许多保留。另外,许多“N单+V单”的偏正结构已经被看作双音节动词收入了词典,如“龟缩、云集、瓜分”等。这些词数量有限且稳定封闭,用建立词库的方法进行标记就可以实现计算机对它们的自动识别。

在偏正定中结构中,“V”是中心语,具有动名兼类的性质,动词性减弱,名词性增强;“N”从自己的语义出发对“V”的类别进行限定,与“V”间是属性关系。有些结构中的“V”本身就与相关意义的“N”同形,如:合唱指挥、语文测验、学历证明。有些结构中的“V”则是在语境中获得名词性,如:政策调整、干部提拔等,其中的“V”指的是“V”所代表的动作事件。定中结构作宾语时,前面的谓语往往是既可以带体词性宾语又可以带谓词性宾语的,如表示判断、变化、心理态度等意义的动词。

定中结构主要有如下几种模式:

N→V = [受事](具体名词)→(事件,行动)

其中“N”是“V”的宾语,可以进入“把”字结构,这种情况在所有偏正式结构中所占比例最大,如“身体检查、日程安排、罪犯抓捕”。值得注意的是,“V”的缺省宾语一般不能构成这种结构,如“*学生教育”,因为“教育”的客体必然是学生,通常不这样说,而“学生”的下位概念则比较容易进入。如:小学生教育。

N→V = [结果](具体名词)→(事件,行动)

“N”的实体在“V”的影响下产生、改变或消失,可以用“出来”“成”检验。如:产品开发、服装剪裁、文件起草。

这两种结构中,“V”一般都是及物动词,“N”是“V”的宾语,有相应的“N+V”格式。对于这两种格式,我们制定这样的规则,其中dzp表示定中结构:

R3    IF N∈ V的客体语义类②

AND V[+过程性]

THEN N+V≌dzp

END IF

其它结构还包括“N”表示对象、目的,有时还包括表示处所、方式、工具等,这些情况下一般没有对应的“N+V”格式或变换后语义上发生改变。如:

对象:质量保证、会场布置、难民补助、社区服务

目的:会议筹备、主席选举、毒品搜查

工具:粮食救济、津贴补助、金钱奖励

方式:网络服务、行政干预、电话采访

处所:西部开发、地下工作、异地就业

对于这些格式,我们制定这样的规则:

R4    IF N∈ V的状况语义类∪V的时空语义类∪V的目的语义类③

AND V[+过程性]

THEN N+V≌dzp

END IF

其中有些“N”的意义与状中结构难以区分,有时状中结构也能充当名词性成分。为了对其进行区分,我们考虑这样的情况:偏正结构都是向心结构,整体性质由中心词的性质决定,状语修饰谓词而定语修饰体词,定中结构中的“V”呈现出明显的名词化。齐沪扬在《偏正式“N+V”短语研究》一文中将偏正式“N+V”结构的名词性和动词性连续情况绘制如下图④:

因此我们制定这样的补充规则:

R5   在句中作为谓语的一定是状中结构,作为主语、宾语、定中结构中心语和定语的一定是定中结构。如:

记者电话采访了张先生。(作谓语)

电话采访是一种调查手段。(作主语)

张先生接受了电话采访。(作宾语)

电话采访的内容无可奉告。(作定语)

(三)歧义结构

上文所述皆是基于约束法的消歧策略,但是不管语料的规模多大也无法概括语言的全貌,这些规则是根据现有语料制定的,难免挂一漏万。且有一种无法处理的情况,即:当“N”既属于“V”的主体语义类又属于“V”的客体语义类时构成歧义结构,无法以形式化的规则判断。好在语言自有其整体性,各个部分间能够相互影响,可以将其放到具体语境中,根据上下文信息,基于优选法,从若干备选语义中选择最优方案。没有上下文的、独立成句的情况,上文已经讨论过,一般都出现在对话中,也可以根据语境区分。例如,“理事会审查”原本是个歧义结构,但在下列语境中可以轻易区分:

XX公司的理事会审查工作已近尾声。

理事会审查通过了这项提案。

对此,基于现有语料,我们提出几个假设性质的规则:

R6 当句中出现了“V”的其他客体时,就可以认为这个“N+V”是主谓关系。例如:

在与中方新闻界交流、座谈的过程中,非洲朋友介绍了各自国家的新闻体制及运作情况。

蒙古教官培训阿富汗军队的费用大部分是由美国提供的。

鸡吃了混合食物比牛更能转化蛋白质。

R7 将“N+V”结构的左端记为Wi,若Wi-1为“由”“用”等介词,则可以认为这个“N+V”是主谓关系。

这种情况已经不是前述的自足结构,“N”由介词引入,语义上支配动词。例如:

我是公司的法人代表,是由任局长任命的。

这些工具大部分仍然由手工业或工场手工业方式生产,然后才装到由机器生产的工作机的机体上。

即将派往伊拉克的军人是根据美格“训练与装备”计划由美国教官培训的。

通过对这两个假设规则的分析,我们发现不能独立成句、必须作为句子成分才能出现的“N+V”结构已经上升到句子层面的语言形式了,本文不再讨论。

(本文得到国家“973”重大基础理论研究项目子课题“语言计算模型与理论:面向网络语言的句法和语义分析的理论模型[项目编号:2014CB340500]”的支持。)

本文写作过程中得到南京大学文学院沈阳教授、钟叡逸老师的具体指导;本文在解放军外国语学院作报告时,李宗江教授提供了宝贵意见。特此致谢!

注释:

①主体语义类包括:施事(agent)、当事(relevant)、感事

(experiencer)、领事(possessor)

②客体语义类包括:受事(patient)、内容(content)、结果

(resultevent)、致事(beneficiary)

③状况语义类包括:方式(manner)、工具(instrument)、材料

(material)时空语义类包括:时间(time)、空间(location)

④转引自:章婧.现代汉语定中N+V结构研究[D].北京,中国人民大

学,2008.

参考文献:

[1]俞士汶.计算语言学概论[M].北京:商务印书馆,2007.

[2]章婧.现代汉语定中N+V结构研究[D].北京:中国人民大学,

2008.

[3]冯志伟.论歧义结构的潜在性[J].中文信息学报,1995,(4):

14~24.

[4]李晋霞.定中“N宾+V”结构构成因素的考察[D].北京:教育部

语言文字应用研究所,2003.

[5]马真,陆俭明.“名词+动词”词语串浅析[J].中国语文,1996,

(3):183~188.

[6]耿国锋.名词性“N+V”短语分析[D].开封:河南大学,2008.

[7]詹卫东.面向中文信息处理的现代汉语短语结构规则研究[D].北

京:北京大学,1999.

[8]杨泉,冯志伟.面向中文信息处理的现代汉语“V+V”结构歧义

问题研究[J].语言文字应用,2005,(1):123~129.

[9]王锦,陈群秀.现代汉语语义资源用于短语歧义模式消歧研究

[J].中文信息学报,2007,(5):80~86.

[10]袁毓林.语义角色的精细等级及其在信息处理中的应用[J].中

文信息学报,2007,(4):10~20.

上一篇:相信自己英语演讲稿三分钟下一篇:对偶诗句有什么