地名地址匹配模型构建方法研究

1地名地址匹配原理分析

地名地址匹配,也就是地理编码,是指按照给定的地址表格要求标准化地理位置坐标的过程,即将自然语言描述的地址转化为地理坐标的过程,最终能通过空间属性数据检索到实体的确定位置。

实现地名地址匹配一般需要下面二个步骤:第一步,拆分和标准化待匹配的地址字符串;第二步,将已经标准化的关键地址值和数据库中的地理实体进行关联,如果关联成功,就把地理实体坐标更新到属性数据中的相应记录。这样就完成了对该记录的地名地址的匹配。

在匹配过程中,需要两种类型的数据,一种是地理位置实体信息,如街道地址、邮政编码、门牌号、标志物名等;另一种是在匹配过程中起空间参考作用的地图定位信息(即空间坐标),如街道地图数据、邮政编码地图数据、门牌号地图数据、标志物名地图数据等,完成匹配后,给前者赋予地理空间坐标,这也是地址匹配模型构建中最核心的部分。

地名地址匹配实现应具备三个要素:第一,明确需要匹配的地理对象,因为不同的地理对象需要采用不同的处理方法;第二,有确定的参考系统,参考系可以基于坐标或者基于地理标示;第三,必须要建立地址标准化模型,该模型决定了地址数据库的结构、地址拆分的标准、地址匹配的准确度等。

2模型构建关键技术

由于中文地名地址存在着很多遗留问题,并不如国外的地址规范,因此想要通过人工归纳获取语法规则是不现实的,而且不同的文法规则可能会存在矛盾,例如行政区划规定必须包含“市、区、镇、村”,但“重庆市南岸区学府大道9号学府锦园”这条地址是完全正确的,因为很多街路巷有可能跨镇,所以并不存在那条路必须属于哪个镇的说法,这就意味着为了解决这种矛盾需要说明不同规则特定的使用环境,有些特殊现象可能每增加一个新的地址都需要增加一些文法,这大大增加了算法的复杂度。在此基础上,基于统计的语义分析方法应运而生。

基于统计的中文语义地址模型由语义块和句式共同构成,语义块即通过地址分割获得的地址要素,句式是指地址要素构成地址的规则,即地址要素间的空间关系,因此构建地址模型的技术路线如图1所示:

2.1地名地址要素分类

地名地址是位置或区域的结构化文字描述方式,地址模型是对地址的抽象表达,而地址要素就是模型的最小语义单元,例如“学府大道”就是一个地址要素,如果拆分为“学府”和“大道”,虽然都能构成词,但在该条地址中就不具备实际意义了。无论是地址清洗、解析、分词或匹配,都必须按照一定的标准,而这个标准就是由若干个地址要素构成的。若忽略地址要素间的空间关系,则地址模型由一系列语义块组成,即地址要素,故重庆市中文语义地址模型的扁平化表达为:

地址=[地址要素](1~N)(1)

式中N指该地址可以达到的粒度。

单独的地址要素不具有实际意义的,只有经过分类后具有类型标识的地址要素才能用于空间关系分析,这就是地址要素标注的过程。《地名地址数据规范》(2010)中规定地址要素包括行政区划、地址、子地址。

2.2地名地址拆分

地名地址要素是地址模型的最小单元,因此构建模型的第一步是将地址拆分成地名地址要素。一般的拆分方法有两种:基于字符串匹配的拆分方法和基于规则的拆分方法。

基于字符串匹配的拆分方法比较机械,根据拆分的方向不同有分为正向匹配和逆向匹配;或者根据优先匹配的字符串长度的不同,分为最小匹配和最大匹配。由于地址数据从左往右存在不可逆的顺序,因此采用最大正向匹配效果最佳,该方法是国内最常用的分词方法。但由于自然语言的复杂性,这种简单的机械分词方式不能解决以下问题:

1)地址要素拆分时存在歧义,相同的词在不同的地址中可能代表了不同的地址要素,有不同的切分方法,故最大正向匹配算法得到的唯一结果并不一定是正确的,由此可以看到,一个好的分词方法必须要有歧义字段切分策略。

2)由于中文本身的特点,人工归纳的地址要素表中不可能包含所有的地址要素,未包含的地址要素被称为未登陆词,未登录词不能通过词库的匹配找出,因此未登录词的识别也是分词方法需要考虑的问题。

基于规则的分词方法是利用自然语言语法、句法的分析来进行分词,在自然语言理解的基础上进行分词,从而一定程度上消除歧义。语法规则、词性、构词方法等都是人类学习语言的工具,而恰恰这些规则又很容易用计算机的算法描述,收集所有地址中可能出现的歧义字段,形成一个歧义字段库,根据所建立的歧义字段信息消除歧义,确定分词结果,这是一种人工智能的分词方式。

综上,如果地址模型构建过程中,地址数据较为规范,我们可以直接利用基于字符串匹配的分词方法进行划分;而待匹配地址来源较为复杂,地址描述不规范的则利用基于字符串匹配的分词方法,然后结合基于规则的分词方法完成地名地址拆分。

2.3地名地址要素空间关系

理论上,地址所描述的位置应与某个地理实体重叠,而地址要素与地理实体之间存在着包含、隶属等复杂的嵌套关系。具体关系如下:

1)区域间的包含关系,如重庆市包含渝北区;

2)区域间的相邻关系,如龙山街道与龙溪街道相邻;

3)道路间的邻接关系,如新溉大道与加州路邻接;

4)方位关系,点位之间的相对方向;

5)距离关系,点位之间的相对距离关系,其中后两种涉及较少。

地址要素一般存在一定排列顺序,传统的地址模型基本上采用人工归纳地址规则。但随着地址规则的增加,不同规则间会出现重复或矛盾。在建立地址模型时,我们从地址要素间的空间关系出发,利用机器自我学习的方式构建自适应的地址模型。

2.4分类条件概率计算

假设S表示一条原始地址串,Wi则表示每个组成的地址要素,则有

式中

P(S)——地址串S成立的概率。

利用条件概率公式展开得到

式中

P(W1)——第一个地址要素出现的概率;

P(wi|wi-1)——第i-1个地址要素出现的前提下第i个地址要素出现的概率。

这里的条件关系其实也受到地址要素间空间关系的约束。单纯从计算上来看,组成地址串的地址要素越多,其条件概率就越难估计,因为P(wi)和前面i-1个地址要素都相关,可能性太多。因此我们可以利用马尔克夫假设,假设任意一个地址要素出现的概率只同它前面的地址要素有关,则式(3)可以简化成为式(4),这就是二元统计语言模型。

根据条件概率的定义

因此获取P(S)的问题转换为了估计每个地址要素的联合概率和边缘概率问题。根据大数定理,只要统计量足够大,相对频率可以等于概率。也就是说,在有足够的地址数据时,只需要数出当前地址要素和前一地址要素前后相邻出现的次数,以及当前地址要素出现的次数即可。

2.5模型平滑

上述获取条件概率的过程就是训练模型的过程,但是与无论多高级的模型都无法概括所有语言现象一样,无论有多少地名地址数据,都不能保证包含了所有的要素,此获取的条件概率为0,这种现象在统计语言模型中被称为“不平滑”,此时则需要一个新的估算概率的公式,即古德-图灵估计,其核心思想为:从概率的总量中分配一个很小的比例给所有没有看见的事情。在这里,“没有看见的事”就是未登陆词。由于地名地址数据是有限样本,因此未登录词的问题是不可避免的,因此进行模型平滑,以减弱未登陆词对模型构建效果的影响是很有必要的。

对于出现次数非常少或为0的二元组(Wi-1,Wi),按照平滑思想,使所有已出现情况的条件概率小于1,差值则可以赋予未出现的情况,公式如下

式中,

T——阈值,一般为8~10;

同时为了保证式(6)成立,应有

3结语

本文在分析重庆市地址结构和规律的基础上,提出的这种地址匹配模型构建的算法,能较好地解决绝大多数非空间坐标地址的匹配问题。但本文的办法也有局限性,要求地址数据全面并且标准,如果标准地址库不全或者不完善,将会较大地影响匹配结果

从实际分析结果来看,匹配模型对方位词、非标准地址、未登陆地址要素或者其他词的识别率比较低。原因是地址的拆分完全按照词库,不能对其他词或者地址要素进行识别,对于复杂的地址更难以解析。同时要你能解决这些问题,除了要建立一个标准的完善的地址要素库外,还需要增强对自然语言处理能力。

摘要：随着数字化的发展,越来越多的应用要求通过采用自然语言文字描述直接找到对应的详细的地址信息,本文将提出一种地址匹配模型构建的算法,实现将没有坐标信息或者坐标信息不标准的属性数据与包含坐标信息的空间数据对应起来,建立他们之间的关联关系,通过实践证明此模型算法处理非空间坐标地址的匹配问题效果比较好。

关键词：地理编码,地址模型,要素拆分

参考文献

[1] 江洲,李琦.地理编码(Geocoding)的应用研究[J].地理与地理信息科学,2003,19(3):21-25.

[2] 肖振强.城市地址信息空间化的原理及方法研究[D].山东科技大学,2011.

[3] 宋启凡,王强,戚文华.地址编码标准化研究[A]//中国测绘学会.中国测绘学会2010年学术年会论文集[C].中国测绘学会,2010:4.

[4] 于滨.面向经济普查项目需求的模糊中文地址匹配方法研究[D].中南大学,2010.

[5] 叶海波.城市地址编码的技术及应用[D].中国石油大学,2009.

[6] 胡青,徐建华,王志海.IS数据库中地址自动匹配方法研究[J].测绘与空间地理信息,2008(06):50-52.

地名地址匹配模型构建方法研究

参考文献

热门文章

相关推荐