论文部分内容阅读
随着经济的快速发展,中国的数字化城市也在逐步地建立,在城市信息中很大一部分与地理位置有密切关系,并且人们的社会活动又大多与地址联系紧密,大众与城市各职能部门对地名地址服务的需求日益增长。当前城市地址主要是以文字的形式进行表达和存储,地理编码技术可以建立地址文本数据与地图上可视的空间数据之间的关联,整合非空间数据与空间数据,实现对地址文本数据的应用。然而,由于中文地址表达、记录方式不统一,存在结构不完整的情况,从而造成了地址信息的歧义,这对与城市相关的研究工作开展十分不利。所以对非规范中文地址进行解析,使地址文本数据标准化,并建立其与空间数据的联系,对城市发展中涉及非规范中文地址的各类数据挖掘、分析等工作具有重要的意义。本文以苏州市为研究区,首先基于自然语言处理技术对苏州市地址文本数据进行清洗,包括转化繁/简体、全/半角、解析地址中特殊符号的含义;然后基于条件随机场对获取到的苏州市地址进行切分,并针对地址历史曾用名歧义与地址层级缺失歧义进行地址标准化;最后基于改进的编辑距离(Levenshtein Distance)与Trie树算法进行非规范中文地址匹配,并构建非规范中文地址智能匹配系统。通过研究与应用,提高了常见三类非规范中文地址数据(带有特殊符号、缺失地址层级、错误字符)的匹配准确度与效率,为非规范中文的地址解析提供了一种新的途径。本文的主要研究内容如下:(1)分析了地理编码(地址匹配)技术相关的发展历程和应用领域,阐述了地址匹配的研究背景、研究现状与研究意义,提出了本文的研究内容与技术路线,并论述了中文地址分词的三种常用方式即基于词典(规则)、基于语义(理解)、基于统计,详细叙述了条件随机场模型的相关理论。(2)获取苏州市地址数据并对其进行处理,包括数据预处理、数据标注以及地址修歧。对地址数据进行繁简体转换,特殊符号转换等数据预处理。构建适用于苏州市地址数据的条件随机场标注体系,经过对比选取合适的特征模板采取人工与机器相结合的标注方式对地址进行标注,这种方法不需提前构建地址要素词典,也在一定程度上避免了地址的歧义问题。提出基于地址层级的非规范中文地址补全、历史曾用名等方法,实现地址歧义修正。(3)构建非规范中文地址智能匹配系统。首先对用户搜索地址进行地址清洗,然后基于改进的编辑距离算法与苏州地址数据的Trie树结构进行地址匹配,完成地址文本信息到空间地理坐标之间的转换。