非规范中文地址的智能匹配研究

来源 :中国矿业大学 | 被引量 : 0次 | 上传用户：ifeelart

【摘要】

：

【作者】

：

史名君

【出处】

：

中国矿业大学

【发表日期】

：

2021年03期

【关键词】

：

非规范地址匹配地址清洗条件随机场模型编辑距离 Trie树

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着经济的快速发展,中国的数字化城市也在逐步地建立,在城市信息中很大一部分与地理位置有密切关系,并且人们的社会活动又大多与地址联系紧密,大众与城市各职能部门对地名地址服务的需求日益增长。当前城市地址主要是以文字的形式进行表达和存储,地理编码技术可以建立地址文本数据与地图上可视的空间数据之间的关联,整合非空间数据与空间数据,实现对地址文本数据的应用。然而,由于中文地址表达、记录方式不统一,存在结构不完整的情况,从而造成了地址信息的歧义,这对与城市相关的研究工作开展十分不利。所以对非规范中文地址进行解析,使地址文本数据标准化,并建立其与空间数据的联系,对城市发展中涉及非规范中文地址的各类数据挖掘、分析等工作具有重要的意义。本文以苏州市为研究区,首先基于自然语言处理技术对苏州市地址文本数据进行清洗,包括转化繁/简体、全/半角、解析地址中特殊符号的含义;然后基于条件随机场对获取到的苏州市地址进行切分,并针对地址历史曾用名歧义与地址层级缺失歧义进行地址标准化;最后基于改进的编辑距离(Levenshtein Distance)与Trie树算法进行非规范中文地址匹配,并构建非规范中文地址智能匹配系统。通过研究与应用,提高了常见三类非规范中文地址数据(带有特殊符号、缺失地址层级、错误字符)的匹配准确度与效率,为非规范中文的地址解析提供了一种新的途径。本文的主要研究内容如下:(1)分析了地理编码(地址匹配)技术相关的发展历程和应用领域,阐述了地址匹配的研究背景、研究现状与研究意义,提出了本文的研究内容与技术路线,并论述了中文地址分词的三种常用方式即基于词典(规则)、基于语义(理解)、基于统计,详细叙述了条件随机场模型的相关理论。(2)获取苏州市地址数据并对其进行处理,包括数据预处理、数据标注以及地址修歧。对地址数据进行繁简体转换,特殊符号转换等数据预处理。构建适用于苏州市地址数据的条件随机场标注体系,经过对比选取合适的特征模板采取人工与机器相结合的标注方式对地址进行标注,这种方法不需提前构建地址要素词典,也在一定程度上避免了地址的歧义问题。提出基于地址层级的非规范中文地址补全、历史曾用名等方法,实现地址歧义修正。(3)构建非规范中文地址智能匹配系统。首先对用户搜索地址进行地址清洗,然后基于改进的编辑距离算法与苏州地址数据的Trie树结构进行地址匹配,完成地址文本信息到空间地理坐标之间的转换。

其他文献

直抗阳性同时含有多种免疫性抗体的鉴定与配血

<正>目的通过本病例分析、探讨直抗阳性同时含有多种免疫性抗体的鉴定与配血。方法通过对患者红细胞进行放散后定型,用几组已知O型红细胞,对患者血清进行不同条件的吸收、放

会议

浅谈对标准自我声明公开优势分析及建议

企业产品和服务标准自我声明公开和监督制度的全面实施和建设,使得我国企业的标准化工作有了新的改变。本文试图阐述标准自我声明公开制度的对企业、监管部门及公众的优势,提

会议

标准声明公开制度优势建议

《汽车维修与保养》杂志专家座谈会在京召开

本刊讯2014年8月16日,《汽车维修与保养》杂志专家座谈会在京召开,会议由北京《汽车维修与保养》杂志社副社长李强主持,胡建军、薛庆文、尹立会、庄开明、于洪波、母云红等知

期刊

维修与保养杂志社《汽车维修与保养》座谈会

铁路客车空调通风的研究现状

本文着重阐述了空调客车通风系统引起的新风量问题、气流组织问题、空气品质问题以及热舒适性问题等方面的研究,指出了现有研究中过多套用了建筑室内的研究成果,忽略了客车自

会议

气流组织空气品质铁路客车通风系统

水杨酸和乙烯利对甘蔗抗旱性的影响

本试验是在控制水分的条件下,对两个甘蔗品种桂糖17号和新台糖22号于分蘖初期喷施乙烯利和水杨酸(浓度均为100mg/L)溶液,并定期分析了甘蔗叶片的细胞电解质相对外渗率,叶绿素

会议

乙烯利水杨酸水分控制甘蔗抗旱性

涡轮动力模拟器自动控制系统的设计与实现

本文介绍了涡轮动力模拟器自动控制系统的各个组成部分,如气压系统、温度控制、数字阀控制等,并介绍了相关的硬件系统组成以及典型的控制方法.

会议

涡轮动力模拟器数字调节阀LABVIEWPID自动控制系统温度控制

生活中白血病的诱发因素

一提到白血病，人们总是急迫地问：为什么会患白血病？是什么原因引起白血病？现代科学对白血病病因和发生机理还不完全清楚，目前还不能归结为某一种原因。比较认同的观点是生物、物理、化学等多因素共同作用于某些高危人群而致病。　　那么，哪些因素与白血病的发生有关呢？　　　　放射物质辐射　　当应用放射线治疗肿瘤等疾病后，可能诱发白血病或者第二肿瘤。意外的核事故受害者，经过一段时间后可能发生白血病等血液疾病。著

期刊

白血病诱发因素生活发生机理现代科学高危人群

分段式固体发动机颗粒沉积规律研究

开展了分段式固体发动机颗粒沉积规律研究,探究了分段药柱端面限燃层高度对分段式固体发动机熔渣沉积的影响。结果表明,随着限燃层高度的增大,分段式发动机的熔渣沉积量明显

期刊

分段式固体发动机限燃层熔渣沉积湍流效应

非线性回归模型在边坡变形监测中的应用

为了对边坡变形进行准确预测,本文在线性回归模型的基础上,结合边坡变形实际监测数据,提出了一种边坡变形预报的非线性模型。文章根据最小二乘原理,采用线性逼近的方法对非线性模型的参数进行求解,并比较了3种不同非线性模型的回归精度。实验分析表明:非线性回归模型中的Weibull模型能精确预报边坡变形,可为今后高精度边坡变形预报提供参考。

期刊

非线性回归最小二乘原理边坡变形nonlinear least square method slope deformation

非规范中文地址的智能匹配研究

其他学术论文