【摘 要】
:
随着互联网的发展,网络上的数据呈现了指数级地增长,互联网的用户也不断增加。如何从各种数据中快速准确的找到人们需要的信息,并应对不同用户产生的不同规则及格式的数据,成
论文部分内容阅读
随着互联网的发展,网络上的数据呈现了指数级地增长,互联网的用户也不断增加。如何从各种数据中快速准确的找到人们需要的信息,并应对不同用户产生的不同规则及格式的数据,成为当前信息领域亟待解决的两个问题。本文以应急领域为应用背景,以地名数据为研究对象,研究如何解决上述两个问题。主要的工作包括基于统计学习的中文地名自动识别和中文地名标准化。中文地名识别属于自然语言处理领域中命名实体识别的范畴,已有研究使用基于规则的方法以及基于统计学习的方法。本文采用基于统计学习的方法,使用最大熵模型进行中文地名自动识别,主要的工作包括:1、中文地名特点分析:包括对中文地名用字特征、出现语境等特点进行分析。2、中文地名识别特征选择和建模:根据中文地名的特点,选择特征并使用最大熵对地名识别进行建模。3、中文地名识别实验:使用标准语料库,进行地名识别的实验,并分组实验不同特征在模型中的作用。并通过添加规则改进地名识别的召回率。实验证明,最大熵模型的识别结果相比对比系统有显著提高。中文地名标准化包括两个部分,即地名的标注和归一化。地名的标注包括将长地名中不同元素块分割开以及按地名元素含义不同加上不同标签。归一化指解决重名、缺失等问题,使地名符合特定格式。地名标准化的主要工作包括:1、中文长地名分词:首先使用已有工具对长地名分词,然后使用启发式的算法结合统计语言模型改进分词结果。2、中文长地名结构标注:对于正确分词的地名,选择特征,使用条件随机域模型标注其不同元素,然后通过实验进行验证。在实验中,首先构建了包含6000个包含标注的长地名的语料库,然后进行实验。实验结果证明,经过分词改进的地名标注正确率有明显提高。3、中文地名归一化:对于存在重名、缺失、拼写错误问题的地名,使用规则的方法进行更正。
其他文献
由于可配置的处理器可以针对某种特定应用进行指令集的裁制,在嵌入式系统设计中被越来越广泛地使用。本文介绍一种可配置可扩展的体系结构——传输触发体系结构(Transport Tr
Internet的迅猛发展和普及使得流式传输技术成为当前的一大热点,在多媒体实时业务中的应用尤为明显。目前多媒体实时应用多采用UDP协议来传输,然而UDP不支持拥塞控制。当基于TC
随着社会的高速发展,人们的生活也处于高速运转中,日常生活中所接触到的信息也越来越庞杂,如何存储和处理这些庞大、复杂的数据,成为摆在科研人员面前的难题,对数据库的存储
Internet/Intranet的飞速发展将地理信息系统带入了一个崭新的发展阶段。WebGIS是Internet/Intranet技术应用于GIS的产物,是目前GIS技术的一个热点也是它的发展方向。WebGIS
随着无线网络的发展,越来越多的应用需要传感器网络能够支持多个移动的Sink随时随地的数据获取。然而当前的工作主要集中在单个静止Sink情况下的数据获取,对存在多个随机移动
WebGIS指的是利用互联网技术来扩展和完善地理信息系统的一项新技术。人们可以利用它寻找他们所需要的各种地理空间数据、图形和图像,而且可以进行地理空间分析。国家“十一
随着Internet的飞速发展,互联网上的信息资源日益丰富,Web数据以多种形式存在,没有特定的模型描述,数据本身存在着自我描述性和动态可变性,从纷繁复杂的资源中得到高质量的信
随着数字家庭产业的蓬勃发展,家庭网络成为产业发展的前沿阵地。功能日趋强大和智能化的家庭网关在家庭网络中的作用不再局限于沟通家庭内部网络和外网,而逐渐演变成为家庭网络
容迟/容断网络是一种不满足Internet基本假设的新型无线网络。容迟/容断网络中通常缺乏稳定的端到端连接,传输延时较高。使用传统的无线网络路由协议难以实现容迟/容断网络中
为了提高企业铁路货运站各项作业的自动化程度,实现管控一体化、局站一体化的战略目标,铁路运输智能调度系统已经成为相关企业必不可少的重要工具。铁路调车作业计划辅助编制