面向网络文本的位置信息提取研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:BIGSKYKING
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网的快速普及,网络已经成为了产生地理信息的重要渠道,据统计,接近70%的互联网数据与地理信息有关。由网络生产的空间位置数据已经与专业采集设备收集的空间位置数据总量相当。从文本中快速、准确地提取出位置信息,可以大大提高数据采集效率,更好地满足人们对地理信息的需求。文本中的位置信息包括地理命名实体和相对位置信息两部分,地理命名实体即为文本中的地名和部分组织机构名,相对位置信息依附于实体而存在,用来描述实体间的空间关系。现有的研究往往只关注地理命名实体的提取方法,忽略了对实体间的相对位置关系的识别和转化,也缺少相关的位置信息语料库建设。同时,现有的识别方法仍然有很多不足,如对复杂地名识别召回率不高、识别范围不准确等。因此,针对网络文本中的位置信息自动提取中存在的问题进行研究,在理论上和实践中都有很重要的意义。本文在国内外现有的研究基础上,建立了位置信息语料库,其中增加了对相对位置关系的标注;基于扩展后的语料库,设计了文本中位置信息的提取和转化方法。主要内容和贡献如下:(1)建立了基于网络文本的位置信息标注语料库,设计了相关的标注系统。本文从相关网站爬取了大量语料,并对其进行文本提取、预处理、清洗、分词、词性标注等处理。以IBO标注体系为基础,设计相关标签对文本进行快速标注,建立位置信息语料库。该语料库解决了目前公开语料数据不足、语料时效性不强、缺少对相对位置信息标注等问题。(2)引入BERT预训练模型,设计了基于BERT-Bi LSTM-CRF复合模型的识别方法。BERT模型具有强大的文本特征表达能力,Bi LSTM可以很好地提取上下文特征,CRF模型则对标签分布进行约束。本文通过设计对比试验,结合相关评价指标,验证了本方法相比于其他方法的先进性。(3)将文本中位置信息转化为结构化信息。对相对位置信息进行总结,归纳出常见的四种关系语义和地理命名实体间的三种分布结构。并基于百度地图平台,设计了文本中的位置信息推理和转化方法。最后,结合当前新冠疫情的实际需要,开发了从文本中提取路径的示范应用,对转化方法进行了验证。
其他文献
水中的氢氧稳定同位素(δ18O和δ2H)是研究水文循环过程的重要工具。云贵高原位于我国西南部,是湖泊分布较为集中的地区之一,湖泊在局地水文循环与气候变化中起重要作用。湖水同位素受入湖水体同位素,湖水蒸发过程与湖水出流状况等因素的影响。因此可利用湖水同位素研究流域内各水体相互作用以及模拟湖水的水量平衡。本文以云贵高原蓄水量最大、湖水最深的抚仙湖为研究对象,通过在流域内开展大气水汽、大气降水、湖水、河
随着我国经济建设的发展,城市空间的利用变得愈加紧张,满足城市建设的基坑工程数量日益增多。同时,由于基坑开挖深度的加深、城市建筑密度的加大、地下管线布置的加密,基坑开挖支护难度不断提高。在此背景下,基坑稳定性问题显得愈发突出,而支护结构体系的稳定性构成了基坑稳定性的重要组成部分。本文首先将基坑的稳定性分为结构稳定性和正常使用稳定性,把正常使用稳定性作为原则判断基坑的稳定性。总结了基坑稳定性研究现状,
随着我国建筑工程行业的蓬勃发展,难免会有烂尾项目的产生。盲目拆除烂尾楼工程造成环境污染和资源浪费的同时也会严重影响人们的正常生活。近年来,关于烂尾楼加固的研究我国已经取得很多成果,但是在选择加固方法时个人的工程经验占主导地位,很少综合考虑经济、技术和环境等因素。基于此,本文以工程实例为背景,对加固方法的选用进行综合分析研究,以便选择出更适合项目的加固方案,并对优选出的加固方案进行受力性能分析。本文
能源短缺和环境污染问题一直是人们迫切需要解决的问题,清洁能源的出现给人们带来了曙光。而钙钛矿和量子点因为成本低和易于制造而受到人们的青睐。虽然人们已经对钙钛矿和量子点做了大量的研究,使其光电转换效率以指数的形式增加,但内部的机理一直困扰着人们。而飞秒瞬态吸收的出现正好可以解决这一难题,这对科学的进步是非常重要的。本文我们利用飞秒瞬态吸收光谱技术对CdSe量子点和钙钛矿薄膜进行了超快动力学研究。我们
染料废水具有有机污染物浓度高、色度高、含盐量高、可生化性差等特点,单一的物化或者生化处理难以达到良好的处理效果。本研究以某染料生产企业的实际生产废水为研究对象,采用铁碳微电解/Fenton—蒸发—厌氧—A/O组合工艺处理该废水。通过试验确定各单元的最佳运行参数,为工程设计提供参考,工程的应用证明该组合工艺对此生产废水处理的可行性,同时也为相似废水的处理提供了借鉴。铁碳微电解/Fenton试验结果表
近年来,基于硫酸根自由基的高级氧化技术(SR-AOPs)在废水处理领域得到了越来越多的关注。常见的氧化剂除了过一硫酸盐和过二硫酸盐外,亚硫酸盐以其低廉的价格和对环境友好的特性也被广泛的用来产生硫酸根自由基。目前除了过渡态金属活化的方式,能量协助活化亚硫酸盐的方法鲜有报道。相较于过渡态金属,能量协助的方式对于环境的影响更小。因此,开发新的亚硫酸盐活化方式是非常有必要的。在本论文的研究工作中,分别考察
近年来,“新零售”概念的提出,加之国民生活水平的提高以及网络技术的飞速发展,国内零售行业整合速度逐渐加快,迎来了巨大的革新一—迈入自有品牌时代。自有品牌在国内外发展的阶段和程度还有较大差距,一方面,传统零售商纷纷布局自有产品生产线,线上线下全渠道营销;另一方面,以京东、网易、阿里为代表的网络零售平台推行各品类自有品牌,且感知质量和接受度越来越高。这使得零售商自有品牌的发展竞争越发激烈。网络零售相比
在导弹飞行制导的过程中,导弹前端的位标器起着很重要的作用。因此对于需要精准打击的导弹来说,前部位标器的跟踪精度就非常关键。而位标器在测试阶段所要用到的核心测试仪器就是测试跟踪转台。为了保证位标器的跟踪精度,就必须首先保证测试转台的精度。所以对于转台精度与驱动控制的研究就很有意义。本文首先介绍了转台研究领域的历史以及发展现状,对多种不同类型的转台以及转台精度的分析方法进行了对比得到其特点,同时介绍了
微型导弹不仅继承和保留了传统导弹的优点,而且效费比高、隐蔽性强,可支持手持、无人机等多平台发射,将在未来战场上发挥重要的作用。然而微型导弹的舵机系统并不是传统弹药舵机系统的复制和小型化,而是舵机技术在更小空间、更低成本、更高要求下的延伸和发展。目前世界各地在微、小型智能弹药舵机的设计中都趋于使用电动舵机,但其传动元件较多,不易实现微型化,且存在控制带宽窄、电磁干扰等问题。本文基于压电双晶片设计了一
在过去四十年的发展过程中,由于历史渊源、国家战略部署和区位条件,中国的产业结构和制造业发展呈现出明显的地区差异。自2000年以来,中国的工业结构已逐渐由重化学工业主导。因此,中国的经济增长越来越依赖自然资源的消耗。拥有丰富资源的资源型城市很大程度上成为整个国民经济发展的基础能源和重要原材料的主要供应基地,同时也在我国的经济发展过程中做出了重大贡献。但是,由于资源型城市大多位于西部与东北部,在初期时