无结构化文本中事件的时空信息抽取方法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:xzw333
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息时代的高速发展,文本信息在网络上的数量越来越多,并且其数量正在以不可估计的速度增加。面对数量如此巨大的网络文本信息,如何从中获得对用户有用的信息是当今社会研究的一个热门话题。为了方便用户从大量的信息源中快速的获取用户所需要的信息,获取信息的各种方法正逐渐被人们探究出来。通常,提到信息抽取就会说到信息检索,两者相互联系、相互补充。信息检索所包含的范围比较大,主要包括文档的搜索、辨别、聚类等各种技术,利用这些技术可以方便用户在大量的文本集中找到所需的文档。但是,信息抽取技术与信息检索不同,它是为方便用户从某类相关的文档中寻找更加细致的信息,如,命名实体、事件信息、时间信息等,这些精细信息使用户对信息抽取的需求越来越高,同时这些精细信息的显性化、格式化,大大方便了专家学者对于某领域内的研究和应用。信息抽取是将自然语言文本中无序的信息通过一定的技术和方法,条理的输出具有一定格式的信息。近几年,信息抽取的范围不断扩大,关于事件的信息抽取研究也越来越被关注,技术上也多种多样,总体而言,基于统计的技术和机器学习的方法在信息抽取方面发挥着重要的作用。本文研究了混合双向隐马尔科夫模型以及与其相关的主要算法;评估中的向前算法;模型的学习中用来对训练样本进行标记的极大似然算法和用来对训练样本进行部分标记的算法;解码中的Viterbi算法。重点讨论了HMM在无结构化文本中信息抽取中的应用,建立了基于混合双向HMM的时空抽取模型。通过封闭测试和开放测试对抽取后的数据进行对比和分析,证明对HMM模型的改进方法是有效的。本文的主要研究内容包含下列四个方面:1)事件时空信息的结构化表达。概括分析中文文本中事件的时空信息的语言特点和语义构成之后,建立了事件的时空信息标注体系和识别模型;以鸟类分布特征的研究为例,以CNKI中的文献元数据为主要数据源,建立了无结构化文本中时空信息的标记方法,为接下来的时空信息的研究提供相对标准化的训练文本和测试文本。2)时空信息抽取。通过剖析汉语文本中时间信息表述的一般特点,采用了时间字典和自定义规则相结合的时间实体推测和标准化表示,利用基于混合隐马尔科夫模型的标注方法,实现了某特定事件的时空信息识别。3)事件时空信息匹配与可视化。以识别出的时空信息为研究对象,讨论了特定事件的时空信息的配对方法并将时空对进行直观表示,通过聚类分析将特定事件的时空过程进行重构,将事件的时空信息有机、直观的展现在地图上。4)时空信息的应用。将鸟类的分布特征及时空变化展现在地图上,为鸟类爱好着和鸟类专家提供有价值的信息,实现科学预测,为社会提供鸟情方面的有力信息支持。时空信息的研究也可在其他领域运用,如:地籍管理、智能交通和国防军事等领域。
其他文献
随着大数据时代的来临,数据中心要存储或处理的数据的规模急剧攀升,因此有必要对现有数据中心进行扩容或者建造更多大规模数据中心,伴随而来的是能耗的大幅增长。在能源紧缺的今
近年来云计算的发展趋势让人瞩目,其用户数量正日益增加,被认为是继微型计算机、Internet后的第三次革命。云计算:就是以“网络”为中心,通过链接分布在不同地理位置的软、硬
面向双边资源整合的服务模式(BIRIS)是典型的基于中介方的服务模式,服务中介聚集了大量的顾客与服务提供者,顾客向中介方表达自己的服务需求,服务提供者向中介提供服务资源。中
糖尿病是常见病和多发病,目前还没有彻底治愈的办法。对血液中葡萄糖含量的监测是进行糖尿病诊断和治疗的重要参考依据。传统的血糖监测方法是通过间歇式采集指血的方式。动态
通用即插即用(UPnP)是由一系列协议组成的协议簇,它使用简单服务发现协议(SSDP)来控制设备加入和离开网络,使用超文本传输协议(HTTP)保证应用层通信,使用扩展标记语言(XML)和简
电子商务的迅速发展使得越来越多的用户喜欢在网上购买商品,用户在购买商品时通常喜欢参考别的用户对该商品的评论,来判断该商品是否适合自己。目前很多电子商务网站都有商品总
脑电信号包括头皮脑电信号、颅内宏电极脑电信号和颅内微电极脑电信号三种类型。这三种脑电信号经分解得到的源信号依次更精细,更接近于神经元。目前大多数专家将研究焦点集中
计算机集群的广泛应用给人们带来方便的同时,也带来了能耗问题,如何有效地利用能源,降低不必要的能耗已成为一个迫切需要解决的关键问题。作为目前最热门的海量数据处理框架,Hado
在无线通信技术飞速发展、无线业务需求日益增大、频谱“不足”与“浪费”并存的时代背景下,认知无线网络(Cognitive Wireless Network)被认为是解决频谱资源供求矛盾的核心架
在处理计算机问题时,现实中遇到的数据一般都是高维度的,存在很多不相关的冗长特征。这为现实问题的解决带来了一定的困难。人们研究出了特征选择算法,以此提高算法选择的准