论文部分内容阅读
随着网络信息时代的高速发展,文本信息在网络上的数量越来越多,并且其数量正在以不可估计的速度增加。面对数量如此巨大的网络文本信息,如何从中获得对用户有用的信息是当今社会研究的一个热门话题。为了方便用户从大量的信息源中快速的获取用户所需要的信息,获取信息的各种方法正逐渐被人们探究出来。通常,提到信息抽取就会说到信息检索,两者相互联系、相互补充。信息检索所包含的范围比较大,主要包括文档的搜索、辨别、聚类等各种技术,利用这些技术可以方便用户在大量的文本集中找到所需的文档。但是,信息抽取技术与信息检索不同,它是为方便用户从某类相关的文档中寻找更加细致的信息,如,命名实体、事件信息、时间信息等,这些精细信息使用户对信息抽取的需求越来越高,同时这些精细信息的显性化、格式化,大大方便了专家学者对于某领域内的研究和应用。信息抽取是将自然语言文本中无序的信息通过一定的技术和方法,条理的输出具有一定格式的信息。近几年,信息抽取的范围不断扩大,关于事件的信息抽取研究也越来越被关注,技术上也多种多样,总体而言,基于统计的技术和机器学习的方法在信息抽取方面发挥着重要的作用。本文研究了混合双向隐马尔科夫模型以及与其相关的主要算法;评估中的向前算法;模型的学习中用来对训练样本进行标记的极大似然算法和用来对训练样本进行部分标记的算法;解码中的Viterbi算法。重点讨论了HMM在无结构化文本中信息抽取中的应用,建立了基于混合双向HMM的时空抽取模型。通过封闭测试和开放测试对抽取后的数据进行对比和分析,证明对HMM模型的改进方法是有效的。本文的主要研究内容包含下列四个方面:1)事件时空信息的结构化表达。概括分析中文文本中事件的时空信息的语言特点和语义构成之后,建立了事件的时空信息标注体系和识别模型;以鸟类分布特征的研究为例,以CNKI中的文献元数据为主要数据源,建立了无结构化文本中时空信息的标记方法,为接下来的时空信息的研究提供相对标准化的训练文本和测试文本。2)时空信息抽取。通过剖析汉语文本中时间信息表述的一般特点,采用了时间字典和自定义规则相结合的时间实体推测和标准化表示,利用基于混合隐马尔科夫模型的标注方法,实现了某特定事件的时空信息识别。3)事件时空信息匹配与可视化。以识别出的时空信息为研究对象,讨论了特定事件的时空信息的配对方法并将时空对进行直观表示,通过聚类分析将特定事件的时空过程进行重构,将事件的时空信息有机、直观的展现在地图上。4)时空信息的应用。将鸟类的分布特征及时空变化展现在地图上,为鸟类爱好着和鸟类专家提供有价值的信息,实现科学预测,为社会提供鸟情方面的有力信息支持。时空信息的研究也可在其他领域运用,如:地籍管理、智能交通和国防军事等领域。