论文部分内容阅读
传统语法学定义的最大语法单位是句子。想要通过计算机分析孤立的词义或句义进而理解整个篇章内容是不可行的,因为它们之间存在着明显的语义跨度。而句群作为句子和篇章之间的重要过渡近年来是语言界学者研究的热点,句群划分作为获得句群的有效手段更是计算语言学研究的重要方向。另一方面,由于互联网的快速发展,网络文本信息的不断增加,怎样快速、方便、准确地从这些海量信息中提取出人们想要的内容是当今时代的一个需求热点,因而提高文摘生成的质量也是计算语言学研究的重点。针对以上所提的两个研究方向,以下为本文所包含的主要研究内容:首先,本文介绍了句群划分工作的相关研究概况,同时对自动文摘的国内外研究现状进行了概述。接着介绍了句群理论的基础知识,并且从句群的性质、特点和组合方式及手段分析总结了句群划分的依据。还介绍了具有代表性的基于概念层次网络、层次聚类和判别式分析的句群划分方法,并且指出了它们的不足之处。其次,本文鉴于话语分析理论缺少对本土汉语句群的研究,以及当前的句群划分工作受限于一定的语言规则或是没有充分考虑篇章衔接词在句中的处理情况,提出了一种基于K-means-GA的句群划分方法。该方法用LDA主题模型来得到句子的特征向量表示,利用余弦相似度和最大连续子序列设计实现了句群内部的文本相似性度量方法,其中引入篇章衔接词作为奖罚因子用来修正句群间不合理的划分情况。实验表明该方法比原先的K-means-GA方法能获得更好的句群划分结果。最后,将本文的句群划分方法得到的句群片段应用到文摘生成中。一方面作为句群划分方法在其他领域应用的有效性验证,另一方面由于目前生成文摘的方法中大多是以句子或者段落作为处理单元,以这种方式得到的文摘存在上下文不连贯、内容冗余等问题。通过对实验结果的一致性分析表明将句群应用到文摘生成中可以获得更好的文摘质量。