论文部分内容阅读
随着计算机、手机的普及以及现代信息技术的快速发展,每天都有大量的新信息载入网络并以电子文档的形式呈现给人们。如何快速、准确的从这些庞杂的电子文档中获取需要的信息,已经成为一个迫在眉睫的问题。文本摘要就是解决这种问题的一个切实可行的方法,同时也可以缓解移动设备屏幕小、大文本信息阅读不便的问题。本文通过总结、分析有关文摘方法的国内外研究现状,提出了一种基于概念格的中文文本摘要方法。本文的主要研究内容和创新工作包括:1)设计了一种基于语义相似度的“概念”提取方法。本文把“概念”重新定义为具有相同意义的词集,该方法首先对文本进行分词、去停用词、统计词频等,综合利用词频、词长、词性等信息计算关键词权重,剔除权重过小的关键词后计算关键词之间的语义相似度,并据此合并同义词、相似词为一个“概念”,计算各“概念”的权重并输出权重较高的“概念”。2)利用概念格在规则发现方面的优势,以“概念”为属性,以文档中挑选的句子为对象构建一种可以表示文档信息的概念格。针对概念格构建过程中计算量过大的问题,对这种概念格进行属性以及稀缺“概念”组合的约简。这种文本概念格在组合词发现、局部主题发现以及句子相似度计算等方面也有一定的研究价值。3)提出一种利用文本概念格抽取摘要的方法。该方法以最小概念损失率作为一种衡量标准,使用全局最优化策略抽取句子并进行后期处理后组成摘要,该方法可以针对不同压缩比率提供具有最小概念损失率的全局最优的句子组合。以复旦大学提供的分类语料库为实验数据集,对本文方法进行实验研究,实验结果表明本文方法是切实可行的,尤其在概念损失率方面表现突出。