论文部分内容阅读
随着科技的飞速发展,人们每天获得的信息量也与日俱增,这其中除了人们关注的主要信息外,还充斥着大量的冗余信息。而多文档摘要技术能够很好地帮助人们从大量信息中提取主要的有用信息,但大多国内外学者研究多文档摘要时多是采用平面关系的主题模型。布雷等人所提出的层次潜在狄利克雷分配模型,相比平面关系的主题模型而言,不仅能够挖掘出文档集的潜在主题特征,而且在各个主题之间建立起了层次结构的联系,尽管这种立体的层次化结构能够更好地表达在概括多个文档内容时需要的主题特征,但其建模结果呈现多样化,且效果无法得到足够的保证,甚至在相同参数设置和语料条件下其建模结果也具有一定的随机性。因此,本文在前人的基础上,总结了应用层次主题模型与语义分析的中文多文档摘要实验流程,提出了一种面向中文多文档的无监督层次潜在狄利克雷分配建模结果的自动评价方法,并通过人工评价的方式验证其有效性。接着运用自动评价方法,根据hLDA主题建模的结果反馈调节建模设置的各项超参,实现建模结果的不断优化。最后本文将hLDA主题建模的结果与其他模型的建模结果通过自动评价与人工评价进行了对比实验,验证了hLDA主题建模在中文文本聚类中展现的优越性,同时证实了自动评价方法的有效性。另一方面,本文从不同分词方法,是否去掉停用词,重复句子的不同处理方式,是否添加用户词典与进行同义词替换四个方面进行了对比实验,探究更加适合中文多文档摘要的hLDA主题建模的预处理流程。本论文研究得到国家自然科学基金项目“基于hLDA层次主题模型的中文多文档摘要研究”(项目批准号:61202247)和“面向不确定性的Web2.0用户创作内容管理研究”(项目批准号:71231002)的资助。