论文部分内容阅读
作为自然语言处理领域中重要的研究课题受到了广泛的关注。由于互联网高速发展带来的信息快速增长的问题,精简浓缩文本信息的技术显得尤为迫切。虽然目前关于自动文本摘要的研究工作较多,但仍存在一定的不足。在数据方面,存在着数据稀缺的问题,特别是在中文领域。在技术方面,传统的基于统计、图模型以及机器学习的自动摘要技术无法深入的利用文本的语义信息;而基于自然语言处理的技术和基于深度学习的技术又存在着需要额外数据支撑以及需要大量训练数据的问题。针对上述的问题,本文利用微博内容作为摘要,相应的新闻作为正文,收集了足够的中文摘要数据集。同时,本文提出的两种自编码机模型,分别利用词性和相似度的方式解决语义分析和数据量的问题,并通过提取统计特征的方式对语义分析结果中的不足进行补充,从而获得更高质量的摘要模型。在基于词性的自编码机模型中,本文通过利用词语的词性信息,根据不同句子间相同词性的词语构建原始的词袋模型向量,利用自编码机对其进行语义的压缩。同时本文利用句子组合的方式完成对训练数据的扩充。在基于相似度的自编码机模型中,本文通过分析句子的相关信息自动构建自编码机,并利用句子的词袋模型向量作为输入,以还原后的向量损失和相似度损失作为更新模型参数的依据完成对自编码机的训练;在训练数据方面,本文同样利用组合句子的方式完成对数据的扩充。由于上述两个自编码机无法有效利用句子间的语序信息,本文通过语义图和句子的位置相结合的方式提取语序位置特征对句子的语序信息进行补充,并加入实体词数进一步完善摘要的生成模型。本文以Lead,Text Rank和整合重要度非冗余度以及连贯性的摘要算法作为对比算法,在收集到的数据集上进行对比。本文的基于词性句向量及统计特征的摘要模型在ROUGE-2,ROUGE-3以及ROUGE-4指标上比对比算法中最好的模型分别提升了10.154%,15.779%,18.253%,而基于相似性的句向量及统计特征摘要模型则分别提升了13.327%,19.399%,22.058%。