论文部分内容阅读
短文本摘要任务涉及文本间语义相似性计算以及自然语言生成等方向的研究,是一类非常具有研究价值的问题。当前深度学习模型已经应用于自然语言处理领域的研究,但是对于短文本摘要问题,由于一直缺乏大规模的数据集,深度学习模型不适合用于该问题的研究。本人参与构建了一个大规模的短文本数据集,在一定程度上弥补了数据集匮乏的现状。但是由于构建大规模数据集采用的是自动收集数据的方法,导致数据集中存在的噪声数据比例较高,会对学习模型应用到此数据集上的研究结果受到干扰。由于该数据集中存在大量抽象的短摘要,噪声过滤任务势必将涉及到短文本语义相似性匹配问题,因此研究如何对需要挖掘较为深层次的语义的噪声过滤任务具有很重要的意义。本课题在研究了短文本语义匹配问题的难点是对短文本进行建模,模型需要充分或尽量的保留原短文本的信息。本课题提出了一种基于LSTM模型的短文本语义相似性匹配模型。LSTM模型适合对序列数据进行建模,它可以自适应的保存序列中的信息,因此基于LSTM模型预测短摘要和短文本间的语义相似性是可行的。接下来本课题根据对短摘要和短文本数据特点是文本较短,前后信息相关度较强,但标准LSTM单元存在会遗忘序列之前信息的特点,提出了一种对标准LSTM单元移除遗忘门的改进方法,并进行实验室验证,实验效果较采用标准LSTM单元的模型有较大提升。实验中,本课题对哈尔滨工业大学深圳研究生院智能计算研究中心短文本数据集进行随机采样,人工标注的方法构建了用于噪声数据过滤的子数据集用来进行实验。针对短文本语义相似性匹配问题,实验中对比了 LSTM模型和传统的向量空间模型、潜语义分析模型以及卷积神经网络模型。虽然LSTM模型在实验效果上低于潜语义分析模型的效果,但是改进的LSTM模型在效果上相比标准LSTM模型取得了较大提升,接近潜在语义分析模型的效果。