大规模短文本摘要数据集的构建与自动过滤方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:kenshin578212121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
短文本摘要任务涉及文本间语义相似性计算以及自然语言生成等方向的研究,是一类非常具有研究价值的问题。当前深度学习模型已经应用于自然语言处理领域的研究,但是对于短文本摘要问题,由于一直缺乏大规模的数据集,深度学习模型不适合用于该问题的研究。本人参与构建了一个大规模的短文本数据集,在一定程度上弥补了数据集匮乏的现状。但是由于构建大规模数据集采用的是自动收集数据的方法,导致数据集中存在的噪声数据比例较高,会对学习模型应用到此数据集上的研究结果受到干扰。由于该数据集中存在大量抽象的短摘要,噪声过滤任务势必将涉及到短文本语义相似性匹配问题,因此研究如何对需要挖掘较为深层次的语义的噪声过滤任务具有很重要的意义。本课题在研究了短文本语义匹配问题的难点是对短文本进行建模,模型需要充分或尽量的保留原短文本的信息。本课题提出了一种基于LSTM模型的短文本语义相似性匹配模型。LSTM模型适合对序列数据进行建模,它可以自适应的保存序列中的信息,因此基于LSTM模型预测短摘要和短文本间的语义相似性是可行的。接下来本课题根据对短摘要和短文本数据特点是文本较短,前后信息相关度较强,但标准LSTM单元存在会遗忘序列之前信息的特点,提出了一种对标准LSTM单元移除遗忘门的改进方法,并进行实验室验证,实验效果较采用标准LSTM单元的模型有较大提升。实验中,本课题对哈尔滨工业大学深圳研究生院智能计算研究中心短文本数据集进行随机采样,人工标注的方法构建了用于噪声数据过滤的子数据集用来进行实验。针对短文本语义相似性匹配问题,实验中对比了 LSTM模型和传统的向量空间模型、潜语义分析模型以及卷积神经网络模型。虽然LSTM模型在实验效果上低于潜语义分析模型的效果,但是改进的LSTM模型在效果上相比标准LSTM模型取得了较大提升,接近潜在语义分析模型的效果。
其他文献
由于近年来3D建模技术的快速发展,互联网上可用的3D模型库也随之出现爆炸式增长,越来越多的3D模型都可以方便地通过网络下载使用。这直接促使了3D形状检索技术的发展,即给出
本文为一篇英译汉翻译实践报告,翻译文本节选自美国拉乌尔·阿雷奥拉(Raoul A. Arreola)博士的著作《教师综合评价体系的建构》(Developing a Comprehensive Faculty Evaluat
药品质量是临床用药安全、有效的重要保障。中药复方制剂的成分复杂,传统的单一指标质控方法,已经不能代表中药复方制剂的质量优劣。建立较为全面的中药复方制剂质量控制方法
一直以来,每当提及时尚二字,人们总认为它是西方世界特有的产物,是属于西方国家的专有特权。的确,在时装业领域,无论是高级时装,还是工业化成衣,当今时尚业的走势大多都能在
大数据时代,个人所拥有的数据量正在呈现爆炸式增长,个人所需要处理的数据种类也趋于庞杂。面对人们日益增长的需求,基于物理存储介质的个人本地存储存在着便携性差,存储容量
随着互联网的兴起,各种类型数据包括文本、音频和图像等以惊人的速度增加。而文本数据与音频和图像数据相比,它占用网络资源少,传输速率高,更易于被上传和下载。这使得网络资
树木图像的特征点提取和匹配为后续的树木三维模型构造和可视化提供最直接的数据基础。本文在分析研究了传统的Harris算法、SUSAN算法、SIFT算法等图像特征点提取技术的基础
由于我国经济持续高速发展,城市私家车保有量日益增加,这就对交通监测和指挥系统的性能提出了更高的要求。为了缓解交通压力,世界各国纷纷对智能交通系统(Intelligent Transp
随着科学技术的迅猛发展,计算机立体视觉正广泛应用于电子、医学、航空航天等领域当中。摄像机的双目视觉系统模仿人类的双眼,使计算机具有视觉认知功能从而利用图像获取信息
随着智能化的不断普及,人机交互方式也在不断发生变革。作为人机交互领域的研究热点,体感交互符合人类日常交流习惯,在虚拟现实、智能家居等诸多领域具备广阔的应用前景。目