基于多特征融合的文本相似度计算方法研究

来源 :长安大学 | 被引量 : 0次 | 上传用户:duncan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机和互联网技术的不断发展,网络文本数据呈爆炸式增长,如何将这些海量文本数据有效利用和管理成为自然语言处理领域的重点,而文本相似度计算是这一领域的核心技术之一,具有十分广阔的应用前景与研究价值。目前文本相似度计算主要存在以下两方面问题:一方面,现有研究方法主要使用机器学习结合特征工程来构建计算模型,特征的设计和提取严重依赖专家领域知识,模型性能低。另一方面,目前深度学习领域中对于中文文本特征信息的提取不够充分,仅仅考虑了单一特征,缺乏语义细节、上下文交互作用和对多特征融合的应用,相似度计算准确率低。针对以上问题,本文以文本相似度为研究对象,主要完成了以下工作:(1)构造了丰富的中文文本数据集,并对数据进行了预处理,包括去停用词、分词、构建预训练模型等。详细分析了经典相似度算法的优劣并进行了相关对比实验。(2)提出了一种融合语义特征、文本间交互特征、上下文结构特征的文本相似度计算方法。在特征提取的任务上,兼顾多个特征提取目标,包括:通过卷积神经网络(Convolution Neural Networks,CNN)的多粒度卷积和对应的池化方式,有效提取文本的结构和词序信息;通过向双向长短期记忆网络(Bi-Directional Long Short-Term Memory,Bi-LSTM)中加入特征的交互作用,放大文本的相同点和差异性,提取文本的语义和交互信息;构建LSF特征提取两个文本词语之间的关联特征。设计融合策略将多种特征有效融合,较好的保留原始特征以及多种特征间的联系,并用相似度计算模块计算文本相似度。(3)在构建的多特征融合相似度计算模型中进一步引入了注意力机制的思想。在Bi-LSTM模型中引入多维自注意力机制高效的学习文本中内部结构特征,提取到文本中丰富的语义信息,让文本中的词有了重心。构建交互注意力矩阵,并通过矩阵的正交分解兼顾相似和不相似之处,利用CNN网络挖掘特征。引入多种注意力机制后模型计算相似度准确率更好,特征表达更全面。为了验证模型的性能,本文设置了几组对比实验并在阿里天池竞赛和Chinese STS两个数据集上验证。实验结果表明,相比于目前的几种主流模型,本文构建的模型能够有效提取出语义细节、交互信息,较好评估了文本相似度,具有更好的性能。
其他文献
随着信息技术的发展,数据流这一新的数据形式日益普及。传统聚类算法无法处理持续、海量的数据流,因此针对数据流的新聚类技术应运而生。在数据流聚类算法中,基于网格的数据流聚类算法在处理大规模数据时有着较高的效率。但这类算法存在着聚类边界丢失和易将相邻类合并的问题。论文采用双重网格划分和基于改进密度峰聚类(DPC)的网格合并解决上述问题,提出了基于网格密度峰值的数据流聚类算法(GDP-Stream),并将
微服务架构打破了传统软件架构的开发模式,实现了对开放的网络环境中的各类资源的集成和共享,并且具有较强的容错性、可扩展性以及灵活的部署能力等一系列优点,正在逐渐成为当前互联网应用系统所流行的系统设计架构,许多大型的企业也已经把微服务架构体系当作其进行信息化转型的主要的演进方向。然而,因为互联网的复杂性,各种各样的异常情况随时都可能使得微服务发生中断或失效,对微服务系统的可靠性影响巨大。因此我们应该高
近代中国的建筑教育孕育于中国社会急速变化的历史进程中。就考察中国早期建筑教育利弊得失的历史研究而言,不仅要了解教育本身的发展,还要熟悉现代中国的历史背景,也不能忽
社会分工是人类劳动的社会存在形式,是生产力发展的必然结果,是生产力作用于生产关系的中介和桥梁,经历了一个由简单到复杂、从低级到高级的变化发展过程。社会分工的进步与发展,一方面表现为社会劳动细化、专业化程度日益提高,另一方面表现为不同所有制形式下财富分配不平等加剧。前者是社会分工与生产力之间相互作用的客观趋势,尤其是科学技术的发展在其中起着重要地促进作用;后者则是社会分工在不同所有制和分配形式下的阶
2016年我国GDP总量增速保持在6.7%,总规模达到了744,127亿元,占全球所有国家GDP总和的14.8%,与众多发达国家的差距进一步缩小。国民经济的蓬勃发展为我国资本市场的发展提供
生物质能因其可再生性和可持续性的特点,近年来引起了广泛关注,并有望在未来替代化石能源。生物油是生物质热解获得的石油状液体产物,但是其热稳定性差、酸性和腐蚀性较强、
随着电信业的发展,电信企业的竞争已经从过去的以产品为中心的竞争,向以市场、客户需求为中心的竞争转化,而客户个性化、多样化的服务需求趋势也促使电信产业价值链发生裂变,不断向纵向深化与横向延伸。企业越来越重视客户需求,提供满足客户需求的产品和服务,有效管理和培育客户关系,确保客户能从企业各种产品中获得较高的满意度,进而维持长期稳定的客户关系。因此,为了提高电信运营公司的综合竞争力,实施客户关系管理,有
智能阅卷凭借其快速的批阅处理、客观公正的评分以及更加直观方便的管理等特点,成为当今考试阅卷的主要发展方向。目前被广泛使用的自动阅卷方式主要是基于光标阅读机和答题卡,这种方式通常需要质量较好的答题卡,并配备昂贵的专用设备,后期维护困难,而且在答题方式上较为繁琐,导致此种方式很难广泛应用于中小型考试。针对现有自动阅卷存在的一些问题,以及随着计算机视觉和人工智能技术的快速发展和大量应用,本文以计算机视觉
随着M型社会经济的变迁和科技进步等因素的影响,国内汽车产业的产业结构正在发生新的变化,在豪华汽车市场,之前国外品牌汽车一统天下的局面正在改变,而国内品牌汽车的销售市场占有率从2015年开始节节攀升。这一独特的汽车消费市场现状,除了反应出独特的社会经济现象之外,也能看出国外品牌汽车如何进一步地拓展国内市场,具有一定的挑战性,而如何在中国市场进行其品牌管理,更是目前需要迫切研究的。本文以沃尔沃汽车在中
教学信息化是深化教育综合改革的重要途径,混合式学习是信息化教学的代表性方式。在中职网络营销课程中应用混合式学习探索提升中职网络营销课程教学效果途径,可以为其他教师中职网络营销课程教学提供参考。本研究通过梳理混合式学习相关理论,结合中职学生特点和课程要求,提出适用于中职网络营销课程基于微信的混合式学习模式,进行基于微信的混合式学习教学设计,实施基于微信的混合式学习教学实验,运用量化分析检验实验班与对