文本相似度计算方法的研究及改进

来源 :新疆大学 | 被引量 : 0次 | 上传用户:marquise
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前社会中信息技术的不断发展和应用越来越受到人们的关注,信息技术也在很大的程度上方便了广大群众的生活。大数据、人工智能等技术相关的应用渐渐的出现在大众的视野中,随之而来是,人们的需求也不断地提升,人们需要从海量的互联网数据中提取中自己所需的信息。因此,研究学者们将人工智能技术应用到自然语言处理领域中,出现了自动文摘、文献查重、文本分类与聚类、自动问答系统等一系列应用,极大的方便了人们的生活,这些应用都涉及到文本相似度的计算。本文的工作包括四个方面:第一,混合相似度计算模型的提出。为提高中文短文本相似度计算的准确率,提出一种新的基于混合策略的中文短文本相似度计算方法。首先,根据词的语义距离,采用层次聚类来构造短文本聚类二叉树,改进传统的向量空间模型,并计算关键词加权的文本相似度。然后,通过提取句子的主要成分,对传统的基于语法语义模型的方法进行改进,从而获得主体文本的语义相似度。最后,对两个相似度进行加权,以计算最终的文本相似度。实验结果表明,该方法在计算短文本相似度时更准确。第二,基于BERT模型的文本相似度的计算。BERT是一种预先训练好的语言模型。BERT模型在预训练阶段学到了通用的语言知识,在当前任务上微调习词语的上下文表示。为了验证由BERT的有效性,将BERT模型对比传统的模型进行对比。实验结果表明,与传统的系统方法相比,BERT方法有更好的结果。第三,Attention-BiLSTM-BERT模型的提出。在前面研究的基础上,采用BERT训练词向量,并在模型中引入注意力机制Bi LSTM网络来提取文本特征,在文本的语义表达上相较于其他深度学习模型更加准确,最后通过在公开的数据集上进行实验,和其他模型进行比对,验证了该模型具有更高的性能。第四,在第五章的基础算法研究之上,设计并实现了文本相似度计算系统。该系统可以用于日常生活的文献查重、文本分类与聚类等应用,具有一定的实际利用价值。
其他文献
本实验采用RAPD和RAMS技术分别对北京市东灵山地区针叶林中的三种优势外生菌根真菌种群的遗传多样性及基因型结构进行研究。对33个棕灰口蘑子实体的RAPD分析表明:每一个子实体属于不同的基因型,该种群形成数量多的小基因型,即基因型不大于0.5m。RAMS分析将210个血红铆钉菇子实体和260个点柄乳牛肝菌子实体分别分为108和99个基因型,最大基因型分别是450m和84m。Shannon-Weav
目的:中药注射剂广泛应用于恶性肿瘤辅助治疗,其与含铂双药化疗联合是临床常见治疗方案。根据既往研究,中药注射剂在晚期非小细胞肺癌治疗中具有提高生活质量、减轻不良反应等作用,但尚无研究厘清中药注射剂单独或联合应用对化疗增效减毒作用的差别,后者可为临床合理应用中药注射剂提供依据。本研究采用真实世界研究的方法,旨在探索单独(一种)或联合(两种)使用中药注射剂对双药含铂化疗临床疗效的影响,包括有效性和安全性
在流体力学,气体动力学,环境科学,能源开发等领域中,对流扩散反应方程的研究具有重要的理论意义和广泛的实际应用价值.该问题的模型理论和数值模拟方法一直是计算数学和计算物理方向的研究热点,并且受到诸多学者的高度关注.通常情况下,利用解析方法求解对流扩散反应方程将受限于高维区域的维数灾难和流形区域的几何复杂性.因此构造一个稳定高效的数值模拟方法就显得非常重要.本文的主要研究是设计求解三维对流扩散反应问题
有限差分方法是一种重要的数值计算方法,其主要思想是利用有限差分逼近导数.本文主要通过有限差分方法求解两类椭圆型偏微分方程,分别是定常变系数对流扩散方程和椭圆界面方程.对流扩散方程描述了物质的质量,能量,热量的传输过程,是一类重要的偏微分方程.本文提出积分因子法,将定常的变系数对流扩散方程转化为自伴型的变系数扩散方程.然后构造了两种不同的四阶数值格式求解这个变系数扩散方程,一种是通过理查德森外推方法
表面活性剂是一类具有独特两亲性分子结构并可改变液体界面性质的有机化合物.在日常生活、医学、化学工程和生物科学等领域中具有广泛的实际应用价值,如肥皂、农药、除草剂和金属制造添加剂等.对于表面活性剂系统的研究,尤其是在曲面上对其进行数学建模以及算法分析一直是该领域的热点问题,同时也是一项巨大的挑战.本文主要研究曲面上流体表面活性剂系统的数学建模以及算法分析.首先,考虑几何曲率和流体流动对系统的影响,构
随着工业的发展,各类新型持久性有机污染物不断涌现,该类污染物不易降解,久存于环境中并通过食物链最终传递给人类,对人类健康造成巨大威胁。水处理药剂高铁酸钾因其高效、无二次污染等特性而备受关注,为解决其单独投加作用时间长、投量大且难以实现完全矿化等问题,近年来,增强其氧化效果的方法被广泛研究。本研究通过向高铁酸钾(K2FeO4)氧化体系投加过渡金属硫化物——硫化亚铜(Cu2S),使K2FeO4氧化有机
利用再生粗骨料部分代替天然骨料,工业废料锂渣部分代替水泥用于混凝土制备,有助于对天然石材等的保护与资源的循环利用,且可以减少锂渣堆存的数量,具有重要的环境效益、经济效益与社会效益。我国属于地震多发国家,要使锂渣再生混凝土在工程上广泛使用,还需了解其抗震性能,而梁柱节点又对框架结构的工作性能有十分重要的作用,因此需要对锂渣再生混凝土的抗震性能展开试验研究。本文以框架结构的梁柱节点为研究对象,对6榀锂
嵌套拉普拉斯逼近(INLA)算法是在贝叶斯框架下将拉普拉斯逼近和现代数值积分相结合,实现快速计算的方法,由于其计算速度优势明显,在多个领域都得到了重要应用.广义线性模型,尤其是Poisson模型和logistic模型,在流行病学和社会科学领域应用广泛,利用INLA算法对这两个广义线性模型进行参数估计,并将该估计方法应用至实际领域值得研究.本文将在logistic模型和Poisson模型的Bayes
目的:基于半结构式访谈和数据挖掘研究,系统地总结王琦院士与学术继承人、弟子与学生之间的学术传承要点。并以王琦院士以及学术继承人骆斌教授临床诊治勃起功能障碍医案,进行数据挖掘。通过量化研究对比分析组方用药规律,探讨师徒传承过程中的规律和痕迹。并验证名老中医学术思想及经验的可传承性与可重复性问题,从而为提高勃起功能障碍临床诊疗水平提供新的思路与方法。方法:对王琦院士学术继承人及弟子进行访谈了解在跟师学
目标检测作为计算机视觉的基本问题之一,也是其他许多计算机视觉任务的基础,近年来得到了较为广泛的研究与应用落地。对于安防领域,监控画面所拍摄的图像,往往存在目标复杂、弱光、夜晚场景的情况,大多现有目标检测算法还未针对此类场景进行专门的优化。因此本文中以加油站中的监控场景为例,结合相关的前沿研究从注意力机制与目标检测后处理等方面入手,提出了一种新的通道注意力机制Reinforce Fusion Att