深度学习中短文本表示及其相似度判定的研究

来源 :南京审计大学 | 被引量 : 0次 | 上传用户:CL87781891
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断发展,现如今越来越多的信息以电子文本数据的形式进行呈现。面对爆炸式增长的数据量,从中自动地高效快速提取所需的信息成为自然语言处理研究的热点。移动互联网的普及更使得短文本成为电子文本的主体,因此利用短文本语料进行语义相似度研究拥有了大量的研究资料和广泛的应用价值。短文本语义相似度判定任务是指对于给定的一组句对从语义层面来判定它们是否表达相似的含义,文本相似度判定可以被看成是一个相似或者不相似的二分类问题。目前对于短文本语义相似度判定任务的算法研究主要集中在对文本表示方法的研究,其中基于深度学习的BERT预训练模型,由于其灵活的训练方式和强大的表征能力,在许多任务中被深入的研究和应用。本文针对BERT预训练模型在短文本上表示能力的不足进行改进,提出了BERT_RF_S和Topic_BERT_S两个模型。主要改进如下:1.BERT预训练模型应用到短本文的相似度判定任务上时,会因为样本的数量不足而限制其对文本的表征能力。针对这一问题,本文提出了BERT_RF_S模型,通过快速梯度方法生成噪声样本输入训练实现表示增强,提高模型表征能力。2.BERT预训练模型仅仅是对文本的上下文语义信息进行编码,缺乏可以概括全局的主题信息。为了形成更全面的文本表示,本文提出了基于变分自编码器的主题模型。该模型可无监督训练,其生成主题信息表示可以与语义表示融合,弥补词语级别的主题信息缺失。3.在对语义表示与主题模型生成的主题表示进行融合时,由于不同模型收敛速度的不同而导致效果不理想。为了解决这一问题,本文提出了基于多任务学习的Topic_BERT_S模型,将有监督模型和无监督模型进行融合,同时学习文本的语义信息与主题信息,最终让BERT_RF_S模型和主题模型可以同时收敛达到最优,生成具有更全面信息的文本特征表示用于短文本语义相似度判定。最后将Topic_BERT_S模型分别应用于新闻、金融、医学领域的中英文标准数据集上,结果表明由于Topic_BERT_S模型在表示增强、引入主题信息、多任务学习方面的改进,在相似度判定准确率上都明显优于改进前的模型,且与目前先进算法相比Topic_BERT_S模型也处于主流水平。
其他文献
近年来,普及电动汽车已经成为各国应对全球气候与能源危机的重要措施之一,与电动汽车相关的技术也已成为各领域研究的热点。动力电池作为电动汽车主要的能量来源,其运行性能与安全直接影响电动汽车的驾乘体验与安全,动力电池系统中的电池管理系统是保障动力电池组性能与安全的重要部件,而电池管理系统的功能实现又高度依赖于由传感器所完成的数据采集工作,因此,电池传感器对于电动汽车而言有着极其重要的作用。但由于汽车运行
六维加速度传感器可以感知载体在空间中六个维度的加速度信息,对于物体运动状态的监测具有重要意义。目前,对于该传感器的研究大多在原理层面,实际应用进程缓慢,导致这一问题的一个重要原因在于该传感器的标定设备和方法、评定手段都没有统一的定论。因此,研究一种实用的标定方法、静态特性指标和设计一种具体应用技术有利于促进其应用。本文针对前期研制的IEPE型传感器的静态特性标定和其在无陀螺捷联惯性导航中的典型应用
重夸克偶素产生过程是验证量子色动力学理论(QCD)和非相对论QCD有效理论(NRQCD)的重要渠道之一。基于NRQCD理论,本文计算了正负电子对撞产生光子和粲夸克偶素ηc在次次领头阶(NNLO)精度下的散射截面,并利用最大共形原理(PMC)方法消除了e++e-→γ+ηc散射截面的微扰表达式在传统方案下所存在的重整化能标不确定性,给出了精确的理论预言。对该过程,在传统的重整化能标设定方法下,人们通常
近年来,随着我国保险业的发展,居民家庭的商业保险参与度得到了很大提高。家庭参保商业保险占比从2010年的11.74%增长到2018年的40.65%。虽然家庭的商业保险参与率得到了提高,但我国商业保险的发展也随之呈现出家庭参与度有待提高、城乡间发展不均衡、东中西部间发展不均衡的现象。探究影响家庭商业保险需求的因素可以更透彻地了解我国商业保险的发展现状,进一步引导家庭积极参与商业保险市场,提高商业保险
氨,作为合成活性氮化合物的化学原料,对于地球上的生命来说是必不可少的。近年来,电化学氮还原反应(ENRR)作为经济节约和高效可行的产氨新途径受到大量关注。然而,电催化合成氨的效率依然有待进一步提高。因此,开发构建高效、稳定和节约成本的新型ENRR催化剂,是促进固氮技术领域发展的核心着力点。鉴于此,本文从设计电催化剂结构出发、提高活性位点数量,并成功合成了新型高效的过渡金属基纳米材料,通过一系列的表
冬小麦作为我国主要的粮食作物,在河南农业生产中占据非常重要的地位。但是,河南省气候复杂多变,给冬小麦生产带来较大的影响。如果没有合适的风险应对方式,自然灾害一旦发生,产生灾害损失只能由农民自己承担,这将影响农户生产的积极性。在探索构建多元化农业风险保障体系过程中,天气指数保险开始受到人们的关注。该保险在分析天气指数与产量相关关系的基础上,以指定天气指数为赔付标准设计保险合同,在缓解信息不对称,降低
CaO-Al2O3基保护渣可以有效解决传统CaO-Si O2基渣连铸高铝钢时的渣金反应问题,但其熔化温度与粘度较高,结晶相能力较强,晶相复杂,晶体形貌多样,导致铸坯与结晶器间传热与润滑控制困难。典型熔剂Ca F2和B2O3对渣系的物化性质有重要调控作用。因此,本课题研究了Ca F2和B2O3对CaO-Al2O3渣物化性质的影响,为CaO-Al2O3渣熔剂选择及成分优化提供理论参考。首先,通过分子动
新时代我国保险业发展大而不强,主要原因之一是家庭对商业保险消费不足。因此,从家庭微观视角深入研究影响我国家庭商业保险消费的因素,进而寻求提升家庭商业保险消费的途径具有十分重要的意义。由于商业保险市场是典型的信息不对称市场,家庭能否获取相关信息是影响商业保险消费决策的重要原因。在当今社会,家庭主要通过与周围人的社会互动这种人际传播渠道或者互联网、电视、报刊等公开信息渠道获取保险有关信息。对于我国这种
镁基复合材料是极具应用潜力的轻量化材料之一,组分之间性能“取长补短”,有望实现单一材料无法比拟的优异的综合力学性能,在航空、航天等轻量化领域需求十分迫切。然而,传统镁基复合材料往往通过添加高含量的脆性增强体(如陶瓷等)实现其高强度和高模量,其原因在于陶瓷颗粒与镁基体界面处没有过渡层,表现为完全非共格,易引起力集中。加上陶瓷本身是脆性相,无法与镁基体协调变形,导致了其塑性急剧下降,即强度和塑性呈现倒
互联网技术的飞速发展,人们简单的动动手指就能获得自己想要的资源,但并不是所有的信息技术都能带来便利,也有一些人去散播病毒软件来破坏公共秩序和个人隐私安全以达到自己获利的目的。网络平台的扩大也给病毒软件带来巨大的利益,随着病毒软件数量的激增,网络生活也收到巨大影响,给人民带来的财产损失也与日俱增,病毒软件被作为信息安全领域中重要的防范环节,也受到研究者们的重视。传统的病毒软件检测方法简明、耗时少,仅