基于深度学习的短文本相似度研究

来源 :暨南大学 | 被引量 : 0次 | 上传用户:wandd_wind
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
短文本相似度研究是文本分类下的一个分支,它在智能问答、信息检索等任务中起着基础性作用,具有一定的研究价值。传统的文本相似度计算方法存在维度爆炸、语义不详等问题,无法满足目前的需求。本文基于深度学习技术研究短文本相似度,文中选取Bi-LSTM模型和BERT模型进行短文本相似度研究,并根据其存在的不足作相关改进。本文的主要工作如下:(1)在建立基于词向量的Bi-LSTM模型时,发现其在短文本相似度计算上存在三个不足点:第一、词向量受分词歧义和未登录词影响,容易给模型带来语义误差,为此本文提出用字词结合来改进词向量的方法,增强了模型语义;第二、LSTM的门机制结构无法突出句子的重点信息,模型的特征提取能力有待提高,针对这个不足,本文引入自注意力机制来改进特征学习能力;第三、损失函数容易导致模型对预测结果过于自信,模型的泛化能力有待提高,为此本文引入标签平滑正则化方法来改进损失函数。(2)在建立基于字向量的BERT模型时,发现该模型在短文本相似度计算上存在两个不足点:第一、字向量的语义表达不足,模型容易出现语义缺失的情况,为此本文提出用中英文联合输入来改进字向量,并同时引入多头注意力机制来学习双语特征;第二、损失函数在衡量预测效果上不佳,模型不易调整,针对这个不足,本文引入标签平滑正则化方法来改进损失函数。实验结果表明,改进的Bi-LSTM模型其Macro-F1比原模型提高了2.63%;改进的BERT模型其Macro-F1比原模型提高了3.20%,模型改进有效。由本文实验可知,BERT模型比Bi-LSTM模型预测效果更好,其Macro-F1比Bi-LSTM模型高了7.71%。
其他文献
文化产业作为21世纪经济新的增长点,发展文化产业、满足人们的精神需求是当下人们生活的重要内容,更是推动文化强国战略目标的需要。文化产业发展中存在着区域发展不均衡、资源浪费严重、融资困难等问题,致使文化产业整体发展水平低下,其占GDP的比重远小于5%这个国民经济支柱性产业标准。如何提高衡量文化产业长远发展的关键性指标——文化产业的效率是当前学术界关注的一大热点。本文基于静态和动态两个角度,运用数据包
声源定位技术是一种利用目标所发出的声波对目标进行定位的技术,广泛应用于军用领域和民用领域。声源定位系统通常在传感器阵列的距离与目标发出的声音波长相近时定向灵敏度最高。因此在较小传感器距离的情况下获得高精度的角度信息是一个重要问题。为解决该问题,在声定位技术中引入了仿生学技术。通过研究奥米亚寄生蝇的听觉器官模型能够达到提升定位精度,或减小声定位系统尺寸的目的。但以往的研究集中于寄生蝇听觉器官相位差放
多波形战术电台在通信行业应用于各个领域,其中联合战术无线电系统(JTRS)无线电台系列是多波形电台的典型代表,已成为数字化战场的主要组成部分。JTRS应用的领域很广泛,其型号种类和波形种类也很多,包括宽带组网波形(WNW)、抗干扰波形和低截获波形等等,波形技术是JTRS关键技术之一,这些波形技术能满足众多通信系统要求。对于运行多波形的战术电台通信系统,在通信过程当中,干扰问题一直存在,为了保证通信
长期以来,我国施行初任法官"本院任职",不同层级法院初任法官的职业发展机会存在落差,部分初任法官认为基层法院并非理想的任职去向。"本院任职"模式下高层级法院法官员额优
会议
幼儿教师如何认识语言教育理念、如何实践语言教育,会对幼儿产生真正切实的影响。首先,本文通过对已有研究的归纳,从自上而下的角度总结了我国自1980年以来幼儿教师语言教育
近年来,工业化的迅猛发展给人们的生活带来巨大福利的同时也对环境造成了不可逆的损害。与重金属离子相比,阴离子的污染常常被忽略。随着人们认识的不断改变,由于阴离子在化学、生物和环境测定中的主要作用,选择性识别和检测各种阴离子的方法的设计已经成为一个非常重要的研究领域。在各种阴离子中,具有最小离子半径,最高电荷密度和强的路易斯酸性的氟离子(F-)是人所必须的微量元素,与人体的一些生命活动密切相关,例如牙
随着5G NR(New Radio,新无线电技术)的迅速发展,业务量的迅猛增长对频谱资源提出了更多的需求,这使得非授权频谱的重要性日益凸显。3GPP(3rd Generation Partnership Project,第三代合作伙伴计划)曾提出LAA(Licensed-Assisted Access,辅助授权接入)以在非授权频谱中使用LTE,并指出NR-U(NR-Unlicensed,NR非授权
糖类是自然界中十分重要的有机大分子,在生物过程中担当了非常关键的角色。与核酸和蛋白质的线性结构不同,糖类拥有复杂的树形分支结构,且糖类的合成没有可遵循的基因模板,导致对糖类的研究缓慢。随着质谱技术的发展,二级质谱为糖类的研究提供了有利工具,但往往不能实现糖结构的准确鉴定。近年来多级质谱技术正在被应用起来,但还没有一种可以高效指导多级质谱实验的糖结构鉴定方案。本研究针对上述问题,完成的主要工作如下:
信息科技的进步加速了健康医疗系统的蓬勃发展。无线体域网和可穿戴系统芯片的最新研究促进了个性化保健和各种疾病的有效治疗。随着超大规模集成电路和片上系统的发展,生物系统微型化目标在当代得以实现。生物电信号采集模拟前端是便携式医疗设备中重要的组成部分,是连接前端接口系统到数据处理器的桥梁。因此,研究低功耗、微型化、高性能生物前端采集系统芯片具有重要的产业意义和广阔的应用前景。心电信号的低频低幅度特性,对