【摘 要】
:
如何快速又准确地在浩如烟海的文献资料中找到要搜索的信息目前已成为人们迫切的需求。文本匹配技术是通过算法判断句子之间的语义是否相近,如果能有效地提升文本匹配的准确性,就可以很好地解决信息匹配与信息搜索的相关问题。近些年随着深度学习的发展,基于神经网络解决文本匹配任务的方法已经取得了较好的成绩。目前,基于深度学习的文本匹配算法通常采用卷积神经网络、长短时记忆网络或者是大型的预训练语言模型来进行计算。然
论文部分内容阅读
如何快速又准确地在浩如烟海的文献资料中找到要搜索的信息目前已成为人们迫切的需求。文本匹配技术是通过算法判断句子之间的语义是否相近,如果能有效地提升文本匹配的准确性,就可以很好地解决信息匹配与信息搜索的相关问题。近些年随着深度学习的发展,基于神经网络解决文本匹配任务的方法已经取得了较好的成绩。目前,基于深度学习的文本匹配算法通常采用卷积神经网络、长短时记忆网络或者是大型的预训练语言模型来进行计算。然而这些模型都有其局限性:卷积神经网络无法较好地学习全局的语义信息、长短时记忆网络无法较好地实现并行化,而大型的预训练语言模型则存在参数量过大,无法很好部署到硬件上等问题。针对这些问题,本文在基于已有的文本匹配方法上进一步地研究和创新,主要工作如下:(1)针对无法较好地学习全局语义信息和无法实现并行化的问题,本文首先使用变分自编码器作为预训练模型,学习到两个相似句子之间的关系;在下游匹配任务中,采用自注意力机制来学习句子内部中词语之间的语义表示;在学习局部语义信息时,采用的是深度可分离卷积模型来进行获取局部特征;在文本交互时,采用注意力机制进行交互与对齐。通过结合以上几种方法,模型既可以充分地学习语义的全局与局部的信息,也可以实现并行化计算,同时还能降低模型的参数。(2)针对预训练语言模型的参数过大的问题,本文采用知识蒸馏的方法来降低模型参数,加快训练速度。本文首先使用Ro BERTa作为老师模型来学习文本中的特征表示;使用Text CNN模型来作为学生模型来学习教师模型输出的知识特征;在训练方式上抛弃传统的分离式训练,即老师模型训练结束后再训练学生模型的方式。而是采用联合训练的方式,这样既可以降低预训练模型的参数,又可以在不损失太多精度的前提下,提升训练速度和泛化能力。(3)将本文提出的两种解决文本匹配方法在证券数据集上进行实验,验证这两种方法的可行性与泛化性。本文首先介绍证券数据集的相关内容与数据形式,然后将本文提出的两种方法进行训练和测试,最后对结果进行分析。
其他文献
对话系统一直是人工智能领域研究的重点方向。智能对话系统对于未来人机交互的研究非常重要。而开放域的对话系统也已被证明在许多领域比任务型对话系统更加重要,目前,在开放域的对话方面采用较多的就是端到端的对话生成模型,但是端到端的模型具有一定的弊端,比如对话生成的结果趋于泛化,不能模拟人类对话的情绪表达,不能实现带有目的性的对话,而且在多轮对话中的话题转移性较差等等。对于端到端多轮对话系统,缺少高质量的多
人体姿态估计是从图像中预测人体关键点坐标的任务。它是一些更高级的视觉任务的基础和前提,并被广泛应用于如人机交互、监控等领域。近些年来,人体姿态估计已经成为了计算机视觉领域中一个热门的研究方向。目前研究者们已提出了一些效果良好的二维人体姿态估计算法,但是现有算法一般不能输出关键点的可见性/遮挡信息,即使利用了相关信息也仅用于帮助提高关键点预测的精度,而关键点的可见性/遮挡信息对于像行人重识别、动作识
近年来,将深度学习引入图结构数据引起了研究者的兴趣,对图形结构寻求更好的表示学习成为研究热点,其中图神经网络(GNN)被广泛应用于社会网络分析、引文网络分析、推荐系统等研究领域。虽然图神经网络领域已出现很多优秀的模型,并在解决密集型图结构数据应用上取得了很好的效果,比如链路预测、节点分类、关系抽取等。但传统的研究方法都是利用固定的学习算法从头开始求解任务,需训练大量数据才能取得理想的效果,且无法迁
位于互联网多层结构最下层的暗网,由于本身的特性使得其成为违法交易、活动的滋生地。这严重危害了网络安全,也对社会稳定和国家安全带来了极其严峻的挑战。因此,对暗网进行监测管控势在必行,但是想要获取暗网中的数据是极不容易的。基于此,本文对暗网数据难以获取的问题进行了深入研究,并设计实现了一个暗网数据获取系统。主要工作内容如下:(1)针对暗网域名难获取的问题,本文提出了包含两种优化与两种辅助在内的四种域名
零样本学习由于具有人类的“联想”能力,能够根据一些过往学习到的知识,完成对不断出现的新事物和新样本的分类。基于生成对抗网络的零样本学习方法能够从可见类样本和语义属性中训练出生成器,并通过未见类语义属性来生成未见类样本以训练传统机器学习分类器完成零样本分类。然而,由于人工语义属性的一些缺陷,导致模型所生成的样本会存在判别性不足的问题。此外,由于模型主要是在可见类样本和语义属性上学习的,模型所生成的未
随着互联网高速发展,导致了互联网新闻的急剧增加,用户如何准确且快速有效地从海量互联网媒体中获取所感兴趣的新闻,已成为急待解决的问题。传统文本检索算法仅计算检索词语和文本的相关度,根据评分排序获得检索结果,缺乏和用户历史行为的交互;同时,传统推荐算法存在人工过度干预和特征信息提取困难等缺点。因此,为了解决上述问题,本文研究了深度学习的方式应用于检索与推荐算法中。主要工作包括以下几方面:(1)在分析研
近年来,移动自组织网络(Mobile Ad Hoc Networking,MANET)在军事、救援、医疗等应急场景中得到了广泛的应用,不过目前的移动自组织网络的网络性能受节点位置动态变化、链路通断频繁等因素影响,无法较好地保障上层业务及应用的实时性需求,所以研究移动自组织网络实时性能优化便显得格外有意义。命名数据网络(Named Data Networking,NDN)采用基于内容的命名、转发、路
当前电子制造行业快速发展,产品研发创新与日常管理,会产生大量的电子文档与纸质文档。三乐公司作为设计与生产行波管的重点企业,会产生分布广泛、品类繁多的文件,然而,由于缺乏文件管理,不能快速、准确查找文档,造成文档资料难以共享,利用率不高的困境,同时也存在资料损坏、泄露的风险。因此,本文提出了行波管设计文档管理系统的构建。本文对行波管设计文件管理系统的开发过程展开了全面分析、设计与实现,首先,指出三乐
21世纪的今天,随着互联网技术不断的推陈出新,各种应用软件如今在我们的衣食住行方面发挥着不可或缺的作用,成为了我们生活中必不可少的使用工具,使得整个社会朝着更加智能化的方向发展。如何利用好内嵌有应用软件的电子设备产生的信息,成为了各个偏硬件的大公司需要重点探讨的问题,电子设备发生故障的时间预测也逐渐称成为了一个很重要的方向。高效且准确的预测不仅可以帮助公司及时采取有效的应对措施去排除掉电子设备的风
深度学习近年来发展迅速,计算机视觉领域被广泛应用到了实际生产中的各个领域。深度学习领域中最重要的基础模型之一就是CNN(卷积神经网络),大多数目标检测算法的骨干网络(backbone)都是基于CNN模型搭建而成。CNN模型具有强大的语义特征提取能力,满足了目标检测、语义分割、风格迁移等研究领域图像特征提取的需求。但是CNN模型忽略了像素间的空间关系,没有充分探索图像行像素和列像素上的空间关系。而这