基于BERT和文本分割的上下文文本检索技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:xiachl141
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本检索旨在对给出的查询,在文档集合中找出与之最相关的文档子集。它能有效地对文档中的语句词义进行压缩整合,并与查询进行匹配,利用计算机在处理海量数据上的优势,为人们迅速缩小查阅的范围,极大地提高了筛选与处理信息的效率。本文在对文本检索模型进行研究时发现,文本检索主流模型采用的是构建输入查询与文本的表示,文本与查询的关系取决于表示的相似程度。这种模型往往存在无法解决长距离依赖、无法对语义很好地建模的问题,导致模型的向量表示不能准确地表示出文本的语义信息。因此,本文认为目前的主要挑战是如何对原文本进行更好的向量表示,从而提升整个检索模型的效果。
  针对上述挑战,本文基于BERT预训练模型,设计了一个基于BERT的文本检索模型(BTRM,BERT-basedTextRetrievalModel)。BTRM模型将查询与文本拼接后,利用层叠的Encoder对句间关系建模,得到两者之间的相似预测。此外,为了更好地利用BERT以及获取文本的上下文语义,提出了基于BERT的文本分割网络,在解决BERT输入长度限制的同时,进一步挖掘文本的上下文语义,获取语义更为凝聚的文本块,为文本检索进行相似性匹配时带来更精准的预测。
  为了验证模型的有效性,本文在Robust04TREC信息检索会议使用的公开数据集上进行了实验,并使用了通用的nDCG指标对实验结果进行了评测。主要将基于BERT的文本检索模型与之前的一些神经网络语义模型进行了对比,同时,在基于BERT的文本检索模型基础上,对比了采用文本分割后的效果提升,同时,对比了不同的文本分割技术对于模型效果影响的差异。实验结果说明,基于BERT的文本检索模型相比于其他模型能取得更好的效果,相比于神经网络检索模型DRMM在nDCG@20指标上有9.7%的提升,同时实验证明加入文本分割网络之后对检索效果有提升,其中基于BERT的文本分割网络相比其他文本分割技术,对文本检索的效果提升更明显,相比于基础BTRM模型有4.7%的提升。最后通过实例显示了融合文本分割网络的文本检索模型所能达到的效果,其检索的结果包含更多的上下文信息。
其他文献
摘要:随着新课程改革的不断深入,课程功能、课程结构以及课程内容都较之传统的课程有了突破和进步.为此,要在初中物理教学中培养学生的创新能力,作为教师的我们必须在课堂教学中实施富有创新性的教育,以营造出自由、民主、宽松的教学氛围,首先培养学生的创造精神,其次要训练学生的创造思维,最后开发学生的创造潜能,以形成创新能力.  关键词:初中物理教学;培养;创新能力  一、和谐师生之间的关系,创设自由宽松的课
期刊
摘要:初中物理教学主要以培养学生的实验观察能力、实验思维能力、实验操作能力为目的.作为一线教师,我也亲身体会到:新课程改革以来,在许多前辈和同仁的努力下,不断进行实验教学改革,取得了不少成绩,也总结了一些宝贵的经验.然而目前初中物理实验教学依然存在一些问题,实验教学仍然是目前我们教学中最薄弱的环节,不少人没有把物理教学真正转移到以实验为基础的轨道上来.  关键词:实验教学;创新;物理教学  一、初
期刊
摘要:实验在整个化学体系中占有绝对重要的位置与作用,实验是重要的研究方法,同时也是主要的学习手段.探究性实验将探究与实验结合起来,更能突出化学学科特色,也是学生学习化学最为基本、最为有效的手段与方法[1 ].本文结合教学实践对高中化学教学中如何开展探究性实验简要论述如下.  关键词:高中化学;探究性实验;教学策略  一、树立先进的教育思想,这是实施探究性实验教学的前提  观念是行动的向导,有什么样
期刊
OAM(Orbitalangularmomentum:轨道角动量)波具有两种不同于平面波的特性:模式正交以及螺旋波前相位面。OAM波的特性使得其可在提升无线通信的频谱利用率和信道容量、提升雷达探测中目标的方位角分辨率、探测目标的旋转多普勒效应等方面具有较强应用前景。近几年来,OAM波受到了国内外众多学者的广泛关注,围绕OAM波的产生及应用问题展开了大量工作。本文在总结已有研究工作的基础上,针对天线阵列产生OAM波原理进行了深入的理论分析,研究了OAM波的产生与复用方法,并进行了OAM波的应用研究。本文的主
近年来,物联网和移动互联网的高速发展对无线网络的网络速率、连接密度、链路时延和用户体验提出了更高的要求。随着通信技术的发展和硬件性能的提升,认知无线电、软件定义网络、感知网络、软件定义空中接口等概念被相继提出,具有环境感知能力的无线网络逐渐走入学术界和工业界的视野。与传统无线网络相比,这样的无线网络能够感知、分析和理解网络环境,实时调整网络参数,从而适应网络环境的变化,是未来无线网络发展的新方向。
  本论文立足于无线网络的真实环境和实际场景,对基于环境感知的无线网络接入方案展开详细研究。首先研究复
滤波器组多载波-偏移正交幅度调制(FBMC-OQAM)具有高频谱效率以及低带外辐射等优点。但是作为一个多载波通信系统,FBMC-OQAM系统存在峰均比(PAPR)比较高的问题。本文对如何降低FBMC-OQAM系统的PAPR展开了研究,在经典的部分传输序列(PTS)算法的基础上,针对FBMC-OQAM系统提出了两种改进算法。
  在多载波系统中,频域中每个子载波幅度的改变会影响时域中的叠加波形。基于这一特性,本文首先在传统PTS算法的基础上对FBMC-OQAM信号在频域上进行幅度加权,提出了频域加权的
由于超低频(Super Low Frequency, SLF)通信具有穿透性好、抗干扰能力强、信号稳定等优点,被广泛应用于军事对潜通信、透地通信等领域。目前超低频通信系统大都是敷设百米甚至千米量级的电调天线作为发射天线,体积较大且无法灵活移动,因此,美国国防部高级研究计划局于2017年提出研发频率在30kHz以下的便携式超低频通信系统。为了减小天线的体积,本文用结构紧凑的线圈代替传统电调天线,收发线圈利用感应磁场传输信息,这种磁感应通信方式下有关超低频信号传输衰减规律的理论研究较少,因此,研究超低频磁感应
全球导航卫星系统(Global Navigation Satellite System,GNSS)正在扮演着越来越重要的角色,同时也在面临着各种各样的挑战。当前卫星导航信号的扩频调制方案是直接序列扩频(Direct Sequence Spread Spectrum,DSSS),而截获技术的发展给DSSS信号的安全性带来了严重的威胁。本文旨在研究新型的扩频调制方法,以提高卫星导航信号的抗截获能力,提升GNSS的安全性和可靠性。
  本文以提升卫星导航信号的抗截获能力为目标,提出了一种跳相扩频调制方法,
伴着一场大雪,北京迎来了2010年,21世纪第二个十年的开始。  2010年,作为时间轴上的新坐标,它本身并没有特别的含义,和每天的日出日落一样,平凡而新鲜。但当时间和人们的期望与梦想结合在一起就变得不太一样。  已经过去2009年,我们在去年第12期杂志上做了全面的盘点。面对新年,数码圈又将会有怎样的风景7全球最大的消费电子展CES2010即将召开,新一年的技术和产品也慢慢揭开面纱,向人们展示新
期刊