论文部分内容阅读
文本检索旨在对给出的查询,在文档集合中找出与之最相关的文档子集。它能有效地对文档中的语句词义进行压缩整合,并与查询进行匹配,利用计算机在处理海量数据上的优势,为人们迅速缩小查阅的范围,极大地提高了筛选与处理信息的效率。本文在对文本检索模型进行研究时发现,文本检索主流模型采用的是构建输入查询与文本的表示,文本与查询的关系取决于表示的相似程度。这种模型往往存在无法解决长距离依赖、无法对语义很好地建模的问题,导致模型的向量表示不能准确地表示出文本的语义信息。因此,本文认为目前的主要挑战是如何对原文本进行更好的向量表示,从而提升整个检索模型的效果。
针对上述挑战,本文基于BERT预训练模型,设计了一个基于BERT的文本检索模型(BTRM,BERT-basedTextRetrievalModel)。BTRM模型将查询与文本拼接后,利用层叠的Encoder对句间关系建模,得到两者之间的相似预测。此外,为了更好地利用BERT以及获取文本的上下文语义,提出了基于BERT的文本分割网络,在解决BERT输入长度限制的同时,进一步挖掘文本的上下文语义,获取语义更为凝聚的文本块,为文本检索进行相似性匹配时带来更精准的预测。
为了验证模型的有效性,本文在Robust04TREC信息检索会议使用的公开数据集上进行了实验,并使用了通用的nDCG指标对实验结果进行了评测。主要将基于BERT的文本检索模型与之前的一些神经网络语义模型进行了对比,同时,在基于BERT的文本检索模型基础上,对比了采用文本分割后的效果提升,同时,对比了不同的文本分割技术对于模型效果影响的差异。实验结果说明,基于BERT的文本检索模型相比于其他模型能取得更好的效果,相比于神经网络检索模型DRMM在nDCG@20指标上有9.7%的提升,同时实验证明加入文本分割网络之后对检索效果有提升,其中基于BERT的文本分割网络相比其他文本分割技术,对文本检索的效果提升更明显,相比于基础BTRM模型有4.7%的提升。最后通过实例显示了融合文本分割网络的文本检索模型所能达到的效果,其检索的结果包含更多的上下文信息。
针对上述挑战,本文基于BERT预训练模型,设计了一个基于BERT的文本检索模型(BTRM,BERT-basedTextRetrievalModel)。BTRM模型将查询与文本拼接后,利用层叠的Encoder对句间关系建模,得到两者之间的相似预测。此外,为了更好地利用BERT以及获取文本的上下文语义,提出了基于BERT的文本分割网络,在解决BERT输入长度限制的同时,进一步挖掘文本的上下文语义,获取语义更为凝聚的文本块,为文本检索进行相似性匹配时带来更精准的预测。
为了验证模型的有效性,本文在Robust04TREC信息检索会议使用的公开数据集上进行了实验,并使用了通用的nDCG指标对实验结果进行了评测。主要将基于BERT的文本检索模型与之前的一些神经网络语义模型进行了对比,同时,在基于BERT的文本检索模型基础上,对比了采用文本分割后的效果提升,同时,对比了不同的文本分割技术对于模型效果影响的差异。实验结果说明,基于BERT的文本检索模型相比于其他模型能取得更好的效果,相比于神经网络检索模型DRMM在nDCG@20指标上有9.7%的提升,同时实验证明加入文本分割网络之后对检索效果有提升,其中基于BERT的文本分割网络相比其他文本分割技术,对文本检索的效果提升更明显,相比于基础BTRM模型有4.7%的提升。最后通过实例显示了融合文本分割网络的文本检索模型所能达到的效果,其检索的结果包含更多的上下文信息。