一种基于Pairwise的深度学习排序算法

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:chengqiantu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在如今信息爆炸的互联网时代,信息检索的重要性不言而喻。我们几乎每时每刻都在进行着信息检索。比如在搜索引擎上查询网页,在视频网站上观看视频,在论文库里寻找论文。一个好的搜索引擎能够直接检索出我们想要的结果,从而避免人们花费大量的时间寻找自己想要的信息。而对于搜索引擎而言,最重要的部分就是排序模型,排序模型将结果依次排序,把相关度最高的信息排到前面。本文旨在提出一种新的学习排序模型,能够学习出最优的排序模型。文本首先使用了传统的非监督模型的结果构建高阶特征。然后构建了基于pairwise的学习排序方法。本文首先建立基于之前高阶特征的Rank Net模型,然后建立基于Text CNN方法的Pair Text CNN模型,该模型能自动从文本中获取隐式模式与特征。最终用更外层的深度神经网络将二者用可学习的参数集合,得到最终的模型Mix Net。并将三者与其他研究者的模型在标准公开数据集上对比,发现效果优于绝大多数模型,这表明基于Pairwise的模型的优势以及结合显示模式匹配和隐式模式匹配对效果的提升作用。本文还对使用的词向量方法的不同初始化方式和处理方式对模型的结果的影响进行了探讨。本文所用数据集规模偏小,还需要在更大的带有原生语料的数据集上检验深度模型效果。最后,基于研究结果,文本对文章中所做的贡献和发现做了总结。
其他文献
近年来,随着计算机技术的不断革新与网络游戏平台的搭建完善,游戏产业迅速发展。在此背景下,游戏换皮行为在国内外游戏界层出不穷,通过模仿既有的游戏降低制作成本,获取高额利润。但如果游戏复制的不仅仅是作为思想的游戏机制和玩法,还复制了游戏的独创性表达,可能就构成著作权侵权。游戏作为一种新型的媒介形态,在著作权侵权认定上存在困难,主要是对其思想表达二分法的适用难。本文试图通过国内外经典案例的对比分析,参照
Corporate social responsibility(CSR)has been a highly debated topic in these past years,as businesses are looking to move towards more “sociallyresponsible” business models.Generally,CSR has been view
学位
违法广告是保健食品产业的痼疾,然而监管力度的加强并未带来良好的治理成效,违法广告治理中存在一定程度的监管失灵。其原因在于现有监管着重于外部原因的治理,依赖禁止性规范和运动式执法,却忽视了信任品特征带来的影响,导致其背后的理论基础也存在一定的适用困境。这一监管模式带来的直接影响是违法广告问题难以根治。同时,广告问题通过“广告-产业-消费者”的链条传递,影响产业模式与消费者利益,最终又加剧了违法广告问
词汇是科技文本翻译的重点和难点,然而,现有的研究对科技词汇的翻译讨论并不充分,相关研究缺少系统性,与翻译实践的结合也不够紧密。本文基于作者翻译科技文本《2018德国汽车年报》的实践体会,将科技文本词汇分为专业技术词、半专业技术词和普通词三类,结合译例分析了不同类型词汇的特征以及对应的翻译方法,总结了科技文本中的词汇翻译策略。研究发现,科技词汇的翻译需要在深入理解原文的基础上从词汇本身的意思出发,综
在《公司法》、《证券法》等我国法律法规及其他规范性文件中,目前均未明确规定上市公司的股权代持协议无效,因此上市公司股权代持的相关司法判例此前多参照适用《公司法司法解释(三)》第二十四条认定上市公司代持协议有效。然而随着资本市场强监管的演化趋势,法院基于自愿平等原则做出肯定上市公司股权代持协议法律效力裁判结果的同时,出现基于维护资本市场交易秩序和从社会公共利益考虑做出对上市公司股权代持协议效力认定无
The aim of this research work is to explore whether CEOs have the ability to affect the performance of the firms they manage and,if yes,to what extent.To do so,the analysis focuses on 61 listed compan
学位
目的利用统计学方法对重组大肠杆菌发酵培养基进行优化,提高胶原蛋白产量。方法应用Plackett-Burman试验设计法和响应面法,对发酵培养基6种组分配比和2个初始发酵条件进行优化;用Design-Expert软件对实验数据进行多元回归分析,并建立3种主要因素(葡萄糖、混合氮源和K2HPO4)与胶原蛋白产量之间的函数关系。用最终优化的配方进行5次验证试验。结果培养基3个最佳浓度为:葡萄糖为14.6
目的 了解新型冠状病毒肺炎疫情下综合医院医务人员的心理状态及其相关影响因素。方法 采用便利抽样法抽取某院医护人员1 007名,采用一般资料问卷、广泛性焦虑障碍量表、患者健康问卷抑郁自评量表、患者健康问卷PHQ-15进行横断面自评问卷调查,筛选问卷并进行统计分析,有效问卷1 005份。结果 上述医务人员中203人(20.20%)存在焦虑症状,338人(33.63%)存在抑郁症状,376人(37.41
While electronic commerce is not a new phenomenon in many countries and has developed quite aggressively reaching its maturity in the markets such as the USA or China,it is still emerging and rising i
学位
This paper is part of the different analysis cases of event study on a related financial market.The classic event study is deeply related and focused on the stock market.Meanwhile,this research brings
学位