基于实时Twitter流的文本检索研究

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:qqqq8989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息检索是从信息资源中获得与特定信息需求相关联的信息资源的活动[1]。检索可以基于全文或基于内容索引,主要用于减少“信息量过载”问题。通过信息检索,可以把分散的信息聚集在一起,这样用户就可以方便的访问网络中预期的资源。随着社交网络[2]变为大众生活的一部分,当前一些主要社交平台如:Facebook,Twitter,Weibo等,会产生大量的文本信息。如何从实时社交流信息中快速有效地检索信息吸引了国内外文本检索研究学者的兴趣,目前已经成为了短文本信息检索的热点和重点,诸如国际著名信息检索评测会议TREC,2015年将这一问题加入其在线评测任务中。本文的课题来自于2017年参加的TREC2017 RTS任务。本文的核心问题,即社交平台用户给出检索目标信息(包括主题核心关键词、主题描述信息、预期检索描述),要求在社交媒体文本流中实时检索出和主题相关的推文。对于这一问题,本文首先设计了一套基于推特流的实时检索框架,针对其中的文本匹配模型又分别在基于相似度的方法和基于深度强化学习的方法上进行了研究实践。在相似度量的方法上,使用了我们已参加过TREC2017 RTS任务测评的方法[54],利用多种不同的度量方式并组合特征提取方法,以静态过滤阈值进行过滤。在基于深度强化学习的方法上将实时检索看作是序贯决策问题,训练出最优决策策略,针对当前推文执行挑选出(相关)或者跳过(不相关)动作。本文主要工作如下:(1)设计和构建了一套基于Twitter流的实时文本检索框架,并对框架中模块的作用和实现做出了阐述。(2)对于框架中的核心文本匹配模型,采用基于相似度度量的方法并结合静态阈值对其进行建模,通过实验验证有效性。(3)改进了基于深度强化学习的文本匹配模型,以卷积神经网络(CNN)作为策略网络的基本架构,并结合了 Double-DQN和Dueling-DQN训练出相似文本最优决策模型。
其他文献
在我国公司法规范不断地由强制性规范居多走向任意性规范居多的过程中,公司在出资管理、股权转让等方面越来越多地偏向由股东自己在公司法允许的范围内决定,实现公司自治无疑
乙型肝炎肝硬化是指由乙型肝炎病毒长期损害肝脏而引起的慢性、进行性肝病。根据病情轻重,可分为代偿期和失代偿期。根据中医理论,该病同时存在气与血的失调,且肝“体阴而用
对于普通高中阶段的学生而言,学生们的思想、行为都表现出差异性特点,学校和老师总是将关注的重点放在毕业班的学生身上,对基础年级缺乏重视,"惯性而为之"的现象非常的普遍。
对于化工产品的运输,主要有铁路输运、公路输运、航空输运、管道输运等,其中管道运输也是最主要的运输方式之一。管道运输运输成本低并且安全性高,然而化工管道的建设由规划
在压力管道的设计中,管道阀门配件的安装涉及管道的工艺有效性、运行安全性等方面,是管道设计中最重要的环节。本文主要对化工设计中压力管道阀门管件的设计进行了探讨。
目前,我国已开采的油田普遍存在动用程度低、高含水、剩余油含量较大的问题,在我国对石油需求越来越大的背景下,加大对剩余油的开发显得尤为重要。加大剩余油即提高原油驱油
目的通过对1978-2016年我国卫生总费用变化趋势及构成的分析,对2017-2021年卫生总费用的变化及构成进行预测,为卫生政策的调整提供科学依据。方法基于ARIMA对我国的卫生总费
通常采用高阶交错网格有限差分法求解一阶双曲型弹性波动方程或用伪谱法求解二阶弹性波动方程以提高局部弹性波场的数值模拟精度,这两种方法尽管能够有效压制频散现象和允许
首先从资源环境、人文科技、经济发展模式与调控等方面深入探析了"两型社会"提出的深刻背景,在此基础上,站在生态文明建设的角度和马克思"自由王国"对人属性要求的角度,阐述