论文部分内容阅读
信息检索是从信息资源中获得与特定信息需求相关联的信息资源的活动[1]。检索可以基于全文或基于内容索引,主要用于减少“信息量过载”问题。通过信息检索,可以把分散的信息聚集在一起,这样用户就可以方便的访问网络中预期的资源。随着社交网络[2]变为大众生活的一部分,当前一些主要社交平台如:Facebook,Twitter,Weibo等,会产生大量的文本信息。如何从实时社交流信息中快速有效地检索信息吸引了国内外文本检索研究学者的兴趣,目前已经成为了短文本信息检索的热点和重点,诸如国际著名信息检索评测会议TREC,2015年将这一问题加入其在线评测任务中。本文的课题来自于2017年参加的TREC2017 RTS任务。本文的核心问题,即社交平台用户给出检索目标信息(包括主题核心关键词、主题描述信息、预期检索描述),要求在社交媒体文本流中实时检索出和主题相关的推文。对于这一问题,本文首先设计了一套基于推特流的实时检索框架,针对其中的文本匹配模型又分别在基于相似度的方法和基于深度强化学习的方法上进行了研究实践。在相似度量的方法上,使用了我们已参加过TREC2017 RTS任务测评的方法[54],利用多种不同的度量方式并组合特征提取方法,以静态过滤阈值进行过滤。在基于深度强化学习的方法上将实时检索看作是序贯决策问题,训练出最优决策策略,针对当前推文执行挑选出(相关)或者跳过(不相关)动作。本文主要工作如下:(1)设计和构建了一套基于Twitter流的实时文本检索框架,并对框架中模块的作用和实现做出了阐述。(2)对于框架中的核心文本匹配模型,采用基于相似度度量的方法并结合静态阈值对其进行建模,通过实验验证有效性。(3)改进了基于深度强化学习的文本匹配模型,以卷积神经网络(CNN)作为策略网络的基本架构,并结合了 Double-DQN和Dueling-DQN训练出相似文本最优决策模型。