基于风险控制的短文本检索框架研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:hwguomin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
以微博、推特为代表的新兴网络社交媒体的迅猛发展,对传统的信息检索框架提出重大挑战。新兴媒体个性化、移动化、社交化的特点催生出以短文本为主体的表达范式,而短文本的稀疏性、个性化、碎片化等特性,又使得传统检索框架性能严重下降,从而迫切要求研究新的短文本检索架构以应对短文本检索难题,解决诸如微博检索、产品推荐和广告投送等业务需求。随着微博平台的影响日益增强,这一挑战变得亟待解决。本文以微博为背景,针对短文本检索问题提出新的看法和方法。  绪论介绍了微博检索的研究意义和研究现状,总结了当前短文本检索领域的常用技术与难题,同时介绍了本文的主要研究内容。实时检索与实时过滤是微博检索的两个主要任务。短文本的稀疏性是制约微博检索性能的重要因素。  相关研究综述对短文本检索所涉及的统计语言模型、文档扩展技术做了详细分析总结,并举例介绍了新的研究方向。依据文档的表达方式,传统的检索模型可以划分为布尔模型,向量空间模型,二值独立模型和词袋模型。不同的表达模型对应了不同的检索方法。文档扩展技术普遍用来缓解文本的稀疏性,提高检索的稳定性。  第三章对基于Bayesian风险的信息检索框架,以及基于统计学习理论的结构化风险控制方法进行了详细分析与总结。在此基础上梳理出短文本信息检索中涉及的风险因素。以统计语言模型的期望风险为切入点,基于一个双马尔科夫链的统计语言检索框架,对如何控制检索风险进行讨论。通过理论分析发现,混合模型具有限定文档模型的空间、降低文档模型的函数集容量和降低期望风险的作用。我们提出假设,在给定K个合适的先验分布的情况下,混合模型可以有效的降低我们关心的文档模型的期望风险。  第四章提出了基于用户先验风险控制的短文本检索框架。论文基于所提出的风险控制框架,讨论了基于混合模型与用户先验知识的短文本检索框架,实现了短文本检索的风险控制。在TREC2011数据集上进行的验证实验表明,方法可以有效的提高话题检索的准确性与稳定性。  第五章基于所提出的风险控制框架,讨论了基于文档扩展的短文本检索框架。提出了标准化交叉熵法,实现了动态的文档扩展方法。同时在TREC LATimes数据机上的验证实验表明,标准化交叉熵是有效的界定文档相关性大小的测量指标。
其他文献
在实际的图像处理问题中,图像的边缘图作为图像的一种基本特征,被经常应用到较高层次的特征描述、图像识别、图像分割、图像增强以及图像压缩等等的图像处理和分析技术中,从
该文采用COM组件技术,设计并部分实现了组件式GIS的数据访问接口和空间对象接口.目前市面上一般的组件GIS平台一般把数据访问放在服务器端,这样不仅导致了安装时必须在服务器
该文根据CHINANET(现中国网通CNC)骨干网三期扩容工程和云南连通骨干网网管中开发的路由监测与仿真系统及其相关的研究工作,实现了在拓扑图上对IS-IS,OSPF和BGP4的网络路由状
随着计算机技术在各个领域的快速发展,人们越来越倾向于使用电子数据处理信息,电子信息的安全问题显得越来越重要.该项课题在研究已有数据加密体系的基础上,为基于PC机的数据
该文首先通过对Web Service原理的阐述而展开,然后,将计算机界刚推出关于XML的两个重要安全协议纳入该文,加以详细、深入的分析.接着,介绍正趋于成熟的PKI系统理论,其中特别
该文分为两部分.第一部分主要研究量子搜索算法.重点介绍和分析了Grover的非结构化搜索算法.在此基础上提出Household变换在量子搜索算法设计中的独特作用,并从Household变换
移动代理系统被广泛的认为是有前途的分布式计算模型;然而,也面临着很多的挑战,主要是缺少应用软件、安全、结构和统一的标准,另外,以Jini技术为基础的Ubicomp成为了公认的动
该文在现有研究成果的基础上,从对复杂特征的分析入手,采用模块化的方法,借助Petri网设计了一种具有较强适应能力的复杂特征入侵检测模型.该模型将复杂特征按照选择、并发、
在计算机图形学和几何造型中,为了获得对三维世界的描述,实现曲面的重构是非常重要的.曲面的重构也即得到待构曲面上的散乱点群,对这些散乱点群进行曲面重构得到待构曲面的几
该文设计了综合利用音频的感性特征和物理特征的基于内容的音频检索算法.对于一段音频信息,我们先要进行加窗处理,把音频信息分成一帧一帧的数据,我们选取了汉明窗函数.然后