【摘 要】
:
下一代搜索引擎的一个突出特点是个性化,个性化信息检索是以用户为中心的信息检索技术,它获取以多种形式表达的用户需求(包括显式的、隐式的以及相关用户的需求),并综合利用
论文部分内容阅读
下一代搜索引擎的一个突出特点是个性化,个性化信息检索是以用户为中心的信息检索技术,它获取以多种形式表达的用户需求(包括显式的、隐式的以及相关用户的需求),并综合利用这些用户信息,提高信息检索系统的性能。作为个性化检索中的重要研究子课题,相似用户群的建立与更新的任务是,通过对用户检索和浏览历史的分析,建立兴趣相似的用户群,并随着用户信息和检索领域的变化对相似用户群进行更新。相似用户群的建立与更新任务面临的主要问题是,缺乏合理的任务划分和标准评测集,无法对相似用户群系统进行公正的评价。因此,本文通过对个性化检索进行合理的任务划分,将相似用户群划分为一个独立的子任务,并利用开发的语料标注辅助系统,为其建立了标准评测集,使得可以对相似用户群的系统进行公正的评价和比较。在相似用户群的研究中,由于用户间共同评价过的网页较少,数据稀疏成为限制相似用户群建立效果的重要问题,因此,本文对相似用户群建立的研究主要集中在解决数据稀疏问题上。本文提出了基于相关性模型的相似用户群建立方法,采用相关性模型,利用相似领域中的相似用户,对当前领域中的用户查看数据进行扩充,以解决数据稀疏问题。同时,根据实际情况,随着领域的不同对相似用户群不断进行更新,以使相似用户群的建立更加准确。实验语料为标注者针对天网100G语料进行的检索行为和标注的答案,评测指标采用错检率、漏检率和系统性能损耗代价。此方法的性能在测试语料集上比baseline方法提高了7.12%,说明基于相关性模型的相似用户群方法可以很好地解决数据稀疏,同时由于利用用户群兴趣挖掘单个用户兴趣,防止了用户兴趣判断的偏差,提高相似用户群建立的效果。
其他文献
随着计算机的不断发展和网络的普及,电子邮件作为Internet的重要应用,以其方便、快捷的特性而深受广大网络用户的欢迎。不论是个人、企业、政府甚至包括军方等,都在通过电子
二维条码技术在出版、交通运输、商贸、制造业、医疗卫生、仓储等领域有着越来越广阔的应用前景,国内外的学者对二维条码技术进行了广泛和深入的研究。但是,如何使用二维条码
近年来,随着进化计算研究热潮的兴起,人们逐渐将进化计算与人工神经网络相结合,利用各种进化方法去训练神经网络。由于进化算法具有较强的全局收敛能力和较强的鲁棒性、且不
太阳能发电是近年倍受关注的新能源发电形式之一,它既保护了环境又节约了能源。其中光伏并网发电作为最主要的太阳能发电形式,目前有着非常好的发展前景和趋势。在光伏并网发电系统中,并网逆变器是最重要的组成单元,其性能的优劣决定着整个系统多个方面的工作效率。到目前为止,国内外已对光伏并网逆变器进行了大量的研究和应用,但是其中一些关键技术还未得到更好的解决。本课题将针对这些关键技术进行深入的研究。分析了几种传
随机规划是含有随机因素的一类不确定规划问题,它广泛存在于工程实际中。其传统的求解方法是针对某些具有特殊结构的随机规划问题,将其转化为确定性等价类,再用已有的确定性
细分造型方法的实质是通过对初始控制点或者初始网格进行一系列的细化过程,细化的极限生成所需要的曲线或者曲面。细分是生成任意拓扑曲面强有力的方法。细分算法的最大优点
由于Web上海量的信息处于不断的变化中,通用搜索引擎己经很难再为用户提供一个全面并且更新及时的信息搜索服务,其局限性在于它试图索引全部Web并且试图服务于所有主题的查询
网格和P2P计算是当前分布式计算领域的两个研究热点。网格是即因特网和万维网之后的新一代的网络应用,试图实现互联网上所有资源的全面连通,将互联网上的资源整合成一台超级
解决图中受顶点数限制的最短路径问题在交通工程、通信网络等方面有重要的实际意义。本文主要是针对K顶点数限制最短路径问题提出求解算法。在实际应用中,除希望得到最短路径
微粒群算法最早是在1995年由James Kennedy和Russell Eberhart共同提出的,其基本思想是受对鸟群行为进行建模和仿真的研究结果启发。微粒群优化算法是一种基于种群搜索策略的