面向探索式搜索过程的查询推荐方法研究

来源 :东北大学 | 被引量 : 0次 | 上传用户:caritasSD
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着全球信息化程度的不断加深,人们的搜索任务变得越来越复杂,探索式搜索逐渐成为人们执行web搜索的主要方式。但是关于探索式搜索的研究还存在很多问题面临很多挑战,其中面向探索式搜索的查询推荐就是一个亟待解决的问题。目前的查询推荐方法主要是针对用户当前提交的查询进行优化,而很少关注用户在整个搜索过程中的信息需求,缺乏对复杂搜索过程的特征分析以及用户在面对复杂搜索任务时的行为特征分析,因此只能适用于一些复杂度比较低的lookup式搜索任务的推荐需求,一旦面对复杂度更高的探索式搜索时其推荐效果往往很差。针对上述问题,本文首先对大量的探索式搜索过程进行实验分析,然后根据探索式搜索的基本特征设计了一个基于贝叶斯玫瑰树的识别模型,通过该模型成功地从海量搜索日志中识别出所有符合探索式搜索特征的搜索过程,从而为后面的查询推荐积累大量的优质搜索经验。随着对探索式搜索过程的不断深入分析,本文发现在探索式搜索过程中用户的搜索需求或目标一直在不停地变化。于是,为使推荐结果更贴近用户的真实需求,本文根据用户在探索式搜索过程中表现出来的多种行为特征,设计了一个基于加权马尔可夫链的搜索状态预测模型,通过该模型可以为查询推荐处理提供更准确的需求分析,最后本文利用机器学习方法将之前获取的大量优质搜索经验构建成探索式搜索目标迁移图,并利用随机游走算法从该图中选择与当前查询相关的迁移过程推荐给用户。另外本文还基于搜索目标迁移图从查询的相似性、多样性等多视角出发,为搜索用户推荐出多条类似搜索逻辑链的探索路径来帮助用户快速地完成探索任务。本文的主要贡献体现在以下几个方面:(1)为了分析探索式搜索过程中用户搜索行为特征以及累积不同用户在各种探索任务中的搜索经验,本文基于贝叶斯玫瑰树模型设计了一种可以从海量搜索日志中挖掘探索式搜索过程的识别方法。该方法基于用户搜索内容的层次化结构特征,以搜索子任务为基本分析单元,利用贝叶斯玫瑰树算法对探索式搜索过程进行层次化建模。最后根据贝叶斯玫瑰树的树形结构特征以及玫瑰树中不同节点间的关联特征计算出不同子任务间的相关度,并基于机器学习算法识别出由多个相关搜索子任务组成的探索式搜索过程。(2)为了能够准确把握搜索用户在探索式搜索过程中不断变化的搜索需求,本文设计了一种探索式搜索状态预测方法,该方法根据用户的搜索点击、查询重构等多种搜索行为特征,将探索式搜索过程划分为4种搜索状态,并利用基于梯度提升决策树的多元分类算法实现对搜索状态的自动识别。最后提出一个基于加权马尔可夫链的搜索状态预测模型,从而有效地把握住用户搜索需求的动态变化。(3)通过对探索式搜索过程的深入分析,本文发现在探索式搜索中存在大量的搜索目标迁移现象,如果从搜索用户的视角出发,探索式搜索过程可以被视为用户在不同搜索目标间进行不断迁移的过程。于是本文基于该现象设计了一种支持探索式搜索的新查询推荐方法,该方法首先根据用户在搜索目标迁移过程中所表现出的行为特征利用机器学习算法从搜索日志中提取出不同用户的搜索目标迁移过程,然后将这些迁移过程构建成搜索目标迁移图,最后利用随机游走算法从该图中选择与当前查询相关的迁移过程推荐给用户。(4)对大量探索式搜索过程进行分析后,本文发现由于相关领域知识的缺乏,在执行探索式搜索的初期,用户头脑中很难形成一个相对清晰的搜索思路,常常会偏离任务目标,对一些不必要的信息进行搜索学习,从而导致用户的搜索时间过长搜索效率低下。为了解决该问题,本文设计了一种面向探索式搜索的探索路径推荐方法。该方法首先引入前面设计的搜索目标迁移图,然后利用迪杰斯特拉路径搜索算法完成探索路径的构建,最后基于搜索相关性和查询多样性对推荐路径进行双重优化从而保证推荐结果的有效性。(5)为了验证本文设计的查询推荐方法的有效性,本文设计了多种探索式搜索任务,并组织多名志愿者针对这些搜索任务展开实际搜索,最后基于主观评价与客观评价两个不同的视角分别设计了不同的测试方法。
其他文献
在农业生产中,病虫害一直是困扰农作物生长的基本问题。为了预防和控制病虫害而过度使用化学药品带来的生态、经济和社会问题,使得科学管理农业病虫害成为亟待解决的问题之一。目前,随着计算机科学和计算数学的飞速发展,逐步形成一套有效的农业病虫害管理办法:首先,建立生物动力学系统模型刻画病虫害的发生发展规律。其次,运用动力系统理论,分析病虫害的复杂动态行为并揭示其爆发的生态学机制。最后,设计适当的控制器使病原
邻苯二甲酸酯类化合物(phthalic acid esters,PAEs)是工业上常用的一种增塑剂,广泛添加在各种日常消费品中。随着PAEs的大量使用,这类化合物广泛存在于自然环境中,已成为全球最普遍的有机污染物之一。PAEs被认为是一种环境内分泌干扰物,具有类激素样作用,可对人体生长发育和生殖系统造成损害。人体暴露生物监测是检测人体中环境化学物质的重要手段。目前关于PAEs的人体暴露生物监测研究
钢板剪力墙是20世纪70年代发展起来的一种可靠的抗侧力结构体系,与传统的钢筋混凝土剪力墙相比,具有延性好、抗震性能优越、自重轻、施工效率高、易修复、易拆除、可回收利用等优点。在水平荷载作用下,薄钢板剪力墙(高厚比大于150)屈曲后仍具相当大的屈曲后强度和延性,这种屈曲后强度源于拉力场作用机制,为钢板剪力墙提供稳定的承载力和抗侧刚度。由于薄钢板剪力墙出现明显的面外屈曲变形,导致力学性能方面存在一些缺
细粒锡石的高效回收一直是选矿界的难题,我国损失的锡金属80%从矿泥中流失,浮选是回收微细粒锡石最有效的方法之一,针对微细粒锡石浮选开展新型高效捕收剂研究具有理论和实际意义。本文设计了 7种膦酸型锡石捕收剂,通过密度泛函理论(DFT)模拟和试验检测分析了捕收剂结构与性能之间的关系,筛选出了新型锡石捕收剂2-羧乙基苯基次膦酸(CEPPA)。以CEPPA为捕收剂,苯乙烯膦酸(SPA)和油酸钠(NaOL)
随着节能环保、海洋工程、石油化工等重点领域相关的高端装备制造业的迅猛发展,对高性能、长寿命、低成本关键材料的需求与日俱增。作为不锈钢“塔尖”的超级奥氏体不锈钢以其超级的耐腐蚀性能、优良的综合力学性能和相对低廉的成本优势备受青睐,已成为高端装备制造业最急需的关键材料之一。然而,超级奥氏体不锈钢是不锈钢中制备技术要求最高、制造难度最大的一类品种。目前国际上只有极少数企业掌握其核心技术,并且严格对外保密
近些年我国在城市发展和建设中,商业空间作为城市公共空间的重要组成部分,受到了日益广泛和深入的关注。这一动向除了与社会经济的发展和生活水平的提高密切相关外,其背后一定还潜藏着更为深层、隐秘的逻辑与动因。本文基于建筑学、城市规划、社会学以及哲学领域所形成的日常生活视域理论与思想观念,借助“日常生活”这一视域研究商业空间在城市的宏观、中观和微观层面的作用和关系。商业空间是城市中重要的功能空间,除了具有商
今天的世界具有以往历史所不具有的重大挑战,人类生存与发展的世界历史特征及意义前所未有的呈现于世人面前。马克思世界历史理论作为一种承认基础历史事实,从抽象到具体地深刻揭示世界历史形成动力、本质与规律的科学理论,它既是马克思思考、分析人类社会,从而构建唯物史观的理论基础,又是剖析、批判资本主义社会,构建未来社会学说的逻辑前提。实现马克思世界历史理论的当代发展对于今天超越单个民族与国家历史局限,站在人类
目的:利用合成生物学技术设计与构建p53突变型肿瘤特异性干预基因线路,并确定该基因线路对p53突变型肿瘤的实验性治疗作用及其特异性。方法:采用载体构建的方法构建可特异性结合野生型p53蛋白的适体核酶元件;采用双荧光素酶报告实验验证p53适体核酶在细胞中的活性与特异性;采用载体构建的方法构建Cre-p53适体核酶基因线路与CRISPR-p53适体核酶基因线路;采用荧光定量PCR法,荧光成像和蛋白质印
生物分子的准确可靠诊断对疾病早期治疗和阐明各种生理和病理过程至关重要。基于分子信息层面的检测和认知而建立起的个性化医学使治疗许多罕见疾病成为现实。经过几十年的发展,已有多种生物分子检测平台相继被提出,但对复杂样本中低丰度生物分子检测及全球性大爆发疾病的快速诊断仍具有挑战性。此外,依赖于大型检测设备的传统分子诊断技术操作复杂,检测成本高,涉及复杂的样本预处理,需要专业人员操作,难以实现大规模部署和现
血管内皮细胞功能的正常发挥是维持血管通透性、限制血管壁炎症活动、平衡凝血与纤溶系统的重要基础。血管内皮在病理因素持续性损伤下引起的血管内皮功能障碍被认为是糖尿病大血管病变的早期和突出事件。"亢害承制"中医经典理论最初是对自然界生克制化、更替演变规律的高度概括,揭示了事物稳健运行的内在调控机制,而后逐渐演变为阐释人体生理现象、病理机制及指导治疗遣方的重要法则。人与自然界相应,机体内在稳态环境也需在承