论文部分内容阅读
在搜索过程中,如果用户不了解目标领域,或者用户的搜索任务相对比较复杂,或者系统对信息的索引不充分,这种情况下用户的搜索行为通常称为探索式搜索。在探索式搜索中,由于基于本体查询推荐可以找出与初始查询或关键词相关的其他查询或关键词,帮助用户构造更准确查询,成为了支持探索式搜索的有效方法。在探索式搜索中,由于其探索性导致用户的关注点较广泛,通常涉及多个领域。因此,这些特性使得在基于本体的探索式搜索的查询推荐中需要引入多领域本体,从而帮助用户更好的完成探索式搜索。针对上述问题,本文研究基于多领域本体的探索式搜索的查询推荐方法。本文首先通过隐式马尔科夫模型的参数训练和预测,解决了多领域本体中的资源歧义问题;接下来借助搜索引擎获取查询词的权威领域集合,本文分析本体概念在权威领域集中的具体使用情况,实现了在查询推荐过程中为不同领域本体赋予权重;最终利用推荐词的相关文档集合和探索路径信息,本文构建了推荐词的探索模型,并以此为基础,实现推荐词的排序和选取方法。具体的,首先,针对于多领域本体的资源歧义问题,本文利用隐式马尔科夫模型,通过大规模的本体词义标注语料库,提取特征后训练模型参数,然后对未标注句子中多义词的义项进行预测,从而实现了多领域本体的资源消歧。随后,本文通过获取查询词的权威领域集,将权威领域集中的关键词与不同领域本体中的概念信息以及文本型的信息进行相似度计算,在查询推荐过程中为不同领域本体赋予权重。最后,本文利用推荐词的相关文档集合和探索路径信息,分别构建了推荐词的语言模型、探索模型和查询模型。通过考察探索模型与查询词的语言模型的分布的差异,为推荐词赋予权重。综合本体权重和推荐词权重,实现了推荐词的排序与选取。本文将推荐词选取方法与两种基线方法的推荐结果进行对比,分别从客观和主观两个方面进行考量。实验结果表明本文的推荐词选取方法能够帮助用户更好的构建查询,从而完成探索式搜索任务。