论文部分内容阅读
如今信息爆炸的互联网时代,尤其是移动应用的不停使用,产生了大量的信息,更有海量的用户群体,如此,因特网所涵盖的信息远远大于任何传统媒体所涵盖的信息,海量用户更是从各种角度、以各种的逻辑方式展开个性化的信息检索,如何在浩如烟海的信息资源中快速、准确地找到最需要的信息,是对现有的信息检索技术的一项挑战。当前主流的搜索引擎是基于单一输入框的,即基于关键字的查找,通常用户提供比较短的查询语句,并不能完整而详细地描述用户的需求,就此,查询扩展成为解决这一问题的热点。现有的查询扩展技术,不论是使用WordNet还是使用本体知识库,语义都是它们共同的缺陷。 针对查询扩展忽略语义的问题,本文提出了一种基于语义属性特征图的查询扩展方法。其中一个重要概念就是关联数据(Linked Data),它通过网络把以前没有关联的相关数据连接在一起,利用资源描述框架(RDF)图模型形成链接开放数据云(Linked Open Data Cloud),关联数据虽然本身并不具备语义特征,但它可以在数据层面建立跨领域的关联,成为查询扩展一个新的研究方向。 该方法将语义网、关联数据技术以及图的思想相融合,以DBpedia为数据源,通过构建以资源为顶点的语义属性图,挖掘更多关联的语义信息,更全面的实现扩展。首先,通过有监督的学习训练方法,数据挖掘出语义属性特征的权重值,用于表达扩展资源的有用性;然后在整个DBpedia图上通过标签属性实现查询关键字到匹配资源的映射,实现自然语言的关键词与关联数据知识的匹配,进而完成数据的抽取与预处理过程;接着,根据属性特征广度搜索出邻接点,并将其作为与关键词语义上相关联的词,即扩展候选词;最后通过设定的阈值,过滤、筛选出词相关性分值score最高的作为最终扩展词。 本论文实验数据下载DBpedia3.9的部分数据包,训练测试集选用Freitas、Augenstein等人共用标准,实验表明,与Augenstein的LOD Keyword Expansion方法相比,基于语义属性特征图的扩展方法召回率(Recall)达到0.89,平均逆排序(MRR)提高4个百分点,与用户查询需求更匹配。