论文部分内容阅读
随着因特网与高新信息技术飞速发展,网上信息呈爆炸式的增长。信息检索是用户进行信息查询和获取的主要方式,是查找信息的方法和手段。但是由于自然语言的多义性及用户查询条件表述不够完整,传统信息检索就出现了一定的局限性,无法满足用户的查询意图。因此信息检索中的查询扩展技术成为越来越重要的研究课题,它是在原查询词的基础上加上相关的词或词组,从而克服自然语言存在的“多义性”问题,深化查询需求的表述,达到查询优化的目的。深度语义就是利用深度学习等自然语言处理技术,从大量、冗余、非结构化或结构化的数据中,准确作出情感分析、趋势分析、地域分析、关系分析等。建立词之间概念语义空间,进一步分析它们更深层次的语义之后进行查询扩展,可以更大限度的挖掘查询词之间关联关系,在宏观上掌握用户查询意愿。因此本文根据以上论述对深度语义在查询扩展运用做了一系列的研究和实验。提出一种利用深度学习和概念语义空间挖掘词与词之间深度语义的查询扩展方法,用深度学习算法为各个原查询词构建概念树,再利用Word Net将这些概念树向上溯源建立完整的概念语义空间。随后以共现信息为特征参数对扩展源进行筛选,防止进行过度扩展造成查询语义漂移。同时引入平均互信息及观察窗口实现相关度算法,通过共现信息来度量单词之间的关联度,最终筛选出与查询词的相关信息关联较高的扩展词集,随后进行实验对比,结果表明所提方法具有更高的查准率和查准率。另外把词语之间语义关系和概率统计关系进行联合,即结合深度学习,通过挖掘词之间的深度语义关系形成原查询词的深度语义扩展词集,再根据基于统计的方法获得初检反馈的文档中与原查询词相关的统计扩展词集,再将这两种扩展词集通过使用Copulas框架进行指标度量融合筛选得出混合查询扩展词集,然后进行实验研究,分析实验结果,结果表明提出混合查询方法具有更高查询性能。