基于深度语义的查询扩展研究

来源 :昆明理工大学 | 被引量 : 2次 | 上传用户:liuxc1112
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网与高新信息技术飞速发展,网上信息呈爆炸式的增长。信息检索是用户进行信息查询和获取的主要方式,是查找信息的方法和手段。但是由于自然语言的多义性及用户查询条件表述不够完整,传统信息检索就出现了一定的局限性,无法满足用户的查询意图。因此信息检索中的查询扩展技术成为越来越重要的研究课题,它是在原查询词的基础上加上相关的词或词组,从而克服自然语言存在的“多义性”问题,深化查询需求的表述,达到查询优化的目的。深度语义就是利用深度学习等自然语言处理技术,从大量、冗余、非结构化或结构化的数据中,准确作出情感分析、趋势分析、地域分析、关系分析等。建立词之间概念语义空间,进一步分析它们更深层次的语义之后进行查询扩展,可以更大限度的挖掘查询词之间关联关系,在宏观上掌握用户查询意愿。因此本文根据以上论述对深度语义在查询扩展运用做了一系列的研究和实验。提出一种利用深度学习和概念语义空间挖掘词与词之间深度语义的查询扩展方法,用深度学习算法为各个原查询词构建概念树,再利用Word Net将这些概念树向上溯源建立完整的概念语义空间。随后以共现信息为特征参数对扩展源进行筛选,防止进行过度扩展造成查询语义漂移。同时引入平均互信息及观察窗口实现相关度算法,通过共现信息来度量单词之间的关联度,最终筛选出与查询词的相关信息关联较高的扩展词集,随后进行实验对比,结果表明所提方法具有更高的查准率和查准率。另外把词语之间语义关系和概率统计关系进行联合,即结合深度学习,通过挖掘词之间的深度语义关系形成原查询词的深度语义扩展词集,再根据基于统计的方法获得初检反馈的文档中与原查询词相关的统计扩展词集,再将这两种扩展词集通过使用Copulas框架进行指标度量融合筛选得出混合查询扩展词集,然后进行实验研究,分析实验结果,结果表明提出混合查询方法具有更高查询性能。
其他文献
对于高面板堆石坝,填筑分期断面形状和尺寸不仅关系到坝体填筑强度、填筑速度,同时也与坝体沉降变形控制紧密相关。本文综合考虑施工程序、施工强度等施工组织要素和坝体变形
目的:1.了解本地VVC患者念珠菌菌种分布情况及对唑类药物的敏感性。2.探讨VVC临床分离白念珠菌ERG3、Efg1突变及表达水平与唑类药物耐药的关系。3.探讨VVC中白念珠菌Efg1与ER
女性作品中的自我迷恋与自我封闭也是女性写作中寻找“自我”的一种表现。 2 0世纪 80年代初的女性写作 ,在“自我”形象上的姿态是一种“寻找”和姿态 ,是失落之后的重新面
《国发46号文》的发布,将体育产业的发展推入到了一个新的阶段,也标志着体育产业进入快速发展期。随着产业结构的不断深化,体育产业作为国民经济新的突破口,其对相关产业和外
习近平总书记就"系统治理"发表了一系列重要论述,这些论述蕴含着深刻的系统治理思维和思想,在对象上要求统筹山水林田湖草治理;在主体上要求统筹发挥各方合力;在环节上要求统
发端于启蒙运动的现代性运动推动了西方现代化进程,同时也带来严重的现代性危机,引发了一系列关于现代性争议和批判的社会思潮,而马克思现代性批判理论以其深刻性和前瞻性,在现代
DNS在为Internet的正常运行提供可靠保障的同时也遭受来自网络的欺骗攻击威胁,DNS攻击具有隐秘性强、打击面大、攻击效果明显的特点。文章分析了DNS系统解析流程、DNS欺骗攻
目前我国城市轨道交通设施投资的基本框架是以政府投资为主的非市场化体制,文中通过例举国内已采用BOT模式的深圳地铁4号线二期工程及北京地铁奥运支线工程,归纳了基础设施BO
随着自动化、智能化水平的不断提高,电气工程自动化控制程度不断提高。单片机的使用提高了电气工程自动化控制的水平和能力,从而提高了企业的生产和工作效率。本文从单片机方
通过对性诱剂及诱捕器不同使用方法与诱虫量的影响进行观察研究,以期明确性诱剂诱捕器放置密度、高度、诱芯用量等较为合理的使用方法。试验结果表明,从诱虫效果与节约成本来