【摘 要】
:
由于用户在检索时时常无法准确的描述自己的查询需求或者查询时输入词语过短导致检索系统无法准确获取查询意图,再加上在自然语言中,同义词、近义词以及词语歧义等问题的存在
论文部分内容阅读
由于用户在检索时时常无法准确的描述自己的查询需求或者查询时输入词语过短导致检索系统无法准确获取查询意图,再加上在自然语言中,同义词、近义词以及词语歧义等问题的存在,导致了检索系统往往不能准确并全面的返回包含用户需求的文档。查询扩展技术可有效解决这种词不匹配以及查询描述不全的问题,在减轻用户查询负担的同时提高检索效率。然而传统的查询扩展技术存在用户需要变换查询词进行检索或是需要检索系统进行初次检索返回结果文档后对其分析再进行二次检索的不足,为此,本文基于Word2Vec研究查询扩展技术的实现。本文主要工作如下:第一,针对需要对初次检索的结果文档进行分析再二次检索的问题,本文提出了基于Word2Vec的查询扩展方法,该方法通过选取语料集利用Word2Vec工具进行训练得到词向量文件,根据词向量之间的相似度计算对用户提交的查询词选取相似词作为扩展词候选集,然后根据相似度对候选集中的词语进行筛选建立扩展词表,从而避免了对用户查询的初次检索及文档分析,减轻了检索的负担。第二,通过与查询词相似度的大小来筛选候选集的方法本文称之为基于Word2Vec的面向查询词的查询扩展方法,针对面向查询词的查询扩展方法中词语的相似度都是对应其查询词的,没有考虑到与整个查询的相似性的问题,本文又提出了基于Word2Vec的面向查询的查询扩展方法,该方法将整个查询看成是一个整体生成查询向量,然后再计算候选集中词语与查询向量的相似度来对候选集进行筛选建立扩展词表,这种方法在建立扩展词表时考虑到了扩展词与整个查询的相似性,能有效提高检索的效果。本文通过对面向查询词的查询扩展方法和面向查询的查询扩展方法过程的详细叙述,并在计算机平台上实现了基于Word2Vec的几种查询扩展方法。
其他文献
四川盆地是我国大型含油气叠合盆地,区域内奥陶系地层勘探一直未能取得突破。奥陶系上统宝塔组是一套具有“网纹构造”特征的灰岩,也是被寄予希望的潜在储层。当前研究的关注点主要集中于沉积相、成岩过程及成岩机理的讨论,而在储层特征及储层形成机制方面,尤其是对与储层形成密切相关的溶蚀现象缺乏足够的研究。本文以碳酸盐岩沉积学、碳酸盐岩岩石学、碳酸盐岩储层地质学等相关理论为指导,结合野外工作调查结果和区域地质资料
信息物理融合系统(Cyber-Physical System,CPS)是一种将计算、通信和控制技术融于一体的新型智能复杂系统。信息物理融合系统深度融合了信息资源和物理资源,而融合介质网络的
施用氮肥是解决农田土壤缺氮的主要措施,在提高农作物产量、改善作物品质形成方面起着关键作用。为了满足社会需求,我国农田氮肥施用量逐年增加,但大量持续性施用氮肥会对土
近年来我国经济平稳发展,城乡居民收入不断增加,消费需求上升到新的台阶。居民对家电产品的需求不仅在基本的功能,更是上升到新的品质阶段。作为传统的家电行业,在受到电商、直营商的数轮冲击后,以往的营销模式日渐失去作用。企业需要应对更为复杂的竞争环境,需要进行科学的分析和系统的研究,进而选择更加灵活高效的营销策略来应对市场升级带来的机遇和挑战。L公司郑州分公司销售区域是河南省,河南省地处中原腹地是传统的农
通过对易县百合奶站公司配送系统现状的分析,发现公司目前乡镇配送模式、县城区域内配送路线设计方面及配送车辆装卸方式存在很多问题。具体如乡镇配送模式不合理导致配送效率低、产品不能及时退货、造成资源浪费;配送路线不合理导致配送的回路过多,车辆的装载率不高,配送时间长;配在人民生活与文化教育水平不断提高、社会主义经济建设取得长足发展的背景下,人们逐渐认识到乳制品营养价值的重要性,导致乳制品的需求量在逐年稳
改革开放以来,我国对市场经济的发展不断给予支持,随之也增强了相关的市场监督机制。随着国家经济实力的提高,我国市场经济不仅得到了迅速发展,资本市场监管制度也逐渐完善。但是制度监管并不能事无巨细的起到完美作用,总会出现一些监管或者制度上的漏洞,而这些漏洞却为盈余管理的使用提供了机会,但是盈余管理的运用很可能附带严重且恶劣的经济后果,对广大的投资者利益造成威胁,从而影响我国经济的长远发展。出于各种原因和
近年来我国环境资源不断消耗,引发环境污染,环境问题一定程度上制约了经济的健康发展。水泥行业作为高污染行业与我国经济建设紧密相关。当前我国政府虽然加强了环境保护、提高了对节能减排的重视,但是水泥行业作为高消耗、高污染的行业,环境成本问题依然突出。因此,研究水泥公司环境成本核算是非常必要的。本文依据环境成本核算的相关理论,利用调查研究以及查找相关文献的方式,以JX水泥公司为研究对象,对该公司目前的环境
人体行为识别是计算机视觉领域中重要的研究课题之一,在智能视频监控、智能医疗监护、运动分析、智能人机交互和虚拟现实等方面都扮演着重要的角色。人体行为识别技术虽然在
商业银行通过同业业务加杠杆的行为使商业银行能够绕过监管进行高风险的投资,这提高了其自身的收入水平。但是过长的同业资金链条却增加了商业银行承担的风险,在长期中反而不利于银行自身的经营。2017年起监管部门开始严格限制商业银行同业加杠杆行为,一系列针对同业业务的监管法规相继颁布。根据目前金融业中同业业务加杠杆的出现及其存在的问题,从风险和效益的角度研究同业加杠杆行为对商业银行的经营产生的影响,拟将对同
2020年是全面建成小康社会实现之年,同时近两年国家陆续出台如降低税费,解决企业融资难融资贵,创造好的营商环境等支持民营经济发展的措施,中央的宏观政策使得农村和民营企业对金融的需求不断增加。SN农商银行作为一家在四川地区扎根经营67年的农村金融机构,其经营本质就在于服务农村经济和民营经济。市场需求的增加使得SN农商银行发展前景巨大,但同时利率市场化使得SN银行多年来赖以生存的存贷利差逐渐压薄,金融