基于N-gram模型的查询纠错技术的研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:Dalyforever
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
查询纠错属于自然语言处理研究的一方面,随着检索系统(如谷歌、百度、新浪、搜狗等)检索访问量不断增加,查询纠错处理技术受到越来越多的关注。在实际的应用中,用户进行查询时,不可避免地输入不合适或错误的查询表达式,从而导致系统无法返回满足实际需要的结果,给计算机资源也带来一定浪费。如果系统具有对输入的表达式进行自动检查和纠错的功能,就能在一定程度上增加用户在搜索时匹配查询意图的机会,从而也能提高查询效率。   通过对国内外已有的校对技术进行深入研究和分析,分别从相似匹配方法和基于统计的方法两方面,设计了查询纠错的算法并通过实验实现。   对基于相似匹配的查询纠错技术,利用基于索引的相似匹配技术提出N-gram哈希索引匹配算法(NHIMM),其思想是在普通动态规划算法基础上建立N-gram索引,并将索引首节点进行哈希处理,使之在大规模短语语料中查找时,速度得到一定提高;实验表明,提出的NHIMM算法,使得在相似匹配过程中,能先过滤无需直接进行动态规划计算的短语项,从而提高相似匹配速度;同时对输入错误中的近音字和同音字混用现象,算法将拼音相似度计算考虑进来,从而明显提高了检索准确率。   在基于统计的查询纠错中,通过对中文查询串的特征进行统计和研究,考虑错误输入串的上下文,将查询串中各个词条分别生成一个候选集合,进行交叉组合后形成短语候选网格,然后结合N元语法统计模型、拼音相似度、查询词点击率、N-gram相似度一系列因素以特征形式建立候选项的排序模型,并综合权衡以获得最优纠错候选结果。最后通过实验验证,统计和特征相结合的纠错模型使得纠错准确率和召回率能达到一定效果。
其他文献
随着社会的日益信息化,计算机网络已经渗透到人们生活的各个角落。而嵌入式系统以其体积小、性能强、功耗低、可靠性高、以及面向行业应用的突出特征成为继IT网络技术之后,又一
日趋成熟的网络环境为软件构件的发布和使用提供了有力的技术支持,软件构件之间可以通过动态的服务组合进行协同,其中选取可信的软件构件是构件间成功交互的基础,信任可用于
粒子群优化(ParticleSwarmOptimization,PSO)算法是一种智能优化算法,属于进化计算领域里的新分支。PSO算法结构简单、只有较少的参数需要调整、收敛的速度比较快、不需要梯度
本文研究了渤海海洋防灾减灾数据仓库构建过程中涉及到的一些关键技术,包括数据仓库设计,OLAP快速访问策略,以及序列OLAP系统设计。关于渤海海洋防灾减灾数据仓库的设计,分别
在医学临床诊断治疗中,通常需要对病人的病变部位进行多模态成像,来获取互补、有效、全面的信息,以提高医生的诊断治疗效果,这就需要对不同模态的医学图像进行信息融合,将多
随着计算机软件行业迅速发展,需求日益复杂,软件产品质量的提高变得越来越重要,已成为人们关注的焦点。软件测试是保证软件质量最重要的手段,也逐渐成为软件开发过程的重要阶
基于内容的中草药植物图像检索,是基于内容的图像检索技术在中草药植物检索领域的应用,其目的是通过将中草药植物图像的视觉特征与数据库的特征数据进行比较,得出符合相似度
智能视频监控是计算机视觉领域新兴的一个前沿课题,与传统的视频监控系统相比,智能监控系统的监控能力强、耗费人力少、稳定性好、安全隐患少、准确性以及实时性都有明显的提
2015年第二季度,中国电子信息产业发展研究院发布了旨在全面梳理总结移动设备产业现状的《移动智能终端产业发展白皮书(2015版)》。文中指出,过去一年移动智能终端产业在全球
在线音乐的快速发展,为用户对音乐的获取提供了极大的便利。为了方便用户选择,在线音乐通常会对音乐进行分类,基于情感的音乐分类是常见的一种分类方式。由于同一首音乐可能