中文索引策略的研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:lnlsq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅猛发展,互联网上的信息呈爆炸性增长。研究并掌握信息检索的核心技术具有十分重要的理论意义和广泛的应用价值。由于中文文档没有用于切分单词的空格,使得对索引策略的研究成为中文信息检索的特有问题。对文档进行分词处理是研究索引策略必须要实现的问题,因此,本文对分词进行了研究。首先分析了分词歧义,然后剖析了当前各种处理歧义问题的解决方案以及数据平滑问题,最后针对在分词中非常重要的未登录词处理问题提出了一种解决方案。为研究中文索引策略,本文实现了一个信息检索系统。首先研究了实现信息检索系统中索引的组织、存储、查找以及压缩等问题,然后研究了检索模型,最后选择了恰当的索引的数据结构,确认目前被公认为较好的2-泊松概率模型的BM25公式为本文所使用的检索模型。本文对索引策略进行了深入研究。首先对基于词的索引策略、一元文法索引策略和二元文法索引策略的性能进行了比较,然后探讨了索引策略的融合问题,最后提出了改进的二元文法索引策略。本文应用2-泊松模型的BM25公式在TREC公开数据集上测试了上述几种索引策略的性能。实验表明,改进的二元文法索引策略在主要性能评测参数平均精确率、R-精确率参数上相对较优,在召回率与精确率对应表、文件数与精确率对应表中性能较优或与最优可比。
其他文献
人脸识别是人工智能领域中重要的研究课题,在过去的几十年中,它得到了研究者们广泛的关注。由于人脸图像的Gabor小波特征的良好特性,基于Gabor小波的人脸识别技术是一种非常
学位
在信息安全保障越来越受业内人士关注的今天,风险评估作为信息安全管理的一个重要环节,对保障企事业单位的基础信息系统安全起着非常重要的作用。但是,目前我国的信息安全风
随着企业应用系统日益复杂,企业应用系统产品化趋势逐渐上升。同时软件的规模和复杂度也在不断增加,使得软件开发面临巨大挑战。不恰当的软件开发方法在这种环境下开发出来的
在印刷电路板(PCB)贴装生产中,表面贴装技术(SMT)不断地向薄型化、微型化和高精度化方向发展,对印刷电路板组件的可制造性分析成为能否缩短开发时间和节省开发成本的关键。PCB
在音视频信息中,有两类信号分量,一种是异常而无法预见的,另一种是可以预见的。异常而无法预见的称为熵,它是信号中的真实信息,余下的部分叫做冗余,它们并不是必需的。冗余可以是空
随着云计算技术的迅速发展,使得云数据中心服务器的规模每年都在不断的扩大,产生巨大的能源开销。不合理的调度策略同样导致能源浪费严重,使得云数据中心的运营成本不断增加。因
随着网络技术的不断发展,人们对于网络上的信息需求也在急剧增加。网格是强调自动化思想,强调“分布式协作”与“虚拟组织”概念,能实现网络资源高度共享的,提供大规模计算、
随着数字技术的不断发展,视频图像的分析与处理越来越受到人们的关注。数字化图像序列可以通过摄像机等光学设备获得,是真实世界在不同时间向成像平面的一系列投影。图像帧之
近年来,无线网络的普及速度很快,一些新兴的技术与应用更是蓬勃发展。无线局域网在短短的几年间,就已经成为炙手可热的网络技术之一。在各种场合中,AP的布置随处可见,可以接入网络