论文部分内容阅读
随着Internet的迅猛发展,互联网上的信息呈爆炸性增长。研究并掌握信息检索的核心技术具有十分重要的理论意义和广泛的应用价值。由于中文文档没有用于切分单词的空格,使得对索引策略的研究成为中文信息检索的特有问题。对文档进行分词处理是研究索引策略必须要实现的问题,因此,本文对分词进行了研究。首先分析了分词歧义,然后剖析了当前各种处理歧义问题的解决方案以及数据平滑问题,最后针对在分词中非常重要的未登录词处理问题提出了一种解决方案。为研究中文索引策略,本文实现了一个信息检索系统。首先研究了实现信息检索系统中索引的组织、存储、查找以及压缩等问题,然后研究了检索模型,最后选择了恰当的索引的数据结构,确认目前被公认为较好的2-泊松概率模型的BM25公式为本文所使用的检索模型。本文对索引策略进行了深入研究。首先对基于词的索引策略、一元文法索引策略和二元文法索引策略的性能进行了比较,然后探讨了索引策略的融合问题,最后提出了改进的二元文法索引策略。本文应用2-泊松模型的BM25公式在TREC公开数据集上测试了上述几种索引策略的性能。实验表明,改进的二元文法索引策略在主要性能评测参数平均精确率、R-精确率参数上相对较优,在召回率与精确率对应表、文件数与精确率对应表中性能较优或与最优可比。