论文部分内容阅读
查询问句分析在问答系统中对问句理解起着重要的作用,一般地,查询句分析需要进行分词,词性标注,命名实体识别,关键词提取,查询扩展,句法分析以及查询问句分类等。在查询问句分析中,关键词提取和查询扩展起着基础性的功能,对提高检索系统的准确率和召回率起着关键的作用.关键词代表了用户问句的主体含义,高度概括了问句的主要内容,易于使不同的读者判断出返回结果是否是自己需要的内容.不仅如此,由于关键词十分精练,故可以以很小的计算代价进行文本相关性度量,从而高效地进行信息检索.因为汉语自身的特点,汉语的同义词和近义词一直是困扰中文信息检索的查询效果的关键问题之一.查询扩展指的是利用计算机语言学,信息学等多种技术,把与原查询相关的词语或者与原查询语义相关联的概念以逻辑或方式添加到原查询,得到比原查询更长的新的查询,然后检索文档,以改善信息检索的查全率和查准率,最大程度地减小同义词和近义词对检索系统的影响。关键词提取和查询扩展是两个相继进行,相辅相成的过程.关键词提取的质量对于查询扩展有一定的影响.因此,保证关键词提取的准确率是提高查询扩展的质量的前提。本文中,将分类思想用在关键词提取问题上,将关键词提取过程看做是对一个词的分类过程,并改进朴素贝叶斯分类算法,提出了一种基于改进的贝叶斯分类的关键词提取算法.潜在语义分析已经越来越多地用在自然语言处理,潜在语义分析的最大特点是把高维的向量空间模型表示的文档映射到低维的潜在语义空间中.本文以潜在语义分析方法为基础,提出一种基于潜在语义分析的查询扩展算法.