论文部分内容阅读
当前Web搜索引擎对以自然语言形式提出的查询语句分析重视不够,主要体现在对语句分词后不加区分地将所有分词结果作为检索单位,送入检索系统。由于检索前端语言分析对用户信息需求把握不准,后台各种复杂处理流程就成了无源之水,无本之木。本论文将着眼于对用户自然语言语句(以下简称Query)这一表述用户特定信息需求的独特语言现象分析,为检索系统提供一个良好的前端处理。 本文主要涉及以下四个方面的工作: (1) 对Query区分信息内容词语(information content word)和停用词语(stop word),通过过滤停用词语,有效排除那些无需在文本出现的词语对Query信息内容词语造成的干扰。Query本身是一种受限语言(controlled language),用来表达用户信息需求,并且格式相对受限。针对于此,我们进一步区分通用停用词和查询专用停用词,指出它们不同的分布特点,并提出基于左右熵(entropy)和Kullback Leibler距离的停用词表构造方法以及利用N-gram和位置信息的基于概率的动态识别方法。相关实验结果表明,这种方案比单纯基于静态停用词表的标注效果有较大提升。此部分内容建立在对20万用户提问语句的语料分析基础上。 (2) 提出Query主题词语凸显(salience)的原则,并以此作为提升Query有针对性检索的手段。用户在表述特定信息需求时,会有各种不同表述。本部分工作主要是区分信息内容词语中哪些是需要凸显的中心主题,哪些是用户不希望在检索结果中看到的内容,以防止系统误检。本部分根据检索概念是否在目标文本出现,区分必现、必须不现、可现、可以不现四种情况,分别对待。此部分内容建立在TREC和863IR测试问题集SGML语料上,在分析语料表述形式后,由正则表达式匹配,对Query实施有效的主题功能块划分,从而凸显主题