论文部分内容阅读
传统的文本检索模型大都以词项独立性假设为前提,即认为同一个词项的多次出现独立、不同词项之间的出现也独立。词项独立性假设不仅简化了理论模型上的推导,而且在实践中也获得了一定的成功。然而,词项独立性假设显然和实际情况不符,理解一个文本或者查询,不仅仅需要理解其中单个的词项,同时也要理解这些词项之间的依存/关联。词项之间的依存/关联反映到计算粒度上,就是比词项更加大的一个计算粒度。
通常在中文检索中词项的单位是字或词,英文检索中词项的基本单位是单词或短语。在中文检索中,由于中文分词本身的困难,中文分词的准确度提高并不能直接带来检索性能的提高,因而面向信息检索的分词系统依然是一个很有挑战性的问题。在英文检索中利用短语能够提高检索的效果已经是比较公认的结论,但是由于对短语的定义以及识别存在很多的方法,如何有效地针对不同的查询特点采用不同的短语依然是一个还未系统研究的问题。
本文从词项依存角度出发,研究了将汉字作为词项时,利用汉字之间的依存关系来代表词,作为更大的计算粒度;将英文单词作为词项时,利用单词之间的依存关系来代表短语。在这个过程中,主要有两个问题需要解决,一个是如何定义和识别词项依存,一个是如何有效地将词项依存引入“文档-查询”相关度计算模型中。本文主要围绕这两个问题展开,探讨了在中文和英文文本检索中利用词项依存所反映的计算粒度的改善来改进文本检索的可能。
在英文文本检索中,之前的研究表明,通过引入这些词项依存关系,可以不同程度地提高检索效果。然而,这些不同的词项依存关系之间却缺乏系统的比较:在什么情况下,哪种依存关系有更好的效果。为了系统地比较这些依存关系对检索效果的影响,本文根据依存检索模型的通用框架,提出了基于语言模型平滑思想的通用依存检索模型。然后,将不同的依存关系放在这个检索模型内进行比较,通过比较发现,对于以句子为单位的长查询来说,概念短语所定义的句法依存关系有比较好的效果。对于以关键词为单位的短查询来说,在Linear Featured-BasedModel上的比较发现,有确切语义的短语和没有确切语义的短语具有不同的检索效果,有确切语义的短语对检索的效用更大。总结英文检索对短语的利用,就是需要识别出查询中一些有在句法上或者语义上有意义的短语。
在中文文本检索中,将词项定义成汉字。词项依存表现为多个连续的汉字构成一个有意义的词/短语的过程,词项依存的基本形式表现为连续汉字之间的结合紧密度。由宁到词对应于中文不同的理解层次,传统的分词系统将词与词之间的界限完全区别开,而笔者尝试将这种绝对/硬划分界限用字之间的结合紧密度来代替,因而,笔者称之为“软分词”。
在计算汉字串紧密度的过程中,本文利用大规模中文搜索日志的统计信息,以及已有的词典资源等,使用Ranking SVM融合这些特征,取得了非常好的效果。在中文检索实验中,系统地比较了“软分词”相对于传统的分词方法下使用“字+词”组合的优点。对于可能出现的切分错误,以及切分不一致的几种典型情况进行了细致分析,总结发现软分词能够有效解决这些问题。
利用词项依存的思想来改进文本检索,通过引入更大的计算粒度来更好的理解查询,特别是在中文检索领域的具体实践——软分词的有效结果,体现出一个主要思想:发现词项之间的组合意义,大于单个词项的意义之和。如何发现词项之间有意义的组合,对于不同的自然语言来说,可能有不同的具体方法。本文的研究工作对于推动其他语言上的词项依存检索实践具有较为重要的启发意义。当然,利用词项依存来改进信息检索性能,还有很多工作要做,需要相关领域的研究者们不懈的努力。