论文部分内容阅读
当前,Web正在成为人类知识和文明的全球存储库,这个存储库空前的允许在一个史无前例的范围内实现思想和信息的共享,随着互联网的快速普及,通过网络共享的中文信息资源以接近指数级的速度递增。如何处理网上的海量信息成为非常重要的研究课题。信息检索的研究可以帮助人们有效的找到自己所需的信息。信息检索的内容有多种,其中,文本信息的含量最多。因此,为了提高用户的查询精度、系统运行效率以及空间利用率,都需要对文档进行预处理。本论文就是在文本信息检索这个大背景之下,对文本的预处理技术进行了探索。本文首先对文本预处理的相关技术进行介绍和研究,包括文本的表示、分词、词性标注、标引词选择等。接着,对本文采用的文本预处理技术进行了探讨,由于切分歧义是汉语分词所面临的最大难题,其中能用语法知识消解的就约占90%以上,而涉及语义和语用知识的切分歧义则很少,因此本文有机地将分词过程和词性标注过程融合在一起,采用了动态规划解决这一问题,有利于切分歧义的消解。对于粗切分后的碎片,本文根据重叠词的模式进行了重叠词识别,并采用了一定的规则来识别碎片中的未登陆词。在信息检索的向量空间模型中,文本被形式化地表示为由词项及其权重组成的向量。因此如何使这个向量尽可能准确有效地表示出文本内容同时又要尽量地减少向量空间的维数一直是该模型的基础性问题。针对这个问题,本文提出了一个标引词选择的算法,该算法充分考虑了词项的词频、位置以及它与其它词项、重要语句间的关系,根据实例,证明了该算法的有效性。最后,本文利用这些算法设计了一个基于信息检索的文本预处理系统。该系统首先利用句末标点将文本进行断句,根据各个句子的不同位置为其设定不同的句子权重;然后依次处理各个句子,根据句子中的其它标点把这个句子打散成短句子组,对于其中的一些特殊标点,进行了特殊的处理;接着对每个短句子进行分词和词性标注;对文本的碎片进行重叠词和未登陆词的识别;最后,采用了本文提出的标引词算法对已经完成前期处理的文本进行标引词的选择。