基于中文信息检索的文本预处理研究

被引量 : 0次 | 上传用户:aspxcss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,Web正在成为人类知识和文明的全球存储库,这个存储库空前的允许在一个史无前例的范围内实现思想和信息的共享,随着互联网的快速普及,通过网络共享的中文信息资源以接近指数级的速度递增。如何处理网上的海量信息成为非常重要的研究课题。信息检索的研究可以帮助人们有效的找到自己所需的信息。信息检索的内容有多种,其中,文本信息的含量最多。因此,为了提高用户的查询精度、系统运行效率以及空间利用率,都需要对文档进行预处理。本论文就是在文本信息检索这个大背景之下,对文本的预处理技术进行了探索。本文首先对文本预处理的相关技术进行介绍和研究,包括文本的表示、分词、词性标注、标引词选择等。接着,对本文采用的文本预处理技术进行了探讨,由于切分歧义是汉语分词所面临的最大难题,其中能用语法知识消解的就约占90%以上,而涉及语义和语用知识的切分歧义则很少,因此本文有机地将分词过程和词性标注过程融合在一起,采用了动态规划解决这一问题,有利于切分歧义的消解。对于粗切分后的碎片,本文根据重叠词的模式进行了重叠词识别,并采用了一定的规则来识别碎片中的未登陆词。在信息检索的向量空间模型中,文本被形式化地表示为由词项及其权重组成的向量。因此如何使这个向量尽可能准确有效地表示出文本内容同时又要尽量地减少向量空间的维数一直是该模型的基础性问题。针对这个问题,本文提出了一个标引词选择的算法,该算法充分考虑了词项的词频、位置以及它与其它词项、重要语句间的关系,根据实例,证明了该算法的有效性。最后,本文利用这些算法设计了一个基于信息检索的文本预处理系统。该系统首先利用句末标点将文本进行断句,根据各个句子的不同位置为其设定不同的句子权重;然后依次处理各个句子,根据句子中的其它标点把这个句子打散成短句子组,对于其中的一些特殊标点,进行了特殊的处理;接着对每个短句子进行分词和词性标注;对文本的碎片进行重叠词和未登陆词的识别;最后,采用了本文提出的标引词算法对已经完成前期处理的文本进行标引词的选择。
其他文献
文章通过对浙江、江苏引进外资的研究,探讨进一步积极有效地利用外资,推动两省经济跨越式发展的思路和对策。
阅读能力是学生语文学习的核心能力,是学生语文学习水平和素养的集中体现。以生为本施教需要激发学生阅读兴趣,在阅读主动性发挥中获得阅读能力和技法。而互动教学是教师组织
<正> 被誉为法兰西科学之光的埃瓦里斯特。伽罗瓦(Evariste Galois,1811——1832)对创立群论所作出的杰出贡献深为每个数学工作者熟悉,而他对数学教育的看法却鲜为人知。他的
本文运用现代人力资源培训理论与项目管理的理论,通过艾默生培训教学改革与实验,探索企业客户培训体系的设计与评价的理论和方法,开发相配套的客户培训效果评估体系,探索客户
文章分析了作为修饰成分的状语在汉语特殊句式──主谓谓语句中的构成、作用、位置及语义指向诸方面的特征,比较了这种句式中的状语与一般主谓句中状语的异同,试图从另一个侧面
开展资源综合利用已成为转变经济增长方式,发展循环经济,建设资源节约型和环境友好型社会的紧迫任务和保障资源可持续利用、减轻环境污染的压力、提高资源利用效率,提高经济
春秋赋诗是《诗经》文化史上的独特景观。“赋诗”介于“歌诗”、“诵诗”之间 ,盖类似后世之吟诗。春秋赋诗按其义例可分为礼仪外交类、言志观志类、劝戒讽谕类三类 ,然总体
求异思维,是指思维主体对某一研究问题求解时,不受已有信息或以往思路的限制,从不同方向、不同角度去寻求解决问题的不同答案的一种思维方式。它是一种以解题的灵活性、多元
针对植入式刺激器内置电源容量有限、体积大、潜在安全隐患等问题,设计了一种无线无源的参数可控脉冲发生器。该发生器基于电磁耦合原理,由经皮变压器、储能电容、整流电路及
位于钦—杭成矿带东段北缘的浙江安吉多金属矿区发育侵位序列复杂的坞山关杂岩体及与其有关的蚀变和矿化。为了探讨区内岩浆岩与成矿的关系,在野外调查的基础上,文章对该杂岩