论文部分内容阅读
我们已经进入一个信息革命的新时代,这个信息时代的显著特点是计算机在人类生活的各个方面,起着越来越大的作用。自然语言是人们最重要的交际工具,它与信息处理有着十分密切的关系。在书面汉语中,词在句中没有显式的标记。因此,理解汉语的首要任务就是把连续的汉字串分割成词的序列,即自动分词。目前大多数分词研究都完全依赖计算机完成切分工作,不希望人工介入。但其结果往往不尽如人意。因为计算机要想准确切分文本,就一定要建立在对文本语义理解的基础之上;而要想让计算机能够理解中文语义,则首先要进行分词。不难理解,陷入这样的循环之中,是很难得到理想的切分结果的。作者在本文中提出了一种新的规则与统计相结合的分词方法。本方法的新颖之处在于,解决了理解与切分孰先孰后的两难问题,通过人工介入来选择特定领域词库,从而缩小了规则匹配的范围,提高了词库与待切分语料的匹配度;在此基础上,优先采用规则方法初分语料,最后使用统计方法对已切分的语料进行进一步处理。由于本实验的核心目的是为证明经过人工介入选择特定领域词库,会使规则与统计相结合的方法对文本的切分准确率明显提高,所以,作者采用了最有代表性的正向最大匹配的规则切分方法和切分准确率较高的md统计切分方法,分别使用规则切分、统计切分以及规则与统计相结合的方法处理相同语料,并对切分结果进行统计分析。实验用到的词库关键在于分类合理、内容准确以及符合实际。作者经过认真地总结和细心的整理,完成了词汇的归类和遴选的工作,包括地名、区划、计算机、俗语、动漫游戏、人名、网络新词以及各学科术语等等共25个专业领域词库,均采用文本文件格式保存。实验所用语料是《中国计算机》报《产品与应用》栏目的1423篇文章(.txt格式)为数据源建立语料库,不计空格,共含中文、英文及标点156,453个,其中,中文字符数为123,764个。经过具体实验验证,将上述两种分词方法通过新方法结合后,对语料的切分精度明显高于单纯使用规则或统计方法的精度。