论文部分内容阅读
汉语分词是中文信息处理的基础,它是由计算机自动识别文本中的词边界的过程。从计算机处理过程上看,分词系统输入的是连续的字符串(C1C2C3……Cn),输出的是汉语的词串(W1W2W3……Wm),这里,Wi可以是单字词也可以是多字词。然而,由于汉语文本和英文文本这两种语言自身的书写方式不同,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思,词与词之间并没有明确的分隔标记,而是连续的汉字串。随着计算机技术的发展,对于计算机的文本处理能力提出了更高的要求,诸如智能拼音语句输入、手写和语音自动识别输入;文章的校对;简体和繁体中文的自动转换;信息检索和信息摘录;文本分类和自动文摘;语音合成;自然语言的理解和自动翻译;自然语言接口等。而所有这些中文处理功能都要建立在对汉语文本的分词处理这一基本功能之上。
本文首先阐述了汉语自动分词研究的现实性和可能性,接着介绍其研究现状,并扼要评价了十几年来产生的各种方法,围绕该研究中的其中的一个基本问题切分算法的改进展开了重点讨论,提出一种新的电子词表数据结构,它不仅支持首字Hash和标准的二分查找,而且不限词条长度,其查找效率很高;然后介绍了相应的分词算法--近邻匹配法,它是一种改进的MM算法,可以大大降低分词过程中的匹配次数,理论分析表明,该算法的效率优于其它方法;接着对其产生的歧义提出了相应的解决策略;最后就这个问题以后的发展谈了一点个人看法。