论文部分内容阅读
当今信息处理中占绝大比例的是语言文字的处理,与传统的理性主义方式相辅的是经验主义方法,其中大规模真实文本语料库加工因具有实用性强、见效快的特点,普遍受人欢迎。
语料库语言学是80年代才崭露头角的一门计算语言学的新的分支学科,它的应用领域极广,包括文本分类、检索、自动摘要、信息获取、简单的机器翻译和基于实例的对话系统。语料库语言学研究的基础是机器可读的大容量语料库,由于原始的未经加工处理的文本(生语料)很少直接起作用,需要先对其进行分析处理才能运用于实践。
汉语不同于印欧语种,缺乏天然的分割信息,要进行汉语的计算机处理,必须首先将汉语的词与词分开,即分词(也称切分),切分是中文语料处理的第一步;为词语标上其所属的词类就是词性标注,是语料进一步加工的必须过程。由于多年来汉语语料切分标准缺乏一个全国统一的详尽的加工标准,各家研究机构由于研究目的等不同,加工的语料不能兼容,造成了资源的重复建设和浪费;同时,切分中的排岐和未登录词特别是专有名词的识别一直困扰着切分标注,成为语料加工的瓶颈,甚至可以说也成为整个中文信息处理平台的瓶颈。本文主要着重解决这两个问题。
本文设计并基本实现了一个具有专名识别功能的多输出的汉语切分标注系统,同时考虑了系统的效率和可扩充性等实用方面的问题。
为了能使加工的语料既符合国家制定的加工规范,又能适应不同应用的实际需求,本文提出了一个规范独立的加工模型。在基本的分词和标注模块之后,有一个单独的规范规则处理模块,系统的分词和标注模块可同切分标注的相关规范无关,一旦规范修改,只需替换切分标注规范规则文件即可。同时,本系统在加工中对每个词都加上了信息,个性化输出模块可以根据这些信息按需输出不同颗粒度大小的加工结果。
在切分和标注模块,系统改进了前缀码分词算法,采用了结合前缀词表的首尾二字哈希查找算法来提高效率,同时,针对单独使用规则或概率方法消歧的不足,将两种方法有机的结合起来进行歧义消减。
在专名识别方面,在参考国内各家方法的基础上,系统设计了自己的人名识别和地名识别的统计模型,提出了一套结合上下文信息,综合运用统计、规则、资源库的识别方法。方法提出了专名识别缓冲区的概念,更加注重局部范围内专有名词的出现频率。在实现系统中获得显著效果
在本文的最后,在对测试数据分析的基础上,针对系统的不足,提出了系统进行进一步改进的侧重点和方法。