论文部分内容阅读
标点符号研究是篇章分析中最基本的一个研究任务。有效识别标点符号在句子中的作用,是篇章分析研究的一个关键。因此,标点符号识别是一项很有意义的研究工作。本文针对标点符号多元分类的自动识别问题进行了深入的研究,主要内容包括以下三个方面:首先,提出了一种基于句子的分词与词性标注信息进行汉语逗号自动分类的方法。核心工作是特征的筛选与抽取。我们分别采用最大熵模型和CRF模型构建逗号分类器,实现对汉语逗号的七元分类与识别。实验结果显示,使用CRF模型的识别正确率要高于使用最大熵模型的识别正确率,且这两种模型的分类精度都非常接近基于句法分析方法的分类精度,证明本文提出的方法是可行的。其次,提出了一种针对汉语冒号的标注体系与识别方法。本文收集了含有大量汉语冒号的语料,并在对汉语冒号的使用方法进行统计与分析后,制定了汉语冒号的七元分类的分类标准,然后在分词与词性标注的语料上,进行汉语冒号七元分类标签的人工标注。本文使用规则法和最大熵模型法实现冒号的自动分类与识别,并将基于规则法进行冒号自动分类与识别的实验作为本文的基准系统。实验结果表明,基于最大熵模型的自动识别正确率明显高于基准系统的自动识别正确率。最后,本文研究了通过添加其他标点符号的分类标签作为新特征的方法,来提高汉语逗号自动分类与识别的正确率。通过对CTB6.0语料的统计与分析发现,汉语冒号和分号都对逗号的自动分类识别结果存在影响。经实验验证:分别添加汉语冒号与分号分类标签作为新特征时,可以不同程度的提高汉语逗号七元分类的自动识别正确率,当同时添加这两种标点符号的分类标签作为一组新特征时,逗号七元分类的自动识别正确率将再次被提高。