汉语逗号与冒号的自动分类识别研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:sjzm2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
标点符号研究是篇章分析中最基本的一个研究任务。有效识别标点符号在句子中的作用,是篇章分析研究的一个关键。因此,标点符号识别是一项很有意义的研究工作。本文针对标点符号多元分类的自动识别问题进行了深入的研究,主要内容包括以下三个方面:首先,提出了一种基于句子的分词与词性标注信息进行汉语逗号自动分类的方法。核心工作是特征的筛选与抽取。我们分别采用最大熵模型和CRF模型构建逗号分类器,实现对汉语逗号的七元分类与识别。实验结果显示,使用CRF模型的识别正确率要高于使用最大熵模型的识别正确率,且这两种模型的分类精度都非常接近基于句法分析方法的分类精度,证明本文提出的方法是可行的。其次,提出了一种针对汉语冒号的标注体系与识别方法。本文收集了含有大量汉语冒号的语料,并在对汉语冒号的使用方法进行统计与分析后,制定了汉语冒号的七元分类的分类标准,然后在分词与词性标注的语料上,进行汉语冒号七元分类标签的人工标注。本文使用规则法和最大熵模型法实现冒号的自动分类与识别,并将基于规则法进行冒号自动分类与识别的实验作为本文的基准系统。实验结果表明,基于最大熵模型的自动识别正确率明显高于基准系统的自动识别正确率。最后,本文研究了通过添加其他标点符号的分类标签作为新特征的方法,来提高汉语逗号自动分类与识别的正确率。通过对CTB6.0语料的统计与分析发现,汉语冒号和分号都对逗号的自动分类识别结果存在影响。经实验验证:分别添加汉语冒号与分号分类标签作为新特征时,可以不同程度的提高汉语逗号七元分类的自动识别正确率,当同时添加这两种标点符号的分类标签作为一组新特征时,逗号七元分类的自动识别正确率将再次被提高。
其他文献
随着微机电系统、片上系统、通信技术和低能耗嵌入式技术的快速发展,无线传感器网络(WSN)应运而生,已经成为计算机科学与技术的一个新兴领域。它有十分广阔的使用前景,目前已经应
强化学习是一种用于求解可以建模为马尔科夫决策过程问题的机器学习方法,其通过Agent与环境交互以获得最大累计奖赏的方式进行学习。当前强化学习面临的主要挑战和机遇是如何
计算机网络的发展,使得信息的交流和资源的共享更加便捷。为了教师教学和学生学习的方便,校园网带宽逐年扩大,访问的速度也得到了很大的提高。但是,目前校园网带宽的有效利用率并
目前云计算相关研究领域普遍关注的两个问题是如何保证用户的服务等级协议(SLA)和提高数据中心的资源利用效率。虚拟化技术是云计算资源管理的关键技术,而虚拟机动态放置策略
词袋模型是基于机器学习的情感分类任务最为常用的文本表示方法,然而传统的基于词袋模型的文本表示方法存在着一些基础性的问题,尚未得到有效的解决。情感文本中的极性转移现
随着现代信息技术的发展,通过信息化的资源管理平台,各个行业的管理以及运行效率有了大幅的提升。随着这些信息系统的运行所带来的海量的信息对于行业的管理者来说是非常重要
21世纪以来,伴随着信息化产业的迅速发展,越来越多的企业内部信息以数字化方式来存储,如何从海量的信息中准确检索到所需信息,成为一个值得研究的问题。目前,绝大多数信息检索系统
零等待流水车间调度问题(no-wait flow shop scheduling problem,简称NWFSP)广泛的存在于制造业生产系统中,如钢铁轧制、食品加工、化学工业等。NWFSP作为带约束的流水车间调度问题,是一种经典的NP-hard问题。随着问题规模的不断增加,NWFSP就会变得越来越复杂且很难求得最优解。传统的数学方法和已有的调度策略已无法满足实际生产调度中的需求。因此,不论在调度理
图像分类方法是计算机视觉和图像处理领域的重要技术。随着信息技术的快速发展,图像数据呈爆炸式增长。面对海量的图像数据,在分类器学习中如何快速高效地挑选少量高质量的图像
随着信息化及多媒体技术的不断发展与提高,越来越多的数字产品进入互联网环境,人们获取信息也越来越容易。于是,网络上的多媒体信息的版权保护问题已成为一个迫切需要解决的问题