汉语逗号与冒号的自动分类识别研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户：sjzm2009

【摘要】

：

标点符号研究是篇章分析中最基本的一个研究任务。有效识别标点符号在句子中的作用，是篇章分析研究的一个关键。因此，标点符号识别是一项很有意义的研究工作。本文针对标点符号

【作者】

：

谷晶晶

【机构】

：

苏州大学

【出处】

：

苏州大学

【发表日期】

：

2014年期

【关键词】

：

篇章分析标点符号识别最大熵模型 CRF模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

标点符号研究是篇章分析中最基本的一个研究任务。有效识别标点符号在句子中的作用，是篇章分析研究的一个关键。因此，标点符号识别是一项很有意义的研究工作。本文针对标点符号多元分类的自动识别问题进行了深入的研究，主要内容包括以下三个方面：首先，提出了一种基于句子的分词与词性标注信息进行汉语逗号自动分类的方法。核心工作是特征的筛选与抽取。我们分别采用最大熵模型和CRF模型构建逗号分类器，实现对汉语逗号的七元分类与识别。实验结果显示，使用CRF模型的识别正确率要高于使用最大熵模型的识别正确率，且这两种模型的分类精度都非常接近基于句法分析方法的分类精度，证明本文提出的方法是可行的。其次，提出了一种针对汉语冒号的标注体系与识别方法。本文收集了含有大量汉语冒号的语料，并在对汉语冒号的使用方法进行统计与分析后，制定了汉语冒号的七元分类的分类标准，然后在分词与词性标注的语料上，进行汉语冒号七元分类标签的人工标注。本文使用规则法和最大熵模型法实现冒号的自动分类与识别，并将基于规则法进行冒号自动分类与识别的实验作为本文的基准系统。实验结果表明，基于最大熵模型的自动识别正确率明显高于基准系统的自动识别正确率。最后，本文研究了通过添加其他标点符号的分类标签作为新特征的方法，来提高汉语逗号自动分类与识别的正确率。通过对CTB6.0语料的统计与分析发现，汉语冒号和分号都对逗号的自动分类识别结果存在影响。经实验验证：分别添加汉语冒号与分号分类标签作为新特征时，可以不同程度的提高汉语逗号七元分类的自动识别正确率，当同时添加这两种标点符号的分类标签作为一组新特征时，逗号七元分类的自动识别正确率将再次被提高。

其他文献

无线传感器网络中基于树的负载平衡算法研究

随着微机电系统、片上系统、通信技术和低能耗嵌入式技术的快速发展，无线传感器网络（WSN）应运而生，已经成为计算机科学与技术的一个新兴领域。它有十分广阔的使用前景，目前已经应

学位

无线传感器网络负载均衡网络生命周期精确数据收集相关数据收集

基于模糊近似的强化学习方法研究

强化学习是一种用于求解可以建模为马尔科夫决策过程问题的机器学习方法，其通过Agent与环境交互以获得最大累计奖赏的方式进行学习。当前强化学习面临的主要挑战和机遇是如何

学位

强化学习值函数近似模糊推理二型模糊逻辑基函数细化

时间序列分析技术在网络流量监控中的应用研究

计算机网络的发展，使得信息的交流和资源的共享更加便捷。为了教师教学和学生学习的方便，校园网带宽逐年扩大，访问的速度也得到了很大的提高。但是，目前校园网带宽的有效利用率并

学位

网络流量监控时间序列流量模型应用层协议分析SNMP

基于负载特征的虚拟机动态放置策略研究

目前云计算相关研究领域普遍关注的两个问题是如何保证用户的服务等级协议(SLA)和提高数据中心的资源利用效率。虚拟化技术是云计算资源管理的关键技术，而虚拟机动态放置策略

学位

云计算虚拟机放置自适应变异粒子群服务等级协议资源利用率

文本情感分类中的极性转移问题研究

词袋模型是基于机器学习的情感分类任务最为常用的文本表示方法,然而传统的基于词袋模型的文本表示方法存在着一些基础性的问题,尚未得到有效的解决。情感文本中的极性转移现

学位

情感分类极性转移集成学习情感字典

基于划分和层次的聚类算法关键技术研究

随着现代信息技术的发展,通过信息化的资源管理平台,各个行业的管理以及运行效率有了大幅的提升。随着这些信息系统的运行所带来的海量的信息对于行业的管理者来说是非常重要

学位

K-mcans算法最近邻相似度聚类算法资源管理平台数据挖掘

全文检索中索引算法的优化研究

21世纪以来，伴随着信息化产业的迅速发展，越来越多的企业内部信息以数字化方式来存储，如何从海量的信息中准确检索到所需信息，成为一个值得研究的问题。目前，绝大多数信息检索系统

学位

全文检索倒排索引优化

水波优化算法及在车间调度问题中的应用研究

零等待流水车间调度问题(no-wait flow shop scheduling problem,简称NWFSP)广泛的存在于制造业生产系统中,如钢铁轧制、食品加工、化学工业等。NWFSP作为带约束的流水车间调度问题,是一种经典的NP-hard问题。随着问题规模的不断增加,NWFSP就会变得越来越复杂且很难求得最优解。传统的数学方法和已有的调度策略已无法满足实际生产调度中的需求。因此,不论在调度理

学位

零等待流水车间调度问题水波优化算法迭代贪心块移动操作

基于重采样思想的图像主动分类方法研究

图像分类方法是计算机视觉和图像处理领域的重要技术。随着信息技术的快速发展，图像数据呈爆炸式增长。面对海量的图像数据，在分类器学习中如何快速高效地挑选少量高质量的图像

学位

图像分类重采样不确定性代表性局部密度信息

基于小波域的三维数字水印技术研究

随着信息化及多媒体技术的不断发展与提高，越来越多的数字产品进入互联网环境，人们获取信息也越来越容易。于是，网络上的多媒体信息的版权保护问题已成为一个迫切需要解决的问题

学位

三维模型数字水印遗传算法小波变换奇异值分解

汉语逗号与冒号的自动分类识别研究

与本文相关的学术论文