基于多步处理策略的汉语自动分词研究

来源 :重庆大学 | 被引量 : 0次 | 上传用户:turtle0906
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理是人工智能的一个重要分支。汉语自动分词是中文自然语言处理的一项基础性工作,也是中文信息处理的一个重要问题。汉语自动分词系统是利用计算机对汉语文本进行词语自动识别的系统,对其研究已经取得了很多成果,但已有的系统还不能完全满足实际应用的需要,有待继续研究。 本文主要目标是设计并实现一个汉语自动分词系统。在分析了自动分词面临的主要困难和难点的基础上,旨在降低分词难度和提高分词精度,设计并实现了一个基于多步处理策略的汉语自动分词系统。论文的主要工作如下: 论文首先介绍了汉语自动分词系统通常采用的语言模型和分词算法,提出了基于词性信息和规则相结合的时间语词消歧算法。时间语词包括时点语词和时段语词,特定类型时间语词在切分时存在是时点还是时段的问题。本文提出的算法开放测试正确率约为90%,表明了该算法的有效性。 其次搜集、整理和建立了研究所用的自然语言资源。主要包括人工切分标注语料的搜集、加工和整理,生语料的搜集及加工,分词词典和为分词提供决策依据知识的分词知识库的建立。还对文本中的非汉字字符、汉字数字串归并进行了探索。 论文的核心工作是设计并实现了一个基于多步处理策略的汉语自动分词系统。系统包括初切分,词性标注、歧义字段处理、模型平滑、未登录词识别等功能模块。初切分是找出待切分语句各种可能路径;歧义字段处理包含利用词的二元模型或分词词性标注一体化模型处理交集型歧义,利用支持向量机理论处理组合型歧义;未登录词识别已实现的功能是利用词性探测法识别中文姓名;模型平滑技术体现在词性标注和歧义字段处理过程中。 最后通过实验验证了系统的性能。与人工分词结果相比,系统的分词正确率达到了96.94%,分词速度在1000~1400个/秒之间,虽然没有达到目前所见效果最好的中科院汉语词法分析系统ICTCLAS的精度和效率,但在实现过程中探索的一些新方法对以后的研究将会提供很多的帮助。同时对全文的工作进行了总结,提出进一步的研究工作。
其他文献
  移动自组网是由移动主机组成的一种多跳步无线网络,网络中不存在任何固定的通信基础设施,移动主机之间协同工作,在共享无线介质中以多跳步方式传输数据,每个主机既是终端又是
网络视频应用中的流媒体数据对网络扰动有着较高的敏感性,尽管随着技术的发展,网络的性能正在逐渐提高,但是丢包等错误仍然不可避免。因此需要对错误发生后得到的受损视频流进行
在开发研制基于Nios的列车轴温光纤传输传感探测系统中,涉及到随机信号的处理问题。这项研究按照向量ARMA(Autoregressive Moving Average自回归滑动平均)模型,把基于状态空
随着社会信息化的发展,信息管理系统推陈出新,出现了各式各样不同结构、功能更强大的数据库管理系统,而旧的数据源因为包含有重要的历史数据,或者存在不可变更的因素,不能单纯地抛
半导体工业作为众多领域的支柱产业,其市场需求在不断加大。但目前国内中小型企业的半导体芯片后工序中超声焊接机器基本上是手工操作,工作效率低下,产品质量很不稳定,而全自
近年来,随着计算机技术的快速发展,分布式计算作为现代新技术的产物,得到了快速的发展。当分布式系统环境大规模出现在军事、航天、灾难救援等需要相互协作共同完成某个目标
生物信息学是运用信息学手段对生物数据进行整理、分析和提取的一门新兴交叉学科,蛋白质组学的研究是其中非常重要的方面。而计算机科学中的数据挖掘技术是对大量数据进行分
随着网络与视频技术的迅猛发展,数字化视频监控技术在全社会得到了广泛应用,如公安天网系统,道路视频监控系统,以及众多的商场、社区和楼宇视频监控系统等。这些系统能实时记录和
本文通过对当前分布式仿真领域中的最新技术——HLA/RTI技术的研究和理论分析,认为该技术对于解决军交作战训练模拟仿真中的某些具体问题是可行的,尤其在解决仿真系统的交互性
考试是教学至关重要的一个环节。随着时代的进步和科技的发展,考试的方法也不断发展变化。传统的考试方法费时费力,各环节容易存在安全隐患。随着计算机的普及以及网络性能的