自适应歧义切分的汉语分词系统的设计与实现

来源 :苏州大学 | 被引量 : 0次 | 上传用户:fredric_cn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语自动分词是中文信息处理领域的基础课题,也是中文信息处理发展的瓶颈之一,其中对歧义字段的处理是影响分词精度的关键,国内外许多研究人员在这一领域都进行了深入的研究,但就目前现状来看,仍不能满足实际应用的需要。 本文针对分词中的两个方面:切分速度和歧义处理,进行了深入的研究。在速度方面,它首先对词典中的词进行排序,并对首字索引,同时还利用字符串顺序排列时的规律,大大提高了查找词时的速度,同时还对N-最短路径的粗分模型进行改进,通过过滤无覆盖型歧义切分结果的切分方案,使得剩余粗分结果数量大大减少,同时还使得在不考虑未登录词的情况下,粗分结果的召回率达到100%。最后通过分析目前算法的缺陷,提出目前算法的最大不足是语料信息的不完备性,然后介绍了一种在利用词的多元信息进行分词的基础上,通过收集切分错误歧义句,经过人工修正,由系统自动调节多元信息库,增强语料信息库的完备性,以此提高分词正确率的方法。 在分析阶段,本文就分词系统的速度与精度,与中科院计算所的汉语分词方法进行了全面的比较,在分析了本系统的优势的同时,也指出了本系统存在的一些不足之处,并由此作出了展望。
其他文献
工作流是利用计算机技术来实现业务流程部分或全部自动化的一种技术,能大大提高业务流程的处理效率和执行质量。目前市场上流行的工作流建模工具大都是面向活动、面向产品、面
网格是一种新兴的基础设施,它具有比世界上任何一台高性能计算机更强大的计算能力和存储能力。网格能容纳地域上分布的各种异构资源,并提供透明的远程访问、共享、分布式计算等
在数据网格中,通过数据复制为地理上广域分布的用户提供多个数据副本,能够减少访问延迟,增强数据局部性,提高数据可靠性,和分布式应用的可扩展性及性能。数据复制技术作为提高数据
移动IPv6提供了移动节点在不同子网中漫游通信的能力,使用户在不同网络中漫游时仍可保持通信,但是在网络间切换过程中的延迟及切换造成的丢包率的上升降低了服务的质量,因此移动
视频编码研究是当今信息技术领域的热门话题之一,由于视频序列图像在时间轴上具有较强的相关性,运动估计(ME)及运动补偿(MC)技术可以有效的减少时间相关性,因此该技术被广泛应用
在经济全球化与信息化时代,随着企业业务范围的不断扩展,以及计算机网络技术的迅速发展,涉及多个组织的业务流程,企业间的协同合作都大大增加。工作流是实现现代企业业务流程
数字视频水印是版权保护和安全认证的有力工具,而视频的高冗余性特征使得视频水印极易受到帧切除、剪切-复制等同步攻击,如何提高视频水印的同步鲁棒性成为数字视频水印的重
当今世界的网络都源于20世纪60年代的APPANET网络。几十年过去了,网络迅猛的发展导致各种各样的网络协议的出现,国际标准化组织ISO为此还定义了统一的协议标准——开放系统互
众所周知,神经网络在优化计算,联想记记,信息处理,图像处理,模式识别等方面有着广泛应用前景,因此对其动力学性质的研究具有重要意义。自1982年Hopfield模型提出以后,该模型动态行为
随着电子商务中业务和用户规模的不断发展,传统采购管理系统在资源组织和调度等方面的不足逐渐体现出来,基于云计算的采购管理系统恰好能够解决上述问题。本文以云环境下采购