基于全切分和碎片提取的中文自动分词系统

来源 :南开大学 | 被引量 : 0次 | 上传用户:BlueDragon8848
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文自动分词是中文自然语言处理的一项基础性工作,也是中文信息处理的一个重要问题,在很多领域扮演着非常重要的角色。中文自动分词系统是利用计算机对中文文本进行词语自动切分的系统。我国很早就开始了这一方面的研究工作,己经取得了很多成果,涌现出大量的基于各种算法的分词系统。但是真正满足实际需要的分词系统还没有出现,有待于进一步深入探讨。 本文对已经出现的分词算法进行了总结,对各种算法进行了优缺点的分析,并结合汉语本身的特点指出了影响分词系统性能提高的主要因素。 本文的主要工作是:针对中文分词系统实现中的主要难点——歧义切分和未登录词识别,进行了一些有意义的探讨,提出了一种基于改进的全切分算法的粗分模型和基于碎片提取的未登录词处理相结合的方法。 按照通用的、已经成为标准的分词系统评价标准(准确率P,召回率R和平均值F),对基于该方法的分词系统进行了小规模开放测试,试验取得了比较好的结果,说明该方法对以后的自动分词研究有一定的参考价值。 文章的最后分析了系统中存在的问题,并提出了对未来分词系统的展望。
其他文献
在化工、建材等生产领域,粉状和颗粒状物料的计量是一个常见问题。固体物料流量测控系统的研究和设计还不够成熟,在测量精度和系统集成度等方面存在诸多改进余地。冲量式固体流量计是测控系统中的测量仪器。在收集现有国内外资料,总结以往经验,借鉴他人设计思路的基础上,讨论了对冲量式固体流量计的改进方案:优化传感器选型和电路设计以提高测量精度,集成自动控制功能以简化测控系统整体设计;分析了与设计密切相关的实时性、
随着社会经济的高速持续发展,城市道路堵塞、拥挤、事故频发等等现象日益严重,交通已成为城市发展的“瓶颈即,鉴于交通流的高度复杂性和随机性,难于对其进行数学建模,传统的控制方
学位
随着现代化工业的不断发展,伺服系统在许多领域的应用日益广泛,对其性能要求也越来越高。系统不但要具有快的动态响应和高的动、静态精度,而且要对参数的变化和扰动具有不敏