中文分词算法研究

来源 :海南大学 | 被引量 : 0次 | 上传用户:thomson888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词技术是中文信息处理中的重要环节,中文分词算法与中文分词系统的性能紧密相关。目前的分词算法可以分为基于字符串匹配的分词算法、基于规则的分词算法以及基于统计的分词算法三种。 中文分词技术的重点和难点是歧义排除和未登录词的识别。本文对这两个问题作了介绍并分析讨论了 FMM 算法、最少分词法、最大概率分词法、隐马尔可夫模型(HMM)、蚁群算法(Ant Colony Algorithm),并着重对蚁群分词算法作了深入的分析和研究。描述了蚁群分词算法的收敛性,在不考虑参数α、β的影响下,讨论了交集型歧义字段和组合型歧义字段的收敛性,接着讨论了参数α、β的选取对蚁群算法的影响,得到在中文分词算法研究中蚁群算法处理交集型和组合型歧义字段的效果并不理想的结论。并且该算法并没有解决未登录词的识别问题。这些都说明了现在所提出的蚁群分词算法只是将蚁群算法用于中文分词的简单尝试,要想将蚁群算法真正高效率的用于分词还需要做更进一步的研究。对中、科院汉语词法分析系统ICTCLAS采用的N-最短路径粗分模块提出改进:在考虑到词频的基础上,结合宏观的统计语义和微观的规则语义,采用二元文法对粗分模块进行优化。改进的分词策略对于歧义的消除表现出一定的优势。 在本文最后介绍了中文分词系统的理论模型及其评测指标。
其他文献
TD-SCDMA网络采用了上行同步和均匀圆阵(UCA)智能天线等新技术,因此服务基站可以方便的获得移动用户信号的到达时间(TOA)和到达角度(DOA)。借助这两个参数可以实现单基站的对
正交频分复用(OFDM)技术属于多载波调制技术(MCM)的一种,它以其良好的特性成为下一代移动通信领域研究的重点。但是其特有的调制方式决定了它存在着较高的峰值平均功率比(PAPR
摘要水泥土搅拌桩系指利用水泥等材料作为固化剂,通过特制的搅拌机械,在地基深处,就地将软土和固化剂强制搅拌,由固化剂和软土间产生一系列的物理和化学反应,使软土硬结成具有整体性、水稳定性和一定强度的水泥搅拌桩。这种水泥土搅拌桩与桩周土一起组成复合地基,从而提高地基承载力,减少地基沉降。为解决深厚软基上高速公路桥头跳车问题提供了新思路。  关键词水泥搅拌桩四搅两喷两搅一喷  一、工 程 简 介  水泥搅
期刊
智能监控技术与传统的监控技术相比较,主要区别在于可以利用计算机视觉、数字图像处理、模式识别等相关领域知识赋予计算机自主决策能力,及时检测并识别监控领域内的各种异常
人们对移动通讯业务与日俱增的需求,迫使学者们不断的对相应的技术进行改进。在整个通信过程的各个模块中,接收端检测算法一直是学者们研究的重点。而在诸多检测算法中,多符
电脑、平板及智能手机在人们生活中被广泛使用,方便我们随时随地上传下载数字图像作品。这些多媒体内容传播速度快、传播范围广,但是容易被修改,因此版权保护和内容完整性认证的
【摘要】结合工程实例,阐述高层框剪结构混凝土施工新工艺的原理,施工方法及注意事项。成功的实例,有力的说明混凝土掺膨胀剂是合理的,工程无缝施工是可行的;总结了混凝土框剪结构中不同强度等级的混凝土操作方法。为今后类似工程施工提供了有宜经验。  【关键词】不同等级的混凝土浇筑;无缝施工;原理;膨胀剂;加强带;  1 、工程概况   鞍山市骨科医院,坐落在高新区,科技大学东北部,科技路经侦大队东侧。总建筑
期刊
长螺旋钻孔压灌混凝土后插钢筋笼灌注桩(简称长螺旋钻孔压灌桩,下同)是一种环保型、综合经济效益较高的新型建筑桩基,是在长螺旋钻孔法、泵送混凝土、大流动性混凝土等成熟施工技术的基础上发展起来的。长螺旋钻孔压灌桩具有成桩速度快,承载力高,噪音低,工程造价低,综合效益好等优点,且不受地下水位的限制,特别适应于地下水以下粘性土、粉土、砂土、淤泥等各类土层的成桩,近  几年来在全国各地得到了快速的推广和使用,
期刊
为了解决无线频谱资源紧缺的问题,认知无线电技术提供了一种全新的思路:允许次用户在不干扰主用户正常通信的前提下与之共享授权频段。频谱检测是认知无线电中的关键任务。本文
认知无线电通过对授权频谱进行“二次利用”的方式,为缓解频谱资源缺乏与日益增长的无线接入需求之间的矛盾提供了一个可行的思路。随着近年来频谱资源的日趋紧张和用户对宽带