基于蚁群算法的汉语自动分词的研究与实现

来源 :苏州大学 | 被引量 : 0次 | 上传用户:gebmmi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语自动分词是中文信息处理领域中的基础课题,其中,歧义切分的消除是影响分词精度的关键问题。国内外很多学者在自动分词领域展开了富有成效的工作,但在提高分词精度上,仍然存在着很大的困难。 我们研究发现,对于汉语自动分词,首先,必须对影响分词精度的语言现象作针对性的研究,做到对问题的实质从总体上把握;其次,必需考虑分词算法的设计,建立分词模型,提高模型的计算能力;并研究在分词过程中提供更有效的语言信息的度量。 本文在分词建模过程中,启发于蚁群算法在解决一系列复杂组合优化问题中所表现出来的卓越性能,创造性地将蚁群算法模型运用到汉语自动分词问题中歧义字段的识别和切分上面,通过汉语句子在内存中表示的数据结构的设计,构造了我们的分词模型,以词频作为启发因子,巧妙的将纯粹分词问题转化为词的选择问题,并从计算的角度,分别以绝对减值法和后备法给出我们相应方案的详细设计。实验结果显示我们的基于蚁群算法的汉语自动分词方法是一个可行的解决方案。 在统一的语料测试集上,我们就本文分词算法和中科院计算所的汉语词法分析系统在歧义切分上做了一个全面的比较。并就分词知识从词频、语义信息层次上展开了讨论,作出了展望。
其他文献
自1998年W3C(World Wide Web Consortium)发布了XML1.0[1](Extansible Makeup Language)标准以来,XML就迅速显示出在数据存储、数据交换等方面的优越性,短短几年时间,XML就成
合作求解是多Agent 系统(MAS)的一种重要交互形式,是解决高复杂性、开放性和动态性问题的有效途径。本文研究了MAS 合作求解基本理论和RoboCup 软件仿真系统,深入分析了Agent
树分解与树宽概念的提出在图论、算法和参数复杂性等领域有重要的意义。其中一个主要原因是利用树分解,原来许多在图上困难的问题(如NP难),在对某类树宽是固定参数的图上,可
由于综合业务的需要,数据应用在下一代的移动通信业务中将扮演越来越重要的角色.为了更好的分析数据业务的流量特性,我们根据实际的3G业务来建立业务模型.该文首先将介绍业务
本文的研究内容属于虚拟现实技术和分形图形学的交叉.首先,基于分形几何的自相似和分形布朗运动原理,利用Diamond-Square算法产生构成地形骨架结构所需的高度数据,用Bezier曲
信息技术的高速发展与应用,已经使其在全球能耗中占据相当大的比重。在开发低能耗硬件的同时,如何优化大量计算终端在任务空闲状态时,为了保持网络可访问性而产生的能耗也被证明
软件回归测试是软件测试的主要方法之一,它保证软件被修改后,被修改的部分按照预期目标正确运行,同时对软件的修改没有对软件的其它部分造成负面影响,没有使原本正常的功能失效。
近年来,随着网络和多媒体技术的飞速发展,和网络视频相关的应用越来越多。在监控技术领域,就正在向数字化、网络化、智能化的方向发展。本文主要针对于构建高可靠性的多媒体
本文详细讨论了数字签名技术及其实现方法。数字签名是指使用加密算法对待发的数据进行加密处理,生成一段信息,附在原文上一起发送,这段信息的作用类似现实中的签名或印章,接收方
随着实时计算的功能日益强大,应用成本的降低,实时计算技术广泛应用于航空航天、核电能源、工业过程控制、军事指挥控制、火炮自动控制等多任务实时系统.特别由于实时计算技