基于神经网络的词的切分及切分歧义消解

来源 :长春工业大学 | 被引量 : 0次 | 上传用户:sunku
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着 Internet 上中文网页的急剧增加和中文电子出版物的迅速普及,以非受限文本为主要对象的中文自然语言处理的重要性越来越受到人们的关注。而“词”又是自然语言处理系统中重要的知识载体与基本操作单元,由于在书面汉语中词与词之间没有英文中类似空格的明显切分标志,汉语言自动分词这一研究领域应运而生。 汉语分词的任务,通俗地说,就是由机器在中文文本中词与词之间加上空格,为其后续工作如词性标注、语法语义分析等做准备。自动分词问题的最终突破将对许多研究领域产生实质性的影响:如中文文本的自动检索、过滤、分类及摘要;中文文本的自动校对;机器翻译;汉字识别与汉语语言识别的后处理等等。 目前,国内公开报道过的分词方法主要有: 1)基于词典、词库匹配法,如最大匹配法、逐词匹配法、并行分词法等等;2)语义分词法,如综合匹配法、语法分析法等;本文采用人工智能的方法,具体来说,是用人工神经网络技术来建立分词模型。人工神经网络(ANN)是一个高度复杂的非线性动力学系统,它由大量的同时也是简单的处理单元(或称神经元)广泛连接而成,它反映了人脑的若干特性,对人脑功能作了某种简化、抽象和模拟。本文采用的是神经网络经典算法—BP 算法,在诺依曼体系机上模拟人工神经网络建立分词模型,并给出了实验分析。 凡事皆有两面,BP 算法本身也存在着一些固有的缺陷:1)BP 学习算法的收敛速度慢,通常需要上千次甚至更多次迭代来训练;2)从数学角度看,BP学习过程是一阶非线性梯度优化问题,因此不可避免的会遇到优化过程中最常见的局部极小问题,使学习效果偏离最佳值;3)网络隐层数以及隐层节点数目的选取尚无理论指导,完全凭经验指定。 鉴于此,在第三章介绍了分词模型的改进算法,提出用遗传算法来优化神经网络结构,遗传算法是一种模拟生物界自然选择和自然遗传机制的高度并行、随机、自适应优化搜索算法。具有隐含的并行性和对全局信息的有效利用能力,使它只需搜索少数结构就能反映搜索空间的大量区域。利用群体的适应值信息,通过简单的复制、杂交和变异算子,遗传算法能以很大的概率找到全局最优解,从而从整体上提升自动分词模型的性能。在论文的后部,针对歧义问题给出了基于神经网络的消歧算法。同时也对未登录词进行了相应的处理,以期提高分词的准确率。
其他文献
近年来随着信息量的日益膨胀,数据量的快速增长,对大数据分析的需求日趋急切。同时随着人们对不确定数据认识的越加深刻,基于不确定大数据的处理需求开始兴起。然而现有的基
在印刷行业中,由于工业技术的飞速发展,印刷机的制造技术的快速进步,使得印刷效率有了非常大的提高。但是在印刷效率提高的同时,在印刷过程中由于人为或环境的问题,在印刷品上产生
基于MPC8540与DSP的双处理器模式的硬件平台是以机载显示系统为需求进行的研究和开发。针对未来战机需要具有三维显示的功能和特点,双处理器模式的平台可充分利用MPC8540处理
数据依赖是指数据之间存在的各种联系,譬如键就是一种依赖。数据冗余的产生和数据依赖有着密切的联系。数据依赖是数据库设计理论中的一个核心概念,通过它可以规范属性之间满
联想记忆是人类脑细胞的重要功能之一,人工神经网络的一个很重要的方面就是模拟人类的联想记忆功能。20世纪末,G.X.Ritter等人提出的形态联想记忆网络是一种较为有效的联想记
随着计算机病毒越来越猖撅,计算机安全越来越受到人们的重视,计算机反病毒技术也发展得越来越快。尽管计算机反病毒技术层出不穷,但是应用起来仍然不够成熟。现有计算机反病毒软
CICQ或者缓存交换结构具有内部无需提速及输入和输出的分组调度可以分布并行执行的优点,在高性能交换结构设计中具有独特优势。交换结构领域的开放问题是:低层调度上强调调度算
在如今大规模网格环境下,如何快速、准确的进行资源发现并能够对其有效的管理对于一个网格系统的部署起着至关重要的作用。虽然目前的资源发现和管理模型,如集中式、分布式、层
P2P网络技术被广泛应用于文件共享、分布式计算和协作系统等各个领域。但长期以来,各个P2P研究组织一直未达成一致的P2P标准,每一个P2P产品供应商都使用不兼容的技术使它的用户
科学计算可视化,是计算机图形学的一个重要研究方向,是图形学的新领域。其中面绘制和体绘制是实现三维曲面重构两种重要手段,面绘制算法主要是按照给定的阈值从体数据中提取