基于最大熵模型的中国人名自动识别

来源 :广西大学 | 被引量 : 0次 | 上传用户:lijichen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语自动分词是中文信息处理的基础工程,中国人名的自动识别则是汉语自动分词的难点之一,已经成为制约汉语自动分词系统准确率的一大瓶颈。 本文在分析中国人名用字以及中国人名与其上下文联系的基础上,采用最大熵模型对中国人名进行自动识别。 本文对中国人名的内部成词情况以及中国人名与其上下文的联系进行了分析,得出了中国人名上下文与中国人名有着很强的联系并且中国人名内部构成也呈现一定的统计特性的结论。 本文用最大熵模型自动识别中国入名,识别流程分为训练和识别两个阶段。 在训练阶段中,主要采用最大熵模型对熟语料进行参数训练。首先用ICTCLAS的人名角色表对语料库的词性进行角色替换,然后构造特征模板库并且用特征模板库从角色替换后的语料库中提取出特征集,最后用IIS算法训练特征集的最大熵参数。 在识别阶段中,首先用基N-最短路径分词算法进行初分词,接着用viterbi算法对初分词文本进行角色标注,最后在角色序列的基础上进行模式最大匹配,从而实现中国人名的自动识别。 本文给出了相应的公式及公式推导过程,并且给出了相应参数的获取方法和计算公式。 在封闭测试实验中,识别准确率、召回率、F-值分别达到了85.4%,91.2%,88.2%。实验结果表明基于最大熵模型的中国人名自动识别行之有效。
其他文献
无线传感器网络是由部署在监测区域内大量的传感器节点组成,通过无线通信方式形成的一个多跳的自组织的网络系统。由于无线传感器网络具有组网快捷、灵活且不受有线网络约束
随着科学技术的发展,生产规模越来越大,复杂性越来越高,生产车间的优化调度问题已经成为提高企业生产效率进而提高市场竞争力的核心之一。   生产调度,即对生产过程进行作业计
在嵌入式移动实时数据库系统环境中,为了支持大量移动客户端并发访问服务器上的数据,人们提出了数据广播技术。数据广播充分利用移动环境中网络带宽的非对称性,周期性的将热
边缘检测是许多计算机视觉和图像处理应用中的一个基础操作,不仅显著的减小信息量来简化图像分析,同时还保留在场景中有用的结构信息。现在有很多关于灰度图像边缘检测的研究
随着计算机应用领域的迅速扩大,软件规模及复杂性的不断提高,软件危机日益严重,提高软件的生产效率和质量成为软件产业的当务之急。近些年来面向对象技术的发展成熟和Internet网
可信计算平台是个新兴的研究方向,可信计算已经成为研究的热点。作为可信计算平台的核心,操作系统对可信的要求不言而喻。作为开源的Linux,其特点很适合用作可信计算平台的操
图像压缩技术是存储和传输数字图像的关键技术。现有的压缩技术以像素矩阵为编码对象,通过预测、变换、量化和熵编码去除图像中的冗余信息,而达到压缩图像的效果。经过多年以
OpenVGTM(Open Vector Graphics)是Khronos组织于2005年发布的,针对诸如Flash和SVG等矢量图形库应用提供的底层硬件加速引擎,是一个开放性的、跨平台应用程序接口函数库。OpenV
基于移动设备的应用是当今数字家庭时代最主要的信息服务之一,有着广阔的发展前景。移动设备及其应用或多或少受到各种噪声的干扰,影响应用质量,基于移动设备的噪声消除算法是现
容延网络是从移动自组织网络和无线传感器网络等网络中抽象出来的一种网络模型。容延特征是容延网络最重要的特性。节点的移动性、自组织性及能量受限,使得网络出现间歇性连