基于SVM和词特征的新词识别研究

来源 :内蒙古师范大学 | 被引量 : 0次 | 上传用户：xhg123456

【摘要】

：

随着中国进入快速发展的新时代，汉语也在随着时代的发展而发展，作为汉语的重要组成部分，词语的更新变的最为活跃，在日常科技、经济、文化生活中，大量的汉语新词不断地涌现，新词的产

【作者】

：

徐远方

【机构】

：

内蒙古师范大学

【出处】

：

内蒙古师范大学

【发表日期】

：

2012年期

【关键词】

：

新词识别 SVM 中文分词词特征信息核函数

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着中国进入快速发展的新时代，汉语也在随着时代的发展而发展，作为汉语的重要组成部分，词语的更新变的最为活跃，在日常科技、经济、文化生活中，大量的汉语新词不断地涌现，新词的产生丰富了人们的日常生活和网络生活的语言表达，但同时也给汉语分词带来了挑战。与英语和其他一些字母语言不同，汉语词语之间没有明显的分割，比如英语中词和词之间的就有空格这种天然的分割符号，所以想让计算机读懂汉语必须先进行汉语的分词，然而新词的出现却使得汉语分词产生很多难以识别的“散串”和“碎片”，这些在一定程度上影响到了分词的正确率，根据统计，造成汉语分词的错误过半的原因是由新词造成的，如果能够将新词快速及时的组织到汉语分词字典中，那对于提升汉语分词系统的准确率无疑具有巨大的促进作用。因此，新词发现己经成为汉语自动分词中的一个难点与瓶颈问题。如何识别寻找汉语新词成了一个重要的研究课题。支持向量机SVM（Support Vector Machine）是一种可训练的机器学习方法，它在解决小样本、非线性及高维模式识别中表现出许多特有的优势，并能够推广应用到函数拟合等其他机器学习问题中，本文结合提出的词特征和SVM进行新词识别和提取，首先通过修改分词字典进行模拟新词，借助分词字典对训练语料和测试语料进行分词，统计出各种选择的词特征，然后对从训练语料中抽取的正负样本结合词特征进行向量化，选取不同的核函数通过支持向量机的训练得到新词分类支持向量。通过增加松弛变量来提高分类的准确率，最后将训练语料中得到的新词分类支持向量以及对测试语料中得到的新词候选向量结合进行SVM测试，得到每一个候选新词的计算值，根据计算值和阈值的比较得到最终的新词识别结果。通过设计编写的新词识别程序实现对训练语料的候选新词提取以及生成新词识别支持向量，然后结合测试语料输出识别结果。通过新词分类程序实现对测试语料的召回率和正确率的计算以及生成新词分类图像。对约含有300,000个汉字的人民日报语料进行整合处理后，在分词字典中模拟删除了100个词作为模拟新词，结合新词识别程序和新词分类程序进行实验得到提取的新词和召回率、正确率。本文首先选取径向基核函数(RBF)和相关松弛变量采用不同的词特征进行实验，通过实验结果分析得出所选的词特征都会对新词识别的结果产生积极的作用，因此在进行下一步实验时采用了提出的全部的词特征，然后在其他条件相同的情况下，分别采用了径向基核函数(RBF)、多项式核函数和Sigmoid核函数进行实验，通过实验结果可以看出，当使用径向基核函数(RBF)和全部词特征时，新词识别的正确率为45.12%，召回率为43%，得到的是最优的结果，而另外两个核函数召回率和正确率较低。通过实验可以得出：结合词特征和SVM可以进行新词的识别和提取，并且取得了相对良好的效果，可见本方法可以推广到新词识别的应用领域中。

其他文献

基于NAT-PT的IPv4/IPv6转换机制研究和实现

随着计算机网络的快速发展,IPv4协议表现出越来越多的不足,IPv6协议取代IPv4协议已经成为一种必然。由于IPv4和IPv6互不兼容,将出现IPv4和IPv6网络长期共存的状况,在这个过渡

学位

IPv6过渡技术NAT-PT地址映射IPSecNetfilter

一种基于匿名的位置隐私保护方法研究

随着移动通信技术和无线网络技术的飞速发展，人们可以在任何地方任何地点获得与自身位置相关的信息。这促进了基于位置服务(LBS)的发展。位置服务虽然为人们的生活提供了方便，

学位

位置服务匿名技术匿名区域查询内容隐私保护移动通信

基于全业务流程的企业产销衔接模式和业务平台研究

自我国烟草行业实现“统一管理，工商分设”以来，企业有了全方面的发展，但是由于烟草工商之间系统还相互独立，形成了一个个信息孤岛，无法实现数据之间的互联互通，缺乏有效地交互信息

学位

产销衔接需求预测模型工商协同网上配货

基于UML的数据仓库逻辑建模研究

数据仓库是面向主题的，抽取于数据库，受数据驱动。数据仓库可以为需要做决策分析的系统提供数据支持。我们主要关注数据仓库的逻辑建模，包括：需求分析、概念模型设计和逻辑模型设

学位

数据仓库逻辑建模统一建模语言

车用微控制器运算和译码部件的设计与验证

汽车电子是现代汽车中一个发展迅猛的领域，ECU（Electrical Control Unit）在其中扮演着非常重要的角色。为了实现汽车电子的智能化和网络化，汽车中需要集成更多的ECU。但是ECU的核

学位

车用微控制器运算部件译码部件验证方法学UVM

FISH图像分析系统的研究

本论文主要在研究已有的医学图像处理平台的基础上,以FISH探针标记的胃癌肿瘤细胞的荧光图像为研究对象,用该FISH图像分析系统对荧光标记的细胞图像进行图像的预处理与荧光区

学位

彩色数学形态学图像增强图像分割细胞提取

面向输电线路监测的无线传感器网络路由优化

作为现在信息采集的重要技术,无线传感器网络从诞生之日起,就一直是研究和应用的热点,随着智能电网的提出,无线传感器网络在输电线路监测方面的应用得到很大的重视,以期达到

学位

长链状无线传感器网络输电线路监测路由优化蚁群算法

嵌入式软件自恢复技术研究

伴随着信息产业的迅速发展，计算机软件技术的应用也越来越广泛，然而，由于计算机软件中存在各种可能引起故障的错误，软件可能会发生软件失效。随着嵌入式软件在军事、商业等等各行

学位

VxWorks嵌入式软件自恢复软件抗衰

基于模拟退火的蚁群算法求解网格任务调度问题

随着科技日新月异的发展,计算机网络在我们生活中扮演的角色越来越重要,可以说到了不可或缺的地步。网络中异地资源的共享能给我们带来了很多的方便,异地资源如何更好的被大

学位

网格任务调度遗传算法蚁群算法模拟退火

Web日志挖掘技术研究与应用

随着Internet的普及和计算机技术的发展,网络用户的规模越来越大,用户访问网络的行为也变的越来越多样化和复杂化。网络在电子商务、提供在线服务和信息搜索等方面得到了广泛

学位

Web日志挖掘数据预处理聚类K-means算法用户相似度

基于SVM和词特征的新词识别研究

其他学术论文