论文部分内容阅读
随着中国进入快速发展的新时代,汉语也在随着时代的发展而发展,作为汉语的重要组成部分,词语的更新变的最为活跃,在日常科技、经济、文化生活中,大量的汉语新词不断地涌现,新词的产生丰富了人们的日常生活和网络生活的语言表达,但同时也给汉语分词带来了挑战。与英语和其他一些字母语言不同,汉语词语之间没有明显的分割,比如英语中词和词之间的就有空格这种天然的分割符号,所以想让计算机读懂汉语必须先进行汉语的分词,然而新词的出现却使得汉语分词产生很多难以识别的“散串”和“碎片”,这些在一定程度上影响到了分词的正确率,根据统计,造成汉语分词的错误过半的原因是由新词造成的,如果能够将新词快速及时的组织到汉语分词字典中,那对于提升汉语分词系统的准确率无疑具有巨大的促进作用。因此,新词发现己经成为汉语自动分词中的一个难点与瓶颈问题。如何识别寻找汉语新词成了一个重要的研究课题。支持向量机SVM(Support Vector Machine)是一种可训练的机器学习方法,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中,本文结合提出的词特征和SVM进行新词识别和提取,首先通过修改分词字典进行模拟新词,借助分词字典对训练语料和测试语料进行分词,统计出各种选择的词特征,然后对从训练语料中抽取的正负样本结合词特征进行向量化,选取不同的核函数通过支持向量机的训练得到新词分类支持向量。通过增加松弛变量来提高分类的准确率,最后将训练语料中得到的新词分类支持向量以及对测试语料中得到的新词候选向量结合进行SVM测试,得到每一个候选新词的计算值,根据计算值和阈值的比较得到最终的新词识别结果。通过设计编写的新词识别程序实现对训练语料的候选新词提取以及生成新词识别支持向量,然后结合测试语料输出识别结果。通过新词分类程序实现对测试语料的召回率和正确率的计算以及生成新词分类图像。对约含有300,000个汉字的人民日报语料进行整合处理后,在分词字典中模拟删除了100个词作为模拟新词,结合新词识别程序和新词分类程序进行实验得到提取的新词和召回率、正确率。本文首先选取径向基核函数(RBF)和相关松弛变量采用不同的词特征进行实验,通过实验结果分析得出所选的词特征都会对新词识别的结果产生积极的作用,因此在进行下一步实验时采用了提出的全部的词特征,然后在其他条件相同的情况下,分别采用了径向基核函数(RBF)、多项式核函数和Sigmoid核函数进行实验,通过实验结果可以看出,当使用径向基核函数(RBF)和全部词特征时,新词识别的正确率为45.12%,召回率为43%,得到的是最优的结果,而另外两个核函数召回率和正确率较低。通过实验可以得出:结合词特征和SVM可以进行新词的识别和提取,并且取得了相对良好的效果,可见本方法可以推广到新词识别的应用领域中。