论文部分内容阅读
词向量在自然语言处理各类任务中有着非常重要的作用,其本质是语料库中的单词或者短语映射到实数空间所得到的向量。词向量是自然语言处理领域的基础,词向量的好坏直接影响着各种自然语言处理任务完成的效果,所以词向量的研究一直是重点和热点。英文词向量的研究发展比较早,产生了很多重要的模型,比如Bengio模型、word2vec模型、fasttext模型。中文词向量的研究起步较晚,大多数中文词向量的研究都是在已有的英文词向量模型基础上进行的。对于中文词向量的研究,最关键的是要理解中英文之间的差异,英文中的每个单词均由26个字母组成,文字本身并不会包含语义信息,而中文是象形文字,其本身存在很多的语义信息,所以中文词向量的研究主要集中在如何利用中文词语内部的语义信息这一方面。本文首先利用汉字象形文字的特点,从汉字的字形和读音两个方面来进行中文词向量的改进。字形主要考虑组成中文词语的每一个汉字,读音考虑每个汉字的不带声调的拼音,然后利用CBOW模型得到字向量以及拼音向量,再将字向量、拼音向量直接与CBOW模型得到的词向量进行加和,得到三组词向量。评价词向量好坏主要有两种方法,分别是进行词相似性任务和类比推理任务,这三组词向量中,其中字拼音词联合词向量在词相似性任务中表现最好,比单独的CBOW模型得到的词向量在两个评测文件中的词相似性分数分别提升了9.76%和3.14%,同时字拼音词联合词向量相比于CBOW模型得到的词向量在类比推理任务中的三种关系上的分数均提升了20%以上。本文近一步考虑到字形和读音两者对于词语词义的影响是不同的,因此本文利用词相似性任务分别对初始字向量、初始拼音向量、初始词向量三者进行评分,以此评分作为依据进行权重划分,分别给三组向量添加权重,再进行加和处理,从而获得新的词向量。新的两组词向量相对于未加权重的词向量在两类词向量评价任务中均有相对更好的表现,其中在词相似性任务中新的词向量相较于未加权重的词向量在两个数据集上的词相似性分数最高提升了1.56%和1.97%,同时在类比推理任务中最大提升达到了4.71%。