基于文字内部信息的中文词向量的研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:GXDZL126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词向量在自然语言处理各类任务中有着非常重要的作用,其本质是语料库中的单词或者短语映射到实数空间所得到的向量。词向量是自然语言处理领域的基础,词向量的好坏直接影响着各种自然语言处理任务完成的效果,所以词向量的研究一直是重点和热点。英文词向量的研究发展比较早,产生了很多重要的模型,比如Bengio模型、word2vec模型、fasttext模型。中文词向量的研究起步较晚,大多数中文词向量的研究都是在已有的英文词向量模型基础上进行的。对于中文词向量的研究,最关键的是要理解中英文之间的差异,英文中的每个单词均由26个字母组成,文字本身并不会包含语义信息,而中文是象形文字,其本身存在很多的语义信息,所以中文词向量的研究主要集中在如何利用中文词语内部的语义信息这一方面。本文首先利用汉字象形文字的特点,从汉字的字形和读音两个方面来进行中文词向量的改进。字形主要考虑组成中文词语的每一个汉字,读音考虑每个汉字的不带声调的拼音,然后利用CBOW模型得到字向量以及拼音向量,再将字向量、拼音向量直接与CBOW模型得到的词向量进行加和,得到三组词向量。评价词向量好坏主要有两种方法,分别是进行词相似性任务和类比推理任务,这三组词向量中,其中字拼音词联合词向量在词相似性任务中表现最好,比单独的CBOW模型得到的词向量在两个评测文件中的词相似性分数分别提升了9.76%和3.14%,同时字拼音词联合词向量相比于CBOW模型得到的词向量在类比推理任务中的三种关系上的分数均提升了20%以上。本文近一步考虑到字形和读音两者对于词语词义的影响是不同的,因此本文利用词相似性任务分别对初始字向量、初始拼音向量、初始词向量三者进行评分,以此评分作为依据进行权重划分,分别给三组向量添加权重,再进行加和处理,从而获得新的词向量。新的两组词向量相对于未加权重的词向量在两类词向量评价任务中均有相对更好的表现,其中在词相似性任务中新的词向量相较于未加权重的词向量在两个数据集上的词相似性分数最高提升了1.56%和1.97%,同时在类比推理任务中最大提升达到了4.71%。
其他文献
选用1日龄AA肉仔鸡1200只,公母各600只,公母分别随机分成5个处理组,其中1个对照组4个试验组,玉米-豆粕型基础日粮为对照组,其他各组分别在基础日粮的基础上添加500mg/Kg、100
随着社会经济技术的发展提高,现代医院建筑设计思潮和实践也有了相应的变化。本文以广东近年建设的多家综合医院为研究实例,对护理单元的细部问题进行了研究。
拉曼光谱因其样品无需特殊前处理,灵敏度较高,操作简单等优点被广泛应用于材料科学、生物医药、环境监测等领域。该技术具有不受水的干扰、可进行活体检测的优势,在药物研究
汞污染场地修复已成为一项紧迫且艰巨的任务。由于具有环境友好性的特点,植物修复技术受到了越来越多的关注。而其中的植物提取技术被认为是当今最有前景的植物修复技术。应用于植物提取的理想植物应具备高生物量、高耐受性和高积累量等特点。本研究通过盆栽试验,在土壤汞浓度为11.505 mg·kg-1至705.681 mg·kg-1的8个浓度梯度以及一个对照实验条件下,对芒草的耐受性和对汞的吸收进行了测评,并探究
介绍了神经网络模型,该网络元件模仿电效应形式、折射状态和反应阻滞现象.本系统的特征是,存在着大量的被解释为周期码(波组)的摆动工况。提出了这样的假设,示教问题归结为学会选择
英语专业基础阶段的学习是高年级提高的准备阶段,在英语专业基础阶段学习英语,应注重从知识的传授转向更加重视能力和素质培养。本文从多用简单句,便于学生理解记忆;注重关联
目前,在我国职校的英语口语教学中,学生的思辨能力普遍偏差,职高学生的英语基础薄弱,英语学习的积极性不高。文章指出了加强学生思辨能力的重要性,探讨了培养职高学生创新思辨能力
期刊
α,β-不饱和醇是一类重要的精细化工产品,通常从a,β-不饱和醛/酮出发,将C=O键选择加氢到醇而同时保留C=C键不变来制备。由于C=C键的键能小于C=O键,在热力学上前者更易于加