基于文字内部信息的中文词向量的研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户：GXDZL126

【摘要】

：

【作者】

：

谭文成

【出处】

：

电子科技大学

【发表日期】

：

2020年07期

【关键词】

：

词向量象形文字 CBOW 权重算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

词向量在自然语言处理各类任务中有着非常重要的作用,其本质是语料库中的单词或者短语映射到实数空间所得到的向量。词向量是自然语言处理领域的基础,词向量的好坏直接影响着各种自然语言处理任务完成的效果,所以词向量的研究一直是重点和热点。英文词向量的研究发展比较早,产生了很多重要的模型,比如Bengio模型、word2vec模型、fasttext模型。中文词向量的研究起步较晚,大多数中文词向量的研究都是在已有的英文词向量模型基础上进行的。对于中文词向量的研究,最关键的是要理解中英文之间的差异,英文中的每个单词均由26个字母组成,文字本身并不会包含语义信息,而中文是象形文字,其本身存在很多的语义信息,所以中文词向量的研究主要集中在如何利用中文词语内部的语义信息这一方面。本文首先利用汉字象形文字的特点,从汉字的字形和读音两个方面来进行中文词向量的改进。字形主要考虑组成中文词语的每一个汉字,读音考虑每个汉字的不带声调的拼音,然后利用CBOW模型得到字向量以及拼音向量,再将字向量、拼音向量直接与CBOW模型得到的词向量进行加和,得到三组词向量。评价词向量好坏主要有两种方法,分别是进行词相似性任务和类比推理任务,这三组词向量中,其中字拼音词联合词向量在词相似性任务中表现最好,比单独的CBOW模型得到的词向量在两个评测文件中的词相似性分数分别提升了9.76%和3.14%,同时字拼音词联合词向量相比于CBOW模型得到的词向量在类比推理任务中的三种关系上的分数均提升了20%以上。本文近一步考虑到字形和读音两者对于词语词义的影响是不同的,因此本文利用词相似性任务分别对初始字向量、初始拼音向量、初始词向量三者进行评分,以此评分作为依据进行权重划分,分别给三组向量添加权重,再进行加和处理,从而获得新的词向量。新的两组词向量相对于未加权重的词向量在两类词向量评价任务中均有相对更好的表现,其中在词相似性任务中新的词向量相较于未加权重的词向量在两个数据集上的词相似性分数最高提升了1.56%和1.97%,同时在类比推理任务中最大提升达到了4.71%。

其他文献

黄芪多糖对肉仔鸡生产性能的影响

选用1日龄AA肉仔鸡1200只,公母各600只,公母分别随机分成5个处理组,其中1个对照组4个试验组,玉米-豆粕型基础日粮为对照组,其他各组分别在基础日粮的基础上添加500mg/Kg、100

会议

黄芪多糖肉仔鸡促生长群体均匀度

护理单元建筑设计

随着社会经济技术的发展提高，现代医院建筑设计思潮和实践也有了相应的变化。本文以广东近年建设的多家综合医院为研究实例，对护理单元的细部问题进行了研究。

期刊

医院住院楼护理单元病房设计Hospital nursing unit Patient Ward Design

拉曼光谱技术及其在药物研究中的应用

拉曼光谱因其样品无需特殊前处理,灵敏度较高,操作简单等优点被广泛应用于材料科学、生物医药、环境监测等领域。该技术具有不受水的干扰、可进行活体检测的优势,在药物研究

期刊

拉曼光谱药物研究中药研究

芒草修复汞污染土壤的实验研究

汞污染场地修复已成为一项紧迫且艰巨的任务。由于具有环境友好性的特点,植物修复技术受到了越来越多的关注。而其中的植物提取技术被认为是当今最有前景的植物修复技术。应用于植物提取的理想植物应具备高生物量、高耐受性和高积累量等特点。本研究通过盆栽试验,在土壤汞浓度为11.505 mg·kg-1至705.681 mg·kg-1的8个浓度梯度以及一个对照实验条件下,对芒草的耐受性和对汞的吸收进行了测评,并探究

学位

芒草汞植物修复能源作物微生物群落汞形态

英语专业基础阶段学习策略研究

英语专业基础阶段的学习是高年级提高的准备阶段,在英语专业基础阶段学习英语,应注重从知识的传授转向更加重视能力和素质培养。本文从多用简单句,便于学生理解记忆;注重关联

期刊

英语专业基础阶段学习策略

中西方文化差异与建筑风格理念差异比较

期刊

氧化锆改性的二氧化硅载银催化剂用于巴豆醛气相选择加氢的研究

α,β-不饱和醇是一类重要的精细化工产品,通常从a,β-不饱和醛/酮出发,将C=O键选择加氢到醇而同时保留C=C键不变来制备。由于C=C键的键能小于C=O键,在热力学上前者更易于加

学位

Ag基催化剂氧化锆选择加氢

基于文字内部信息的中文词向量的研究

其他学术论文