基于上下文距离的Word2vec算法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:zgm_19780916
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,由于互联网爆炸式的发展,使得网络上的文本、音频、图片等数据近乎呈指数级上升。如何高效、准确地让计算机处理、识别、分析这些结构化和非结构化的海量数据,对业界和学术界都带来了新的挑战。让计算机处理文本,一般要经过文本表示步骤,也就是将文本恰当地表示成计算机能够处理的数据类型(如数值向量),以便后续进行特征工程等。一般传统的文本表示模型有布尔模型、词袋模型、LDA模型以及词嵌入(Word Embedding,又称词向量)模型。近来在机器学习领域用词嵌入模型居多,常见的词嵌入模型有Word2vec、Glove等。在常用的Word2vec算法里,无论是小语料库友好的CBOW算法还是大语料库友好的skip-gram算法,在考虑上下文语义时都没有做到平滑处理。具体来说,如CBOW模型,对最近的若干个上下文词的词向量做简单加权平均处理生成投影层;或者如skip-gram,等概率地随机采样滑动窗口内的若干个词与中心词生成训练元组。这样的处理方式基于一个不恰当的默认假设,即滑动窗口内,不论距离,上下文词对中心词的影响是等同的。为了解决这个问题,本文提出了基于上下文距离的Word2vec算法(Context Distance Based Word2vec,CDB-Word2vec)。该算法分别对原始 Word2vec 中的两个模型各提出了一个优化后的模型:基于原始CBOW算法提出了基于上下文距离的 CBOW 算法(Context Distance Based CBOW,CDB-CBOW),该算法对滑动窗口内上下文词按距离中心词距离由远及近赋予从小到大的权值;基于原始skip-gram算法提出了基于上下文距离的skip-gram算法(Context Distance Based skip-gram,CDB-skip-gram),该算法对滑动窗口内上下文词按距离中心词距离由远及近赋予从小到大的采样概率。由于不容易直接评价模型生成的词向量质量高低,将词向量带入具体的任务(如文本情感分类),考察最后的分类精度来反推词向量质量是一个不错的方法。故本文采用CDB-Word2vec基于维基百语料库训练生成词向量,用得到的词向量进行文本情感分类实验来评估词向量模型。实验表明,CDB-Word2vec生成的词向量质量高于原始的Word2vec算法。
其他文献
磷是海洋生物生长所必要的营养元素之一,在海洋生物地球化学过程中起到重要的作用。磷酸盐浓度在海洋中存在巨大的时空变化,在寡营养盐海域,浮游植物生长需摄取大量磷酸盐,导致表层海水中的磷酸盐浓度低至nmol/L水平,低于常规分析方法的检出限,使得目前大洋中磷酸盐浓度的现场数据仍十分匮乏。准确、快速地获取痕量活性磷浓度的数据,对海洋科学研究意义重大。虽然活性磷的自动分析方法已得到快速发展,但这些方法仍存在
为了满足社会需求的不断发展,越来越多的建筑师将设计重心放置在内部空间的营造与刻画上。剖面能同时揭示建筑内部与外部的关系,展示被剖切实体与内部空间状态,回归建筑设计本真,逐渐成为研究热点之一。光影是剖面中穿行的主角,只有当建筑被剖开后,才能真正感受到内部空间与光影的设计内涵,展现建筑形体与光影的关系。博物馆作为一种重要的建筑类型,其内部功能对采光环境有着特殊的要求,内部空间也逐渐显露出复杂性的倾向。
在真核生物中,由mRNA到蛋白质的翻译过程是一个复杂的多步骤过程,有mRNA、核糖体、tRNA和起始因子的共同参与,真核翻译起始因子3是翻译起始过程中最大的起始因子复合物,包含13个亚基(eIF3a-eIF3m),是翻译起始因子家族中结构最为复杂的成员,几乎参与了翻译起始的所有步骤。eIF3亚基表达水平不均衡会影响整个eIF3复合物的表达,在某些情况下,eIF3的错误调控会导致某些疾病的发生,或者
随着氮化物半导体在新能源、功率电子及光电子器件方面的广泛应用,基于氮化物量子结构材料与器件的需求也在不断上升。AlGaN半导体由于具有可连续剪裁的直接宽带隙、高电子迁移率、高击穿场强等特性,近些年来已经成为化合物半导体的研究热点。AlGaN低维量子结构也逐渐进入人们的视野,尽管当前已取得了一系列的研究进展,但如何精确控制阱垒厚度,获得异质界面陡峭且无组分互扩散的二维量子结构生长仍然是亟待解决的难题
涡旋光束的光强呈环状分布,中心光强为零,并且相位呈螺旋分布,在传播过程中携带轨道角动量,并且涡旋光束在进行长距离传播时稳定性很强,在操纵微粒时无热损耗,因此涡旋光束为空间光通信、物理数学、光学计算和光学信息处理提供了不同的方法和途径。由于光学涡旋转换器的波长敏感性,研究人员在之前关于涡旋光束的研究中主要集中在(准)连续波领域。然而,近年来人们在超快光学领域取得了很大的发展和进步,这就促使人们在将涡
中红外(2-20 μm)超短脉冲激光器由于在气体传感、化学检测、光谱学、军事和医疗手术等方面的应用而日益受到关注。特别是超快光纤激光器和常规的固体激光器大有不同,光纤激光器系统小巧紧凑,拥有光束质量高、环境可靠性好等内在优势。掺杂稀土离子的光纤激光器锁模是一种公认的产生高质量超短脉冲的有效技术,但目前在中红外波段仅实现了几个固定波长的锁模,即~2 μm、2.8 μm、3.1 μm和3.5 μm。可
随着移动通信设备的不断发展,人们对手机摄像头和数码相机的要求愈来愈高。对设计人员来说,摄像头和应用处理器之间的带宽需求增加。本文介绍一种基于MIPI CSI-2(camera serial interface 2)协议标准,此协议为高清摄像头和应用处理器之间提供一个高速串行接口。本文主要设计MIPI CSI-2高速数据处理部分。D-PHY协议在高速传输模式下,信号最高传输速度是1.5Gbps。本文
质子交换膜燃料电池(PEMFC)、金属-空气电池(Metal-air battery)具有低排放或零排放以及高效率等优点,引起了人们广泛的研究。氧还原反应(ORR)是这些先进能源技术的关键反应。然而,ORR反应涉及多电子转移过程,其动力学迟缓,需要大量的电催化剂来降低反应能垒,加快反应速率。铂(Pt)基催化剂(PGM Catalysts)价格昂贵、资源稀缺、易毒化的问题严重阻碍了商业化应用。目前,
肠道微生物与宿主关系密切,对宿主具有增强肠道粘膜塑性、分泌消化酶帮助消化、抵御病原微生物等益处,因此近年来,肠道微生物的群落组成及其影响因素受到研究人员的广泛关注。东风螺和鲍是中国重要的经济养殖贝类,本研究以方斑东风螺、泥东风螺、皱纹盘鲍与“绿盘鲍”新品种为研究对象,利用16S rRNA测序和宏基因组测序技术,探究饵料与温度对四种海洋贝类肠道微生物群落组成及功能的影响。现有主要结果如下:1.16S
在过去的十年中,钙钛矿太阳能电池经历了突飞猛进的发展,光电转换效率由3.8%增长至25.2%,成为新能源领域一颗冉冉升起的新星。性能良好的空穴传输层材料对于钙钛矿太阳能电池的光电性能及稳定性至关重要。氧化镍(NiOx)材料由于其低廉的成本,相对适宜的能带结构和良好的稳定性,成为最常用的空穴传输层材料之一。制备NiOx层的方法大多需要在高温下烧结,与产业化所需的柔性基底不兼容,因此本文采用合成NiO