汉语词义相似新标准集构建与融合知网的词嵌入学习方法

来源 :厦门大学 | 被引量 : 0次 | 上传用户:zhangshuai5365
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义相似度计算,也称语义相关度计算,是自然语言处理中最常见,也是最重要的工作之一。机器翻译、词义消歧等需要处理语义信息的任务,都与语义相似度计算有着紧密的联系。评价一个语义学习算法是否优秀,往往通过将标准测试集的内容作为语义学习算法的输入,将算法结果与测试集结果进行一致性检验,一致性越高表示效果越好。因此,一个客观、公正的语义相关度标准测试集,可以更加全面地评价一个语义学习算法的优劣。本文的第一部分工作,是借助于传统的统计方法和认知神经科学实验方法,来构造语义相关度标准测试集。从部分词对的比较,以及与其他现有的标准测试集比较可以发现,本文构造的语义相关度标准测试集主要包括语义相似、语义相关、语义不相关三个部分,整个测试集在人为打分结果上一致性很高,并且事件相关电位(ERPs)实验表明对于语义相似、语义相关、语义不相关三类词语,人脑在语言认知处理过程中体现了不同的处理过程。最终,所得的标准测试集分数分布较为均匀,相比于现有的部分测试集,描述词语之间的相似程度更加准确,同时对现有的词向量训练工作评价效果与现有数据集效果一致。词向量,又称词嵌入,是指借助于分布式表达的概念,将每个词语的语义通过语义空间内的一个向量进行描述,从而所有与语义有关的计算全部可以转换成为对应向量的计算。生成一套好的词向量,对于自然语言处理其它任务的效果都有着很重要的影响。现有流行的词向量训练方法,是通过一个给定的大规模语料,将窗口同现信息转换为相应参数的误差传播与矫正,最终达到同现程度高的词语对应词向量余弦值高的目的。本文的第二部分工作,是在传统的词向量训练方法上,结合进知识库的词语义项信息,通过每个词语对应的义项信息和词语与词语之间的同现信息,来对词向量进行联合训练,以此来达到提高训练效果的目的。
其他文献
在图像处理领域中,纹理特征的提取和表示直接影响了后续工作的进行和实验结果的质量,因此而具有十分重要的意义。近些年来,基于对稀疏表示和低秩矩阵的研究和发展,视觉不变性
钙钛矿太阳能电池以其吸收系数高、激子扩散长度长、低成本、易与卷对卷加工技术相兼容等优点而受到广泛关注。随着各种制造技术的发展,钙钛矿太阳能电池在几年内就实现了超过25%的高能量转换效率,是一种很有希望实现商业化的候选材料。但是,大多数高效的有机/无机杂化钙钛矿太阳能电池是采用介孔结构的TiO_2等,一般需在400℃以上的高温烧结,不利于未来在高通量的卷对卷加工中应用。不含介孔层的平面有机/无机卤化
通常情况下,监控系统可以根据环境的变化控制现场设备。但是,当用户提出了新的要求或改变了控制规则时,就需要将监控模块返厂注入新的程序代码,这给实际应用带来了麻烦。为此
Web服务组合可将分布于网络中的各类Web服务按照一定的规则进行有效组合,提供更加丰富的服务内容,完成更强大的功能。在组合服务中各个Web服务之间的协同合作产生了跨域的信
股权激励被广泛应用于现代企业管理之中,可以帮助企业解决所有者和激励对象之间的委托代理矛盾。随着我国市场经济的快速发展,企业在市场和人才方面都面临着激烈的竞争,因此我国上市公司越来越多地采用股权激励手段,吸引和留住核心技术人才。在上市公司股权激励日益成熟的今天,我国对于非上市公司的股权激励的研究尚处于探索阶段,受非上市公司自身特点的影响,非上市公司在实施股权激励时遇到一些难题,比如非上市公司股权无法
分布式视频压缩感知技术是应急服务视频传感技术中最为关键的技术之一。本文针对应急服务视频传感系统的特殊需求,对分布式视频压缩感知理论中的采样算法和重构算法进行深入
目的:探讨影响垂体腺瘤患者视觉功能预后的危险因素。应用DTI技术活体重建垂体腺瘤患者视觉通路的神经纤维,并采用DTI参数定量分析视觉功能结果与微观结构损伤严重程度的关系。最重要的是确定视觉功能预后不良的DTI参数阈值,以及解除肿瘤压迫以后视觉通路的恢复时间问题。方法:选取2017年9月到2019年1月之间在连云港市第一人民医院诊断为垂体腺瘤并接受手术治疗的20名患者为肿瘤实验组,分别于术前、术后1
互联网的普及引起消费者通过电子商务平台进行访问点击、浏览翻页等真实行为,这其中包含了消费者对企业产品的大量隐式反馈信息。这种由消费者生成的真实点击流数据为企业提供了一个“倾听”市场消费者的机会。该数据是在用户自身的环境中收集的,没有人为干扰,这使得点击流数据成为研究人员和从业者的丰富资源,他们寻求更好地了解消费者的行为和选择。通过观察消费者对某一类别产品的在线行为数据,企业原则上可以更好地了解在线
本研究制备了一种硅胶颗粒担载有机聚合物型亲水性强阳离子交换整体柱(以下简称为担载柱)。担载柱的制备分为两个步骤:首先,利用直径5μm硅胶颗粒为载体,以甲基丙烯酸缩水甘油
磷是有限的不可再生资源,也是水环境中主要污染物之一。从污水中回收磷对缓解磷资源危机、改善水环境具有重要意义。目前我国正全面对污水处理厂实施一级A/准Ⅳ类提标改造,将尾水磷排放标准由1.0 mg/L降至0.5 mg/L,甚至是0.3 mg/L。在此过程中如何对磷进行回收是主要技术难点。结晶除磷是污水磷回收主流技术之一。但即便是对低磷污水适应性较强的HAP结晶,已有报道的原水最低磷浓度也有3.5 mg