多语言文本嵌入模型的研究及应用

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:skyliou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理试图用计算机来处理文字背后的语义信息。然而,计算机不能像人类一样理解语言,必须将自然语言表示为计算机可以处理的数学形式,才能完成基本的语义表达。因此文本表示是自然语言处理(NLP)的重要的基础任务之一,是很多其它高级NLP任务的输入对象。这些用来表示自然语言的数学工具就是语言模型。文本嵌入(Word Embedding)是其中的一种文本表示模型,它将不同粒度的语言单位表示为一组固定长度的连续实数向量。此外人类的语言种类繁多,我们期待计算机不仅可以处理单一语言的文本,更期待它能够对两个或更多的语言的文本进行理解,找到不同语言文本在语义上的相似性。本文的课题来自于本人的实际工作需求:跨语言的相似关键词推荐、文本检索和分类。这些任务的痛点在于传统的检索技术只能根据用户查询的关键词检索包含这些关键词的文本,无法自动扩展到相关或同义的关键词,也无法处理同一事物在不同语言中的表达形式。以上这些应用场景都可以归结为一个问题,用多语言的文本表示体现语义相似性。词语间的语义相似性可以用来推荐相似关键词,段落、篇章等长文本间的语义相似性可以用来检索和分类。在这个课题上的现有研究存在一些问题,它们大多集中于双语模型的研究,对高质量的平行语料非常依赖。这些缺陷使得现有方法在实际生产中很难实用。为了满足这些应用场景和解决现有问题,本文提出了一种将具有一定平行程度的多对双语种语料统一到同一个语义空间,从而实现可比性的方法。本文实现这样的方法的大体方向是先得到若干种语言的单语言模型,再通过平行语料进行融合。在此过程中得到了一个基于伪单语料的多语种嵌入模型,和一个基于多对双语平行语料的多语种嵌入模型。并且对双语语料词典外词汇(OOV)进行了兼容。最终,本文训练得到两个多语言嵌入模型,并对其进行实验验证,最后将这一模型应用于最初提出的实际生产场景。本文实验中跨语言的词语相似性推荐可以达到63.5%以上的准确率。利用三语平行语料训练得到的模型则可以达到平均69%,最高85.7%的双语相似度推荐准确率。用本文训练的词语嵌入模型进行的专利文本多IPC标签分类测试,IPC部级的分类精确率达到78.3%,召回率63.6%,F值70.2%,IPC子类级分类精确率达65.6%,召回率29.7%和F值40.9%。用这一嵌入模型进行索引与传统的检索工具Solr进行对比,召回率不相上下,并且在样本中的化学化工这一占比较大的子领域中,本文的文本向量召回率优于Solr检索。这些数据说明了本文所用的方法是可行和有效的。在实际项目中的应用也证明了本文所述方法的可用性。
其他文献
中国5G标准的发布及商用化服务的快速推进,给超高清产业带来极大的助力。直播编解码器作为一个负责对直播信号进行实时编解码处理的工业化软硬件产品,是现有高清直播端到端流程中必不可少的一环。目前业内对超高清直播业务场景评测方法认知尚未普及,从而对业务支撑所需的直播编解码器的评测研究工作相对欠缺。因此,有必要研究一种面向超高清的直播编解码器技术评测方法。本文首先分析和研究了超高清视频,特别是HDR相关技术
当前无线移动通信传输数据呈倍数增长,导致频谱资源紧张的现状。传统无线通信发展基于OSI七层模型,物理层专注于从物理频谱带宽等角度逼近通信容量。同时,传统信源信道联合编码研究已经相对成熟,一定程度上从数据无差错传输角度提升信道容量。然而传统信源信道联合编码仍存在诸多问题。一方面,传统信源信道联合编码问题往往通过分离定律将其分解为信源编码、信道编码等若干步骤。分离定律的基本理论是将通信的母问题分解为多
随着5G时代的来临和物联网(Internet of Things)的飞速发展,物联网智能设备不断普及,且数量飞速增加。各类监控器、感知器、包括人们日常使用的移动智能手机,每时每刻都在产生着大量的数据。硬件性能的提升使得互联网的边缘,大到宏基站,主交换机,小到网关服务器,边缘服务器甚至路由器等设备都具有了一定的计算和存储能力。因此,边缘计算的概念被提出来,将数据的实时计算和预处理从云端迁移到边缘,既
乘法运算一直是数字信号处理中不可或缺的数字逻辑运算操作,也是衡量很多数字信号处理器芯片运算性能的主要评价指标。一方面,为了实现较高的精度,数字信号处理器中通常在运算中使用浮点乘法器来代替定点乘法器。另一方面,近些年来在深度神经网络和一些图像处理等容错应用中,可以通过降低部分计算的精度来降低电路的功耗和提高运算性能。针对上述应用领域,本文在深入调研近似计算理论和乘法器电路结构的基础上,研究了近似乘法
情绪,是一种与思维、感知和行为相关的精神状态。探索情绪产生的机理以及情绪在各种不同条件和环境下的变化与特性,可以帮助人们更好地理解自己,可以为开发更加自然、友好的人机交互系统提供技术支撑,也可以帮助实现许多精神疾病的客观评估与辅助治疗。跨文化的情绪差异研究同样也是心理学、认知科学、神经科学和精神医学等学科的一个重要研究分支。已经有许多科学研究发现,对于不同文化背景的人群,对情感的理解存在共性与差异
随着计算机图形学的发展,人们开始对自然界各种物理现象进行模拟。其中,自然界的流体运动是一种看似简单却极为复杂的运动,模拟流体的运动在人们生活中应用极为广泛。然而,在众多流体模拟的算法中,传统数值方法都需要通过迭代运算,这种运算方式往往耗时很长,因此对流体模拟过程的加速研究尤为重要。近年来,在流体模拟的领域中,流体的特征提取是被人们广泛研究的课题。其中基于涡旋细丝的流体特征提取方法可以提供来自现实世
随着GPU的广泛使用,有关GPU资源利用率的提升问题也得到了广泛关注。单应用独占GPU或者时分共享GPU已经不能充分利用GPU上的大量资源了。空分共享GPU是一种常用的提升GPU资源利用率的方法。空分共享GPU可以利用程序之间资源互补来提升GPU资源利用率。现有的空分技术不能支持动态的改变程序的资源数量,单调的资源分配方式限制了应用程序充分利用资源的能力。本文实现了一种可以动态改变程序资源数量的进
为了推动高校教师及时转变角色,提升教育教学效果,本文在以往研究为基础,分析了智慧教育视域下,传统教学正面临的冲击,总结了高校教师角色内涵的拓展,最后探析了教师角色内涵拓展的具体路径。从而使高校教师角色内涵的拓展更有意义。
期刊
如今,人们用智能手机、数码相机等拍摄的照片越来越多,电脑上相册目录中的照片数量也迅速增长,对这些数字照片的管理变得不可缺少。一般的家庭相册中很大一部分是以人物为主题的照片,这些照片一般是按时间顺序展示的,但当需要查看包含某个人的所有照片时,存在不便于浏览、难以查找等缺点,而手动整理这些数量庞大的照片需要花费的时间和精力非常多。为了解决家庭相册难以管理的问题,本文设计并实现了一款相册管理系统,其基于
随着数据中心高性能计算需求的快速提升,云服务器中的数据传输量也呈现出爆炸式增长的趋势,这使得I/O成为了云计算中新的瓶颈。硬件设备和相关协议的发展,为突破这一瓶颈带来了希望:从机械硬盘到固态硬盘,从AHCI协议到NVMe协议,都给数据中心带来了更先进的存储子系统。随着支持NVMe协议的固态硬盘技术的快速成熟,数据中心开始大量装配NVMe固态硬盘设备。而硬件上性能的提升,也给云计算场景下的软件技术栈