【摘 要】
:
词向量(Word Embedding)是现今单词的主流表示方法。基于映射的无监督跨语言词向量(Unsupervised Cross-lingual Emeddings)旨在不使用任何跨语言知识,将源语言和目标语言的
论文部分内容阅读
词向量(Word Embedding)是现今单词的主流表示方法。基于映射的无监督跨语言词向量(Unsupervised Cross-lingual Emeddings)旨在不使用任何跨语言知识,将源语言和目标语言的词向量映射到同一向量空间中,使得不同语言下语义相同的词具有较高的相似度。研究该问题对于解决资源匮乏的语言的信息鸿沟问题和跨语言自然语言处理任务有着重大意义。近年来,各国学者在该方向上的研究取得了许多成果。不过现有的无监督方法存在着两个不足(1)没有处理一次多义的问题;(2)模型在实际应用场景中的鲁棒性不足,尤其是对于距离遥远的语言对。针对以上问题,本文的主要研究工作包含以下内容:1.分析了造成无监督鲁棒性不足的原因,发现无监督方法所依赖的同构性假设在实际应用场景中是不成立的。之后量化的分析了无监督方法的鲁棒性,并提出了语言词向量模型的距离度量方法。该度量方法成功地表现出了语言模型在语言学知识下的距离性质,不同语系的语言较同一语系下的语言有着更大的距离值。然后研究表明了语言距离与无监督模型的性能存在着线性关系,关系较远的语言在无监督模型的件能上有着明显的下降。2.本文提出从构建初始解和增强自学习过程两个方面对现有模型的改进方法。其中增强自学习的方法可以在无需构建初始种子词典的情况下得到较现有方法有可比性的结果。在此基础上,本文进一步确认了模型优化的实现细节。在评估实验中,优化模型的性能有着显著的提升,尤其是在距离遥远的语言对上,改进后的模型在鲁棒性上有着较大的提升。
其他文献
随着城镇化进程的不断推进,城市建设日益受到重视,城市轴线作为城市形态的重要元素之一,对其探讨具有十分重要的现实意义。在历史的进程中开封形成了数条城市轴线,这些轴线在
同步通信卫星的干扰源定位是国家无线电监测中心的重要工作职责之一。随着国民经济的发展,卫星通信变得越发重要,卫星通信用户也日益增多,这给卫星干扰定位带来了新的挑战。新的发展趋势给定位工作提出了新的需求:更高的成功率;更快的定位速度;更高的定位精度。卫星干扰源定位要获得良好的定位精度,需要足够的参考源对定位参数进行校准。这一校准过程能够将定位精度从几百公里提高到几公里的级别,因此,设计和实现高精度的扩
在环境危机和能源短缺日益严峻的今天,太阳能和风能等可再生能源的开发受到全球范围的广泛关注。近些年,在我国政策的大力扶持下,光伏发电产业得到高速发展,光伏电站的规模和
随着人工智能的快速发展,手势识别作为新一代的人机交互技术得到了广泛关注。传统的基于可穿戴设备的手势识别技术需要使用者佩戴专有设备,无法在电量较低时使用并且容易造成
随着信息化技术的高速发展,我国的教育信息化工作也于20世纪90年代开始展开,并在基础设施建设、数字内容建设、远程教育、个性化教育等方面取得了快速的发展。在教育信息化中
相较于静态图像,视频加载和观看的时间成本更高,因此在海量视频中查找所需的视频内容并不容易。大多数视频流媒体和视频共享服务站点都提供视频预览功能,以提供更好的用户浏
在当前网络互联时代,软件和硬件条件日趋成熟的情形下,各个领域的数据收集及信息存储能力大幅度增强,但这对于信息梳理与挖掘的要求进一步提高,各行业都渴望能有更多样、更高
彭定求(1645—1719)是清初苏州地区科举世家文人的典型代表。他于康熙十五年(1676)中状元,后因仕途坎坷辞官回家休养。康熙四十四年(1705)彭定求与曹寅等人负责了清代官修唐
分布式优化控制,由于其可以充分利用各个控制器之间的交流与合作来减少计算负担的优点,在近年来得到了快速的发展.但针对的系统大多是一般的线性系统或者非线性系统,而在实际
研究背景颞下颌关节紊乱病(Temporomandibular disorders,TMD)是指以下颌运动功能障碍、颞下颌关节(Temporomandibularjoint,TMJ)区疼痛及关节杂音为主要特征,但能排除风湿等其他临床或病理诊断明确的一类颞下颌关节病的总称。根据TMD分类诊断标准(Diagnostic criteria for TMD,DC/TMD),TMD 分为两大类。第 Ⅰ类是疼痛