基于深度语义挖掘的机器翻译技术的研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:chenzulong198867
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的飞速发展和全球经济一体化进程的快速推进,各行各业的从业人员都面临着与国外公司的沟通交流问题。如何与非母语国家的客户进行有效沟通,避免歧义,更好的达成合作,成为当今全球化背景下的企业更好更快发展所必需的面临的问题。此外,互联网时代的到来也为我们每一个普通人带来了宝贵的机遇,大量的优质信息资源充斥在我们身边,然而大部分资料都是以外文所呈现的,这就使我们获取信息有了很高的门槛。为了应对全球化带来的挑战,迫切需要一些自动化的手段帮助人们解决现实生活中的一些实际问题。如何通过计算机手段,将实际生活中人们的需求转换为计算机可解决的问题,成为我们需要越发关注的问题。进入人工智能时代,深度学习模型逐渐在自然语言处理,图像识别等领域崭露头角,相较于传统统计学习方法,取得了跨越式的进步。伴随着序列到序列模型的提出,机器翻译领域也迎来了长足的进展。但是现有的机器翻译框架只能考虑到原文和历史翻译的单词,忽略了目标端左侧的单词,这就导致现有的机器翻译框架在翻译每一个词的时候忽略了潜在的未来信息。为了缓解该问题,本课题提出一种未来信息融合机器翻译模型(简称:FuNMT)。FuNMT采用联合学习框架,在训练过程同时训练未来信息融合模块和机器翻译模块。训练未来信息融合模块时,我们使用反向的解码器的输出作为未来信息融合模块的目标,同时将含有未来信息的隐状态和历史预测词结合,共同送入解码器模块。从而使得在机器翻译解码步骤使用了未来信息进行当前词的预测。在多个数据集的测试中,实验表明我们的方法取得了显著的提升。同时为了进一步提高我们模型的效果,我们提出将数据增强技术和正则化技术有机结合起来。在利用数据增强产生低质的伪平行语料对的同时,使用正则化技术使得模型更加充满鲁邦性。实验结果证明我们的策略相对于单独使用起到了互相增益的效果,从而大幅提高了模型的表现。最后为了使研究成果产生现实意义,本文依托微信小程序平台构建在线机器翻译模型,使得翻译变得触手可得。
其他文献
随着时代发展变革,计算机技术发展势如破竹,人工智能就是典型例证。机器定理证明是人工智能的重要内容,其起源可追至莱布尼茨时代,涉及计算机、数学、逻辑学等多个学科。自动定理证明技术旨在实现计算机自动推理证明,随着时间推移,交互式证明工具也称证明助手应运而生。Coq是一种国际上主流的交互式证明工具,依赖其严谨性、可读性、可信性等特点,基于计算机语言Gallina,合法命名与代码规范实现数学定理的证明或系
近年来随着信息化的不断发展,网络攻防对抗形势越演愈烈,网络安全事件也层出不穷。在国家政策和网络安全形势推动下,网络安全产业近年来取得了快速发展。但网络安全项目属前沿领域,技术复杂度较高,存在较多不确定因素,因此在网络安全项目中引入风险管理研究尤为重要。本文以风险管理理论为基础,结合项目实际情况针对G公司网络安全态势感知项目进行风险管理研究。首先对项目管理理论以及网络安全项目风险管理特点进行了分析阐
6LoWPAN 网络是进入IPv6时代后物联网中的重要组成部分,在万物互联中发挥着重要的作用,是连接受限制的物联网和传统IP网络之间的重要技术。在以往的6LoWPAN传感网络研究和应用场景中主要存在两类问题。首先,传感器测量的数据往往具有很大的分析价值,但如果数据被泄露给不可信的机构,这些非法机构有可能会依据自己手中的背景知识来非法利用传感数据进行分析,从而会造成隐私泄露。为此,传感网络中的数据隐
随着网络规模的不断扩大,网络性能测量平台需要改进探针的调度方法,以实现对大规模网络性能状况的测量。然而,如果选择所有探针对目标网络执行网络测量,不仅会给网络带来大规模的网络测量流量,而且还会给网络测量平台及探针带来较高的消耗。此外,探针的状态也会对网络测量结果产生很大的影响,特别是探针的负载。当探针的负载超过一定限度后,可能会发生宕机等故障导致网络测量准确度降低。然而,在现有的网络性能测量中,探针
在当今信息科技飞速发展的时代,人工智能已经广泛应用到了教育领域。在青少年信息化教育中,基于Scratch的块编程越来越受到老师和学生的青睐。利用Scratch工具创作诗歌作品,能够让学生掌握Scratch编程技能,同时又提升语文学习兴趣。在目前的Scratch平台上,并没有为诗歌创作提供相关扩展块,从而使得Scratch诗歌作品创作具有局限性。因此在Scratch平台中,利用深度学习相关技术设计与
不规则自然场景文本检测与识别在机器导航、图像搜索、场景理解、即时翻译和工业自动化等相关领域有着广泛的应用前景,同时也是计算机视觉领域的关键技术,近年来已成为热门的研究方向。典型文本识别系统的处理流程为:首先通过文本检测算法定位图像中的文本实例,然后通过文本识别算法对文本实例进行识别。其中文本检测算法的输入为高分辨率的场景图片,其检测的准确度和处理速度对后续识别性能的提升有重要影响,而文本识别算法需
毫米波频段所含有的丰富频谱资源,使得超高速率的无线通信成为可能。作为无线通信系统中不可或缺的一部分,天线及天线阵列的设计已经成为制约整个无线通信系统发展的重要因素。本文围绕不同场景下毫米波天线阵列的设计展开研究,具体研究内容如下:1、提出了一种通过使用阶梯型结构进行带宽展宽的宽带圆极化天线单元。并通过设计具有宽带馈电特性的1分64渐变型微带功分网络,完成了天线阵列的设计。与现有设计相比,所提出的阶
行业短信覆盖各大行业,内容包括产品推广、活动通知等多种形式,已成为企业进行商业活动的重要方式之一。短信服务商通过接口向企业客户提供短信收发服务,所有经由平台发送的短信会被存储记录下来,每月的数据量可以达到百万级别。对于短信服务提供商,历史累积短信会占用大量存储空间,但数据资产利用率低,公司缺乏快速、有效、深入的分析手段,无法掌握业务情况。此外,对于诈骗类、涉政类、反动类等具有一定风险的短信,公司缺
随着车辆数目的日益增加,车辆对高清地图、动态交通信息、安全信息业务等各种类型应用的需求也逐渐呈现出多样化差异化的特点。然而,考虑到基础通信设施负载过大,且车辆从远端基站处进行请求存在时延过长、传输链路不稳定等问题,需要充分协同基础设施与可利用车辆,协助满足各种需求。作为一种有效的车辆管理策略,车联网(InternetofVehicles)在很大程度上缓解了车辆通信需求及资源分配与基础设施不足之间的
人群轨迹预测是指在给定场景中一段历史时期行人运动轨迹和场景信息的情况下,预测未来一段时期这些行人的运动轨迹。人群轨迹预测在许多方面都有重要应用,比如自动驾驶,机器人导航和智能交通系统。自动驾驶车辆和机器人在行进过程中一个很重要的任务是分析道路上其他使用者的运动意图和倾向,尤其是分析处于弱势地位的行人的运动倾向,从而避免可能发生的碰撞事故。人群轨迹预测问题的难点主要包含三个部分。一是行人之间的运动交