面向机器翻译的口语标点加注技术研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:zenghui_yan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的飞速发展与全球经济的一体化,人们越来越重视语音机器翻译的研究与应用。口语对话语句的显著特点是没有标点符号,不能明确句子的边界及非规范语言现象。机器翻译对这样的语句翻译效果很不理想,因此,为了提高机器翻译质量,需要对口语对话语句进行预处理,而加注标点是预处理的重要组成部分。本文在分析各种统计语言模型的基础上,提出了基于最大熵的标点加注算法,主要工作如下:1、构造了可以从语料库中自动提取语言学特征的模板机制,发挥出最大熵可以灵活选取特征的优势;深入地研究了求解标点加注问题的各种模板集,并通过实验确立了处理标点加注的有效模板集。2、研究IIS参数估计算法,并在此基础上实现了带高斯先验平滑的IIS参数估计算法,有效地避免了机器学习过程的过学习现象,该算法比较高效的估算出各个语言学特征的权值而形成模型。3、研究并实现了适合于最大熵方法的单点分类解码方法,运用模型对输入序列进行预测,快速高效地获得全局最优的解码序列,从而完成标点加注工作。实验表明本文标点加注在开放测试中的F值达到87.08%,验证了标点加注算法的有效性。4、将标点加注算法集成到机器翻译系统之中,对测试语料库分别进行直接翻译与标点加注处理后翻译,通过机器翻译的自动评测工具分别评价它们的翻译效果,结果显示BLEU值由0.2257提高到0.2465,由此说明标点加注工作使机器翻译的译文质量有了比较大的改善。
其他文献
近年来,可再生能源已经成为越来越多的科学家研究的热点。太阳能作为可再生能源中最重要的基本能源,应用也越来越普及。但是太阳能设备一般都在无人值守的情况下运行,要对地
随着办公信息化的不断普及,众多单位都组建了自己的内部网络,通过信息共享等手段大大提高了工作效率。但随之也带来了内网主机信息泄密的安全隐患。一旦内部人员使用不当,将内网
信息技术革命催生了全新的档案形式——电子文件档案(以下简称“电子档案”),如何有效地管理和利用大量的电子档案已成为各单位亟待解决的重要问题,于是电子档案管理系统应运
传统声纳系统在数据管理方面面临着诸多问题:(1)基阵数据源和声纳应用紧密耦合,使得系统升级、扩展困难;(2)在功能上各声纳系统相互独立,且数据格式存在多样性,因此不同声纳系统间数据
随着互联网技术的发展,XML已经成为数据描述和数据交换的新标准。各行各业都积极采用XML格式表示其数据和信息,借助于XML,Web正逐步转化为一个巨大的数据库。基于Internet/We
随着计算机网络技术以及通信技术的飞速发展,越来越多的应用已经借由计算机网络得以实现。同时,自由立体电视技术是立体电视技术中具有重大意义突破,它使得人们观看立体电视
在对智能车辆的相关技术研究中,导航技术是其核心技术之一。其中视觉导航需要实时的分析智能车辆所感知的图像信息,并实时的对数据进行处理从而达到识别的目的。面对图像信息
学位
物流业作为我国基础性服务行业的重要组成部分,与社会生产生活息息相关。近年来,自然灾害、疾病疫情等突发事故的频繁发生,给我国的物流业造成了严重的影响,原有的物流系统无
近年来,随着各国对海洋资源的日益重视,产生了许多水下声纳的新应用需求,现有的结构固定的分离式系统很难适用现代声纳系统发展的要求。声纳系统采用中间件技术可以将多个卢纳基