【摘 要】
:
基于最大似然估计(Maximum likelihood estimation,MLE)的语言模型数据增强方法由于存在暴露偏差问题而无法生成具有长时语义信息的采样数据.本文提出了一种基于对抗训练策略
【机 构】
:
中国科学院声学研究所语言声学与内容理解重点实验室,中国科学院大学,中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室
【基金项目】
:
国家自然科学基金(11590770-4,U1536117,11504406,11461141004);国家重点研发计划(2016YFB0801203,2016YFB0801200);新疆维吾尔自治区科技重大专项(2016A03007-1)资助~~
论文部分内容阅读
基于最大似然估计(Maximum likelihood estimation,MLE)的语言模型数据增强方法由于存在暴露偏差问题而无法生成具有长时语义信息的采样数据.本文提出了一种基于对抗训练策略的语言模型数据增强的方法,通过一个辅助的卷积神经网络判别模型判断生成数据的真伪,从而引导递归神经网络生成模型学习真实数据的分布.语言模型的数据增强问题实质上是离散序列的生成问题.当生成模型的输出为离散值时,来自判别模型的误差无法通过反向传播算法回传到生成模型.为了解决此问题,本文将离散序列生成问题表示为强化学习问题,利用判别模型的输出作为奖励对生成模型进行优化,此外,由于判别模型只能对完整的生成序列进行评价,本文采用蒙特卡洛搜索算法对生成序列的中间状态进行评价.语音识别多候选重估实验表明,在有限文本数据条件下,随着训练数据量的增加,本文提出的方法可以进一步降低识别字错误率(Character error rate,CER),且始终优于基于MLE的数据增强方法.当训练数据达到6 M词规模时,本文提出的方法使THCHS 30数据集的CER相对基线系统下降5.0%,AISHELL数据集的CER相对下降7.1%。
其他文献
实施公交改革4年多来,许昌公交面貌发生了翻天覆地的变化,取得了前所未有的成就。在探索公交发展模式的道路上,“许昌模式”不失为一种积极有效的探索,实践证明也是适合许昌实际
目的 探讨辛夷 (望春花 )挥发油的药效作用。方法 观察测定挥发油对急性炎性肿胀、费氏佐剂性关节炎和慢性炎症 (棉球肉芽肿 )三种炎症动物模型的作用。结果 辛夷挥发油能
制砖隧道窑辐射换热式余热发电技术是利用大中型砖瓦企业隧道窑冷却带的高温余热,通过辐射换热方式产生中温中压蒸汽发电的一种工艺技术。其原理是将隧道窑高温余热通过辐射换
目的运用转染慢病毒介导的si RNA干扰的方法,抑制伯基特淋巴瘤Raji细胞中PARP-1基因的表达,研究其对肿瘤细胞增殖与凋亡的影响,探讨PARP-1基因在淋巴瘤中的作用机制,为恶性淋
目的观察针刺联合康复护理对中风后偏瘫患者肢体功能的影响。方法共选择108例中风后偏瘫患者,随机分为研究组54例及对照组54例,对照组给予针刺及常规护理,研究组在对照组基础
<正>通过介入方法,观察乳腺癌局部灌注化疗的可行性及临床效果。方法:运用 seldinger 技术,行锁骨下动脉造影。了解乳腺癌供血血管分布,灌注 CAF 化疗药物,观察肿瘤及淋巴结
[目的]探讨“问候-自我介绍-过程-解释-感谢”(AIDET)沟通模式在骨髓穿刺对疼痛控制的协同效果。从患者的疼痛评分,生理数值的变化和对术后疼痛护理满意度这3个方面作为评价
在切尔诺贝利核电站(chNNP)的30km限制区内及其他被污染的区域(乌克兰、白俄罗斯和俄罗斯)内进行的研究表明,由1986年核事帮造成的大量^137Cs、^90Sr沉积已存留在土壤表层并且看来要长时间的存留。但是,在潮
目的 探讨全身炎症反应综合征患者临床指标改变与预后的关系,筛选影响预后的危险因素,以评估病情、指导治疗、改善预后。 方法 以2001年3月—12月期间天津医科大学总医院
介绍了隧道窑辐射换热式余热发电技术及工艺原理,隧道窑辐射换热式余热发电方案,隧道窑辐射换热式余热发电技术的适用范围与技术经济指标,隧道窑辐射换热式余热发电技术应用