一种基于分类的平行语料选择方法

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:windtree
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大规模高质量双语平行语料库是构造高质量统计机器翻译系统的重要基础,但语料库中的噪声影响着统计机器翻译系统的性能,因此有必要对大规模语料库中语料进行筛选.区别于传统的语料选择排序模型,本文提出一种基于分类的平行语料选择方法.通过少数句对特征构造差异较大的分类器训练句对,在该训练句对上使用更多的句对特征对分类器进行训练,然后对其他未分类句对进行分类.相比于基准系统,我们的方法不仅缩减40%训练语料规模,同时在NIST测试数据集合上将BLEU值提高了0.87个百分点.
其他文献
云计算、物联网、社交网络等新兴服务快速发展,大数据时代正在到来,如何更好地管理和利用大数据已经成为普遍关注的话题。中小企业在我国经济发展中是一支非常重要的力量,但
<正> 李××,男,35岁,农民。1983年10月12日诊。两月前,患者因久劳多汗后,发生呛咳,咳时胸痛,日益增剧,迭用中西药治疗月余,周效。症见:呛咳,痰少,咯出不爽,咳时胸前作痛,喉
期刊
<正>本文分析新加坡为确保并扩展其政治与经济空间而从多边、双边和地区等多种途径来采取的自由化行动。本文评论新加坡在亚洲金融危机前和危机后的贸易政策趋势,着重论及新
<正>由于高温和疾病等因素,许多猪场的种猪利用率均有不同程度的下降,种猪不发情而淘汰的比率也有明显上升,有的猪场断奶后不发情的比例甚至高达50%,严重影响猪场的生产能力
介绍了气相热媒介质联苯-联苯醚共沸混合物的物理性质和使用要求;分析了在聚酯装置中气相热媒系统的设计与控制方案。提出在气相热媒系统设计中,应减少热媒泄漏,采取程序化升
档案袋是对学生学习与成长过程的追踪记录,指的是通过对档案袋的制作过程和最终结果的分析而对学生发展状况所作出的评价。与传统评价方法相比,它对于调动学生学习的积极性,
《剪刀手爱德华》通过营造一个二元的环境,包括光鲜亮丽的小镇与阴森的古堡,来衬托出机器人主人公爱德华与小处处表现了现在“人”的本质。 Edward Scissorhands set off th
2002年9月26日,距105国道仅200米的江西遂川县砂子岭工业南区,巨型挖土机如往常一样在施工取土,突然前方高大的土堆中间现显出一个又大又深的黑洞。“挖出宝贝啦!”施工人员的一
期刊
目的:了解健康管理对体检人群不良生活方式的纠正作用。方法:2016年1月-2018年12月将200例体检人群随机分为两组各100例。对照组给予常规干预,健康管理组开展健康管理。比较