平行语料库处理初探:一种排序模型

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:cqyxp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
十年来,统计方法在机器翻译中的应用得到了广泛的关注,并逐渐成为机器翻译研究的主流方法。构造高质量统计机器翻译系统的重要基础是大规模高质量的双语平行语料库。目前,多数平行语料库包含着错误或噪音,它们极大影响着统计机器翻译系统的性能。用人工手段来筛选语料库中的句对是费时费力的,本文研究了一种有助于处理这一问题排序模型,该模型考虑了多方面的因素,包括:语言模型、长度信息、意义对应等。鉴于如今的统计机器翻译系统都依赖词对齐信息,词对齐因素也被考虑入本模型中。文章最后的实验度结果表明本模型具有较好的性能。
其他文献
国际计算语言学大会( International Conference on Computational Linguistics, COLING)是计算语言学领域重要的国际会议之一,同时也是该领域关注方向最全面的国际会议。该会议
对海量语音进行基于内容的检索需要语音识别技术和检索技术的结合。本文通过调节语言模型的途径研究在不同识别率的语音识别文本上进行关键词检索的差异,由此研究语音识别性能
本文通过分析汉语言文字“读音-字形”之间的“多-多”对应关系,阐明了现有数据库同音查询技术中因忽视多音字问题而导致漏查的缺陷,提出了以汉字字形输入代替拼音字母输入,同时