网络环境下自动获取汉维句子翻译对的研究

来源 :第三届全国少数民族青年自然语言信息处理、第二届全国多语言知识库建设联合学术研讨会 | 被引量 : 0次 | 上传用户:fatty19830801
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
双语平行句对是机器翻译的重要资源,但目前的双语平行语料库大多是篇章级的,句子级的平行语料库不仅数景有限,而且多集中在特定领域,很难适应真实应用的需求。本文就研究怎样在网络环境下获取双语平行句对,创建句子级的双语平行语料库。我们先下载双语平行网页资源。然后找出能够提取出正文的网页,再根据html特征去除网页噪音,提取网页中的正文。最后进行句子切分,并根据基于句子长度、基于词汇、特征提取的方法进行双语平行句对的抽取,创建句子级的双语平行语料库。
其他文献
本文研究了哈萨克手写字符的特征提取和选择,并实现了手写哈萨克文手写字符识别系统。我们首先提取了36种字符特征,并使用K-W检验对各特征的分类能力进行了比较。最后采用线
高填方路堤的填筑是路堤工程质量的核心环节,浸水路堤在高水位、长时间的浸水作用下,如果填筑施工效果不理想,路堤可能出现不均匀沉降、受水影响变形、水浸泡底部填料湿化等病害
建筑是百年大计,关乎着国计民生,钢筋又是现代建筑不可或缺的一部分,而且钢筋施工技术的好坏直接决定着建筑结构的优劣,因此,在建筑行业要对钢筋的施工格外重视,确保钢筋的施工质量
维吾尔语语音合成研究方面,多音词的研究甚少是影响进一步提高合成性能的重要原因之一。本文深入研究维吾尔语中的多音词现象,从包括13,607,507个单词的708,322个句子文本中
描述了利用电话录音的汉维平行语料库构建了一个基于短语的统计机器翻译系统。我们对词级的语料库进行了切分,得到了词素级的语料库,进行了词一级的实验和词素级的实验,实验
近几年,随着我国建筑业在国内经济增长中所处的位置越来越重要,我国建筑业的科技水平也在不断增长,节能施工在房屋建筑工程施工中的运用的也愈发普遍。本文就节能施工技术在房屋
在建筑工程桩基施工中,整个工程的施工质量、安全性和基本功能都由桩基施工掌握,可见,桩基施工是建筑工程中有着非常重要的地位和作用。所以,有关建筑企业必须重视桩基的施工过程
混凝土结构是土木工程建筑中常见且重要的组成结构,其质量直接影响着土木工程建筑整体的施工效果,因此,加强混凝土结构性能、保证混凝土结构质量、完善混凝土施工技术至关重要。
在房屋建筑工程中,混凝土施工技术是较为关键的一个环节,作为施工中的重要材料,混凝土施工质量对房屋建筑项目的整体稳定性及安全性具有直接影响。本文主要对建筑工程施工中的混
砌体结构是房屋建筑的一种主要结构,在早期的民房及工业厂房建设中十分常见,砌体结构房屋建筑在抗拉、抗剪力性能上相对较差,一旦遇到六级以上地震,就可能会遭到破坏,当发生七到八