论文部分内容阅读
伴随着自然语言处理技术的蓬勃发展和英语教学方式的多元化需求,计算机技术与英语教学的结合越来越密切,教学辅助软件如雨后春笋般层出不穷。由于语言体系的差异,英语和汉语的使用差别是非常大的,这尤其体现在语法使用方面,所以语法一直以来都是中国英语学习者较难掌握的部分之一。一个语法检查与纠正系统,不但可以应用于英文文本的自动检查与校对,也能使学生达到自主学习语法的目的。因此,研究适合中国英语学习者的语法纠错模型是具有现实意义的课题。 本文以大学生英语作文作为研究对象,分析了大学生在日常的英语习作及四、六级考试写作中经常出现的语法错误现象,介绍了国内外相关的语法检查器和与语法检查相关的自然语言处理技术,建立了包含多种语法错误类型检查的统计模型,并将其应用于大学生英语作文的批阅中,实现了对英语作文的智能语法检查与纠正。 本文的研究成果主要体现在如下两个方面: 1、本文的语法纠错模型在特征提取方面,构建了更全面和多元化的特征集合。对比之前的统计学习方法,在传统 N元模型只考虑上下文语境特征的基础上,加入句法树结构,将特征提取的范围扩大,考虑的特征不仅仅局限在中心词附近的单词,而是根据句法分析生成的结构树,提取更多语法结构相依但位置不相依的特征,同时获得了语法依赖关系,克服了 N元模型在语法长距离相依方面的不足。对不同类型的语法错误,根据词汇的不同使用方法和语言学特征,获得不同的特征集合,使特征提取更为准确,为以后的分类和权重计算提供更具区分度的特征集。 2、本文建立了一个智能语法纠错模型,语法错误的类型包括冠词错误、介词错误、词性混淆错误、动词格式错误、助动词错误、主谓不一致错误、单复数不一致错误、片段错误等。在多元特征提取的基础上,利用N元模型和互信息相结合的方法,计算特征与中心词的共现度,最终根据混淆集中的最佳候选单词进行纠错。本文对一些使用较为灵活的功能词,如介词、冠词等,应用统计语言模型特征提取的方式进行纠正;对于一些语法结构比较固定的错误,使用定义规则的方式进行纠正。实验表明,统计与规则相结合的方法,使得本模型取得了较为理想的语法错误检查与纠正效果,本文实现的模型对于大学英语作文的语法检查具有一定的应用价值。