基于多元特征的英语作文语法纠错模型的研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:zwf1979
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着自然语言处理技术的蓬勃发展和英语教学方式的多元化需求,计算机技术与英语教学的结合越来越密切,教学辅助软件如雨后春笋般层出不穷。由于语言体系的差异,英语和汉语的使用差别是非常大的,这尤其体现在语法使用方面,所以语法一直以来都是中国英语学习者较难掌握的部分之一。一个语法检查与纠正系统,不但可以应用于英文文本的自动检查与校对,也能使学生达到自主学习语法的目的。因此,研究适合中国英语学习者的语法纠错模型是具有现实意义的课题。  本文以大学生英语作文作为研究对象,分析了大学生在日常的英语习作及四、六级考试写作中经常出现的语法错误现象,介绍了国内外相关的语法检查器和与语法检查相关的自然语言处理技术,建立了包含多种语法错误类型检查的统计模型,并将其应用于大学生英语作文的批阅中,实现了对英语作文的智能语法检查与纠正。  本文的研究成果主要体现在如下两个方面:  1、本文的语法纠错模型在特征提取方面,构建了更全面和多元化的特征集合。对比之前的统计学习方法,在传统 N元模型只考虑上下文语境特征的基础上,加入句法树结构,将特征提取的范围扩大,考虑的特征不仅仅局限在中心词附近的单词,而是根据句法分析生成的结构树,提取更多语法结构相依但位置不相依的特征,同时获得了语法依赖关系,克服了 N元模型在语法长距离相依方面的不足。对不同类型的语法错误,根据词汇的不同使用方法和语言学特征,获得不同的特征集合,使特征提取更为准确,为以后的分类和权重计算提供更具区分度的特征集。  2、本文建立了一个智能语法纠错模型,语法错误的类型包括冠词错误、介词错误、词性混淆错误、动词格式错误、助动词错误、主谓不一致错误、单复数不一致错误、片段错误等。在多元特征提取的基础上,利用N元模型和互信息相结合的方法,计算特征与中心词的共现度,最终根据混淆集中的最佳候选单词进行纠错。本文对一些使用较为灵活的功能词,如介词、冠词等,应用统计语言模型特征提取的方式进行纠正;对于一些语法结构比较固定的错误,使用定义规则的方式进行纠正。实验表明,统计与规则相结合的方法,使得本模型取得了较为理想的语法错误检查与纠正效果,本文实现的模型对于大学英语作文的语法检查具有一定的应用价值。
其他文献
CRM( Customer Relationship Management: 客户关系管理)既是一种以客户为中心为核心思想的企业经营管理模式, 同时也是一种先进技术的集成系统, 通过对面向客户的各个领域实
元胞自动机(CellularAutomata,简称CA)是由数学家StanislawM.Ulam(1909-1984)与JohnvonNeumann(1903-1957)在上个世纪五十年代提出的,最初用于模拟生命系统所特有的自复制现象,
随着电子技术的发展,液晶显示器(LCD)逐渐淘汰了显像管显示器,成为了流通最广的显示器品种。液晶显示器的生产也渐渐成为了一个热门行业。在液晶显示器的制造流程中,最关键的部
网格是一种新兴的基于Internet的分布式并行处理框架。它能跨多个管理域组织或企业进行资源发现、资源管理、信息交换和资源共享。网格资源管理系统是网格计算的重要组成部分
“储层地质统计分析系统GASOR”是一个基于单机运行的、用于油气储层随机建模的大型应用系统。为了适应石油行业的需求,GASOR系统的工作平台不但要从单机转向Internet,而且还要
网格是一个集成的计算机和资源环境,网格技术是随着网络技术的发展和应用而逐渐兴起的一个研究热点。在网格环境中,所有的单机系统或机群系统都可以作为一个节点,以提供和消
本文针对长城铝业公司的具体情况,分析了原有压力容器监控系统的不足,并在.Net框架下结合使用了OLAP、数据仓库等技术,实现了一个压力容器综合分析系统。系统能够多角度分析
虚拟专用网技术VPN 是近年来一项发展迅速、引人瞩目的网络新技术。所谓虚拟专用网是指以建立私有、快捷、安全的网络为目的,以连接广泛的公共网络为传输媒介,以加密认证为主
信息化水平日益成为衡量一个国家现代化建设和综合国力的最重要标志之一,知识管理也随之成为企事业单位构建现代信息系统的热点,为了迎接知识经济时代的挑战,我国正在加快实施国
Web是一个巨大的、广泛分布的全球化信息仓库,它提供了新闻、财经、广告、商务、文化、教育等多方面的信息服务。如何有效地帮助用户从Web上发现他们感兴趣的资源,已经成为一个