基于线性回归模型的小学英语文本可读性评测模型构建

来源 :中央民族大学 | 被引量 : 0次 | 上传用户:lanqishi1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
阅读是语言学习的重要途径。文本可读性研究的主要任务是预测文本的阅读难度,并向目标读者推荐其阅读能力适用的阅读资料,进而提高语言学习者的学习质量和学习效果。文本可读性研究始于1921年,主要是请有经验的专家或者教师对英语文本的难度进行主观评价,该方法具有很强的主观性。目前广泛采用的文本可读性研究主要采用自然语言处理相关技术对文本的阅读难度进行定量、自动的分析;而文本可读性研究的语种也从最初的英语扩展到汉语、西班牙语、孟加拉语、印地语、阿拉伯语、葡萄牙语、俄语、日语等近二十种语言。英语是目前文本可读性评测研究最多的语言,其研究主要有基于第一语言学习的可读性研究、基于第二语言学习的可读性研究,而第二语言的可读性研究又分为ESL(English as a Second Language,针对母语非英语并把英语作为第二语言的学习者的可读性研究)和EFL(English as a Foreign Language,针对母语非英语并把英语作为外语的学习者的可读性研究),我国的英语可读性研究属于EFL。目前我国的英语可读性研究主要有直接使用第一语言可读性研究结果,如Flesch公式;针对高年级学生进行可读性研究,如刘江莉基于初中英语教材设计英语可读性公式。目前并没有针对小学生设计的可读性公式,所以本论文主要基于小学英语教材,使用线性回归方法为小学生设计合适的英语可读性公式。本文的主要工作主要有三个方面:一、我国英语可读性文本特征体系构建。文本可读性特征多达170多种,分为传统特征、语言特有特征以及学习对象相关的特征,鉴于我国的英语学习现状和前期调研,最终选择了词汇层、句子层、篇章层的13个特征作为文本可读性公式构建的基础,其分别是通用特征(词数、平均词长、TTR、名词占比、动词占比、平均句长)和EFL特有特征(常用词占比、常用词覆盖率、从句比例、平均从句句长、人称代词比例、外国命名实体比例、缩写词比例)。二、基于240篇人教版小学英语教材文本进行了可读性公式的设计和测试。基于线性回归模型以及从160篇人教版小学英语课文抽取的13个特征构建了可读性评测公式:Y=-22.044+8.462*X1+504.718*X2+45.416*X3。其中,Y表示文本的可读性分数,X1为平均句长,X2为常用词覆盖率,X3为外国命名实体比例。利用该公式对80篇对人教版小学英语教材进行测试显示,该公式的准确率为82%;对50篇《剑桥国际少儿英语》文本可读性评测显示,该公式与第一语言可读性评测、ESL和EFL公式相比,能更好地评测该读物所适合的我国小学生的年级水平。三、使用Web开发技术英语可读性评测平台,该平台可以实现第一语言评测(Flesch-Kincaid、Gunning Fog、Coleman-Liau、ARI、SMOG)以及基于本论文设计公式的评测,给出了 6个公式的评测结果以及相关的可读性特征信息。
其他文献
学位
学位
本研究以血凝素蛋白(hemagglutinin,HA)为研究对象,选取H7亚型流感病毒HA并筛选其关键的糖基化位点,以糖基化修饰为依据进一步研究内质网分子伴侣CNX、CRT、erp57对H7亚型流感病毒HA表达的影响。为流感病毒HA与内质网分子伴侣机制的研究提供理论基础:(1)通过对H7HA糖基化位点的预测确定5个糖基化位点,分为N端的3个糖基化位点和C端的2个糖基化位点,分别对N端和C端的糖基化
学位
本文主要对某4缸汽油发动机(1.5L)加装48V BSG(Belt Driven Start Generator,即利用皮带传动兼顾启动和发电的一体机,以下简称BSG)系统之后的曲轴前端,包括:曲轴、曲轴大螺栓和减震皮带轮等的受力进行分析研究。加装48V BSG系统改变了原有发动机曲轴前端的工作状态,进而引发减震皮带轮在发动机运转过程中脱落的故障。初步分析是因为曲轴大螺栓松脱失效导致皮带轮脱落。解
锌是一种储量非常丰富的金属,并且具有成本低,环保等优势,此外,锌可以作为水系电池的负极材料,这保证了电池的安全性。这些使得水系锌离子电池受到了研究人员的很多关注。但是,由于缺乏合适的能够提供高能量密度和优秀的可持续性的正极材料,阻碍了锌离子电池的进一步发展。δ-MnO2具有着独特的层状结构,层间可供离子的嵌入/脱嵌,并且由于层间水分子的存在,具有高的层间距,比其他结构MnO2的通道尺寸更大,这有利
学位
随着航空市场的发展,客户流失已成为企业迫不及待需要解决的问题,因此针对客户流失的成因分析和建立航空公司客户流失预测模型具有重要的理论价值和现实意义。由于数据挖掘技术在电信行业、金融行业以及传统行业的客户流失预测中都已得到广泛应用,数据挖掘的方法也较为成熟,相比之下,国内航空业的客户流失研究才刚刚起步,且很多数据挖掘方法尚未在民航客户流失中得到应用,因此航空业的客户流失研究是现今急需发展的课题。本文
随着信息时代的到来,基础教育的改革势在必行。其中改进教学观念和改变教学方式已成为基础教育改革的重点,这也是学校提高学生创新思维能力和综合素养的重要途径。笔者通过对近年相关文献的研读发现,微信小程序在培养学生的核心素养方面有一定的积极作用;且5E教学模式非常契合新课程标准所规定的教学要求的各个阶段。因此,本研究尝试将5E教学模式嵌入微信小程序辅助教学平台,构建基于5E教学模式的高中英语微信小程序辅助
区块链技术在司法领域的运用引发了学界广泛的关注,在研究初期,学者将目光聚焦于区块链技术的特质、司法区块链的建设现状和运行模式等方面,同时在理论层面注重区块链技术与司法的关联性思考,阐释了司法为何需要区块链技术的问题。区块链技术在司法领域主要有三方面的应用。在诉前阶段,可有效消解涉智能合约纠纷,开启网络诉源治理的新模式,从而完成诉前阶段的案件筛选。在审判阶段,通过“众链聚合”的证据存储方式、区块链证