基于相似度组合的主观题评分方法研究

来源 :贵州大学学报(自然科学版) | 被引量 : 0次 | 上传用户:zfx523
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:针对文本、语义、关键词等方法计算主观题相似度的不足,提出一种基于相似度组合的方式构建主观题评分模型。该模型可根据评分逻辑,灵活地调整阀值,综合Word2vec算法、Doc2vec算法和TF_IDF算法的优势,提高主观题的相似度。 实验表明,与人工评分对比,提出的评分模型得到的评分方差及偏差率都较小,稳定性较好,更贴近人工评分结果。
  关键词:相似度组合;Word2vec;Doc2vec;文本相似度;自动评分
  中图分类号:TP391.1
   文献标志码:A
   随着互联网技术、信息技术和经济的发展速度的提高,对现代教育以及企业的影响逐渐显现出来,使得现代教育及企业的变革迎来了新的机遇及挑战。在现代教育教学中,许多现代化教育手段(如线上授课、在线考试等)被普遍应用于日常教学中[1]。通过自动评分系统的应用,教师不仅可以减少阅卷的工作量,而且可以使阅卷结果更加公平公正[2]。在企业发展的过程中,企业进行招聘人员及日常考核及培训时,需要进行考试。尤其是经过疫情之后,现代教育中的线上授课及线上考试现象更加普遍,企业的招聘和日常测试的试题也转到了线上。随之而来的问题就更加明显,如何对主观题进行自动评分,就成为困扰教师和企业考核者的难题。
  考试作为一种选拔人才及检测考生水平的工具,普遍被用在学校、企业中,考试的题型主要有客观题和主观题。考试中对于单选题、多选题等的自动批改技术已经较成熟,而主观题自动评分方法涉及了自然语言处理、人工智能等多方面的理论知识,使得主观题的评分难度增加。目前的主观题评分方式仍采用人工方式,不仅时间耗量大、工作量大,而且不同批阅者之间的评分标准有差异,易受改卷人主观因素影响,造成评分偏差,体现不出考试的公平性。因此,研究并实现主观题自动评分系统,能提高教师批改试卷的效率及公平性。
  由于主观题题型的复杂性,目前还没有完善且成熟的主观题自动评分系统。而在已有的主观题自动评分系统中,其可用性与实际的需求差距还很大。因此,对于主观题的自动评分,不仅是当前亟需解决的问题,也是一件难度很大的问题。通过对文本、语义、关键词等方法计算主观题相似度进行研究,发现文本相似度、语义相似度、关键词相似度计算算法都存在着不同的短板。文本语义所包含的信息较多,能够代表文本所表达的整体意思,但这种方法有时会忽略掉关键词的作用;语句语义能够准确地提取语句的信息,但容易忽略掉语句与前后文之间的关联;关键词相似度能够以更小的单位提取信息,但仅依据一些关键词,往往会将语句信息和文本信息忽略掉,而且会存在只写出关键词就能得高分的弊端,如果这种弊端被考生利用,那么评分也就没有意义。
  针对这些不足,本文对主观题自动评分方法进行研究,所涉及的核心技术是基于相似度组合的方法来计算考生得分。它涉及到人工智能(artificial intelligence,AI)、自然语言处理(natuarl language processing,NLP)等多方面理论知识[3],以及一些自然语言范畴的先进关键技术。在理论意义上,将相似度组合模型应用在主观题自动评分上,扩展了主观题评分模型;在应用意义上,可以积累主观题自动评分的经验,为后续进一步深入研究主观题的自动评分提供一定的借鉴与参考。
  1 相关技术
  文本向量化的作用主要是将文本转化为结构化的数据,即将文本用可以表达文本语义信息的向量来表示。对文本向量化的很多探究都是在Word2vec(词向量化)的基础上来完成,而Doc2vec(段向量化或句向量化)是将文本段落或句子作为文本处理的基础单元进行处理。这里仅介绍Doc2vec模型。
  1.1 Doc2vec模型
  基于分布假说理论,Word2vec能够较好地挖掘出文本中词语所蕴含的潛在的语义信息,能够计算词语与词语之间的相似度、句子与句子之间或其他长文本之间的相似度。由于该方法没有将文本中的语序信息考虑进去,从而也就丢失了很多的主要信息,所以Word2vec技术存在不足之处。
  Doc2vec技术中包含的模型有DM和DBOW两种[4]。在DM模型中,增加了一个段向量,该段向量与词向量的长度相同,也就是说该模型中上下文所包含的范围更广泛。它既涵盖了文本中上下文中的单词,又涵盖了其所对应的段落。它可以通过文本中上下文中的词向量和段向量,对目标词的概率分布进行预测。而且在对文本进行向量训练的过程中,在DM模型中增加了一个paragraph ID,首先将其映射成一个向量。在后面的计算中,可以将段落向量与词向量进行累加,也可以将它们连接起来,并将其输入给softmax层。在对文本中的语句或者整个文档进行训练时,要保证paragraph ID是固定的,它不发生改变,共同使用同一个paragraph vector,相当于每次在预测目标词的概率时,都用到了该句子的整体语义信息。在对文本进行预测时,需要给待预测的语句新分配一个paragraph ID,输入到词向量和输出层softmax的参数,应该与训练阶段得到的参数保持一致;然后利用随机梯度下降算法对待预测的语句进行训练;等误差达到一定的要求,收敛后,即得到待预测语句的段向量。DM模型示意图如图1所示。
  DBOW模型在只给出某个段落的情景下,应用DBOW模型预测相应段落中的一些随机词的概率。DBOW模型示意图如图2所示。
  应用Doc2vec技术既可以将文本中的语义信息进一步提取出来,又能将文本中的语序信息有效保留。
  1.2 文本相似度技术
  本文采用余弦相似度[5-6]来计算考生提交的答案和参考答案之间的相似度,其中以参考答案作为标准。将考生答案和参考答案进行段向量化,依据两个文本答案的向量之间夹角的余弦值大小,评估两个文本向量之间的相似程度,计算公式如式(1)所示:   sim(M,N)=cos(θ)=M·N|M||N|
  =∑ni=1Mi×Ni∑ni=1(Mi)2×∑ni=1(Ni)2(1)
  其中,sim表示相似度,M為已给出的参考答案中文本的语义信息段向量,N为考生提交的答案中文本的语义信息段向量,θ为文本向量M和N之间的夹角,Mi、Ni为文本向量M、N中的各个分向量,n为各个分向量的总个数。
  2 基于相似度组合的评分方法
  通过分析对比基于TF-IDF相似度算法、Word2vec语义相似度及Doc2vec文本相似度算法,发现各种算法中存在的问题。为了充分应用各种算法的优点,构建了一种基于相似度组合的主观题(简答题、论述题)自动评分模型。
  2.1 基于Doc2vec计算文本相似度
  利用Doc2vec计算文本相似度的原理为:通过文本中上下文中的词向量和段向量,对目标词的概率分布进行预测,并利用该向量计算文本相似度。具体步骤如下:1)对文本进行预处理;2)将文本向量化;3)进行文本相似度计算。
  基于Doc2vec计算文本相似度的具体算法如图3所示:
  2.2 评分模型构建
  评分模型构建的思想为:1)考虑整体语义的准确性;2)将文本、语义、关键词相似度3种方法组合起来使用,并设置阀值,通过灵活调节阀值的大小来保证评分的公平性,阀值为C,取值范围为[0.85,0.99]。本文设置的阀值为0.9。依次计算参考答案与考生答案的文本相似度、语义相似度及关键词相似度。如果任一种算法的相似度值达到0.9,则将该考生答案判为满分(该道题的分值);如果这3种算法的相似度值都低于0.9,则从这3种相似度中选择最大的相似度值作为该考生答案的最终相似度值,并计算出考生的得分。构建的评分模型如式(2)所示,构建的评分模型流程如图4所示。
  yi=     sim任一算法≥C;Si
  sim<C;max(sim文本,sim语义,sim关键词)×Si(2)
  式中,yi为第i道题的评分,C为设置的阀值,Si为第i道题的分值,sim为相似度。
  3 实验数据收集与评价指标
  3.1 实验数据集
  本文以《系统建模与仿真》考试中的简答题、论述题构建试题库,共165道题目。55名考生参加考试, 155道题选自《系统建模与仿真》试题库。通过考生答题情况,收集有效数据1 539份,作为实验数据集。将考生作答的答案输入系统中,并由老师对简答题、论述题进行人工评分及系统自动评分,将评分结果存储到系统中。
  3.2 实验评价指标
  本文采用平均值、方差及偏离率3个指标来衡量相似度组合评分与人工评分的一致程度。平均值的计算公式为
  x=x1+x2+…+xnn(3)
  式中,x为考生得分的平均值,x1、x2、…、xn为每道题的得分,n为评分的数据总份数。
  方差是指数据点的离散程度。其数学定义为
  s2n=1n∑ni=1(xi-x)2(4)
  式中,s2n表示方差。
  本文采用的偏差率是指实际值比理论值或者估计值的偏差程度[7],用于表征实验效果的好坏情况。偏差率计算公式为
  D=|人工评分-机器自动评分|总分数(5)
  Davg=1n∑ni=1|人工评分-机器自动评分|总分数 (6)
  式中,D为偏差率,Davg为平均偏差率。
  3.3 实验结果分析与对比
  为了验证提出的基于相似度组合的主观题自动评分方法的有效性、准确率及实用性,以《系统建模与仿真》试题作为实验数据,并将评分结果与传统方法的评分结果进行对比。
  1 539份《系统建模与仿真》试题利用本文构建的基于相似度组合自动评分模型进行评分,并与基于Word2vec算法评分、基于TF_IDF算法评分、基于Doc2vec算法评分进行对比,然后再分别与人工评分进行两两对比。表1仅展示了4种自动评分方法与人工评分结果对比的部分数据。这几种算法计算的简答题、论述题的自动评分结果(共1 539份)的平均值、方差比较如表2所示。自动评分结果的偏差率比较如表3所示。
   由表2可知,相对于其他评分方法,本文所提出的评分方法计算得到的分数与人工评分的分数最吻合。本文提出的算法,能够准确进行整体文本语义分析,有效提高文本相似度计算的准确性。而其他评分方法无法准确分析文本语义信息,得到的评分结果与教师评分的结果就有较大的偏差。说明基于相似度组合算法评分较稳定,评分效果较好。
   从表3,更能进一步说明本文提出的基于相似度组合算法的评分是有效的,与其他几种算法的自动评分结果相比,基于相似度组合算法自动评分结果的平均偏差率为0.199,偏差率波动范围为1。
  4 结束语
  本文以《系统建模与仿真》的主观题试题作为数据集,研究中文主观题自动评分问题。针对文本相似度、语义相似度、关键词相似度的不足,提出一种新的主观题评分模型,实现了一个主观题评分系统。
  采用本文构建的基于相似度组合的主观题评分模型进行主观题自动评分,通过对比分析,得出评分模型的评分结果波动性较小,稳定性较好,说明提出的评分模型是可行有效的。由于构建实验数据集需耗费大量的人力,导致实验所使用的数据集的科目范围较少,无法全面地评估主观题自动化评分方法的有效性及普适性。因此,如何构建一个文本覆盖面广、涉及多领域的评分数据集,将是后续的一个研究方向。
  参考文献:
  [1]曹建奇. 基于自然语言处理的主观题自动评分系统的研究与实现[D]. 北京: 北京工业大学, 2015.   [2]王金水, 郭偉文, 唐郑熠. 基于领域本体和依存句法分析的主观题自动评分方法[J]. 贵州大学学报(自然科学版), 2020, 37(6):84-89,129.
  [3]高思丹, 袁春风. 主观试题的计算机自动批改技术研究[J]. 计算机应用研究, 2004, 21(2): 181-185.
  [4]涂铭, 刘祥, 刘树春. Python自然语言处理实战:核心技术与算法[M]. 北京: 机械工业出版社, 2018.
  [5]杨靖云. 高考历史简答题自动评价方法研究[D]. 哈尔滨: 哈尔滨工业大学, 2016.
  [6]何惠英, 王兆合, 王小宇, 等. 用Python语言跨平台分析处理电子表格[J]. 电子设计工程, 2011, 19(9): 67-70.
  [7]何超. 主观题自动评分模型研究与验证[D]. 武汉: 华中科技大学, 2015.
  (责任编辑:曾 晶)
  Abstract:
  Aiming at the shortcomings of calculating the similarity of subjective questions by text, semantic and keyword methods, a subjective question scoring model based on similarity combination was proposed. The model can flexibly adjust the threshold according to the scoring logic, and integrate the advantage of Word2vec algorithm, Doc2vec algorithm and TF_IDF algorithm, it can improve the similarity of subjective questions. Compared with manual scoring, experiments show that the proposed scoring model had smaller variance and deviation rate, better stability and closer to the results of manual scoring.
  Key words:
  similarity combination; Word2vec; Doc2vec; text similarity; automatic scoring
其他文献
摘要 目的 探究慢阻肺筛查问卷结合肺功能检查在早期诊断慢阻肺中的意义。方法 于2019年1月至2020年3月期间收治接受肺功能检查的400例体检者为研究对象,本文研究结合相关资料进行自主调查问卷设计。根据肺功能检查结果将其分组,了解慢阻肺的危险因素。结果 400例研究对象其中调查问卷结果总分≥17分一共89例(22.25%),得分<17分的一共311例(77.75%)。结合肺功能检查结果,其中确定
在AutoCAD制图平台中绘制地质灾害点分布图时,可利用Excel软件强大的数据处理功能将调查数据进行处理,然后自动批量绘制地质灾害点及其名称注记等内容,从而相对于传统手工标绘方式而言大大提高了图件绘制效率及准确率。同时,该方法可以举一反三地应用到其他制图工作中,诸如自动批量绘制岩土工程勘察中的钻孔平面布置图、钻孔柱状图以及剖面图、公路里程及坐标图、征地范围拐点及注记标绘,等等。因此,该方法的推广应用价值较大。
摘 要:为探究团簇Fe3Ni3优化构型的电子性质,使用密度泛函理论中的B3LYP/Lanl2dz (Level)对设计出的初始构型进行全参数优化计算,排除含虚频和能量较高的相同构型后,最终得到9种稳定的优化构型。从各优化构型的电荷量、原子内轨道布居数、原子及原子间的自旋布居数、原子自旋密度分析发现:团簇Fe3Ni3内部Fe原子一般为电子供体,Ni原子一般作为电子受体;构型内部各原子的4s轨道是电子
7月6日,山西省自然资源厅举行党史学习教育专题学习暨党组理论学习中心组(扩大)专题学习会,深入学习习近平总书记在庆祝中国共产党成立100周年大会上的重要讲话(简称“习近平
期刊
新近在安龙戈塘地区发现的万人洞含金隐爆角砾岩筒位于戈塘穹隆中部,北东向断裂带附近。据隐爆角砾岩筒露头特征,围岩为中二叠统栖霞组、茅口组灰岩,含金隐爆角砾岩筒由内向外可分隐爆角砾岩带、震碎带和影响带,由内向外,金矿品位逐渐降低,蚀变逐渐变弱。据流体包裹体及硫同位素研究分析,成矿压力34.024-97.432 MPa,推测成矿深度1.13-3.24 km;成矿温度在150℃-170℃之间;成矿流体阴阳离子成分SO42-、NO3-
通过1∶5万矿产地质填图和地质剖面测量,结合区域研究对比,划分和厘定了测区岩石地层单位,基本查明了蓟县系、石炭系地层层序;重新确定了区内侵入体的侵入时代、期次、顺序;初步建立区域构造格架,指明了控矿构造,为成矿预测提供了基础地质依据。
罗绳武、蒋溶、乐森璕等老一辈地质学家,于1941年在黔中发现铝土矿至今已80周年.80年来,贵州共发现铝土矿矿床78个,其中超大型矿床3个,大型8个,中型21个,小型46个,累计探明铝
CCT转录因子在调控植物花期、生长发育及抗非生物胁迫等方面发挥着重要的功能。本研究以拟南芥AtCCT基因家族为参考序列,利用本地BLAST并结合保守结构域等生物信息学工具,筛选出苦荞FtCCT基因家族成员,并对其理化性质、染色体分布、基因结构、系统进化及表达水平进行分析。结果显示:从苦荞中共鉴定出35个FtCCT基因,含1-8个内含子;编码蛋白有117-753个氨基酸残基,等电点为4.96-9.51,均为亲水性蛋白。染色体定位分析表明,这些基因在8条染色体上均有分布。苦荞FtCCT基因家族含有10个保守基
在我国社会经济稳定发展和生态环境可持续发展理念的影响下,水工环地质勘察工作得到了高度重视和全面应用,要求对传统勘察方法创新的同时注重生态环境的保护,加强对水工环地质勘察问题的防治与处理,保证勘察结果真实准确。
摘 要:为校准中国现行公路桥梁评定规范中的修正系数,给出桥梁承载能力评定的目标可靠指标,研究了修正系数与可靠指标之间规律及系数取值的合理性,进一步探讨了不同修正系数时抗力和汽车荷载效应变异性及桥梁服役时间对桥梁评定可靠指标的影响。研究表明:抗力变异性对桥梁可靠指标敏感性最大,影响程度主要与抗力综合影响系数有关;汽车荷载效应敏感程度次之,且与活恒效应比关系密切;桥梁服役时间影响最小,一般情况可忽略。