教育数据的可视化研究与设计

来源 :科技风 | 被引量 : 0次 | 上传用户:csc000000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:针对于教育中数据处理难度大的问题,提出一种针对于教育数据可视化的处理方法。获取数据后,对数据先进行指标分类,接着使用Python和Excel对数据进行清洗,再接着结合机器学习对清洗后的数据分析,最后将分析出来的数据以应对不同场景的可视化图表将数据展示出来。
  关键词:数据清洗;机器学习;数据处理;可视化
  1 绪论
  随着科技的不断发展,计算机不断快速更换和替代,互联网用户数量也是指数性的爆发增长。计算机性能的不断提高,在许多固定化的处理上,计算机都比人处理得更快更准确。在许多方面,人们都开始使用计算机进行处理,以达到更高的工作效率以及更少的失误出现。
  数据可视化能够帮助人们在数据处理时更加快速、便捷,这样容易接近人们日常生活,满足人们实际需求,便于挖掘数据背后的内容。在数据可视化中,使用标记等方法,不但让可视化更加专业,也能及时找到所需数据,避免数据分析错误。[1]
  教育中的数据往往是多且复杂的,人为的对数据处理相对于机器的处理是耗时、耗力,且容易出错的,因此通过机器处理数据是必然的。而在教育中大数据分析目的在于提高学生成绩,服务教学设计。在教育中的数据中有一些重要的信息往往被人所忽视。通过大数据的分析和可视化的展示,寻找重要信息,对于提高教育精准化有很大的帮助。利用大数据的学习分析向教育工作者提供有价值的信息,来达到解决一些现实中不太好回答的问题。
  2 系统概述
  本系统主要用于对教育中数据的可视化,方便对教育数据的各类数据进行分析,客观地分析出数据蕴含的含义,用以对学生成绩的提升。图1为教育数据可视化总体设计过程。总体上来说,全过程分为原始数据提取、数据预处理、数据可视化三个主要步骤。
  3 教育数据处理与可视化设计
  3.1 数据处理前分析
  对教育数据处理,需要选择合适的辅助工具,对泛化的数据进行选取和组合,将处理好的数据按指标进行存储,利用合适的数学模型对处理后的数据进行分析,最终以合适的方式展示出来。大数据处理的基本流程主要包括收集数据、数据预处理、数据存储、数据分析处理、数据可视化等几个步骤。在整个大数据处理流程中,数据的质量决定了最终的处理效果,数据处理中的每一个步骤都影响着数据质量。如果想要一个好的大数据产品,就要有够大的数据规模、精准的数据抽取、优秀的数据可视化以及简明易懂的数据解释。
  3.2 数据预处理
  从数据存储服务器中获取的原始数据,为学生姓名、ID编号、民族、成绩,班级等各种数据信息。在数据预处理阶段使用Python和Excel进行数据清洗,接着以机器学习对数据进行分析,最终将数据格式成JSON格式实现教育数据的可视化。
  在数据预处理层面中,因对于原始数据中会存在缺省值、格式错误等问题,因此使用Python和Excel进行数据清洗。数据预处理没有一个标准的流程,通常针对任务和数据集属性的不同而不同。数据预处理的常用流程为:去除唯一属性,处理缺失值,属性编码,数据标准化正则化,特征选择,主成分分析[2]。如图2所示,针对教育数据的特点,采用如下所述的步骤进行数据预处理。
  教育数据的处理流程与传统数据处理流程几乎一样,主要区别在于:传统的数据要处理大量泛化的数据,教育数据已经是较为结构化的数据,在处理数据时可以并行处理。
  以机器学习中深度学习为核心的教育数据分析,替代人来完成那些简单、枯燥的数据分析,同时按照一定的规则学习,预测分析未来一些事件的可能性,进而实现教育数据的最终变现。和联机分析处理OLAP不同,对教育数据的深度分析主要基于大规模的半监督学习,半监督学习模型的训练过程可以归结为一个最优化定义于大规模训练教育数据上的目标函数并且通过一个循环迭代的算法实现。其数学描述如下:
  目标函数:
  θ→=argmaxθ→Σ({xi,yi}Ni=1;θ→)+Ω(θ→)(1)
  迭代优化:θ→←随机值;
  for(t=1)
  {
  其他操作;
  θ→(t)←g(θ→(t-1),∠θθ→=θ→(t-1));
  其他操作;
  }
  returnθ→(T);(2)
  (1)迭代性:機器学习算法,最终都要求助于计算机解决,它又表现为在特定函数空间按某种优化目标去搜索一个解出来。通常问题没有范围解或迭代变量震荡于某个点,对迭代变量并不能一次完成,需要进行多次的循环迭代以及变量更改才能逼近最优点。
  (2)适应性:深度学习的算法设计和模型设计说明可能有非最优值解的出现,而多次迭代的特性也会在循环的过程中产生一些误差,但深度学习的适应力较强,在这些变量最终会被允许存在,但模型最终的收敛不受影响。
  以基于Hadoop架构的分布式计算对教育数据进行处理归为MapReduce实现,进而达到简化编程接口和提高容错性的目的。设计两个函数map函数和reduce函数,在map阶段处理原始数据,过滤掉丢失、不可靠或错误的教育数据。接着在reduce阶段,寻找出合适的数据。通过这两个阶段将一个完整的迭代运算分解为多个不间断的map和reduce操作。通过读写HDFS文件,将上一轮循环运算结果传入到下一轮完成数据的交换。
  3.3 数据可视化设计
  在人与计算机的相处过程中,界面是机器对人产生较大的一个影响因子,因此对界面的设计是一个不可忽略的因素。将界面置于用户的控制之下,控制用户情绪走向,保持界面的一致性是本团队对教育数据可视化设计的方向。工作流程上分为结构设计、交互设计、视觉设计三个部分。
  结构设计是界面设计的核心。通过对用户的研究与分析,设计出系统的整体框架。   交互设计是为了让用户能够更快更简单地使用产品,以人为核心的交互设计。
  在结构设计的框架上,参照目标的心理模型和需求进行视觉设计,包括色彩、图形、字体、页面等。本系统对视觉的设计主要是针对于图表的设计。
  人类的大脑嗜图如命,但其实对数据很无感。一个好的数据视觉化有利于我们对数据的无感转化为我们对图像的有感。
  针对于图像,我们需要注意一些有问题的“坏图”。无论我们的视觉图多么好,如果我们的数据本身是垃圾或者别有用心,那么出来的图也是垃圾或者别有用心。在教育中,我们需要尽可能地将垃圾数据清洗出去,将别有用心用于学生,提高学生成绩。
  一张1929年纽约与伦敦股市的走势图,如图3,但是中间混进了一个奇怪的东西——太阳辐射热量。这张图要传递的意思是太阳辐射导致了1929年股市的起伏与最终的大奔溃。当然明眼人一看就知道这是无稽之谈,相关性不代表因果性。所以当本身数据就有巨大缺陷时,图是不正确的。但从另一方面来看,将股民看成学生,导致错误的真正原因是不可直接给学生知道的,而将这张图给“股民”看会有助于“股民”对学习的积极性。
  有的时候,数据是正确的数据,但这正确的数据正常的视觉化呈现会影响到学生的学习积极性。本系统视觉可视化视图设计遵循以下几个特点设计:
  3.3.1 Y坐标不从零开始,特意使差距戏剧化
  以在一场市统考中为例,有一班,另外还有二班、三班、四班、五班四个班级,这一次市统考中由于学生更加努力学习,一班数学及格率“略压群芳”,这五个班级的数学及格率分别是72.22%、70.10%、71.11%、70.59%和70.99%。一班数学老师需要一个图表来肯定一班学生这一段时间以来的提升和考试中数学的表现,结果手中拿到了一个如图4一样的图,如果用这张图,数学老师很难去肯定一班的学生,但如果使用如图5一样的图,就能更好地符合老师的想法。
  3.3.2 以3D图来制造视觉假象
  以班主任需要一张班级优秀学生人数对比图为例。五个班级的优秀学生人数分别是20人、22人、19人、22人、21人,一班优秀人数排名倒数第二,看起来不如其他班级。一张很自然的如图6一样的大饼图,这张图实在乏善可陈。而另一张3D图,如图7,由于3D图构图使用透视法,近大远小,因此在前面的内容哪怕本身数字不大,体积也会显得很大。能让人更注意到你想让到你想让人注意的,从而忽略一些其他东西。
  3.3.3 以累计增长替代增长,以掩盖增长颓势的惨象
  假设小明数学成绩从五次考试中成绩提升率分别为10%、6%、3%、1%、-1%,虽然成绩对比之前有提升,但是颓势非常明显。如果使用如图8一般的图来表达,肯定会打击到小明的信心。但如果用图9一样的累计提升图,能够提高小明的信心。
  4 結语
  本文对教育中的数据进行了研究,提供了一种对教育大数据可视化分析方法。该方法主要面对学生设计,该方法首先通过Python和Excel对数据进行了一次清洗,接着对清洗完的数据结合机器学习进行分析,最终以可视化的方式展示出来。但考虑的因素不够充足,仍存在许多不足。随着时间的推移,机器学习中仍会有更加合适的模型,因此仍需随着实际应用的深入而逐步完善。
  参考文献:
  [1]程学旗,靳小龙,杨婧,徐君.大数据技术进展与发展趋势[J].科技导报,2016,34(14):49-59.
  [2]曹惠茹,成海秀,刘永鑫,陈凤宜,詹锡隆.基于云计算的城市轨道交通数据可视化方法及案例研究[J].计算机应用与软件,2021,38(02):33-36+49.
  作者简介:肖永财(1999— ),男,汉族,福建龙岩人,本科,研究方向:人工智能+嵌入式开发;李社蕾(1978— ),女,汉族,河南清丰人,教授,研究方向:卷积神经网络、数字图像处理。
其他文献
矿产资源(矿床)是指由地质作用形成的、埋藏于地壳浅部或出露于地表,并具有幵发利用价值的矿物或有用元素含量达到经济要求的集合体。随着我国经济建设的快速发展,金属矿产品的消耗量与日俱增,但浅表金属矿产资源却正在接近枯竭,未来矿产资源开采与开发的目标将逐渐向深部转移。为此,国家将实施新一轮找矿突破战略行动,并加大深部矿产资源勘查相关仪器装备的研发力度,矿业企业也正在围绕大型矿体加紧部署大量深部及边部找矿工作。
高校学生公寓的安全是高校生存与发展的生命线,是住宿管理工作的重中之重。为有效展开学生公寓的动态安全管理,创建了安全、稳定、文明、和谐的学生公寓。首先通过分析学生公寓安全管理的影响因素,然后运用熵值法赋权确定指标权重,并引入系统动力学理论创建高校学生公寓安全管理网络,最后由VENSIM软件对安全管理网络进行仿真模拟,预测持续时间内安全管理水平值变化。结果表明:更多的安全成本额度投入将更快达到安全水平目标值,但随着后期继续投入,安全管理水平的增长趋于平缓;通过方案模拟,定量观测到各影响因素的实际作用效果,从而
传统显示终端仅能覆盖约30%的人眼可识别的色彩空间,这远远不能满足人类追求极致视觉效果的需求,而以红(R)、绿(G)、蓝(B)三基色激光作为显示光源的激光显示技术,则可以覆盖90
期刊
约50年前,为了修剪我们在郊区的0.25英亩的草地,我的父亲买了一台百得电动割草机,这台割草机有一根150英尺(46米)的拖拽电线,使用时,我们要小心地让电线避开割草机叶片。我当时就是靠用这台割草机修剪草坪来赚取零花钱的。修剪草坪时,我总会神经质地担忧自己会在高高的草丛中不小心忘记留意电线而割断它,或者是担心自己触电。
1912年6月25日,爱尔兰作家、发明家、物理学家埃德蒙•爱德华•福尼尔•达尔贝(Edmund Edward Fournier dAlbe)在伦敦光学学会大会上展示了一台奇特的机器。他称其为“探索型光声机”,而且他的言论引人瞩目,他说这台机器能让完全失明的人“听到”光。
矿产资源是发展之基、生产之要。作为世界上矿种最齐全、总量最丰富的矿产资源大国之一,中国在矿产资源总产量、矿业总产值和主要矿产资源消费量等方面均位居世界第一。其中,金属矿行业极大程度地保障了我国现代化建设所需的基本物质与资源,推动我国经济发展和社会进步。然而也应注意到,我国金属矿资源人均占有量较低,主要金属矿资源对外依存度较高,现有资源产量难以满足国家高速发展的需求,供需矛盾较为突出,国家资源安全难以得到保障。
为解决物流服务供应链(Logistics Service Supply Chain,LSSC)成员企业决策难的问题,本研究以分析LSSC的影响因素为基础,借助系统动力学方法构建了考虑供应商风险偏好的LSSC
面对京津冀地区水循环显著变异、人水关系严重失衡以及水资源安全保障技术存在短板的情况,中国水利水电科学研究院等在国家重点研发计划的支持下,瞄准京津冀协同发展新形势,以水资源安全保障基础理论研究为指导,聚焦水资源需求管理、多源利用、综合调配、协同管理关键技术研发,选择用水需求最强的城市区和水资源安全保障问题最突出的地下水严重超采区开展集中示范应用,提出了京津冀地区水资源安全保障系统解决方案。
摘 要:随着我国人口老龄化问题越来越严重以及肢体残疾人数量的逐步增加,对辅助步行工具的需求日益增高。但随城市化的不断加快,楼梯和跨越路障等不断增加,所以研究一款简单且价格普通的越障机构很有必要。因此基于连杆机构工作原理和易于操控的思想,设计了一款轮组式越障机构。该结构在实现能够简单地抬升的同时,没有任何电力的应用,纯粹利用机械结构来完成,安全性更高,可靠性更高。  关键词:越障;轮组;机械  Th
石油和天然气所具有的易燃易爆特性以及常见伴生杂质产生的腐蚀性,给油气管道的安全运行带来了巨大挑战.20世纪90年代,国际上提出了油气管道完整性管理的概念,通过对油气管道
期刊