基于高校数据中心的数据分析

来源 :计算机与网络 | 被引量 : 0次 | 上传用户:xjqlhh0621
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:随着信息化技术的快速发展,高校的信息系统日趋完善,各种信息系统如学习平台、教学和办公应用系统都运行在数据中心,数据中心存储了大量的业务信息。对高校数据中心存储的各类应用数据进行抽取、转化和处理,建立面向主题的数据仓库。对系统数据进行挖掘和探索式分析,以可视化驾驶舱的方式直观地展现学校的实际数据状态,通过对数据的可视化分析可以为学校在办学、人才培养和学生管理等方面提供数据支持和决策。
  关键词:数据中心;数据分析;数据仓库;可视化;智慧校园
  中图分类号:TP393文献标志码:A文章编号:1008-1739(2021)17-65-4



  0引言
  自教育部发布《教育信息化十年发展规划(2011—2020年)》以来,国内各高校对信息化建设大力投入,各类业务系统逐步建设完善,信息化服务水平不断提高[1]。数据中心的建立有效地解决了各系统数据存储分散、数据标准不一致和数据共享困难等信息孤岛问题。下一步将围绕如何发挥数据中心的数据价值进行研究,对数据中心存储的大量业务数据进行有效挖掘,实现跨业务系统、高效的数据分析,让数据“说话”,达到数据分析展现的统一归口,实时展现学校各方面的数据状态,为学校领导提供决策支撑。
  教育数据挖掘(Educational Data Mining,EDM)是一门涉及计算机科学、教育学和统计学的交叉学科,它致力于分析学校教育环境下的独特数据,目的是为了更好地了解学生及学校环境,从而提高学校教学成效[2]。
  1技术路线
  研究分析的数据来源于高校数据中心,数据中心通过与统一认证平台、人事系统、科研系统、学生系统和一卡通等系统进行数据交换进而存储大量的业务数据。通过对数据中心的数据源进行ETL(提取、转化和装载),将想要进行分析的主题数据进行高效的提取和处理,形成数据仓库,进行建模分析。数据仓库是专门为数据的统计分析和决策支持而设计的,存储着需要进行分析的面向主题数据,数据具有稳定并随时间变化等特点[3]。研究的技术路线情况如图1所示。



  1.1数据操作
  采用的开发语言为Python 3,开发IDE为PyCharm 2020,数据库为Oracle 12c。数据库操作基本代码如下:



  1.2数据处理
  由于数据中心的数据来源于不同系统,各个系统始建于不同时期,所用数据标准各不相同,导致数据质量参差不齐。要想对数据进行分析就需要对数据的质量问题进行处理。
  Python中有着丰富的数据处理、分析和挖掘工具包。采用Numpy库实现了多维数组与矩阵的高效运算,Pandas库函数对数据的编码问题、缺失值问题与异常值的问题进行有效处理,生成规整数据装载进数据仓库。比如用dropna函数对不规整数据进行删除,fillna函数对空值进行替换等。
  1.3数据展现
  在数据展现方面,将对系统分析出来的数据通过Web可视化进行展现,这里采用Flask Web容器来部署pyechars技术。pyechars是Python语言中用于设计Echars图表的类库,对百度开源图表库Echars进行了封装,实现了Java Script的图表库技术。相比于Matplotlib绘图,pyechars有着可移植性强、展现直观、生动、可交互、可高度个性化定制等特点[3]。下面采用pyechars绘制学生消费情况柱状图,代码如下:



  2数据分析设计实现
  本研究对高校几大核心业务系统数据进行整理和抽取,按照招生、教职工、学生消费和科研4个数据主题进行展示与分析。
  2.1招生分析
  招生作為高校人才培养的主要入口之一,生源质量的好坏和招生计划是否合理都会影响学校的教学成果。本研究选取了学校近8年本科生招生数据进行研究分析,按照招生完成率、录取情况、学生情况和地区招生情况进行了统计分析。各主题分析指标类型如表1所示。



  通过调用Python机器学习第三方模块Sklearn,对招生计划数和实际录取人数进行回归分析。研究利用corr()函数对计划和实际录取人数进行相关性评估计算,得出分数为0.97,非常接近于1,这说明二者有明显的线性相关性,也就是说招生计划越多,实际招生人数也越多,招生情况回归分析如图2所示[4]。
  利用最小二乘法对历年的招生数据建立数据模型,在LinearRegression中调用fit()训练方法进行数据模拟仿真[5]。采用score()函数对训练出的模型进行打分,为0.98分,模型效果比较理想,使用predict()函数对未来招生的情况进行预测。预测结果为当招生计划数增加至2 000人时,实际招生人数会达到1 957人。预测实现代码如下所示:



  2.2学生行为分析
  随着各应用系统及大数据中心的建设,学生在校内的学习和生活痕迹都会被系统记录并存储。通过抽取、整合学生数据和一卡通数据,按照以下几个主题对学生日常行为数据进行分析展现,如表2所示。



  图书馆和自习室是大学生主要的学习场所,对一年中30万条学生进出图书馆和自习室的门禁记录进行了统计分析,学生行为数据如图3所示。



  发现学生行为数据存在如下规律:
  ①在学习方面,学生进出图书馆的时间主要集中在每年的6月、7月、12月和1月,每年2月和8月图书馆的访客最少,周末进出图书馆人数少于平时。从数据中可以分析出,学生在临近1月和7月的期末考试前夕进入图书馆自习室学习的次数最多,侧面反映出学生平时缺乏自主学习的能力。针对这种现象,建议学校增加学生阶段性过程考试,培养在校学生养成良好的学习习惯。
  ②通过对学生在一天之中进出图书馆的时间进行分析,发现学校进图书馆的时间主要集中在7时、8时、12时和13时,离开图书馆的时间集中在18时,在6—7月时,学生离开图书馆的时间推迟至22时。从数据中可以分析出学生在一天之中学习集中的时段,由于期末学习任务较重,学生在图书馆自习的时间较晚,建议学校在期末前夕适当延长图书馆的闭馆时间,为学生提供更多的学习时间。
  在学生消費方面,统计出各年级和专业在校生的消费情况,包括平均消费和最低情况,为学校在评奖助学金和助学贷款方面提供消费数据支撑。
  2.3教职工分析
  教职工分析联合人事、科研和教务业务系统数据进行分析。
  教职工基本情况:展示教职工的年龄、工龄、学历和户籍信息,向学校展现教职工的基本情况信息。
  教职工发展情况:教师的岗位、职务、职称和编制类别等信息,分析各部门的岗位任职情况,为学校接下来的教师人才培养提供数据支撑。
  博士教师情况:学校的博士教师情况和各部门博士人员数量,为学校申博和学科评估提供数据支撑。
  人才引进/流失情况:学校每年招入和流出的人员信息,更有目的性地制定人才引进计划。
  2.4科研分析
  各部门科研情况:学院各部门的科研成果情况,包括项目、论文、著作、专利和鉴定等。分析学院各职称和各级别教师的科研成果情况:统计学校各专业科研成果,根据教职工的科研成果进行统计分析,按照专业和学科计算出科研分数,对科研分数进行统计分析,找出优势学科[6]。
  3结束语
  通过对学校各方面的数据进行分析和挖掘,使原来数据中心和业务系统的数据重新发挥了巨大价值。将数据进行可视化分析可以发现数据中存在的问题和规律,对学校在教学或科研上出现的异常数据进行预警,使学校管理者在决策上由被动变为主动,大大提高了学校信息化的服务质量,向实现智慧校园迈进。
  参考文献
  [1]王运武.中国教育信息化战略规划的世纪变迁[J].江苏开放大学学报,2016,27(4):37-46,89.
  [2]黄连强.大数据背景下高校教学信息化研究[J].电脑编程技巧与维护,2018(4):96-97,121.
  [3]李蒙昭.数据可视化平台图表推荐系统的研究[D].武汉:华中科技大学,2019.
  [4]王瑞昌.面向教职工的数据中心数据共享的研究与实现[D].成都:西南交通大学,2012.
  [5]李天辉.基于python的数据分析可视化研究与实现[J].电子测试,2020(20):78-79.
  [6]刘少楠.基于B/S模式的高校科研管理系统设计与实现[D].沈阳:东北大学,2015.
其他文献
德尔塔毒株的出现打破了成千上万人原本稳步恢复的工作和生活,使得许多企业只能回到在家办公的模式。许多学校,尤其是在出现疫情的地区的学校都发布了推迟秋季开学的通知。事实上,远程工作应用程序已经成为继续防控疫情和维护经济社会正常运行的重要工具,其用户数量正在迅速增长。据中国互联网络信息中心发布的第47次《中国互联网络发展状况统计报告》,截至2020年12月,中国远程办公用户规模达3.46亿,占网民整体的
太赫兹(Tera Hertz,THz)技术是新兴科学产业之一,与X射线的作用相似,但其辐射能量小,可以对非金属物品进行成像,且对目标物体特别是人体没有伤害,在安检等领域有广阔的发展空间。在物流行业蓬勃发展的今天,数以千万计的快递包裹带来的不仅是经济效益,还有巨大的安全隐患,对包裹中的危险物品,如刀具、枪支、可燃油等的自动检测已成为迫切需求。基于此,利用THz辐射,实现了基于卷积神经网络(CNN)的
《中华人民共和国数据安全法》(以下称《数据安全法》)自2018年立法规划公布开始到2020年草案通过并征求意见,再到2021年6月10日签署主席令正式公布并于2021年9月1日正式实施。《数据安全法》从无到有引起了大家的广泛关注。而这份关注不仅来源于数据安全业内人士,而是全民范围的广泛关注。  大数据技术的应用着实给大家的生活带来了很多便利,但刚开始大家并没有对数据的安全问题过多关注,不妨回想下,
云计算对CISO产生了深远的影响。他们意识到其廉价的存储、巨大的可扩展性、资源弹性和可随时随地从世界任何地方访问,为他们负责保护数据的公司创造了竞争优势。但是这些相同的因素,尤其是它的可访问性,使他们的工作变得更加困难。  云扩大了组织的攻击面,以至于CISO必须保护跨多个云、工具和本地位置的数据。这进一步使他们将未经授权的数据访问风险降至最低的目标变得更加复杂,并使他们确保信息资产和技术得到充分
偷工减料时有发生,在高风险、高速的工作中更是如此。但是,如果员工足够诚实地承认,当他们将易受攻击的代码上线时,可以将一系列已损坏的产品组合在一起。Osterman Research的一项新研究发现了一个令人担忧的趋势———81%的开发人员承认故意推送易受攻击的代码。这使得威胁行为者更容易发起网络攻击。  但我们提到这一点并不是为了消极对待。相反,这是企业和机构向内看的一个很好的提示。减少供应链脆弱
当前我国经济发展越来越迅速,相应的网络与计算机技术发展速度也在加快,推动了人工智能技术的发展,并使该技术在多个行业得到广泛应用,人们对其重视度越来越高。人工智能技术发展潜力较大,是一种新型技术,在大数据网络安全中得到广泛应用,安全性较高,对降低安全事故发生率具有非常重要的作用。为提升大数据网络安全性,保证网络运行安全,应仔细探究人工智能技术在大数据网络安全防御中的应用。本文对数据网络安全防御中人工
期刊
伴随社会经济的不断发展和进步,各行各业的信息化建设也进入了白热化状态,医院的信息化建设也在不断深入。随着社会人口的不断增加,人们对生活质量的追求明显提升,医院就诊的人数也在增加,促使医院的信息系统变的越发复杂。信息系统作为支撑医院正常运转和发展的重要工具,对医院的整体规划和信息化建设都具有重要的影响。  针对信息化需求的不断增多,医院在建设过程中也需要引进和增设不同的系统,但为保证每个系统都能正常
近日,光峰科技控股子公司峰米科技在2021中國智慧城市国际博览会举办主题为“无限想象”的新品发布会,重磅推出峰米R1超短焦激光投影仪(简称峰米R1)。峰米科技是光峰科技与小米科技联合成立的企业,也是激光电视与智能投影企业的佼佼者,致力于为消费者打造集娱乐、智能生活于一体,独具品牌特色的大屏激光投影产品。  作为峰米科技着力打造的全新品类———超短焦激光投影仪,峰米R1化身“空间大师”,通过创新性的
云计算、大数据的出现和发展引领社会步入了全新的信息科技时代。如今大数据、人工智能等技术被广泛应用到人们日常生产生活的各个方面。在计算机网络技术领域中,人工智能的运用使网络的技术水平和运行能力得到了进一步提升,计算机已不再是传统意义上的独立工具。为提高计算机的数据处理能力和准确性,更好地掌控人工智能技术的应用场景,本文就大数据时代人工智能在计算机网络技术中的运用展开研究。  大数据和人工智能  大数
针对在嵌入式平台上采用深度学习目标检测识别模型很难在精度和速度之间保持平衡的问题,提出一种基于深度可分离卷积块和反向特征融合结构的方法对YOLOv3模型进行改进,并通过基于距离的非极大抑制和损失函数的设计(DIoU-NMS和DIoU-Loss),最终实现在快速目标检测的同时提升了检测准确率。实验结果表明,在VOC2007+2012数据集上,实时性满足79FPS的同时m AP可达到80.22%,并在