论文部分内容阅读
大数据技术为教育信息化带来了新的机遇,为研究者和管理者对教育中的诸多问题的研究提供了新的数据来源和方法。在海量的教育信息化数据中,教学资源作为一种承载着学习行为、学习活动、学习进程信息的教学数据,隐含着丰富的分析价值。网络的出现不仅改变了人们的生活方式而且传统的教学方式也正经历变化,借助网络的教学形式正如雨后春笋般涌现,教学资源的建设作为教学活动过程中尤为关键的一环越来越受到关注。在这样的背景下,调查教学资源建设现状是推进教育信息化有序向前发展的重要手段之一。本文从学科、地域和同质性三个方面调查建设现状,其主要研究工作内容如下:(1)针对中小学资源网站上非结构化数据设计了相应的采集和存储策略并为采集和处理大量数据建立了Hadoop分布式集群。通过二次开发网络爬虫Nutch将中小学资源网站数据不断采集到本地并存储在分布式数据库Hbase中,为后续网页分析、资源数据提取提供了高性能的数据吞吐平台。(2)依据中小学网络教学资源语言特点和网页结构提出了一种建立教学资源库的方法。教学资源数据是由标题、关键字、日期、正文内容等元数据描述,利用开源工具Jsoup抽取标题、关键字等,利用模式匹配算法抽取日期、媒体类型,利用行块分布函数抽取正文内容,最终依据网站-网页-链接间关系建立网络教学资源库。(3)中小学资源网站中的资源多以学科、地域分类展示,依据资源的链接结构和标题建立VSM模型,然后利用模式匹配和向量相似度技术分析模型中学科和地域属性。在资源同质性分析中,从三个层次界定了网络教学资源的同质性:同名的资源是初级的同质;其次是同名且同类型;第三个层次是正文相同。第三层次的研究中利用LDA模型,为教学资源正文建立一种主题模型,然后使用基于层次的聚类算法分析主题模型相似度。(4)为了解决大量数据计算问题,将网络教学资源抽取、VSM模型、LDA模型和聚类算法重新设计使其可以运行在MapReduce编程模型上,为整个调查奠定基础。实验结果发现语、数、外资源量占有的比例较大,且需要参加考试的科目比不需要的多:东部沿海和珠三角地区的资源分布量显著较高;网站资源重复建设的现象依然存在且数量不容小觑。最后,设计的对比实验表明本文实施的调查是可靠且有效的。