论文部分内容阅读
随着时代的发展,人类每天工作、生活产生的数据呈指数级增长,有关大数据的研究和使用如火如荼。与此同时,随着高校各种资料文献的增多,大量教学资源与资源设备不断被开发,对数据存储、数据检索、数据分析等关键技术提出了新的挑战,传统的资源库已经不能满足各类用户的要求。本文首先对国内外云计算系统以及hadoop现状进行分析整理,并重点分析了云计算在教育领域的应用;其次,为了突破hadoop资源存储瓶颈,更好的实现hadoop服务器节点的负载均衡,解决小资源文件对NameNode节点元数据存储的影响,保证资源文件更加可靠、更加高效的存取,防止由于部分hadoop服务器节点故障或者外部原因对hadoop服务器的损坏,造成存储在hadoop集群上的资源文件不能读取或者丢失,提出了优化hadoop集群策略:主从NameNode策略、小文件合并策略、多副本选择存储策略,并且给出了重要优化策略的部分源码,极大提高了资源文件的存取效率,并将此策略成功运用于本资源库的建设。另外,本文在资源库系统建设方面,首先严格按照需求分析步骤从功能需求、性能需求、运行需求三方面给出了本资源库系统的各方面需求;其次,从总体上分析并给出了本资源库系统所在教育云平台的总体技术架构与网络拓扑架构,保证了本平台的安全性、扩展性、易操作性;接着从资源收集、资源存储、资源获取三方面介绍了本资源库系统的建设与优化;最终在本文提出的优化策略基础上,设计并实现了本资源库系统核心模块,并对部分重要且具有代表性的界面与源码进行了展示。最后使用Eucalyptus+Hadoop+HBase+MySQL架设了私有教学资源库云平台,管理员通过本平台的Gridsphere门户系统Web界面发布了各个业务子功能模块,并在该环境下,采用列出的各个测试用例对整体系统进行了功能测试,保证了系统的正常运行;其次为了保证操作性能,模拟了多个用户同时操作本资源库系统的情形,对本资源库系统上传资源文件、下载资源文件,查询资源文件等常用操作进行了整体性能评估,证实了本文设计策略的合理性,并极大的改善了用户的使用体验,提高了教学资源的利用率。