论文部分内容阅读
信息技术的发展,使得web上产生的信息飞速增长。然而,web信息使用技术的发展往往跟不上web信息的增长,如何合理地挖掘和利用Web信息,使web的巨大作用和潜能得以发挥,是我们值得研究的课题。远程教育的蓬勃兴起,各类学校和教育部门学习网站的迅速建立,学生通过网站来获取知识、学习技术日渐普遍,由此也积累了大量的数据信息。为了能更好地掌握用户的具体需求,同时也为了给教育网站的设计提供更多的参考,采用数据挖掘技术对远程教育网站的数据信息和访问信息进行处理有着极为深刻的意义。Web是互联网的主要载体,Web本身隐藏了大量的知识,人们在与Web交互过程中也产生了大量的知识,为了获得这些信息和知识,数据挖掘技术被广泛应用到Web中。教育网站每天大量的用户访问,生成大量的记录文件和登记表,如何对这些数据进行分析和挖掘,从而充分了解用户的需求、行为方式,对设计出结构合理,满足于不同用户群体需要的实用性、服务性强兼有一些个性化特点的教育网站意义重大。本文在系统地分析远程教育网站信息采集、数据挖掘、Web挖掘等概念的基础上,归纳出集数据信息采集和日志挖掘于一体的数据挖掘内涵,并深入说明对远程教育网站进行数据采集和日志挖掘的必要性和意义。在研究课题确定和相关理论铺挚后,全文着重就远程教育网站数据采集和日志挖掘技术中的数据处理过程、模式发现进行研究。远程教育网站数据采集和数据处理,讨论了数据采集和处理的过程,并给出了可视化数据采集的实现办法;远程教育网站日志挖掘数据预处理,讨论了数据源、日志预处理过程和算法,并举例说明;模式发现讨论了基于关联规则的经典算法Apriori,讨论了该算法及其实现,并考虑将Apriori算法应用于远程教育网站日志挖掘应思考的问题。结合前面三个方面的分析,建立了面向远程教育网站的数据采集与日志挖掘应用系统模型,为日志挖掘技术在教育网站中的应用做了初步的建模,并结合算法给出了一个教育网站中日志挖掘的简单例子。