论文部分内容阅读
随着全球信息技术的迅速发展和互联网的快速普及,现代信息系统进入了大数据时代,人们日常工作和生活都面对着数据过量和信息爆炸的情况,迫切需要一种有效的技术手段帮助人们从这些海量数据中挖掘出真正需要的、有价值的知识,因此数据挖掘算法成为了研究热点。本文以提高数据挖掘算法的时间效率和应用性为目的,进行了经典数据挖掘算法及其应用方面的研究。论文从课题的研究背景和意义展开,介绍了数据挖掘的相关概念、意义与基本技术;主要研究了基于密度的聚类算法DBSCAN、粗糙集属性约简算法和BP神经网络算法。针对聚类,以减少算法执行时间为目的,通过对DBSCAN算法加以改进,设计了一种基于网格的快速密度聚类算法GF-DBSCAN,并通过仿真实验验证了该算法的性能。本文也综合运用多种数据挖掘算法,提出了一种基于多种数据挖掘技术的短期电力负荷预测策略,该策略包括预测模型和各层方法。第一层利用DBSCAN算法来有效地进行数据的聚类和离群数据的识别与修正;第二层利用粗糙集属性约简算法有效地筛选出与决策相关的最小属性集从而保障挖掘效率;第三层用BP神经网络算法的复杂的多层多节点的网络结构及其不断反向修正误差的的能力获得预测值。在真实数据上所做的实例计算与分析结果表明,所提出的短期电力负荷预测策略对预测结果精确度较高。本文还设计了一种适用于电子商务运营平台的基于GF-DBSCAN算法的个性化推送服务技术方案。该方案使用GF-DBSCAN算法挖掘用户基本信息从而将用户分类,再对每类用户使用top-k排序算法进行兴趣分析,从而将所得结果进行推送。以购书网站为例的应用效果表明了GF-DBSCAN算法的实用性。本文在数据挖掘算法及应用方面做了有益的研究工作。