论文部分内容阅读
随着我国绿色能源战略的持续推进,风力发电产业高速发展。风电场数据采集与监控(SCADA)系统给风电场运维提供了全新的思路,建立风电场远程集控中心,实现了风电场运行、检修、经营和后勤的集中管理,克服了风电场环境恶劣、场址分散、机组量多、运维困难等一系列的问题,打造了“无人值班、少人值守、区域管理”的运维模式,大大推动了风电产业的进一步发展。随着风电场数据爆炸式的增长,传统的风电场SCADA系统数据存储和处理能力不足的问题日益凸显。本文针对现有集控平台的不足,借助云计算平台架构灵活多变、数据并行处理的优势,设计了一种基于风电场SCADA大数据的云计算平台,实现了风电场SCADA大数据的分布式云存储和高效的云计算,弥补了传统风电场SCADA系统数据存储成本高、数据处理能力差、不具备数据挖掘功能等缺点,有效获取了隐含在风电大数据背后的信息。最后通过试验测试,验证了该平台的优势。首先,在传统风电场SCADA系统的整体设计架构、集控中心主站系统、风电场子站系统以及风电场SCADA系统具体功能的基础上,为了提升数据存储和分析的能力,为未来的智能应用扩展提供基础平台,提出了风电场SCADA系统云计算平台设计的思路。其次,采用了分布式文件系统HDFS、资源及数据管理YARN、分布式计算模型MapReduce、内存式计算框架Spark四大搭建Hadoop 2.0云计算平台相关的关键技术。通过研究通用的大数据云计算平台的技术架构,设计了基于风电场SCADA大数据的云计算平台,阐述了该平台的整体架构以及内部逻辑,突出了该平台数据云存储和云计算两大优势。再次,在云计算平台中设计了聚类和回归数据挖掘算法,完成了风电场SCADA系统大数据的聚类和回归,实现了短期风功率预测功能。为了更好的适应云计算平台,得到更好的聚类和回归效果,对两种算法进行了MapReduce化的并行改进。最后,说明了云计算平台的实验室搭建环境以及详细的搭建步骤。选取某实际运行风电场SCADA系统的历史数据,在该云计算平台上进行了聚类和回归算法的测试实验,进行了聚类算法单机和云计算平台集群以及MapReduce和Spark框架下效率对比,并重点进行了两种算法并行性能和正确率的测试与分析,验证了该云计算平台的优越性。