PSO-SMFCM:一种新的基于粒子群算法的多子集模糊聚类算法

来源 :厦门大学 | 被引量 : 0次 | 上传用户:lailinyang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的发展,数据呈现爆炸式增长,为了获取海量数据中的有效信息,数据挖掘技术开始蓬勃发展。作为数据挖掘的一个重要方向,聚类算法也得到了空前的重视。人们对能适应大规模数据的、高时效性的、高性能的聚类算法的迫切需求,使得传统的聚类算法不可避免的面临着巨大的挑战。模糊C均值聚类算法(FCM)是当前最流行的模糊聚类算法之一。传统的FCM算法需要将数据集全部载入内存,当数据集很大往往无法使用FCM算法。为了处理大规模数据,学者们提出了许多改进的FCM算法,在这些算法中,可伸缩的随机取样迭代优化模糊聚类算法(SRSIO-FCM)相比很多其他改进算法取得了更好的性能。SRSIO-FCM提出将数据点随机划分为多个子集,在每个子集上单独运行FCM算法,再将前两个子集的聚类结果进行某种合并后,作为第三个子集的初始聚类中心,如此将每个子集的结果以环环相扣的形式结合起来,得到最终的聚类划分。虽然SRSIO-FCM算法比当前很多聚类大数据的算法在性能上有很大提升,但仍存在一些不足。第一,它以随机的方式选择初始聚类中心,容易造成不稳定的聚类结果;第二,它对子集聚类结果的合并方式没有考虑到子集内数据点的分布特征,容易造成聚类结果不够精确。本文提出一种基于粒子群算法的多子集模糊聚类算法(PSO-SMFCM),能够很好地克服SRSIO-FCM的缺陷。首先引入粒子群算法决定优质的初始聚类中心,使聚类结果更稳定,同时减少迭代次数;其次,定义一种新的结果合并方式,充分考虑子集间数据点的分布特征,有效提升聚类结果准确率。同时,由于FCM是迭代算法,选择适合迭代计算的Spark编程框架执行程序来提升算法效率。在理论上,详细阐述并对比PSO-SMFCM算法与SRSIO-FCM算法的思想和步骤;在实验上,通过基于不同测试数据集的大量实验,从高效性、准确性和稳定性三个方面佐证PSO-SMFCM的优势。最后证明本文提出的算法PSO-SMFCM比SRSIO-FCM更高效、更准确和更稳定。
其他文献
近年来,局部域上的拟微分方程因其在理论物理、流体动力学等方面的广泛应用,越来越受到人们的关注.p-adic域Q_p上函数的导数如何定义及其上的一类拟微分方程的探究,这些都是局部域研究领域的重要问题.1992年,苏维宜利用拟微分算子定义了局部紧Vilenkin群G上函数的p-adic导数与积分算子Tα,这为后续拟微分方程的研究提供了理论基础.随后,许多学者关于p-adic域Q_p上的一类拟微分方程的
股权分置改革以来,内部人的交易行为呈现常态化多样化趋势,备受监管部门和资本市场等各个方面重视。由于高管对于企业的运营有着至关重要的影响,近几年来,高管的交易行为成为
细粒度视觉检索不同于传统的视觉检索,需要更加精细的反馈结果。作为一个新兴的研究领域,细粒度视觉检索面临以下几个方面的挑战:首先,细粒度视觉检索中不同类之间的差异非常
整本书阅读理念并非今人首创,它发端于中国古代传统语文教育,经教育理论家叶圣陶、夏丏尊等人的提出与标举,朱自清、余冠英等人的反思与质疑,成为语文阅读教育领域的重要理论。之后在新课改的推动下,当代语文教育界学人进一步发展整本书阅读理念的价值内核,该理念为高中语文阅读教学指引道路。小说节选文作为原著的有机组成部分,在内容与形式上都与原著存在紧密关联。指向整本书的小说节选文教学具有重要意义:有利于学生深入
随着经济结构不断优化升级,制造企业竞争激烈,要想在竞争中胜出,需要降低生产成本。车间调度是为制造企业制定出满意的生产方案,充分利用资源降低成本。因此对车间调度进行研究,提高生产效率,具有重要的意义。本文所研究的是阻塞混合流水车间调度问题(BHFSSP),即机器在下一阶段不可用情况下,工件将会被阻塞在当前机器上。相比传统混合流水车间调度问题,考虑到了工序间没有缓存区的情况,更接近实际环境。遗传算法作
本论文合成了三种纳米复合材料:CuS@GO-CS凝胶、Cu,N-CDs@GO-CS凝胶和Zn O QDs@GO-CS凝胶,研究了它们的抗菌性能,具体研究内容如下:(1)首先合成CuS@GO NCs,将其负载于壳聚糖(CS)凝胶上制备CuS@GO-CS凝胶,通过TEM、FTIR、XPS、UV-vis、Zeta电位测试分析以及光热实验、体外抗菌实验和体外细胞毒性实验等研究其结构与性能。CuS@GO-C
扩散的分子通信模型是一种很有前景的纳米级通信典范,它以生物化学分子为信息载体,通过分子在生物环境中自由扩散进行通信。考虑分子在生物环境中的随机性行为以及发送方纳米
本项目共含两部分。第一部分为源文本选章及其中文译文。项目所选源文本材料为托伊恩·A.梵·迪克作品《新闻分析》的第一章节。第二部分为翻译报告。翻译报告主要针对英译汉
新兴的铁磁共振温度测量技术从理论上具有诸多优势,故受到国内外学者广泛关注。该技术需要对零磁场点(FFP)进行求解。传统方法采用粒子群优化算法。最近几年优化算法得到了飞速发展,尤其是元启发式算法。由于算法的计算精度及收敛速度很大程度上影响着温度测量的精度及反应速度,因此,将目前的算法研究成果应用于计算零磁场点中,或尝试通过现有理论,对解析的方法进行研究,有助于促进该技术的发展。本文针对计算零静磁场点
投资激励措施被用作政策工具,以实现特定的经济或社会目标。许多国家认为这些政策对其政策至关重要,特别是在促进工业,出口和技术,减少失业和促进地理位置不利地区方面。然而