基于改进的CURE聚类的原型选择算法及其应用研究

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:xxk2010
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据时代,如何从海量数据集中挖掘出有用的知识已经成为各个领域都关注的一个重要问题。针对K最近邻分类器在大规模数据集中存在时间和空间复杂度过高的问题,本文采用CURE聚类方法进行原型选择,即通过CURE聚类算法挑选代表样例进行K最近邻分类且不降低其分类准确率,最后应用于不平衡数据集中。本文具体研究内容和研究结果如下:1.改进了基于共享最近邻密度和最大最小距离的CURE聚类算法。针对CURE聚类算法存在的两个缺点:第一,噪声点的不易确定,提出了一种新的基于共享最近邻密度的去噪方法,该方法利用共享最近邻算法计算样例的相似度,进而求出每个样例的密度值,自适应得到密度阈值,判断噪声点进行剔除;第二,代表点分散性差,本文使用最大最小距离算法对原算法挑选代表点进行改进。将本文改进算法与传统的CURE算法、文献[72]算法、RTCURE算法在2个合成数据集和6个UCI数据集进行对比,结果表明:本文算法在平均准确率和运行效率上都有一定的提高。2.提出了基于改进的CURE聚类的原型选择算法(PSCURE)。根据第一部分改进的CURE聚类算法对原始数据集进行聚类,从每个类中挑选出更具有代表性的样例添加到最终的原型子集再进行分类。首先利用PSCURE算法对合成数据集Pathbased和Flame people进行实验,结果表明:PSCURE算法可以选取出更具有代表性的边界点和部分内部点。其次,将PSCURE算法与传统的KNN、PSC算法和CNN、ENN、TRKNN、BNNT、2NMST算法在10个UCI数据集上进行实验,结果表明:PSCURE算法与传统的KNN算法有相同甚至更高的分类准确率,且能筛选出更少的样例,PSCURE算法与最新的几个算法相比不仅提高了平均准确率,而且减少了样例数。3.利用PSCURE算法处理不平衡数据集。首先,使用PSCURE算法对不平衡数据集中的大多数样例进行欠抽样,使抽取的样例数与少数类的个数一样,从而得到均衡的原型集,再利用KNN算法进行分类。然后,通过5个UCI数据集进行实验,将PSCURE算法与KNN、EDSVM和ND-SVM算法进行对比分析,实验结果表明:PSCURE算法在F-measure和G-means两个指标上较其它算法有所提高。最后,将PSCURE算法应用到某市窃电用户数据集中,并与传统的KNN算法对比,实验结果表明:PSCURE算法在解决处理窃电用户数据集中具有一定的优势。
其他文献
<正> 论证(包括证明与反驳)是逻辑学研究的重要内容。无论传统逻辑还是目前国内高校广泛使用的各种形式逻辑(又称普通逻辑)、符号逻辑教本,都把它作为一个重要研究内容。先看
乳房炎影响奶牛泌乳机能,使产奶量减少,甚至使乳房丧失机能,饮用患病牛的奶对人体有害。近年来,牛奶中抗生素的残留备受关注。中药具有低毒性、低残留及安全性好等优势,人们
比较直接浸泡法、渗漉法、回流提取法、超声法和微波法等5种不同工艺对栀子苷提取效果的影响。其中回流提取法的效果最好,通过正交试验优化栀子苷回流提取的工艺条件,其最佳
笔者在工作中有幸参与了多个机场航站楼的设计,又因工作关系参观了许多机场航站楼。将接触到的这些航站楼进行适当的对比和分类,有利于更清楚地了解和认识航站楼设计的过去与
在经济结构转型的新常态背景下,工业润滑油用户为有效的控制采购成本,传统的采购方式已无法适应企业的发展要求,采购方通过不断改变适合本企业的采购模式以达到"降本增效"的目
行动逻辑反映了高职院校专业群建设的内在规律,决定了其发展的未来路向。通过实地调研发现,已有专业群建设实践秉持"产业-专业-就业"的线性行动逻辑。线性逻辑偏差的理论根源
介绍了5083铝合金欠均匀化或不均匀化生产板材工艺试验过程,比对了不同镁含量和不同均匀化程度对板材组织性能的影响,发现以上工艺变化对常规性能影响不大,对焊接等其他应用
体系结构框架是一种用于指导信息系统体系结构开发、描述、集成的统一规则和指南,是提高军事信息系统之间互联、互通、互操作能力的关键。世界各国正相继推出适合本国国情的
在中职教育教学课程体系中,英语课程属于十分重要的一门课程,在培养学生英语能力及应用水平方面发挥着不可替代的作用。在中职英语课堂教学过程中,为能够使课堂教学效果有效
蔡襄与蔡京是中国书法史上两个具有比较典型反照意义的人物 ,两人都有很高的书法造诣。但由于政治观点和道德人格各异 ,导致了他们在文化性格和历史评价等方面都出现了强烈的