基于数据集压缩的聚类算法性能优化研究

来源 :计算机应用研究 | 被引量 : 11次 | 上传用户:xiazixu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对目前聚类算法对大数据集的聚类分析中存在时间花费过大的问题,提出了一种基于最近邻相似性的数据集压缩算法。通过将若干个相似性最近邻的数据点划分成一个数据簇并随机选择簇头构成新的数据集,大大缩减了数据的规模。然后分别采用K-means算法和AP算法对压缩后的数据集进行聚类分析。实验结果表明,压缩后的数据集与原始数据集的聚类分析相比,在保证聚类准确率基本一致的前提下,有效降低了聚类的花费时长,提高了算法的聚类性能,证明了该数据集压缩算法在聚类分析中的有效性和可靠性。
其他文献
畜牧业是我国社会经济发展的重要力量,也是我国的民生行业。由于我国人口众多,对畜牧业的要求,也是非常之大。但是,在我国畜牧业不断发展的过程中,其污染程度也在不断的增加,这样对
阐述香猪的饲养管理技术及防疫措施。
(一)发病情况2016年3月下旬,淮安区一养鸡户饲养的21日龄22000只蛋雏鸡突然发生以精神沉郁、食欲减退、流泪、流鼻涕、张口喘气、咳嗽、气管有啰音、频频甩头、排稀粪为主要特
偏最小二乘判别分析(partial least squares discriminant analysis,PLS-DA)是一种线性分类方法,不能充分表达数据之间的非线性关系,难以适应非线性数据的分类识别。针对该问题,结合softmax回归能够表达非线性特征,提出融合softmax回归的偏最小二乘判别分析算法(PLS-S-DA)。为了验证PLS-S-DA对非线性数据的有效性,以准确率、运行时间、查
随着我国经济的不断发展,畜牧业也紧随着商业发展的步伐,随着现代化饲养技术的不断提高,牛饲养行业也相对于之前有了很大的发展,但也带来了一系列的问题,牛病的肆虐是畜牧业向前持
猪瘟是由猪瘟病毒感染而诱发的高度接触性传染性疾病,此病目前在世界各养猪大国都有流行和发生。目前,全球都在致力于控制和消灭猪瘟病情。而在国内同样基层养殖户主将防控的
前胃弛缓是反刍动物整体机能紊乱的疾病,是牛的常见病和多发病之一。其病理和临床表现错综复杂,往往给诊断和治疗带来困难。近年来,笔者对43例患前胃弛缓的病牛进行了系统的临床
为了更好地适应高职院校人才培养要求,为宠物医学专业建设的改革发展提供依据,实现为区域经济服务培养人才的目标,本院宠物医学专业调研小组对用人单位、学生及家长开展社会调研
犊牛腹泻是指新生10日龄左右的犊牛肠蠕动亢进,肠内吸收不全或者困难,致使肠内容与多量水分被排出体外的一种犊牛疾病.其临床症状是粪呈稀糖或水样,酸中毒,死亡较快.腹泻在犊
针对静态检测和动态检测方式存在的问题,提出了一种基于混合方式的恶意移动应用检测方法。该方法采用静态分析和动态分析相结合的方式,通过静态分析获取权限特征和函数调用特征,通过沙盒环境下的事件仿真获取系统调用序列并提取系统调用依赖关系特征。在此基础上,提出了一种基于集成学习的分类器构造方法,区分恶意应用和正常应用。在来自于第三方应用市场中的3 000个样本集上进行了实验验证,结果表明基于混合方式的恶意应