数据挖掘算法在GPU平台上的并行化实现

来源 :西南科技大学 | 被引量 : 0次 | 上传用户:majixiong0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为应对大量数据处理,GPU成为高性能计算领域重要的组成部分,在数据挖掘算法领域,GPU技术得到广泛应用。GPU的高并行计算特性使得数据挖掘算法容易利用GPU平台实现并行化,但如何结合硬件平台特性,对数据挖掘算法提出软硬件协同的并行化优化方案一直是值得关注的问题。本课题针对该问题,基于GPGPU-Sim模拟器搭建并行化实验平台,以数据挖掘算法中较为典型的KNN算法以及K-means算法为例,对数据挖掘算法在GPU模拟平台中的并行化优化问题展开研究。本课题主要工作如下:1.基于GPGPU-Sim模拟器搭建了本课题所使用的GPU平台,根据平台接口与要求重构了KNN与K-means算法应用代码,使用编译工具编译算法,完成算法移植。2.针对KNN算法距离排序阶段耗时较长的问题,本课题提出一种插入排序与并行希尔排序相结合的并行化优化方法,根据不同的k值,选择不同的距离排序方法。在算法距离计算阶段,使用cublas函数库对算法距离进行并行计算;在距离排序阶段,通过改变k值,比较使用插入排序与使用并行希尔排序的算法运行时间,实验结果显示:当k值小于7时,选择插入排序方式运行速度较快;当k值大于等于7时,采用并行希尔排序可以更好地加快算法运算速度。最后通过对比本课题提出的并行方法与串行执行时间,发现本课题所提出的并行方法最高能获得214倍的加速比,与现有较新的并行化KNN算法相比,优化后的KNN算法最高能得到1.52倍的加速效果。3.针对K-means算法随机分配初始化聚类中心容易导致算法结果不稳定的问题,本课题提出一种根据距离划分初始化聚类中心的并行化优化方法。首先找到所有样本的中心点做为初始化聚类中心,计算其余样本数据点到该聚类中心点的距离,通过所有距离的平均值,划分样本聚类,同时选择距离较远的样本点做为第二个聚类中心,通过距离划分样本点可以找到分布较为均衡的中心点,避免随机生成k个聚类中心点造成的实验误差。通过分别控制聚类样本点数量与样本点维度,对K-means算法进行并行化实验分析。实验结果表明本课题所提出的并行化方法在样本点增大时,能获得更好的加速比,相比于串行K-means算法,最高能得到216倍的加速,与现有较新的并行化K-means算法相比,最高能得到1.48倍的加速。4.在本课题的GPU模拟平台系统中运行数据挖掘算法,分析系统性能影响因素。通过实验结果,发现在加速数据挖掘算法时,应将系统L1 cache值设置为64KB,L2cache值设置为128KB,系统存储控制器与流多处理器的配比设置为1:4,能达到较好的系统整体效能。
其他文献
目的:系统评价桂枝茯苓胶囊(丸)联合曼月乐治疗子宫腺肌病的疗效和安全性。方法:运用计算机检索国家知识基础设施数据库、中国学术期刊数据库、中文科技期刊数据库、中国生物医学文献数据库、PubMed、The Cochrane Library、The Web of Science、Springer等中英文数据库从建库至2020年5月关于桂枝茯苓胶囊(丸)联合曼月乐治疗子宫腺肌病的随机对照试验和临床对照试验
[目的 /意义]本文旨在研究开放式科学数据管理平台的先进做法,为国内建设科学数据管理平台,实现科研模式的数字化、开放化和社群化提供借鉴。[方法 /过程]本文对国内外科学数据管理平台的相关研究文献进行分析,并采用探索性单案例研究法,总结知名科学数据管理平台“Digital CommonsData”的运营机制、建设模式及服务功能。[结果 /结论]开放社区平台通过数据共享和群体协作发挥科学数据的最大利用
2021年是中国共产党成立100周年,今年我国护士节的主题是"传承红色基因,创新发展护理"。在革命战争时期、社会主义建设时期、改革开放时期和中国特色社会主义新时代等不同阶段,广大护理工作者作为医疗卫生战线上不可或缺的重要力量,始终传承红色革命精神,心向党、跟党走,
期刊
“你们做的事非常有示范意义,对全国生态文明建设具有激励作用和深远影响。塞罕坝精神是中国共产党精神谱系的组成部分。全党全国人民要发扬这种精神,把绿色经济和生态文明发展好。塞罕坝要更加深刻地理解生态文明理念,再接再厉,二次创业,在新征程上再建功立业。”习近平总书记2021年8月23日在塞罕坝机械林场调研时的这一重要讲话,成了激励塞罕坝人二次创业的强大动力。
期刊
随着信息技术的发展,数字化时代已悄然进入大众生活。传播媒介迭代更新,作为一种新型社交媒体的移动短视频,以简便性、趣味性、碎片化、多感官性与强交互性等特征,迅速被大众接受。移动短视频的兴起,改变了人们获取信息的主要方式,也为传统文化的传播提供了新的契机。文章通过分析移动短视频平台的传播特点,剖析其对我国传统文化传播带来的问题与影响,并提出相应的策略,探讨这种变化对我国文化传承与创新性传播具有重要意义
高屈曲膝关节假体的设计理念是为了提高膝关节功能恢复,然而,有研究证实这种高屈曲膝关节假体失败率高。作者设计了一项队列研究,包括179例高屈曲膝关节假体中的145例和1 347例传统膝关节假体中的145例。平均随访(121.5±20.3)个月。结果发现,15例高屈曲膝关节假体接受了翻修,其中8例更换了假体; 12例传统膝关节假体接受了翻修,没有更换假体。没有配对的数据证实高屈曲膝关节假体翻修率更高。
期刊
目的:研究溃疡性结肠炎患者肠道短链脂肪酸构成和含量变化,研究美沙拉嗪对溃疡性结肠炎肠道短链脂肪酸的影响。方法:1)根据系统评价和Meta分析的首选报告项目(PRISMA)指南进行文献检索,在PUBMED、知网及万方等多个数据库中系统搜索了截至2022年3月发表的研究,使用以下关键字:“溃疡性结肠炎”、“ulcerative colitis”、“UC”、“短链脂肪酸”、“short chain fa
儒家元典(尤其是十三经)中虽然没有“中华民族共同体”这样的语词,但并不等于没有这样的意识和理念。本文钩稽儒家元典中与中华民族共同体意识相关的十个词汇“天下”“九州”“四海”“四方”“四国多方”“四岳”“万邦”“万方”“万民”“万姓”,总结儒家元典中所体现的中华民族共同体意识,共有五个方面:(一)以相互尊重形成共同体;(二)以密切交流稳定共同体;(三)以仁爱王道建设共同体;(四)以“中”“正”“和”
从对马斯洛需求金字塔、建筑语言、智慧工地等理论分析入手,基于后疫情时代的背景,探究未来建筑设计发展趋势,并以车站及公园等设计为例,提出具体的设计策略。
目的:分析补体激活通路基因遗传变异与非小细胞肺癌(non-small cell lung cancer, NSCLC)患者生存的相关性及其潜在的分子机制。方法:对连续招募的1531例NSCLC患者进行随机分组,分为发现集和验证集;收集所有患者的随访信息和临床资料,并进行全基因组关联芯片扫描;通过全基因组基因型填补,系统分析补体激活通路基因集的遗传变异与NSCLC患者总生存期(overall sur