CMP结构下基于Cache感知线程级并行优化研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:yux444
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多核时代的到来,处理器的运算能力得到了很大的提升.但由于处理器和主存之间的发展速度的不均衡,“存储墙”的问题越来越严重,成为影响系统性能的瓶颈。在多核体系结构下,多级存储器的出现缓解了这种压力。在典型的CMP(Chip Muti-Processors)体系结构中,多个核共享Cache,不但改善了存储的性能,而且减小了硬件的使用面积。但在此结构下,由于Cache空间小,多个线程共享Cache,将会造成对Cache空间的竞争,使得共享线程的Cache缺失数增加,对系统的性能是非常不利的。本文的主要工作如下:(1)Cache缺失数是衡量系统访存性能的重要指标,为了有效的利用Cache空间,本文通过收集各个线程的访存信息,使得共享线程的Cache空间的需求总和与共享Cache的空间大小相等并合理的划分线程组,在此问题上本文首先将线程的划分模型抽象为求解子集和的问题,并用快速求解子集和的方法求解子集,将其运用到本文的线程优化划分算法TOP(Thread Optimization Partition)中,获得优化的线程组,减少Cache的缺失数。最后通过simple-scalar仿真工具收集线程的数据信息,执行本文的划分算法,实验结果表明,本文提出的线程划分的优化算法(TOP)在程序的总的缺失数百分比相比贪婪的线程划分算法greedy平均减少了17.48%,相比于随机的线程划分算法Random平均减少了 14.26%。(2)在已划分的线程组的基础上,分析线程上的数据在程序执行时访存信息,建立数据分配的执行模型,通过一个实例分析并定义本文多核的数据分配问题,以此来描述线程上的数据优化分配,通过本文提出的多核结构下贪婪数据分配算法(M_GDA)和多核的动态规划算法M_DPA对数据进行优化分配,使得同时执行的线程的访存时间最短,减小程序执行时访存时间。最后在本文的数据分配优化模拟器上运行了 10个标准的benchmark测试程序来进行验证。实验结果表明,通过多核的动态规划算法(M_DPA)对数据进行优化分配后的访存开销相较于随机数据分配算法(Random)平均提高了 16.11%,相较于多核贪婪数据(M_GDA)分配算法的访存开销提高了 14.08%,在能量开销上相较于随机数据分配算法提高了28.02%,相较于贪婪数据分配算法提高了 14.40%。
其他文献
随着互联网信息技术的迅猛发展,门户新闻网站、各类新闻媒体平台和搜索引擎构成的在线多源媒体已然成为了描述各类话题的重要载体。话题在大规模在线多源媒体中呈现的演化过
半导体光催化技术作为一种高效、安全的环境净化技术,已广泛应用于水中污染物的降解、水分解及二氧化碳还原等领域,在治理环境污染和解决能源危机方面有很大的应用前景。石墨
随着云计算时代的到来,云端存储的数据急剧增长,因此云存储系统已经成为云计算中的一个关键要素。云存储中的海量数据,使得云存储系统必须面对一个问题:如何在保证数据的有效
随着互联网通信的发展,移动终端迅速普及,无线网络虚拟化应运而生,为下一代无线网络提供高效定制化的服务。移动终端业务请求的数量与种类不断扩大与丰富,使得无线资源和能量
本研究对184个的农村学生发放问卷、对典型案例进行访谈,通过对有效问卷的定性与定量分析,分析影响农村学生职业发展的相关因素,实证教育对农村学生职业发展的作用和影响,分
图像盲复原是指在点扩散函数未知或者已知部分信息的情况下,从观察到的退化图像中恢复出清晰原始图像,是一个病态逆问题的求解。在计算机视觉领域,去除图像模糊是一个具有挑
对于大数据处理平台而言,存储系统的设计对提高其性能至关重要。尽管研究人员已经提出了众多优化办法,但现有优化方法均根据系统设置,静态的为计算分配资源、对存储进行管理,
本文为一篇中译英翻译实践报告。本报告是根据作者所实习的公司提供的《机器人滚边技术概述》翻译项目进行分析与讨论。机器人滚边技术作为一项新型装配技术,极大促进了国内
给定一个文本串T和模式串P,字符串匹配就是从一个T中找到所有和P相同的子串。字符串匹配的应用涉及到生物信息学、文本编辑、模式识别、自然语言处理和搜索引擎等领域。随着
旋转式惯性导航系统是旋转调制补偿技术应用于捷联惯导系统而发展形成的,它可以在系统成本增加有限的情况下大幅度地提高惯导系统的精度。在结构层面,旋转式惯导系统相较捷联