分片式处理器上非均匀一致Cache的设计与优化

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户：njcxm

【摘要】

：

分片式处理器能够很好地应对纳米工艺代芯片设计中存在的功耗、线延迟和设计复杂性问题，充分地利用日益增长的片上晶体管资源以提升应用的性能，但对其上的Cache设计提出了新的

【作者】

：

窦瑞玲

【机构】

：

中国科学技术大学

【出处】

：

中国科学技术大学

【发表日期】

：

2009年期

【关键词】

：

分片式处理器纳米工艺芯片设计访存需求缓冲存贮器

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

分片式处理器能够很好地应对纳米工艺代芯片设计中存在的功耗、线延迟和设计复杂性问题，充分地利用日益增长的片上晶体管资源以提升应用的性能，但对其上的Cache设计提出了新的要求。一方面，需要有分片式的Cache结构以满足大量执行单元的并发访存需求；另一方面，需要有分布式内存依赖解析机制以保证分布式的访存顺序。与传统的全局控制的Cache结构相比，非均匀一致Cache结构(NUCA，Non-Uniform Cache Architecture)能够满足上述要求，更好地适应分片式处理器体系结构。本文设计了分片式处理器上的非均匀一致的二级和一级Cache结构，并根据分片式处理器中特有的访存特征对非均匀一致的一级Cache的结构进行优化，提出了Load本地化执行模型，最终评估了模型的性能和开销。该研究工作对分片式处理器上Cache结构的设计具有一定的指导意义。本文对非均匀一致二级和一级Cache的设计和优化均基于实验室所研究的分片式处理器-指令级并行核(TPA-PI，Tiled Processor Architecture-Processor For ILP)。主要研究成果包括：(1)为TPA-PI设计了非均匀一致二级Cache，设计包括：静态数据映射方式，片上网络互连，Cache Bank内部结构，Cache事务处理逻辑，以及Cache流水线。并使用C语言编写了面向硬件实现的TPA-PI的二级Cache模拟器。该部分亦可以作为普适的静态非均匀一致Cache的设计实例。(2)针对TPA-PI上非均匀一致一级Cache中存在的Load指令的长路由延迟问题，进行了相关的设计优化。首先剖析了结构中的访存行为特征，并根据Load指令数据端和发射端不一致的情况，分析其中可能获得的性能提升潜力，据此设计了Load本地化执行的优化模型，并设计了多种拷贝策略和一致性维护策略以控制拷贝和Store广播的开销。(3)从功能和时序模拟两个方面评估了Load本地化执行模型的性能和开销。经实验观测，基本模型可以获得平均5.72％的性能提升，拷贝开销对于Cache命中率的影响并不大，而Store广播开销才是更为影响模型性能的因素。通过在TPA-PI上对非均匀一致Cache的应用进行研究，我们得到如下认识。(1)非均匀一致二级Cache的设计与TPA-PI处理器结构的耦合度较低，适于单独设计；(2)非均匀一致一级Cache的设计与TPA-PI的处理器结构及执行模型紧密相联，在分布式机制中减少路由延迟和通信开销是提高性能的关键。

其他文献

基于物联网技术的学校车辆管理研究

随着我国经济迅速发展，人民物质生活水平大幅度提高，拥有车辆的家庭也越来越多，使得校园内的车辆数量与日俱增。与此同时，社会上的外来车辆数量众多，在校园随意行驶停放，给校园交通

学位

物联网射频识别信息管理校园车辆管理

蛋白质相互作用可信度评估中不同种类的特征信息研究

高通量实验鉴定技术和计算预测方法正在为各种生物产生出大量的蛋白质相互作用(protein-protein interactions,PPI)数据。但大规模数据中的较高比例的假阳性阻碍了对其进行进

学位

蛋白质相互作用(PPI)可信度评估最小二乘支持向量机(LS-SVM)

一个过程式语言操作语义的设计与可视化实现

《形式语义学》是计算机软件与理论专业的研究生学位课,在研究生计算机教育中占有重要的地位。它是程序设计理论的组成部分,以数学为工具,利用符号和公式精确地定义和解释计

学位

过程式语言操作语义可视化演示

可动态演化的通知服务系统的设计与实现

如今,信息系统已经深入应用到社会生活的各个方面,帮助人们处理各种信息事务。信息系统的运行时常需要人工干预,比如在出现异常的时候。在信息系统需要干预的时候,管理员需要

学位

通知服务SOA移动计算动态演化EDSM

基于ARM的消防终端导航系统的设计与实现

消防部门为什么要引入GIS/GPS技术?消防部门担负着保护生命和财产安全的重任，但其可利用的资源却非常有限。能够有效利用宝贵信息对消防工作是至关重要的。这出于多种理由，如：火

学位

GISGPS消防终端导航系统系统设计

CMP共享Cache访问与Qos策略的研究与模拟

随着芯片集成制造工艺的日益发展，在同一芯片上集成了多个处理器的CMP架构已成为桌面应用和高端计算的主流平台。通过集成多个处理器，CMP架构提供了更多的计算资源，同一时刻可以

学位

芯片集成集成制造工艺共享资源计算资源替换算法数据共享处理器性能

基于LBP-Gabor特征融合的LDA人脸表情识别

人脸表情识别技术是涉及情感计算、图像处理、机器视觉、运动跟踪、模式识别、生物特征识别、生理学、心理学等研究领域的一个极富挑战性的交叉课题，它是情感计算、人机智能交

学位

人脸表情识别技术局部二进制模式Gabor小波特征提取加权融合LDA算法

基于嵌入式的视觉传感器的研究-ARMLinux的视觉图像显示系统研究

传统的视觉图像系统是基于“摄像头-图像采集卡-通用PC机”三者为一体的系统。这种视觉系统不能满足嵌入式环境下对图像实时处理的需求，因此需要研制一种专用的视觉图像系统，既

学位

视觉传感器ARMLinux视觉图像图像显示系统嵌入式系统解码

基于H.264的视频传输中的错误隐藏技术研究

视频通信是多媒体通信的重要应用之一，无论在IP网络还是在无线移动网络信道中，误码的产生、数据的丢失总是难以避免，而高压缩后的视频数据对误码非常敏感，因此如何进行错误控制以

学位

视频传输错误隐藏边缘恢复时域错误隐藏算法

TCP网络视频质量监测方法的研究

随着IP网络通信和多媒体视频技术的快速发展,网络视频的研究和应用越来越受到广泛的重视,开始在各行各业发挥着重要的作用,网络视频质量监控也随之成为此领域内的一个热点问

学位

传输控制协议媒体传输指标网络视频质量监测

分片式处理器上非均匀一致Cache的设计与优化

其他学术论文