论文部分内容阅读
分片式处理器能够很好地应对纳米工艺代芯片设计中存在的功耗、线延迟和设计复杂性问题,充分地利用日益增长的片上晶体管资源以提升应用的性能,但对其上的Cache设计提出了新的要求。一方面,需要有分片式的Cache结构以满足大量执行单元的并发访存需求;另一方面,需要有分布式内存依赖解析机制以保证分布式的访存顺序。与传统的全局控制的Cache结构相比,非均匀一致Cache结构(NUCA,Non-Uniform Cache Architecture)能够满足上述要求,更好地适应分片式处理器体系结构。本文设计了分片式处理器上的非均匀一致的二级和一级Cache结构,并根据分片式处理器中特有的访存特征对非均匀一致的一级Cache的结构进行优化,提出了Load本地化执行模型,最终评估了模型的性能和开销。该研究工作对分片式处理器上Cache结构的设计具有一定的指导意义。
本文对非均匀一致二级和一级Cache的设计和优化均基于实验室所研究的分片式处理器-指令级并行核(TPA-PI,Tiled Processor Architecture-Processor For ILP)。主要研究成果包括:(1)为TPA-PI设计了非均匀一致二级Cache,设计包括:静态数据映射方式,片上网络互连,Cache Bank内部结构,Cache事务处理逻辑,以及Cache流水线。并使用C语言编写了面向硬件实现的TPA-PI的二级Cache模拟器。该部分亦可以作为普适的静态非均匀一致Cache的设计实例。(2)针对TPA-PI上非均匀一致一级Cache中存在的Load指令的长路由延迟问题,进行了相关的设计优化。首先剖析了结构中的访存行为特征,并根据Load指令数据端和发射端不一致的情况,分析其中可能获得的性能提升潜力,据此设计了Load本地化执行的优化模型,并设计了多种拷贝策略和一致性维护策略以控制拷贝和Store广播的开销。(3)从功能和时序模拟两个方面评估了Load本地化执行模型的性能和开销。经实验观测,基本模型可以获得平均5.72%的性能提升,拷贝开销对于Cache命中率的影响并不大,而Store广播开销才是更为影响模型性能的因素。
通过在TPA-PI上对非均匀一致Cache的应用进行研究,我们得到如下认识。(1)非均匀一致二级Cache的设计与TPA-PI处理器结构的耦合度较低,适于单独设计;(2)非均匀一致一级Cache的设计与TPA-PI的处理器结构及执行模型紧密相联,在分布式机制中减少路由延迟和通信开销是提高性能的关键。