论文部分内容阅读
在过去的几十年,计算机系统一直使用DRAM作为内存。但是DRAM内存正面临着性能、容量和能耗方面的挑战。一方面,随着处理器系统结构技术的快速发展以及生产工艺水平的不断提高,使得处理器和内存的工作效率不断提高。但处理器的性能提升速度明显高于内存。另一方面,随着应用对内存容量需求的不断增加,容量和能耗已经成为制约DRAM内存系统发展的瓶颈。为了弥合处理器与内存的速度差距,本文利用现有器件3D堆叠DRAM作为L4 Cache,即DRAM Cache。在DRAM Cache命中时,可以减少对内存的访问,同时加快数据的访问速度。为了满足应用对内存容量的需求,同时降低能耗,本文采用新型非易性存储器PCM(Phase Change Memory)作为内存。本文主要从以下几个方面对DRAM Cache访存延时和PCM内存系统的性能和能效进行优化。 1.减少DRAM Cache缺失访问技术 本文提出了一种减少DRAM Cache缺失访问的预测方法。该方法通过将全局预测器和部分MissMap(P_Map)相结合来提高预测准确度,从而减少缺失时对DRAMCache的访问。由于访存具有局部性,所以只将最近最常被访问的物理页存到P_Map中,这样可以有效的降低MissMap的面积开销。当全局预测器预测为命中时,再通过P_Map做进一步查找,来提高预测准确度。该方法以较低的面积开销获得了较高的预测准确度,因此性能提高了3.4%。 2.DRAM Cache缺失率和命中延时优化技术 本文提出了一种同时对DRAM Cache命中延时和缺失率进行优化的方法。该方法采用高路组相联结构来降低缺失率,同时提出采用反向tag流动的方法来减少命中延时。当对DRAM Cache进行访问时,首先将访存地址中的tag写入到DRAM Cache中,在DRAM芯片内部完成比较,如果命中,直接将对应的数据输出。该方法在降低缺失率的同时减少了命中延时,从而有效地提高了10.7%的系统性能。 3.PCM写并行度优化技术 本文提出了一种提高PCM写并行性的方法。PCM存在最大写功耗限制。传统的PCM写命令调度并没有考虑写“0”与写“1”的功耗差异,导致PCM bank间写并行度低。本文提出的方法利用写功耗的非对称性,提出了新的调度方案,在不违反功耗约束的前提下,进一步提高了写并行性。该方法获得了18.5%的性能提升。 4.PCM内存性能和能效优化技术 本文提出了一种减少PCM写同时提高PCM写并行性的方法。该方法将内存控制器中的缓存改为牺牲Cache结构,为最后一级Cache提供额外的命中。此外,还提出了chip并行感知的牺牲Cache替换策略来提高写并行度。该方法提高了12.1%的性能,同时降低了6.6%的内存能耗。