多核多层级Cache访存并发度与预取机制的量化分析

来源 :东南大学 | 被引量 : 0次 | 上传用户:dickui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
处理器可以并发处理的访存缺失数被称为访存并发度,这是评估Cache性能的一个重要参数。但业界在评估访存并发度时,通常需要对每个指令窗口的访存依赖关系进行分析,这使得建模过程的时间开销很大。同时,当前的研究中也缺乏对多核以及多层级Cache架构下的访存并发度的解析建模。另一方面,虽然预取机制可以有效地减少Cache缺失,但业界在对Cache缺失的解析建模中,往往忽略了这一机制的影响。本文主要对Cache访存并发度以及预取对访存缺失数的影响进行解析建模研究,并对其中的关键硬件模块,MSHR的设计参数进行优化探索。本文的主要工作包括以下三个部分:(1)Cache访存并发度的解析建模,针对单核单层级架构,提出了估计访存关键路径的概率模型,有效地减少单核单层级Cache架构下的建模时间开销;针对多核多层级架构,考虑访存并发度存在的必要条件,提出了多核多层级场景下的访存并发度解析模型,相比前期的神经网络模型大幅度地减小了建模时间开销的同时,提供了更多关于硬件的洞见;(2)考虑基于步长预取机制对访存缺失数的正反两方面的影响,将预取机制对访存缺失数的影响纳入建模,更准确地对访存缺失数进行评估;本文采用了SPEC 2006基准测试集对模型的精度和时间开销进行验证。与Gem5全仿真结果相比,单核单层级架构下的访存并发度平均误差约为8%,与以往的模型精度接近,但评估速度提升了近一倍。在双核和四核架构下的访存并发度平均误差分别约为10.3%和11.5%。在考虑预取机制的情况下,单核单层级架构下的Cache缺失率平均绝对误差为0.875%,该误差值是前期的49.7%,其中在LRU替换策略下采用K Ji的模型作为对比,在Random替换策略下采用Stat Cache模型作为对比;双核架构下的Cache缺失率平均绝对误差为6.65%,该误差值是Stat CC模型的58.1%;四核架构下的Cache缺失率平均绝对误差为8.89%,该误差值是StatCC模型的61.2%。
其他文献
目的:通过对比脱垂型腰椎间盘突出症(PSLDH)的青年患者与无腰椎间盘突出症(LDH)的青年人出现腰椎关节突关节不对称(FT)的情况,探讨FT与青年人PSLDH的相关性;通过观察PSLDH患者髓核脱垂方向与脱垂一侧关节突关节方向(FJO),探讨FJO与青年人髓核脱垂方向的关系。方法:从2013年1月至2018年12月,根据纳入及排除标准选出401例于我院行手术治疗的PSLDH患者纳入研究作为病例组
背景:阿尔茨海默病(Alzheimer’s Disease,AD)是一种慢性进展性神经系统变性疾病,其存在连续的病理及临床过程,可分为主观记忆障碍(subjective memory impairment,SMI)、轻度认知功能障碍(mild cognitive impairment,MCI)和阿尔茨海默病等阶段。MCI是介于正常老龄化和老年性痴呆的一个临床阶段,在这一阶段中,虽然患者仍未达到痴呆
集成电路产业的不断发展以及行业对高能效的不断追求使得工艺尺寸不断缩小,电路的工作电压不断降低。随着电路工作电压的降低,工艺参数对电路延时的影响逐渐从线性转变为非线性,进而导致电路的延时分布呈现出非高斯分布。同时,工艺尺寸的缩小使得工艺参数的波动更加显著,导致低电压下电路延时分布的非高斯现象更严重,这使得传统的基于确定性工艺角的时序分析方法过于悲观。虽然统计时序分析方法可以较好地分析工艺参数波动的影
作为机器视觉领域最热门的研究方向之一,人脸识别技术凭借其非接触性且安全可靠的优点,在移动支付、智能安防、智慧城市等领域有着极高的应用价值。卷积神经网络的发展,使人脸识别算法的准确率大幅度提升,已超越人类水平,应用前景更加广泛。然而相较于传统算法,基于卷积神经网络的人脸识别算法拥有更多的参数量和计算量,对硬件资源要求更为苛刻,使得其在部署到移动终端使用的过程中存在困难。因此,基于软硬件协同设计,实现
由于在工业、消费类电子和军事等方面具有广阔的应用前景,无线传感器网络一直广受关注。低通和复数带通滤波器作为无线传感器网络节点中射频收发芯片的组成模块,其选取有用频率信号并抑制干扰信号的能力将影响整个射频收发机的性能。为节约芯片面积,设计能实现低通和复数带通两种功能的可重构滤波器具有重要的研究价值与意义。本文设计了一款通过重构电路可实现低通与复数带通双功能的可重构滤波器。为了同时满足射频收发机在收发
相对于有线电能传输技术,无线电能传输技术具有安全性更高、便捷性更高、应用场景更加广泛等优点,因此其具有很高的研究价值和应用前景。目前无线电能传输已经应用到智能手机、生物医疗、电动汽车等领域。本文针对无线电能传输系统中因负载和耦合因子变化带来的系统稳定性问题,设计一种符合Qi协议的定频调压控制无线电能传输系统。本文首先介绍无线电能传输系统的基本工作原理和典型组成电路结构,且对典型组成电路结构进行对比
时钟数据恢复器(Clock and Data Recovery,CDR)是高速串行数据通信接口中的重要电路,可根据串行数据产生电路系统需要的时钟信号。压控振荡器(Voltage Controlled Oscillator,VCO)是CDR电路中产生时钟信号的重要模块,影响了CDR电路所恢复时钟和数据的抖动性能,因此具有非常重要的研究意义。本文设计了一种宽输出频率范围的双路径延迟环形压控振荡器,并且
基于门控工作方式的单光子探测技术,作为超高灵敏探测方案,被广泛应用于生物突光检测、微尺度测距、量子通讯等众多领域中。近年来,随着门控频率的提高,门信号脉冲宽度持续缩短,尖峰噪声信号与雪崩信号在门控可探测窗口内混叠难以避免,为检测带来了很大挑战。基于滤波器方案的检测电路可有效的解决上述困难,将混叠信号从频域角度分离,为了精确检测出微弱的雪崩信号,要求滤波器同时具备宽带宽、高阻带衰减、高线性度及低噪声
随着数据速率的不断提高,光互连引起人们的极大兴趣。与电互连相比,光互连在串扰、带宽、距离和延迟方面具有显著的优势。由于光互连的这些优势,它逐渐发展成为最常用的高速通信系统之一。在芯片的集成上,CMOS工艺虽然速度不如Ge Si工艺,但是它具有价格低、代工方便、集成度高、功耗低等优势,近年来随着CMOS工艺的特征尺寸不断降低,克服CMOS工艺本身的缺陷来完成高速光电收发机的设计成为当前的一个研究热点
随着物联网技术的发展,其安全问题逐渐成为关键,物理不可克隆函数(Physical Unclonable Function,PUF)利用了集成电路生产中的工艺偏差因素,实现了密钥存储等安全功能。其中,仲裁器PUF(Arbiter PUF,APUF)具有结构简单易制造的特点,然而由于其延时结构和仲裁方案的设计,会产生唯一性和稳定性低,易被建模攻击等问题。同时为了适应物联网设备更加灵活的应用需求,越来越