内存系统性能分析与优化技术研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户：shengchunquan

【摘要】

：

“存储墙(Memory Wall)”问题已经提出了10多年，学术界、工业界都在努力地改善CPU与Memory之间的差距。随着多核技术的发展，“存储墙”问题更严峻，内存的延迟与带宽都成为了计算

【作者】

：

包云岗

【机构】

：

中国科学院计算技术研究所

【出处】

：

中国科学院计算技术研究所

【发表日期】

：

2008年期

【关键词】

：

内存系统性能分析访存行为 DIMM侦听机制

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

“存储墙(Memory Wall)”问题已经提出了10多年，学术界、工业界都在努力地改善CPU与Memory之间的差距。随着多核技术的发展，“存储墙”问题更严峻，内存的延迟与带宽都成为了计算机系统性能提升的主要瓶颈。访存行为分析是研究“存储墙”问题的重要手段，同时也是研究优化体系结构设计、系统软件(操作系统和编译器)优化和应用性能提高的重要手段。　　计算机内存系统访存行为研究一般分为三个方面：(1)产生并收集访存踪迹(Trace)；(2)分析访存踪迹或者进行踪迹驱动的模拟(Trace-Driven Simulation)；(3)优化应用或内存系统。　　本文介绍对计算机内存系统的研究工作，在上述三个方面分别作出了以下贡献：　　 (1)本文利用HMTT访存Trace工具在多个真实平台(Intel、AMD、龙芯)上对多类应用(SPEC CPU，桌面应用，SPECjbb，Oracle等)的访存行为进行分析，发现下述重要的访存特征：　　 ·应用访存的阶段性特征会导致突发带宽的产生，在应用执行的生命周期内有10％的时间会产生超出平均带宽达77％的突发访存。这种现象对性能的影响在多核平台会进一步放大；　　 ·Last Level Cache( LLC)不命中的访存中依然存在约40％以上有固定步长的规则访存(流访存)，这种比例在浮点应用更是高达80％。内存控制器硬件预取是一种通过有效利用这些规则访存提高性能的手段，但经过进一步分析发现，在多核系统中多进程(线程)并发执行会出现交错访存现象，这降低进程的规则访存比例，影响内存控制器的硬件预取效果；　　 ·操作系统上下文切换会引起1～33.6％的Cache不命中率、0.7～59％的TLB不命中率，而且操作系统内核的Cache/TLB替换重填(Replace、Refill)行为具有应用无关性。　　 (2)本文在对访存性能分析的基础上提出一种硬件预取层次模型(PrefetchingHierarchy)，并总结分析影响该预取层次模型的五个基本问题：虚拟地址与物理地址对预取的影响、访存序列监测粒度对预取的影响、预取部件协作与独立对预取的影响、宿主Cache/预取部件统一与分离对预取的影响以及多核宿主Cache私有与共享对预取的影响。本文进一步提出了一种优化的预取层次结构(Optimized Prefetching HierarchyArchitecture，OPHA)，该结构通过采用预取部件协作模式、细粒度监测、地址空间分区预取策略等技术提高预取性能。实验表明，优化硬件预取层次结构能提高系统访存性能约31％。本文还初步探讨了访存信息流(Memory Access Information Flow)的传递与共享对内存系统性能的影响以及通过反向TLB(Reverse TLB，RTLB)技术优化访存信息流传递路径的思想。　　 (3)本文提出一种平台无关的全系统访存Trace收集机制。该机制采用内存DIMM槽硬件侦听方式(DIMM-Snooping)，同时解决了设计与实现中的三个关键问题：采用化简DDR状态机来支持内存运行频率；采用内核同步模块来区分出不同进程的虚拟地址访存Trace；采用“千兆网-RAID组合”技术以及压缩与同步策略来输出和还原大规模虚拟访存Trace。　　本文工作设计并实现了基于以上侦听机制与关键技术的原型系统——HMTT(HyperMemory Trace Tracker)。多个角度的实验验证与性能评估表明，HMTT是一种高效的、可信的访存踪迹收集工具。

其他文献

P2P流媒体中覆盖网优化和数据传输机制的研究

近年来,由于可扩展性好,性能价格比高和易于部署等特点,基于P2P技术的流媒体传输成为一种可靠的流媒体解决方案。同时,由于P2P系统中节点的动态性和异构性,它也成为流媒体研

学位

网络编码覆盖网优化对等网PUSHP2P流媒体仿真

单视图协同训练方法的研究

在很多真实应用中,收集大量数据相当容易,但为大量数据提供类别标记则比较困难。因此,如何利用大量的、廉价的未标记数据来辅助提高学习器泛化能力成为机器学习和数据挖掘中

学位

机器学习数据挖掘单视图协同训练噪声积累

汉语名词短语隐喻识别研究

隐喻是自然语言处理的棘手问题之一，近几年来开始受到从事中文信息处理研究的学者们的关注。隐喻大量地存在于我们的语言生活中，Lakoff&Johnson(1980)指出隐喻不仅仅是语言的修

学位

汉语名词短语隐喻识别特征选择最大熵朴素贝叶斯隐喻映射自然语言处理中文信息处理

AbYSS算法研究及其在星座优化设计中的应用

在现实生活中,多目标优化问题广泛地存在于工程、航天、科技、经济等领域。多目标优化问题的多个目标通常是相互冲突、相互竞争的,对其中一个目标优化必须以其他目标作为代价

学位

Scatter Search算法基于存档的混合多目标Scatter Search算法星座优化设计

分层虚拟快照系统及其关键技术研究

随着虚拟存储技术的广泛应用，现代存储系统以集中共享平台为开放环境提供服务的应用模式日趋普遍，系统上的应用具有多样性和复杂性。不同的应用类型对快照功能的需求有很大的差

学位

快照技术读写属性快照语义资源管理分层框架分层虚拟快照系统虚拟存储

基于林分生长规律的林分可视化研究

随着计算机技术的日益发展和林业调查技术的变革,以及森林可持续经营的思想对森林资源信息和利用的要求,促使可视化在林业领域中的研究日渐深入。用可视化技术展示林分信息,

学位

林分可视化树木模型统计分析功能XML文件

适合儿童的故事角色设计工具的设计和实现

讲故事作为有效的教育手段，被广泛运用于儿童教育。随着计算机技术的发展，许多科研机构纷纷研究计算机支持的讲故事系统，给儿童提供新的讲故事方式。故事作为一种载体，需要丰富的

学位

儿童讲故事系统故事角色设计工具讲故事自由度故事角色设计可用性评估

ZigBee协议栈及监控平台的设计与实现

半导体技术、微系统技术、通信技术、计算机技术、自动控制和人工智能等技术的飞速发展孕育一种新型的测控网络：无线传感器网络。无线传感器网络是一种以数据为中心的自组织无

学位

无线传感器网络测控网络ZigBee协议栈用户接口设计监控平台

10M/100M/1000M自适应MAC控制器关键技术研究

随着集成电路技术的快速发展，工艺特征尺寸不断减小，产品的性能不断提高，在单一芯片上实现全部系统功能的SoC(System on a Chip，系统级芯片)设计技术逐渐走向成熟，促进了嵌入式领

学位

以太网功能验证集成电路系统级芯片总线架构

SIP流媒体广播应用服务器体系结构的研究

随着IP技术的发展和日趋成熟,以VoIP(Voice over Internet Protocol)为代表的NGN(Next Generation Network)通信作为一种典型的宽带应用正面临着前所未有的发展机遇。SIP(Ses

学位

VoIPSIP协议流媒体广播应用服务器

内存系统性能分析与优化技术研究

与本文相关的学术论文