一种基于延迟分配的寄存器栈优化策略

来源 :第九届计算机工程与工艺全国学术年会 | 被引量 : 0次 | 上传用户:niuniuplayplay
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文介绍了IntelItanium体系结构中的寄存器栈和寄存器栈引擎(RSE),Itanium采用编译器控制的栈寄存器分配技术以减少与程序调用相关的访存耗费,RSE根据栈寄存器使用情况自动地控制寄存器栈并实现寄存器和存储器间的数据传输.尽管RSE带来很多好处,但由寄存器栈溢出所引发的流水线停顿却严重影响着许多应用程序的总体执行时间和功耗.本文提出一种延迟分配的策略,尽量减少这种停顿.通过具体的分析,相比与一些已存在的优化策略,该策略能够更多地减少寄存器栈溢出.
其他文献
单处理器构成的嵌入式系统无法满足高性能需求,嵌入式并行系统应运而生.典型的嵌入式并行系统表现为:I/O通道带宽有限和处理单元(PE)局部存储容量有限.我们在该受限体系结构下设计了一种并行排序算法,在这种算法中,各个PE并行地对其中的局部数据进行堆排序,生成的多个子序列被返回给主控CPU进行串行归并排序.我们对该算法的加速比进行了详细的分析,描述了I/O通道带宽、PE局部存储容量和并行性能之间的关系
为了获得可靠的、高性能的器件,传统晶体管的特征尺寸在不断缩小.然而在器件小型化进程中受到物理学、热电学等理论的挑战,已趋于极限.一些新工艺的诞生正试图打破这些制约.本文将就绝缘体上硅(SOI)技术、应变硅(StrainedSilicon)技术、双栅介质(doublegate)技术等作以讨论.特别会对双栅介质技术的工作原理及工艺制造过程加以叙述.期待在不久的将来双栅介质技术得到成功推广应用.
本文介绍一个适用于二维环网拓扑结构的路由芯片设计.该芯片在采用虚跨步切换二维环网中实现了组播操作.芯片支持组播操作和自适应路由.实际系统中的测试结论表明芯片的性能优越.
获得速度和功耗方面的优良性能,并追求更广泛的适应范围是SRAMIP核设计的主要目标.本文采用层次字线结构、差分输入总线和全静态译码等低功耗技术,并结合快速译码和敏感放大读出技术,提出了一个输出位宽可重构的SRAM核设计.设计的SRAM核容量在4Kb~16Kb范围内具有良好的功耗及速度性能,并且输出位宽64位/128位动态可配置.
本文针对FFT算法中蝶形运算的特点设计了32位ANSI/IEEEstd754-1985标准优化的浮点蝶形运算部件,并以此为基础在FPGA上实现了FFT算法的两种并行结构,一是由数个双存储器结构(ping-pong)的fft模块组成的并行运算系统;二是流水线(pipeline)结构.同时分析了其作为协处理器时可满足的最大带宽及实现代价.
本文提出了一个32位嵌入式微处理器的片上调试系统.该调试系统完全基于JTAG工业标准,以较少的硬件开销实现了断点和观察点设置、单步执行、寄存器和存储空间查看和设置、在线编程以及调试启动、暂停、退出等调试功能.该片上调试系统在EStar2嵌入式微处理器上,基于SMIC0.18um1P5M工艺进行了设计和实现,投片结果验证了设计的正确性和有效性.
SMT(同时多线程)是一种能有效提高处理器性能的技术,本丈在我们自主设计的32位高性能嵌入式数字信号处理器YHFT-D4的基础上,设计实现了一种多操作分离发射(MOSI,MultiOpSplittingIssue)的双线程SMT处理器--YHFT-DSP/SMT,并对其性能进行了分析,该处理器具有实现简单,线程切换代价小等特点.
在硬件算法设计中,浮点三角函数、指数函数及对数函数等操作是既费时又占用面积的操作,很难有效实现.CORDIC算法的提出,将复杂耗时的操作转化成有规律的循环迭代的加法、移位操作,使其便于硬件实现.因此成为硬件实现浮点三角函数、指数函数及对数函数的有效方案.本文基于CORDIC算法原理,讨论了基于CORDIC算法实现浮点功能部件的关键技术,并设计了一个基于CORDIC算法实现的硬件浮点功能部件原型.评
人工智能发展至今,专家系统仍是人工智能的一个重要分支,专家系统目前在很多领域都有广泛的应用.解析防火墙配置的问题很自然地由一个专家系统来解决,发现用逻辑叙述来表达知识在网络、防火墙和一般配置错误是很容易的.例如:用一个已存在的推理机,它就允许我们定义知识库的核心概念和关系.在这篇文章中,我们提出了一种解析防火墙规则的专家系统及其实现.
以专门用以在嵌入式系统中实现USB协议的芯片ISP1161与ARM微处理器S3C4510B相结合为实例,叙述了嵌入式系统中USB的设计与实现.介绍了ISP1161芯片的基本工作原理和开发系统的硬件设计方案,并给出了在嵌入式系统中USB的软件实现过程.