基于FPGA集群的浮点矩阵乘加速研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:shmily2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据和云计算的时代背景下,高性能计算(HPC)的数据密集度越来越高,需要处理的数据量与日俱增,要求计算节点有很强的计算能力的同时功耗开销尽可能低,因此一些具有高灵活性和容错能力的软件编程架构在服务器集群被部署,它们具有很好的扩展性和很高的计算效率。然而新兴应用的快速发展正日渐加重计算节点的负载,HPC也开始转向采用硬件加速器来满足高带宽、低时延、高吞吐量的需求,同时保持合理的功耗水平。因此在HPC的计算节点中部署硬件加速器以集群的方式对复杂算法加速成为当下研究的热点。在先前研究基础之上,本文提出了一种基于FPGA的硬件加速平台架构,采用集中式加速器群来处理大规模的浮点矩阵运算。这种架构由多块Xilinx Virtex-6FPGA评估板(EVBs)组成,计算服务器与EVBs通过PCIE接口连接,EVBs之间通过14GB/s光纤接口通信。利用FPGA的可编程性和高灵活性,在每个EVBs中设计了相同的offload引擎模块,实现了对短信息立即数MP描述符的存储、计算、封装、转发等处理。本文在分析浮点矩阵乘算法和FPGA集群架构的基础之上,通过Verilog硬件编程设计实现了可并行计算的浮点矩阵乘硬件模块,该设计降低了计算复杂度和资源利用率且提升了计算效率。该模块可以任意配置两个浮点矩阵乘的行列参数,并且可以根据芯片的逻辑资源情况灵活的设置计算单元(PE)的数目,且相邻PE单元之间没有任何数据的交互,具有很好的移植性和可扩展性。针对本文浮点矩阵乘法的FPGA协处理器与计算节点CPU的通信问题,本文设计了通过PCIE高速接口实现报文的接收和转发。将基于片上可编程系统结构的FPGA端设计与计算节点主机端的驱动程序相结合,从而实现软硬件系统的协同工作。针对本文设计的OE模块及其浮点矩阵乘子模块,文中分别通过实验仿真、综合等方法对设计的性能进行了分析和验证。对比了Intel I5-4690 CPU和相同处理单元下的单卡FPGA计算性能,实验结果表明,本文设计的加速平台获得较好的性能增益,且该设计具有良好的并行效率和计算效率。此外,本文对不同维数的浮点矩阵乘法进行了加速对比实验,该设计达到了较高的计算性能,获得了接近2倍加速比。
其他文献
目的:探讨与调查新生儿急性肾功能衰竭的高危因素与预后情况. 方法:选择2011年2月至2013年11月分娩出生新生儿急性肾功能衰竭110例作为观察组,同期选择分娩的健康新生儿110例作
<正> 一、概述硅酸铝耐火纤维是一种非品质无定型玻璃相的聚合体,因此,具有一定的柔软性,但制品的强度低,尤其是在使用燃料的工业炉窑中不能抵抗气流冲刷以及水蒸汽、还原气
结账  和几个朋友出去吃饭,吃得差不多的时候要结账了,我们就说谁丑谁结账。  服务员一听就说:“你们是不是要AA制啊?”  奖励  记得那是我上小学的时候,好不容易考了一次第一名,我爸说带我去海洋馆玩,若干年后我才知道,那是个海鲜市场。  情侣装  妹妹让我帮她买情侣装,才上高中啊,就知道什么是情侣装。于是,我问她:“知道什么是情侣装不?”答曰:“就两件一样的呗。”于是我给她寄了两条一样的裙子去。
随着我国经济的发展与繁荣,中外文化交流也日益频繁和深入。许多国人,尤其是青少年面对眼花缭乱的外来文化,应接不暇,不辨良莠,只是一味地效仿、吸收,于是发生了一起起令人费
本研究以马氏珠母贝幼虫和稚贝为研究对象,在实验室条件下考察环境因子(温度、盐度、藻浓度和养殖密度)对其生长、存活和RNA/DNA比值的影响,运用中心组合实验设计及响应曲面法
现代德育实践离不开对传统德育思想的继承和扬弃。而老子德育思想在中华民族传统德育思想史中独树一帜,其中“行不言之教”是老子德育思想的一个经典表达。本文试图通过探究
目的探讨PBL教学法在全科医生心血管内科转岗培训中的应用价值.方法选取2015年9月—2018年5月于医院心内科进行转岗培训的30名社区医师作为研究对象,按照教学方法的不同将其
复杂产品是指客户需求复杂、产品组成复杂、产品技术复杂、制造过程复杂、项目管理复杂的一类产品。在复杂产品质量控制中,质量特性监控点的有效性决定了产品质量的可控性。但
当两种雌成蚊用相同的。几乎是最适宜的营养物饲养时,在吸取少量血后,白纹伊蚊比埃及伊蚊产卵的可能性更大。在饥饿的条件下,白纹伊蚊雌成虫的寿命比埃及伊蚊长,对总体蛋白、
社会契约论是相伴商品经济的发展衍生而来的,它主要是西方发达国家在走近近代开始时形成,在完成近、现代化的过程中逐渐丰富与成熟的。从其形式上看,社会契约论是对社会的经