LOMO 发表于 2015-6-23 20:39:16

TOP-PIM:吞吐量导向的内存内可编程计算(文首部分翻译)

AMD Research的一个paper,关于HBM和内存中处理的一些内容
原文在http://www.dongpingzhang.com/wordpress/wp-content/uploads/2012/04/TOP-PIM-HPDC-paper.pdf

之前练习翻译部分翻译的一点,请勿转载。

概要
由于计算受到不断增加的数据传输和能源消耗的限制,利用内存层级结构优化对于持续的性能扩展就很重要了。将计算移动到距离内存更近的地方为减少能源和数据移动开销提供了机会。我们探索3D芯片堆叠的应用来将内存存取密集性计算移动到距离内存更近的地方。这种近似在内存中计算的方式解决了之前内存内计算研究中的不足,并且在可以预见的未来在商业上是可行的。
由于3D堆叠提供了更多带宽,我们通过利用可编程GPU计算单元跑分,研究了吞吐量导向的计算,这里的跑分主要是图形和高性能计算机应用。我们也引入一套基于在现如今GPU硬件执行的量度来预测性能表现和能耗的方法来快速设计空间探索。我们的结果显示,通常,在22nm工艺的主流有代表性的GPU上,可行的的PIM配置展现了合理的性能损失(27%)的同时反过来有明显的能效提高(EDP减少76%)。在16nm工艺节点上,通常可行的PIM配置与主流GPU在性能上可以比较(PIM要快上7%),并且提供更好的能效(85%的EDP减少)。
介绍
处理器已经变得越来越能胜任计算任务,能效并且也越来越高,但是在片外内存存取带宽、延迟和能耗方面的改进并没有跟上处理器架构进步的步伐。因此内存系统通常是性能瓶颈,并且作用还不小,也在系统级的能源消耗上所占的比例越来越大。一个64b的内存存取现如今消耗的能源比一个双精度浮点单元进行两次算数运算所消耗的还多。
内存系统能源消耗对于未来的高性能计算系统的至关重要。美国能源部的超大型计算系统的简单目标是包括十万个计算节点,每节点的内存带宽是4TB/s,然后系统的能耗预算是20兆瓦。即使激进地假设内存和接口技术的改进将会将内存存取能耗从DDR3的60-80pJ/b降为4pJ/b,支撑十万个各自拥有4TB/s带宽的节点的内存存取本身仍要花费全部系统能耗预算的70%。
这篇论文探索了通过3D芯片堆叠技术进行内存内运算应用的来减少内存存取能耗并提升性能表现的潜。最近的工业趋势表明在3D芯片堆叠即将被应用。一些供应商已经开发出通过内含3D堆叠来增加兼容性的DDR3设备。众多内存供应商加入了混合存储立方体(HMC)组织,组织目的在于商业化在基础逻辑芯片上由3D堆叠内存芯片所组成的内存立方体。针对移动应用的在逻辑芯片上堆叠内存芯片的Wide I/O和JEDEC标准在2012年初发布了。另一个类似的针对高性能应用的JEDEC标准,高带宽内存(HBM),最近也发布了。很多学术出版物同样探索了在逻辑芯片上堆叠内存。
在高性能处理器上面堆叠内存,发热挑战是主要问题。处理器产生的热量减少了内存中数据的保存时间,这就需要控制处理器性能或者提高内存刷新率,但这两者在高性能系统中都不可取。在这篇文章中,我们探索内存并不是直接堆叠在主运算处理器上。而是一个辅助的,在内存里的处理器,合并为各个内存堆叠的基础逻辑芯片,如图。存取导向的代码将会在这些内存中的处理器中执行来利用堆叠内存所带来的高带宽和低功耗。由于这些内存内处理器被用来运行存取导向的代码,他们的计算资源可以被有化成面向低功耗低发热的设计。同时主运算处理器(Host),并没有内存堆叠在上面,就不必严格服从发热限制,也就可以为计算导向代码提供高性能表现,这个研究的首要目的是确定这种辅助的内存中处理器在宽领域应用中的性能和能耗特性。
先前的研究表明堆叠内存的最明显的性能优势是带宽提高。这将推动在内存中处理器中的并行数据加速器的合并进而有效利用可用带宽。在这个研究中,我们将GPGPU执行单元作为内存中并行数据加速器。现代GPU的可编程性也允许GPU加速内存内处理器在较宽的应用领域内被利用。此外,GPU的高能效架构也帮助减少对一个给定性能级别的发热顾虑。
评估PIM也产生了新的仿真挑战。那些可以最大限度利用PIM优势的应用是那些有较大数据集,却又不适合放到缓存里的应用。此外,PIM系统的设计空间大于传统设计,由于PIM和主机配置都必须被探索。缓慢的位架构仿真器妨碍了在合理时间内执行合理应用的能力。这就限制了我们研究状态空间。因此,快速的仿真方法对于探索足够广泛的应用和相关设计要点至关重要。为了处理这个挑战,我们提出一个方法,在当前硬件执行过程中首先合并了硬件表现和能耗统计。这些数据然后被灌入一个用于预测未来PIM和主机硬件配置的性能和功耗的机器学习模型中。

这篇论文提供了一下贡献:
我们探索了GPU加速架构作为内存内处理器的可行性,并且探索了在就近技术节点的系统设计空间。就我们所知道的,这是第一个研究使用GPU做内存内计算来加速一个未堆叠内存的主机处理器。
为了能够快速探索设计空间,我们提出了一个可以从已存在的硬件中自动测算出未来设计性能和功耗值仿真方法,并量化其准确性。
我们通过广泛的GPGPU负载并确定那些适合在吞吐量导向的内存内加速度执行的负荷的特征,估算在就近技术节点PIM技术对于能耗和性能表现的影响。


后面懒得翻译了。
不过觉得蛮有趣的,一个APU的话,CPU上无法堆内存,在GPU上堆内存,然后GPU负责需要大带宽的运算,CPU依然负责高性能计算。

wyzx01 发表于 2015-6-23 21:24:26

好評,過段有時間來研讀下

LOMO 发表于 2015-6-23 21:42:28

wyzx01 发表于 2015-6-23 21:24
好評,過段有時間來研讀下

我之前不是发在ati吧了么
页: [1]
查看完整版本: TOP-PIM:吞吐量导向的内存内可编程计算(文首部分翻译)