补充: 一致性缓存,提升数据调用与共享的速率,提升性能降低功耗 过去,GPU内部核心通信需要程序员或者编译着插入明确的同步指令,来将共享数据送回内存,这种设计虽然简单,但是增加了共享数据和应用程序的开销,效率不高。而GCN架构将打通核心之间的算法沟通,将L2缓存数据格式统一,GPU各核心直接调用其中数据,比显存共享数据更快。
▲缓存一致性架构 另外,GCN架构还在CPU与GPU之间引入了虚拟内存,简化了CPU与独显之间的数据移动,CPU与GPU无缝共享一个单一地址空间,共享数据,而不用复制转移。这对于提高效率,降低功耗起到了至关重要的作用。 ◆高度并行的SIMD,GCN精简架构,提高性能 早起的VLIW受限于编译器的性能,寄存器端口冲突,硬件资源没法充分利用,GCN架构中,采用了性能更高,更简单的矢量寄存器,寄存器文件可以分成独立的四个分区,矢量寄存器(vGPRs)含有64个通道,32bits位宽,相邻组合起来,每个SIMD有vGPRs 64KB分区,这样保证了带宽,消除了端口冲突,这也使得硬件运算资源更加趋于饱和。
▲GCN计算单元 两个新的指令:4x1 SAD和Quad SAD,提升GPU相关应用程序性能(比如视频稳定技术SteadyVideo2.0) ◆兼具灵活性与可编程性,为加速异构应用带来无限可能 全新架构不仅带来了更强大的运算效率,同时在底层异构运算上也做了巨大的优化,相比过去,GPU已经不仅仅是一个简单的图形中心,GCN架构将使得其具有高度的可编程性,使用更加灵活。AMD积累的CPU与GPU设计经验,将二者优势进一步融合。新产品可以通过DirectCompute、OpenCL、C ++ AMP等关键行业标准访问GPU,进而加速了主流应用程序,最终将实现无缝异构计算。 整体来讲,GCN架构在统一指令流、标量管线调度等功能上,以及真正的工作中提高了GPU利用率,实现更高性能。基于28nm工艺第一代GCN架构GPU,其每瓦性能和每平方毫米性能均比前代产品提升50%!
|