Red Team 红色小队论坛

 找回密码
 立即注册
查看: 1965|回复: 4

【转】【蓝宝石】【硬件学前班Lesson 4】青出于蓝——Vega...

[复制链接]

22

主题

221

帖子

8981

积分

RV670

Rank: 8Rank: 8

精华
1
金币
5040
经验
10
贡献
14
发表于 2017-11-4 14:56:53 | 显示全部楼层 |阅读模式

马上注册加入红色小队,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本帖最后由 wyzx01 于 2017-11-4 15:16 编辑

版权归原作者所有
原创     2017-10-27   Sapphire蓝宝科技


在探讨Vega时,不可避免的要提到上一代旗舰核心,采用第三代GCN架构的Fiji。只有在对Fiji (AMD内部编号为GFX7架构) 有了一定了解以后,我们才能去比较GFX9架构的Vega与之前有什么不同。

前言

在开讲之前为了让读者更容易理解GPU,我们将GPU流水线比喻成高速公路。我们都知道流水线就是从头进由尾出的一套流程,GPU也一样。GPU的前端相当于高速收费站,这里掌管着车辆进入主路,体会过高速免费的读者应该知道被堵在收费站的滋味,所以GPU前端的性能要与流水线后部的组件相匹配才不会有大的瓶颈。中间NCU的部分相当于高速主路,在收费站不卡关的情况下,这里的速度很大程度决定了GPU的性能。最后GPU后端相当于目的地收费站。

WeChat Image_20171104144619.jpg

一、DX12时代的先锋

Fiji作为第一个使用HBM高带宽缓存技术的芯片,它的上市造成的轰动效应是空前的,相信上过前几次课的同学明白HBM的优势是什么。

除了HBM之外,Fiji还是第一批支持DX12硬性要求的关键特性——非同步(异步)运算(Asynchronous Compute)的GPU,通过基于硬件实体的8组ACE非同步计算引擎获得效率最佳化,为未来的DX12大作做了充分准备。这点在当年的Maxwell上是无法做到的,以至于现如今的所谓Pascal架构,依然只能依靠软件模拟,无法在硬件上提供异步计算支持。从根源上,Maxwell与Pascal除频率(新的SM单元带来的提升)外无明显差别(GP100计算卡除外)。

WeChat Image_20171104144646.jpg
Fiji的非同步计算模块

WeChat Image_20171104144649.jpg
Vega的非同步计算模块

而Vega在继承了硬件ACE单元的同时,加入了自Polaris北极星(GFX8)新加入的硬件调度器——HWS,延续了北极星上2 HWS+4 ACE的配置。HWS的加入让游戏开发者得以随意调用GPU资源,秉承了自GPUOpen以来的开放政策,给予游戏开放者最大的自由度。这是AMD向家用机看齐的一个标志,家用游戏机之前的火热与其自由开放的开发环境以及开发者的欢迎与支持密不可分。

WeChat Image_20171104144652.jpg
HWS的出现意在更好地调度ACE的工作,使其更具效率以更好配合低开销API的要求(DX12,Vulkan)。与NVIDIA的SWS(软件调度)相比,硬件调度的优势极为显著。

WeChat Image_20171104144655.jpg

至于AMD在DX12和Vulkan的话语权只需要举一个例子。当年在微软的DirectX 12说明会上做技术陈述的是AMD的人员而不是微软的工程师。至于Vulkan,则是脱胎于AMD Mantle的用于取代老迈的OpenGL的替代者。

*可参考的视频https://www.bilibili.com/video/av6715967/


二、全新的前端设计

自从Hawaii以来,AMD一直在使用宽大的4路渲染引擎设计。Fiji也采用4渲染引擎(ShaderEngine,SE)设计,每个SE包含16个计算单元(CU),4个SE总计4096个流处理器。AMD这样设计的考量在于通用计算,AMD认为未来的游戏将会更多地偏重计算而不是几何,所以Fiji的前端设计或多或少存在几何性能的短板。

WeChat Image_20171104144659.jpg
采用4渲染引擎设计的Fiji

Vega虽然没有改变这种4SE的结构,但Vega直接使用了全新的几何引擎和被称为渲染流分级光栅器的DSBR。

WeChat Image_20171104144701.jpg
新的几何流水线

WeChat Image_20171104144704.jpg
新的几何引擎可以提供2倍的吞吐量

几何引擎中改变了原有的渲染方式,将原有的两步渲染压缩为一步,极大提高了渲染效率。而DSBR光栅器旨在提高性能和降低能耗。

WeChat Image_20171104144706.jpg

总结一下,在Vega中,新的几何引擎对比上一代每时钟频率提升了一倍吞吐能力,等同于高速路的车道翻倍。新的Primitive Shader(图元着色器)提高了着色速度,新的Geometry Engine(几何引擎)增强了负载平衡。Vega整体加强了前端设计用以保障后面的NCU们不会睡大觉。

三、全新的计算单元
        
在GFX9架构中,AMD重新设计了CU单元,称之为Next-Gen CU(次时代计算单元),即NCU。NCU的设计关注点在于提高IPC(Instruction per clock,每时钟指令),并且大幅提高运行频率。新的设计每个时钟周期可以处理512个FP16半精度指令或256个FP32单精度指令或128个FP64双精度指令,并且支持FP32指令拆分与打包处理,执行效率进一步提升。半精度计算将在不久的将来大量应用在游戏中,例如即将发售的Far Cry 5就大量使用了半精度来构建超大场景。

WeChat Image_20171104144709.jpg

总结:
        
由于篇幅所限,对于Vega的分析不可能面面俱到。但是通过本文大家可以大致了解到Vega在架构层面做出的改变,以及新的功能组件带来的切实的效能提升。AMD将会进一步强化Vega在各个游戏中的性能表现,尤其是DX12游戏可以极大地突出Vega架构的优势。

26

主题

515

帖子

1万

积分

Tahiti

Rank: 12Rank: 12Rank: 12

精华
0
金币
11163
经验
10
贡献
2
发表于 2017-11-4 19:59:02 | 显示全部楼层
vega 56 超到 64 的频率 表现差不多,感觉 是屁股还是太大么?还是说游戏没有优化到位。。。

74

主题

1521

帖子

3万

积分

铁杆A饭

生命无take two

Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20

精华
0
金币
27608
经验
10
贡献
25
QQ
发表于 2017-11-4 23:38:34 | 显示全部楼层
CHNhi 发表于 2017-11-4 19:59
vega 56 超到 64 的频率 表现差不多,感觉 是屁股还是太大么?还是说游戏没有优化到位。。。 ...

这个觉得真心来说--确实是目前最大的问题
DIY...

62

主题

2013

帖子

2万

积分

Vega10

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

精华
1
金币
18999
经验
10
贡献
0
发表于 2017-11-7 21:55:54 | 显示全部楼层
蓝宝石这两代没看到漂亮得卡了

48

主题

276

帖子

1万

积分

Cayman

Rank: 11Rank: 11Rank: 11Rank: 11

精华
0
金币
9902
经验
10
贡献
0
发表于 2017-11-29 10:53:23 | 显示全部楼层
DX12游戏太少是最大问题
AMD FX8150
玩家国度890FX
TEAM 4*8GB 1866 OC
蓝宝石R9 380 OC
三星850EVO 120MB+美光MX500 1GB
海盗船RM850x
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表