Red Team 红色小队论坛

 找回密码
 立即注册
查看: 3866|回复: 6

[内存] AMD Zen 微架构完全解析:双调度器,微指令缓存以及缓存架构

  [复制链接]

12

主题

16

帖子

2290

积分

R480

Rank: 4

精华
0
金币
1124
经验
10
贡献
21
发表于 2016-8-20 22:42:39 | 显示全部楼层 |阅读模式

马上注册加入红色小队,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本帖最后由 Marvin马文 于 2016-8-20 22:46 编辑

source:http://www.anandtech.com/show/10 ... -hierarchy-revealed

对照:http://www.mykancolle.com/?post=385

自翻,转载请注明出处。


97b21471574786.jpg



AMD这边邀请了部分媒体和分析师参与Zen的进一步细节的讨论。这篇文章里我们将讨论架构,并与前代处理器作比较。


AMD Zen

分支预测、解码、队列以及执行

首先让我们之间看下面的图

32241471574788.jpg



如果我们从左边开始看起,我们可以看到大部分的架构细节,包括L1缓存、新的微指令缓存、解码、分发、调度器、执行端口以及L/S单元的设计。


52861471574783.jpg



首先,Zen与前代架构的很大一处不同在于,出现了微指令缓存(ppt上有时候写的op缓存,实际上意思就是micro-op,容易误导人)。AMD的推土机设计没有微指令缓存,就必须从其他缓存中提取细节,来执行频繁使用的微指令。Intel很早就开始用微指令缓存了,效果非常好(在Conroe架构上引入的重要改进),所以对于AMD来说这应该能带来不小提升。AMD没告诉我们这个缓冲区的大小,估计在适当的时候会给出信息。


抛开含糊不清的“增强的分支预测器”,AMD这次也没披露解码器的设计,但列出他们每周期可以解码4条指令到队列。这个队列在微指令缓存的辅助下,到调度器时能达到最高每周期6条指令。因为解码器可以解码一条指令,然后该指令随后拆分为两条微指令(这让指令和微指令的区别变得模糊)。此外,这个微指令队列还能提高每个整数和浮点单元的利用率。AMD不像Intel那样给整数/浮点一个公用的调度器,而是继续使用分离的调度器。


整数部分包括ALU、AGU以及LS操作。LS单元每周期可以执行2次16字节的load以及1次16字节的store操作,利用32KB 8路组相连 回写式L1数据缓存。AMD明确说明这是回写式缓存,而不是推土机上的穿透式缓存(在一定条件下会带来大量的闲置时间)。AMD声称缓存内的LS操作延迟会更低,但没再做进一步说明。


每核心浮点部分包括两个乘法端口,两个ADD端口,每周期能够执行两条捆绑的FMAC命令或者一条256bit AVX。把整数和浮点部分合起来看,Zen核心在指令级并行上将会有很大提升 - 提升多少取决于缓存和重排序缓存 - 这次没给出ROB的具体数据,只说排序操作的指令调度窗口将会增大75%,发射宽度提升50%。即便是天生IPC就低的AMD处理器,核心并行性越好,其他的方面就有效率多了,这也使得这次用的SMT在多线程上占得先机。



解密新的缓存结构


abd51471574794.jpg



这次的缓存结构相比以前做出了重大改进,而且是朝着好的方向。相较于推土机,Zen的L1缓存在大小和关联性都翻倍了,而且是写回式而不是穿透式。同时采用了非对称LS单元,因为在大多数情况下Load操作比Store要频繁得多。指令缓存不再是两个核心共享,同时关联性也翻倍,这将减少缓存未命中的情况。AMD声称L1数据和指令缓存延迟都很低,今后将公布更多细节。


L2缓存变成了每核心512KB,8路相连,这是Intel Skylake上256kb 4路关联的两倍。另一方面,Intel的L3在高端Skylake i7上是每核心2MB,每CPU8MB,在Zen上则是每核心1MB,这两者都是16路关联。


实际上上面的ppt在描述上有点暧昧。没有说多少核心共享8M L3,更没说是否每颗芯片上的所有核心都是共享同一个L3的。然而我们从一个消息来源获得的信息(在AMD官方ppt上找不到的)表明,Zen的8核芯片上是4个核心为一个簇,每个簇4个核心共享8M L3,8核芯片有两组8MB,共16MB的 L3。这样的话就是每核心2MB,但这也说明了Zen的L3不是完全共享的,然而Intel的是共享的。这样做的原因估计和模块化有点关系,通过增加这样的模块可以做出从4核心直到32核心,但Zen的每核心L3和Intel的依然都是每核心2MB(没有任何优势)


a3f21471574783.jpg



这也意味着,AMD的L1和L2比Intel更大、延迟更低。而且L1、L2距离核心更近,还是每核心独立的,在单线程性能上会有显著提升。但更大的独立L1/L2带来的坏处是,每个核心都要监听其他核心的缓存,确保 1.传递的是干净数据、2. L3上的原数据不过期。AMD给出的总体数字是,Zen在缓存带宽上是前代的5倍。





低功耗,FinFET,门控时钟


在AMD发布Carrizo和Bristol Ridge的时候,介绍的一个重点就是一系列降低功耗和提升能效的技术。有一部分技术延续到了Zen上,同时伴随着制程更新,还加入了一些新的技术。

a3f21471575036.jpg



首先就是FinFET。虽然大部分的人都已经熟悉FinFET到吐了,但我们还是要介绍一下。FinFET设计能在给定频率下设计出晶体管的低功耗版本。每个FinFET代工厂给出的技术指标都不同,但Zen用的GF 14nm技术和Polaris GPU的不会差太多,这意味着AMD使用的是14nm的追求密度版本,能在同等功耗下达成更高性能,或者低功耗下达成同等性能。




AMD介绍说工程师们一直很注重功耗和能效,在性能和功能单元的效率上做了很多权衡(比如提升1%的性能,代价是2%的能效损失)。不仅有微指令缓存可以节约读取指令缓存的电能,改善的预取机制等也能减少工作量。但AMD也说明,为了提升能效,Zen的门控时钟将会很激进。


AMD第七代APU上也有差不多的设计,保持在效率最高的那个点(特定性能)是最好的方式。上图似乎暗示着每个核心的不同部分(取决于用途)都有独立的门控时钟(比如解码单元或者浮点端口),虽然目前还无法确认。同时还需要有非常快速的门控时钟(1-2个周期),要知道门控时钟与功耗门限不同,门控时钟更难设计。





同步多线程


Zen架构上,每个核心支持两个线程,这叫做同步多线程。Intel版本的SMT早在08年就开始启用,其他的厂商比如IBM,在POWER8上支持最多8个线程(SMT8)。让一个核心处理两个线程很困难,需要很多资源来确保线程之间不会因争夺缓存而互相阻塞。Zen桌面版将会有8核16线程。

582d1471574792.jpg



在推土机上,共享浮点单元使得浮点性能不如人意。但Zen的设计更类似于Intel,每个线程都和一个单独核心差不多,不会有推土机上的资源限制。有了更多的资源,SMT将会提升IPC,我很想看看哪些负载能从中获益。




时间表、供货日期


在ppt上写着Zen将会在17年大量出货。由于AM4平台上Summit Ridge和Bristol Ridge使用同样的插槽,可能我们能从AMD的OEM们那里先见到Bristol Ridge进入市场。没有哪个主卖消费级产品的半导体厂商会在年末清仓季发布新品,而第一季度会有CES之类的大型展会,那时候我们肯定能拿到手。


AMD说距离发布越近,就会公布越多的架构细节。还提到了营销策略上的决定,比如Zen不会是实际产品线的名称(实际平台代号是Summit Ridge,但到了出货时候也可能会变)。


43741471574796.jpg



总结



这次AMD的介绍比我想的要深入。当有人告诉我去参加一个短会,并且会有200多家媒体和分析师到场,我还估计应该就是吹吹牛逼,重申要回到高端市场什么的。但实际上AMD给出了部分架构的详尽介绍,甚至还介绍了基本缓存结构,这出乎我的意料,估计这个星期媒体上都会是AMD的新闻了吧



评分

参与人数 1金币 +100 贡献 +10 收起 理由
Radeon + 100 + 10

查看全部评分

80

主题

1266

帖子

2万

积分

铁杆A饭

Huden的本体

Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20

精华
0
金币
17989
经验
10
贡献
20
发表于 2016-8-20 22:58:12 | 显示全部楼层
沙发表示看得云里雾里,看来我的电气工程还没有学好啊但是ZEN我买定了
For AMD Radeon™

12

主题

16

帖子

2290

积分

R480

Rank: 4

精华
0
金币
1124
经验
10
贡献
21
 楼主| 发表于 2016-8-20 23:23:08 | 显示全部楼层
HudenJear 发表于 2016-8-20 22:58
沙发表示看得云里雾里,看来我的电气工程还没有学好啊但是ZEN我买定了 ...

其实我也懂的不多  我是学日语的

74

主题

1521

帖子

3万

积分

铁杆A饭

生命无take two

Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20

精华
0
金币
27608
经验
10
贡献
25
QQ
发表于 2016-8-21 02:59:21 | 显示全部楼层
看来zen确实很给力的样子,只希望不要失望
DIY...

26

主题

515

帖子

1万

积分

Tahiti

Rank: 12Rank: 12Rank: 12

精华
0
金币
11163
经验
10
贡献
2
发表于 2016-8-21 10:30:08 | 显示全部楼层
感觉变革很大很激进的样子。。。

16

主题

578

帖子

1万

积分

Crypess

Rank: 10Rank: 10Rank: 10

精华
0
金币
7560
经验
10
贡献
1
发表于 2016-8-21 13:59:44 | 显示全部楼层
U也是该崛起了

62

主题

2013

帖子

2万

积分

Vega10

Rank: 15Rank: 15Rank: 15Rank: 15Rank: 15

精华
1
金币
18999
经验
10
贡献
0
发表于 2016-8-22 20:51:06 | 显示全部楼层
真的又到了 性能大幅提示的时代吗?
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表