切换到窄版
帐号
自动登录
找回密码
密码
登录
立即注册
快捷导航
首页
论坛
BBS
关注
驱动
红色小队QQ群
搜索
搜索
热搜:
红色小队
Ryzen
锐龙
Vega
Threadripper
线程撕裂者
FURY
本版
帖子
用户
Red Team 红色小队论坛
»
论坛
›
电脑
›
CPU/内存/主板/硬盘
›
AMD Ryzen 1700X 自测晒机,以及补完之前的架构坑 ...
返回列表
查看:
3422
|
回复:
0
[内存]
AMD Ryzen 1700X 自测晒机,以及补完之前的架构坑
[复制链接]
necsa
necsa
当前离线
积分
3673
11
主题
77
帖子
3673
积分
R520
R520, 积分 3673, 距离下一级还需 327 积分
精华
0
金币
3316
经验
10
贡献
0
发消息
发表于 2017-11-12 12:22:49
|
显示全部楼层
|
阅读模式
马上注册加入红色小队,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要
登录
才可以下载或查看,没有帐号?
立即注册
x
上月24号发布当天预定,三号到手因为迟迟没有完善的主板BIOS,所以这个测试也一直没有写。
上周实在是等不下去了,于是就写了这篇文章,也安心的把6700K请去做NAS和软路由了。
考虑到是AMD的翻身之作,所以几乎整个平台都是全新的。额,除了显卡和一点外设,因为AMD的新VEGA显卡还要等到6月,现在只能用R9 NANO将就一下了。
平台配置如下:
CPU:AMD Ryzen 1700X
主板:技嘉GA-AX370-G5
内存:芝奇 Ripjaws V DDR4 3200 16G CL16 X2
显卡:讯景R9 NANO
硬盘:英特尔600P,三星 850 Evo X2 Raid 0
机箱:乔斯伯RM4
键盘:罗技 G810
鼠标:罗技 G502
方向盘:罗技 G29
手柄:PS3原装
声卡:创新Sound Blaster X7
耳机:AKG K702
电源:振华 LEADEX G 550
晒点照片:
AMD的新Ryzen处理器采用了Zen架构。Zen架构在2014年与自研发ARM指令集的K12一起作为未来的高性能架构,公开宣布正在研发。由于之前推土机系列CPU在单线程性能上的羸弱,AMD急需一个能够扭转这个局面的架构,所以从研发开始Zen就受到国内外的PC爱好者的关注。到了HotChips28,AMD公开的Zen的核心微架构细节。下面我要谈的架构方面资料大都也来自于此,会议上的PDF详情见下:
https://nas.lambda-delta.com/share.cgi?ssid=0x6MYak
历史回顾:
AMD的K10以及之前两代的架构思想都来自于DEC Alpha系列:弱化的超标量乱序调度,多而全功能的执行单元。从X86指令拾取之后,指令就被送入三条不同的流水线,直到执行完毕,其中没有调换位置机会。考虑到这种情况,每一条流水线都有一个强大的几乎全功能的ALU和AGU来适应各种不同的指令(除了乘法器之类的比较耗费资源的东西)。这种设计在K7,K8时期的表现是非常不错的,那个时候大家都没有太多的资源来花费在超标量乱序调度上。
但在K8后期,Intel的基于P6架构改进的初代Core开始展现出强大竞争力,大量测试中都可以与K8相匹敌。再后来的Core架构再此基础上进一步扩展,性能上把K8打的毫无还手之力。而能耗比上,也因为在执行单元上不必要的浪费而一败涂地。
AMD这时想开始扩展K8来追上Intel的脚步。虽然AMD未曾公布,但传言中AMD研发的四发射版本K8,K8L胎死腹中。最终拿出了另一个改进版K8:K10。K10没有如传言中的四发射,仅仅是加入了128bit的SIMD原生支持和乱序load操作特性,虽然没有带来什么革命性的改变,但好歹也能勉强支撑与Intel竞争。究其原因,要在本来就已经低效的乱序调度上再增加管线,增加的性能可能还敌不过多出来的开销,再者会让本身就已经低下的能耗比进一步降低。在K10.5时期,软件层面的多核化以及异构化,让AMD看到了一条新的道路。
推土机闪亮登场,模块化设计,四指令解码,物理寄存器堆,XOP,AVX,FMA4,舍弃了之前的独立管线式设计,一切看起来都很好。但实际性能却让人大跌眼镜,单线程性能弱到在更高的频率下都只能和K10.5与Stars架构互有胜负,更不用提Intel的Sandy Bridge了。后者也是一个新技术集合体,物理寄存器堆,微指令缓存,AVX,FMA3。
AMD的推土机架构是一个注重线程级并行远多于指令级并行的架构,在传统超标量乱序架构中,通常都是依赖硬件在一段指令中找到没有相关性的一些指令,通过多个执行单元并行执行来提高性能,这种方式叫做指令级并行。但指令级并行实际潜力已经被挖掘的差不多了,需要付出大量的额外资源才能获得完全不成比例的一丁点的性能提升(现在的X86处理器实际每周期指令执行数平均还不到其理论值的一半),这也是为什么Intel这几年来被人讽刺同频性能挤牙膏的根本原因。而推土机架构的思路就是,精简乱序架构,提升核心数量,从而带来高性能与高性能。同时由于异构运算的兴起,AMD认为需要高吞吐率的浮点操作大都可以在GPU或者别的加速器上完成,所以最终成品就成了:
共享前端,共享浮点单元,弱乱序调度,弱执行单元,的玩意儿。
按道理来说,这样的东西应该在能耗比上会有不错的表现,但AMD显然低估了共享部件的复杂度,不少地方的性能都为此做出了牺牲,另外过长的流水线,过高的频率都使的能耗比十分低下。即便后期做出了大量改进,压路机架构取消共享解码器,优化浮点流水线,挖掘机架构使用高密度库,AVFS优化功耗,也于事无补。而同样思路的低功耗架构Bobcat和Jaguar都有十分不错的表现,能耗比甚至高于有工艺优势的Intel Atom,是一个非常平衡的架构。
破而后立,AMD决定舍弃之前的一切,开发全新方向的架构:ZEN。
虽然说这对于AMD来说是全新的架构,但实际是回归了主流。高乱序度,有特化度的ALU,同步多线程技术,微指令缓存,物理寄存器堆。从大方面看基本和对手Intel的架构如出一辙。
既然是这次文章的主角,那么我们来看一下细节:
指令拾取
字面上的规格我就不说了。
这里的第一个亮点在于AMD全新的基于神经网络的分支预测系统,也就是图中紫红色部分,虽然硬件中受限于延迟与规模,只能做到最简单的神经网络模型,但也是往新的方向迈进了一步,为分支预测带来的更高的准确度。
第二个亮点对于AMD来说也不算亮点了,那就是一直以来超过对手Intel一倍的指令拾取带宽。在X64与AVX等需要额外前缀指令日渐增多的今天。四指令发射的处理器上,很容易让16Byte的拾取带宽成为瓶颈。虽然不知道Intel遇到了什么问题,但一直以来保持在16Byte/ Cycle的带宽就没变过。而AMD 32Byte/ Cycle的带宽则完全不会存在这种问题。
指令解码
X86指令因为是变长指令,在指令进行解码之前需要将指令从一堆指令Byte中分离出来,也就是所谓的长度解码,在以往AMD会将解码之后的指令边界标记出来,写到指令缓存中,以提升再次解码时的速度。这里AMD使用了Inline Instruction-length Decoder,没有细节并不知道具体怎么做的。
Op Cache,微指令缓存,最早在奔腾四中引入,他将解码产生的微指令缓存起来,需要再次解码时便从这里读取。他的存在打开了解码器宽度的瓶颈,并且减少解码器的使用,提高了能耗比。Intel则是在Sandy Bridge中将这个技术重新引入,但AMD在容量与带宽上均高出对手1/3,达到2048 entry,8 uops/Cycle。
StackEngine,堆栈引擎用于堆栈操作的指令PUSH,POP等,这些指令不需要再在ALU中完成。Intel在Core架构中就已经引入,AMD算是追回一局。
BranchFusion,分支融合,这个与Intel的宏融合类似,计算+条件跳转或者测试+条件跳转,可以被融合为一条指令,达到节约解码带宽的目的。
整数执行单元
Retire Queue,也就是传统意义上的ROB,重排序缓冲区。这是乱序执行的关键部件,乱序窗口,决定了可以从多少指令中选出可以乱序执行的部分。乱序执行完成的指令,返回这里,按原顺序真正的被完成。AMD的重排序缓冲区有192 entry与Intel的Haswell保持一致。
Scheduling Queues,传统意义上的RS,保留站。同样是乱序执行的关键部件,用来做指令调度。AMD采用了多个独立的保留站,每个保留站对应一个发射端,这与Intel是完全不同的。Intel使用一个统一的保留站,下辖多个发射端,乱序程度按道理来说是高于AMD的,但AMD在总entry数量上高出Haswell 24,具体谁更好,不容易评价。
Physical Register File,物理寄存器堆,168 entry与Haswell保持一致。PRF的设计与传统的基于回退寄存器堆的设计不同,传统回退寄存器堆需要两份寄存器堆来分别存放推测执行时的寄存器数据和实际架构中的寄存器数据,并且需要来回拷贝。而物理寄存器堆仅仅需要一份,当最终完成的时候仅仅需要改变对应寄存器的状态就可以了,并不需要拷贝,是一个高效的设计。基于这个设计,寄存器之间的数据拷贝也仅仅需要把物理寄存器堆中对应的部分改个名字就可以完成,节约了大量的能耗。AI两家的新架构中在同时期引入了这种设计(推土机和Sandy Bridge)。
执行单元,Zen使用了4ALU+2AGU的设计,一个乘法器,一个除法器。对应Intel Haswell使用了4ALU+3AGU的设计,很多人认为AMD少一个AGU对于内存操作会有比较大的影响,这实际是个误解,AMD的AGU实际应对的指令非常少。举个例子,ADD reg,mem 这条指令需要在Intel的处理器上占用一个ALU端口,一个读AGU端口;而在AMD的处理器上,只需要一个ALU端口,并不需要使用AGU。所以可以认为总体上整数执行单元与Intel是一致的。
8-Wide Retire,八宽度的指令回退,这里的8宽度是同步多线程模式下,总计的宽度,这个与Intel的处理器保持一致。
浮点单元
浮点单元是Zen架构中相对来说和Intel差异比较大的一点。Intel的浮点单元与整数单元公用一个保留站与数个指令发射端。整数指令可以从0156四个端口发射,浮点单元可以从,015四个端口发射,虽然端口利用率可以提高,但中间势必有一些冲突,导致性能下降。
接下来说点Zen的浮点单元细节
NSQ非调度队列,用于缓冲uops。SQ调度队列,也就是浮点的保留站,与整数方面不同,这是一个统一的保留站,可以带来相对更高的乱序调度性能,但具体大小未知。
寄存器堆同样是PRF式的,160 Entry比Haswell稍小8。
发射端有4个对应两个SIMD ADD两个SIMD MUL,每一个宽度只有128bit。可以通过拼接的模式执行256bit的SIMD,这也是AMD的传统了,K8就是如此,推土机也是如此。想要原生的256bit可能需要等Zen的改进版了。但
这么做也并非没有意义,他的灵活度远高于Intel,当前大多数程序为了兼容性问题,只用到标准的X64浮点运算,也就是SSE2,最大宽度只有128bit,这对于执行单元较多的ZEN的来说是非常合适的,举个例子ADDPS+MULPS的组合AMD可以单周期完成两组,而对于Intel来说执行单元虽然宽,但数量只有二,仅仅能跑一组,这种情况下ZEN的性能可以高出Intel一倍(同样适用于128bit及以下的AVX),即便在256bit的AVX情况下,也可以获得相同吞吐率,一点也不浪费。
然后说下FMA,FMA是融合乘加,需要ADD单元与MUL单元联合执行,128bit的话单周期可以跑两条FMA指令,Intel因为有两个独立的FMA单元,每周期也是两条。但256bit下ZEN需要四个执行单元同时拼接才能完成一条,相对于Intel的两条来说就慢了一倍。
AES单元,AMD引入的两个硬件AES单元,可以让AMD在AES方面的性能得到极大的提升,实际测试可以看到几乎高出对手一倍。
CCX
CPU COMPLEX是AMD设计的基本处理器单元,具有高度的可重用性。CCX由四个ZEN处理器核心与四片L3缓存构成。缓存的数据分散在各个片之间,是每个核心的访存延迟都大概一致。他们之间的互联方式使用Crossbar,在测试中CCX内有相当优秀的互联延迟,对手Intel使用Ringbus延迟稍高。
同步多线程
前面也提到过,指令级并行已经不是那么容易了,通常很难找到足够的不相关指令来并行,而ZEN架构是一个非常宽的超标量架构,这势必会造成相当程度的资源浪费,于是SMT就被顺理成章的引入了。SMT本质上是将线程级并行转换为指令级并行,通常两个线程之间,很难找到有相关性的指令,这个特性对于线程级并行再好不过了,从两个线程中提取指令来并行,几乎不会有什么冒险,这样就可以轻松的填上空闲的执行单元,虽然会有部分资源共享,导致单线程性能有所下降,但总体吞吐率肯定是上升的。
SMT的调度方式采用轮叫调度,也就是每周期切换,但可以通过指定优先级来改变这一点。具体的共享独享部分看图就好。
物理设计
这一代的ZEN采用AMD的女朋友GF的14nm LPP工艺制作。细节方面东西太多,我就不细说了,之前ISSCC上泄露出来的PPT上有很多。总结一下,在GF的14nm工艺落后于Intel的情况下,实现了更高的密度,更少的金属层,在频率上也勉强看得过去,节约了大量的成本。更高级电压侦测与控制,频率控制,降低了实际所需要的电压,为能耗比做出很大贡献。
架构总结
ZEN架构是AMD转向主流架构,也是我们最需要的架构的第一步。虽然还有很多地方不是很完美,比如浮点单元的宽度,L1D的带宽啥的。但不可否认,这次ZEN确实走上了正轨,一次性解决了大量之前的架构短板,突然之间就能直面Intel了,真是可喜可贺的。以上架构方面的东西仅仅代表我个人观点,也许会有很多错误,欢迎指正批评。
性能测试:
理论性能测试
主要指令延迟/吞吐率倒数(越低越好):
测试成绩来自AIDA64的InstlatX64(其中部分1700X AIDA64测出有问题指令例如ADD与128bit FMA为自测):
缓存延迟测试:
使用NewMemLat测试
总体来说1700X虽然比推土机的一系列架构上还有差距,但已经改善很多。另外来说Outstanding Cache miss的处理上,AMD的队列通常是大于Intel的,如果ZEN对此有延续的话,也不能完全说缓存就不如Intel。
实际测试
因为寡人比较懒,不想去拆显卡换来换去的,所以测试主要都集中在CPU负载上。游戏测试就不做了。原来的6700K作为对比。
测试平台配置如下:
CPU: 6700K默认
1700X默认
内存: 8G*2 Kinston DDR4 2133 OC 2400
16G*2G.Skill DDR4 3200 DC 2400
主板: GIGABYTE GA-Z170M-D3H
GIGABYTEGA-AX370-GAMING 5
显卡: XFX R9 NANO
测试结果:
PCMARK8
1700X
家庭应用
创作应用:
工作应用:
Office软件应用:
6700K:
PCMARK有多个测试场景,细节大家可以看图。需要注意的是6700k只有集成显卡,其中的游戏测试部分并没有参考价值。大体上在重负载的创作应用中,1700X展现出了无可比拟的优势。而轻负载的其他应用中6700K有反过来压倒1700X。但我个人认为重负载的测试更能反映实际的体验差别,因为轻负载的应用中,大部分都是仅仅消耗零点几秒,或者小几秒的应用,很难让人产生实际感官差别。
CineBench R15
1700X:
以上这两项测试中,1700X的单线程性能因为频率与架构的关系,都不如6700K。但在真正能够展示性能的多线程测试中,因为更多的核心数量与更高效的SMT技术大幅领先6700K。
NeroAAC转码测试
LambMP3转码测试
1700X:
在上面的两项音频转码测试中,1700X均大幅落后于6700K。转码中可以观察到,这两个软件并不能很好的利用多核心,6700K理应表现出优势。不过还好的是,这两个软件的工作速度都非常快,实际应用中并不会像视频转换一样,会花费太多时间,1700X的速度也可以接受。
X264转码测试
X264作为目前的主流H.264编码器,对于多核心以及新指令集优化非常好。这里可以看到在pass1中用不了太多的核心,6700K再次展现出抢眼的表现。而pass2中1700X的多核优势展现无遗,轻松碾压6700K。在总的时间对比上1800X也以6分30秒对8分钟领先于6700K。
HANDBRAKEH.265转码测试
1700X:
encoded 9601 frames in 215.49s (44.55 fps),2399.63 kb/s, Avg QP:28.60
6700K:
encoded 9601 frames in 227.53s (42.20 fps),2399.37 kb/s, Avg QP:28.62
两者成绩非常相近,伯仲之间。
7-Zip压缩性能测试
1700X:2分45秒
6700K:2分56秒
这里的测试使用7-zip压缩一个炉石传说的安装文件夹,因为解压缩的实际瓶颈实在磁盘上,所以并没有进行测试。最终结果,可能是受制于内存带宽,两者性能也在伯仲之间,1700X稍好。
DPC延迟测试
6700K平台可能得益于设备较少的原因,整体延迟非常优秀,甚至维持在100us以下。1700X延迟虽然高出不少,但也在优秀范围之内,并不会在实际使用中造成任何影响。
唯一值得注意的一点是,1700X目前在FMA3负载下还有严重的BUG,当两个FMA3负载线程被加载到同一个核心的两个逻辑核心上时,会导致DPC延迟爆表,音频爆音,鼠标卡顿,甚至死机,需要等待BIOS或者系统补丁修复。
Potplayer + LAV软解 H.265 10Bit HDR视频测试
可以看到1700X仅仅使用了40%的CPU就能全速,完全无卡顿的软解视频了,留出来的余量,可以用来跑跑高级的渲染器啥的,或者降低散热器噪音。而6700K这边,虽然不知道为什么,在选择同样的EVR.CP渲染器时,甚至无法输出画面,在属性中可以看到输出帧率也是非常低,完全无法正常播放,CPU占用率也达到了90+%。这项看起来是1700X完胜了。
磁盘性能简测:
这里只有1700X的测试,因为两个平台的磁盘不同,没有对比价值。第一个是NVME的600P,第二个是两块256G的850EVO Raid0。
总结一下
在高吞吐率负载上1700X具有较大的优势,通常这些负载也是耗费时间的主要来源。而轻度负载,上6700K通常表现更好,但这些应用通常并不怎么耗费时间,而且1700X表现也是在可以接受的范围内,所以总体考虑1700X绝对是更有价值的选择。
评分
参与人数
2
金币
+199
收起
理由
Zhao_Chenxi
+ 100
赞一个!
冶天
+ 99
查看全部评分
回复
举报
返回列表
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
快速回复
返回顶部
返回列表