Red Team 红色小队论坛

 找回密码
 立即注册
查看: 3059|回复: 6

[内存] 转个AMD和英特尔近年来架构演变的历史

  [复制链接]

6

主题

33

帖子

1903

积分

R420

Rank: 3Rank: 3

精华
0
金币
1360
经验
10
贡献
1
发表于 2015-6-23 09:00:48 | 显示全部楼层 |阅读模式

马上注册加入红色小队,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
转自 http://www.icannian.com/?p=750

想了解CPU架构演变的同学来学习下。


第一颗X86处理器是intel1978年发布的8086,8MHz版本性能约0.8MIPs,为了方便大家了解 E3 1230 V2大约13w DMIPS也就是单核9DIPC(这是Dhrystone测试结果,按理论设计的话差不多5IPC),而8086则是0.1IPC,当然性能由于各种因素,比如无法达到这么高的指令级并行,肯定要低于这些数据的。(由于Dhrystone对超标量,流水线貌似有很大加分,于是最好不要直接比较啦。)

80186中提升频率并加入更多微码(改善指令所需时钟数)提升性能。

80286,引入pipeline,提升了性能,使IPC比80806提高一倍,AMD还进一步提高了频率。 

80386,引入32位架构,i386开端。

80486,支持SRAM缓存,流水线更加紧凑,集成FPU,改进内存管理,加入一些新的指令原子操作。多嘴说句,386和这货在2007年才停止生产。

AMD于1982年得到授权也开始制造8086处理器了,在486(含)之前AMD通过逆向(山寨)intel产品,然后用更低的价格出售。所以其实也没啥很厉害的提升。还有别的以后不玩了的或者像VIA那样不在PC上玩的厂商也就不提了。

80586/奔腾,第一代超标量(最早在Seymour Cray CDC 6600中使用)X86处理器,2pipelines,允许指令级并行。数据总线扩展为64bit,代码缓存和数据缓存分离,超流水线FPU,四输入加法器,减少寻址时间,硬件乘法器。引入RISC设计,不再是纯CISC。Larrabee或者说是Knights其实也是堆586。

K5,在29000基础上改进而来,通过分支预测提高管线性能,并加入投机执行和寄存器重命名。

Pentium Pro ,使用指令池的12级流水线,加入二级缓存为有利于乱序执行,投机执行和寄存器重命名。还有不太重要的PAE。4-1-1格局。主要影响了除了P4和PD之外的产品。

Pentium MMX,引入MMX SIMD。

K6(1.2.3)加入 MMX和3D Now! SIMD。

Pentium 2,三发射,消费级产品,把L2分离出来。

Pentium 3 三发射 卡特迈,加入SSE,改进缓存控制,L2回归处理器。

Pentium 3铜矿,改善管线延迟。

Pentium 3图拉丁,试验品,但是较短的管线比奔四同频有优势。

K7 Athlon ,三发射,融合21264设计,加入DDR,改进分支预测,使长管线的效率提高,增强超级流水线浮点运算单元(AMD贱贱的锁定频率,不过于是有了经典的金手指)。随后的雷鸟使用了铜互连技术。

Pentium 4 Willamette,PD和P4都是Netburst架构(同时期P6仍在发展Banias-dothan-yonah),三发射,使用前端总线,超长流水线,增加一级追踪缓存,增加SSE2,快速执行引擎(ALU通过双泵浦达到双倍速率)。

Northwood,引入HT,提高核心利用率。

Athlon XP Palomino,改进转译后备缓冲器和预读机制。

Athlon XPThoroughbred ,改进工艺。 巴顿是K7的极限了。

Prescott,31级管线,更高的频率,改进分支预测器,加入SSE3,部分加入EMT64。

K8 Athlon 64,宏内核 支持AMD64和SSE3, 使用SOI工艺,使用HT总线,将内存控制器放到核心上。(后来版本支持双通道)

PD与P4差距不大。

A64X2 加入SSE4A。K8L本来打算出四发射的结果死掉了。

Yonah(Core),奔三的延续,较短的流水线,单一总线控制,仍是三发射。不过指令所要时钟降了很多。

Core 2 (Merom之后)Core架构,四发射(四路超标量),四解码器(三简单一复杂),四微操作发送,七路乱序执行,大乱序缓冲区,集中式保留,三调度口,三整数单元(二简单一复杂),乘除加减分离的双浮点单元,改进SSE,加入宏融合和微融合,更强的乱序执行能力更大的指令Throughout和更短的指令Latency。

K10 Phenom,512路的间接分支预测与更大的回归堆栈与分支目标缓冲,改善部分指令时间与延迟,提高取指令能力,改进浮点单元,SSE执行单元宽度加倍到128bit,共享L3。

Phenom2,增加三缓并改进缓存延迟,解决TLB,内存控制等bug。

Core i一代,Nehalem架构,QPI总线,增强乱序执行,增加 TLB,增加宏融合指令,加入睿频,HT回归,整合内存控制器,加入L3。

Core i SNB,环形联通架构,DMI总线,加入译码微操作高速缓存(L0),全新分支预测,加入乱序群集,加入AVX AES等SIMD,加入Anaphase逆向超线程技术),投机加速。

推土机/压路机,加入AVX FMA4 XOP等SIMD,加入硬件除法器(压路机)。单模块四发射,优化效率,对于每核心“二发射”拥有不错的IPC,每核心4个整数计算管线,但是浮点单元两个核心共享一个。

Core i IVYBridge,改进工艺,改进了I/A核心和ISA指令集,使用3D晶体管。

Core i Haswell,比前代多了两个分派端口,每时钟可多执行两个操作加入AVX2 FMA3等SIMD(乱序窗口从Nehalem的128个扩展到192个,差不多只是在增强CPU的指令级并行能力,指令延迟啥的变化不大)。





现在就看ZEN了。





历代处理器架构改进附录.jpg

评分

参与人数 2金币 +25 贡献 +1 收起 理由
拜占廷查士丁尼 + 20
Radeon + 5 + 1

查看全部评分

0

主题

1

帖子

32

积分

R100

Rank: 2

精华
0
金币
21
经验
10
贡献
0
发表于 2015-6-23 20:20:03 | 显示全部楼层
希望zen的性能有很大进步,话说zen很快就出了吧?

2

主题

9

帖子

931

积分

R300

Rank: 3Rank: 3

精华
0
金币
342
经验
10
贡献
10
发表于 2015-6-23 20:27:58 | 显示全部楼层
噗,这篇文章是我瞎编的……

2

主题

11

帖子

1780

积分

R420

Rank: 3Rank: 3

精华
0
金币
1519
经验
10
贡献
0
发表于 2015-6-23 22:44:30 | 显示全部楼层
k10的瓶颈在于 解码虽然可以单周期用vector path解码出最多6条macro ops
但是retire每周期最多只能由3条macro ops

2

主题

33

帖子

1145

积分

R420

Rank: 3Rank: 3

精华
0
金币
442
经验
10
贡献
11
发表于 2015-6-24 10:50:34 | 显示全部楼层
期待ZEN的到来

0

主题

5

帖子

110

积分

R100

Rank: 2

精华
0
金币
85
经验
10
贡献
0
发表于 2015-6-24 13:43:53 来自手机 | 显示全部楼层
不明觉厉

45

主题

341

帖子

1万

积分

铁杆A饭

A饭市市长

Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20

精华
1
金币
8000
经验
10
贡献
64
发表于 2015-6-27 23:17:51 | 显示全部楼层
楼主是秋刀鱼吗?
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表