转个AMD和英特尔近年来架构演变的历史

红色曙光 · 发表于 2015-6-23 09:00:48

马上注册加入红色小队，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有帐号？立即注册

x

转自 http://www.icannian.com/?p=750

想了解CPU架构演变的同学来学习下。

第一颗X86处理器是intel1978年发布的8086，8MHz版本性能约0.8MIPs，为了方便大家了解 E3 1230 V2大约13w DMIPS也就是单核9DIPC（这是Dhrystone测试结果，按理论设计的话差不多5IPC）,而8086则是0.1IPC，当然性能由于各种因素，比如无法达到这么高的指令级并行，肯定要低于这些数据的。（由于Dhrystone对超标量，流水线貌似有很大加分,于是最好不要直接比较啦。）

80186中提升频率并加入更多微码（改善指令所需时钟数）提升性能。

80286，引入pipeline，提升了性能，使IPC比80806提高一倍，AMD还进一步提高了频率。　

80386，引入32位架构，i386开端。

80486，支持SRAM缓存，流水线更加紧凑，集成FPU，改进内存管理，加入一些新的指令原子操作。多嘴说句，386和这货在2007年才停止生产。

AMD于1982年得到授权也开始制造8086处理器了，在486（含）之前AMD通过逆向（山寨）intel产品，然后用更低的价格出售。所以其实也没啥很厉害的提升。还有别的以后不玩了的或者像VIA那样不在PC上玩的厂商也就不提了。

80586/奔腾，第一代超标量（最早在Seymour Cray CDC 6600中使用）X86处理器，2pipelines，允许指令级并行。数据总线扩展为64bit，代码缓存和数据缓存分离，超流水线FPU，四输入加法器，减少寻址时间，硬件乘法器。引入RISC设计，不再是纯CISC。Larrabee或者说是Knights其实也是堆586。

K5，在29000基础上改进而来，通过分支预测提高管线性能，并加入投机执行和寄存器重命名。

Pentium Pro ，使用指令池的12级流水线，加入二级缓存为有利于乱序执行，投机执行和寄存器重命名。还有不太重要的PAE。4-1-1格局。主要影响了除了P4和PD之外的产品。

Pentium MMX，引入MMX SIMD。

K6（1.2.3）加入 MMX和3D Now! SIMD。

Pentium 2，三发射，消费级产品，把L2分离出来。

Pentium 3 三发射卡特迈，加入SSE，改进缓存控制，L2回归处理器。

Pentium 3铜矿，改善管线延迟。

Pentium 3图拉丁，试验品，但是较短的管线比奔四同频有优势。

K7 Athlon ，三发射，融合21264设计，加入DDR，改进分支预测，使长管线的效率提高，增强超级流水线浮点运算单元（AMD贱贱的锁定频率，不过于是有了经典的金手指）。随后的雷鸟使用了铜互连技术。

Pentium 4 Willamette，PD和P4都是Netburst架构（同时期P6仍在发展Banias-dothan-yonah），三发射，使用前端总线，超长流水线，增加一级追踪缓存，增加SSE2，快速执行引擎（ALU通过双泵浦达到双倍速率）。

Northwood，引入HT，提高核心利用率。

Athlon XP Palomino，改进转译后备缓冲器和预读机制。

Athlon XPThoroughbred ，改进工艺。巴顿是K7的极限了。

Prescott，31级管线，更高的频率，改进分支预测器，加入SSE3，部分加入EMT64。

K8 Athlon 64，宏内核支持AMD64和SSE3，使用SOI工艺，使用HT总线，将内存控制器放到核心上。（后来版本支持双通道）

PD与P4差距不大。

A64X2 加入SSE4A。K8L本来打算出四发射的结果死掉了。

Yonah（Core），奔三的延续，较短的流水线，单一总线控制，仍是三发射。不过指令所要时钟降了很多。

Core 2 (Merom之后)Core架构，四发射（四路超标量），四解码器（三简单一复杂），四微操作发送，七路乱序执行，大乱序缓冲区，集中式保留，三调度口，三整数单元（二简单一复杂），乘除加减分离的双浮点单元，改进SSE，加入宏融合和微融合，更强的乱序执行能力更大的指令Throughout和更短的指令Latency。

K10 Phenom，512路的间接分支预测与更大的回归堆栈与分支目标缓冲，改善部分指令时间与延迟，提高取指令能力，改进浮点单元，SSE执行单元宽度加倍到128bit，共享L3。

Phenom2，增加三缓并改进缓存延迟，解决TLB，内存控制等bug。

Core i一代，Nehalem架构，QPI总线，增强乱序执行，增加 TLB，增加宏融合指令，加入睿频，HT回归，整合内存控制器,加入L3。

Core i SNB，环形联通架构，DMI总线，加入译码微操作高速缓存（L0），全新分支预测，加入乱序群集，加入AVX AES等SIMD，加入Anaphase逆向超线程技术），投机加速。

推土机/压路机，加入AVX FMA4 XOP等SIMD，加入硬件除法器（压路机）。单模块四发射，优化效率，对于每核心“二发射”拥有不错的IPC，每核心4个整数计算管线，但是浮点单元两个核心共享一个。

Core i IVYBridge，改进工艺，改进了I/A核心和ISA指令集，使用3D晶体管。

Core i Haswell，比前代多了两个分派端口，每时钟可多执行两个操作加入AVX2 FMA3等SIMD（乱序窗口从Nehalem的128个扩展到192个，差不多只是在增强CPU的指令级并行能力，指令延迟啥的变化不大）。

现在就看ZEN了。

happy伟编 · 发表于 2015-6-23 20:20:03

希望zen的性能有很大进步，话说zen很快就出了吧？

LOMO · 发表于 2015-6-23 20:27:58

噗，这篇文章是我瞎编的……

求秒帝 · 发表于 2015-6-23 22:44:30

k10的瓶颈在于解码虽然可以单周期用vector path解码出最多6条macro ops
但是retire每周期最多只能由3条macro ops

我不是啊牛 · 发表于 2015-6-24 10:50:34

期待ZEN的到来

Realize丶Beater · 发表于 2015-6-24 13:43:53

不明觉厉

拜占廷查士丁尼 · 发表于 2015-6-27 23:17:51

楼主是秋刀鱼吗？

帐号		自动登录	找回密码
密码			立即注册

[内存] 转个AMD和英特尔近年来架构演变的历史

马上注册加入红色小队，结交更多好友，享用更多功能，让你轻松玩转社区。

评分