AMD图形卡和计算卡不分的想法

z23wen · 发表于 2015-7-13 19:41:49

马上注册加入红色小队，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有帐号？立即注册

x

本帖最后由 z23wen 于 2015-7-13 19:47 编辑

话说AMD图形架构变成了GCN,突然从5D,4D变成了1D架构。
再仔细看GCN架构，AMD对GCN架构的定义为“Non-VLIW ISA With Scalar+Vector Unint”---使用标量&矢量单元的非VLIW体系；
1个GCN即所谓的CU,包含4个SIMD,包含64个ALU,对于ALU，也就相当1个SP.
4D架构的6970（1536SP，核心频率880），384个统一处理器，26.4亿晶体管；
1D架构的7970（2048SP，核心频率925），32个CU,45亿晶体管；
3DMAR11,7970=7924，6970=5449，
7924/925=8.566
5449/880=6.192
这样算起来7970每MHZ的性能比6970的每MHZ性能高不了多少，估算值38.34%，如果是每SP每MHZ的性能提升仅有3.4%；
但是7970可是用45亿晶体管，而6970却只用26.4亿晶体管，足足多了18.6亿晶体管，足足增加了70.45%。
而性能却仅仅提升了38.34。
当然了GCN是一个即能图形又能计算的架构；

我认为作为一个通用处理器既要兼顾计算，又要兼顾图形，势必要更多的晶体管，估计需要增加20-30%的晶体管。
然后再看NV，游戏卡就是游戏卡，计算卡就是计算卡，所以更少的晶体管，更低的功耗，就能实现同样的性能；
我们再从GTX 980跟R9 390X的对比，980仅仅52亿晶体管，390X却有62亿晶体管，390X晶体管数量多19%,R9 390X性能却比GTX 980弱不少。
如果AMD 用4D架构的思路专做游戏卡，那么达到390X的性能，却只需要43-50亿晶体管，而且功耗还能降低20%-30%，这样的功耗和性能，AMD现在的市场会萎缩的这么厉害吗？
而NV却会把图形卡和计算卡完全的分开来，AMD既要兼顾图形又要兼顾计算，所以我觉得，AMD现在两头都没讨好，AMD和NV两家的计算卡比例，估计90%都是NV的了，而游戏卡市场70%以上都是NV的。
这是一个讲究性能、功耗、售价的综合年代，不是讲究个头大小。
像AMD这样设计思路，虽然理论性能非常高，但是实际性能却很低，这不排除驱动和软件优化原因。
我觉得，AMD应该改改思路，专用的肯定比通用的效能更高。
好比专用的光线追踪卡,只要十几瓦的功耗，就能比你两三百瓦功耗的显卡要强的多。
显卡，可以添加计算功能，但是游戏卡也不需要那么强大的计算，而是需要强大的图形计算。
GTX980就是一个很好的例子。

冶天 · 发表于 2015-7-13 19:58:49

本帖最后由冶天于 2015-7-13 20:28 编辑

ALU可以做很多事只是太超前了需要以通用计算调度的为配合CPU和GPU相接不清楚主机是否使用据索尼设计师说如果使用别的就不用SP 如果想发挥就的想办法利用自然也就不需要额外完全是CPU GPU 或者现在暴利提高传输的工艺物理减少开发周期也就推迟 GPU内部分配和单核多核的各自为战的牵引调度可能是有限的木桶原理层级智能是很繁杂的其实构思和生产出来都不长不可能软件先走二次开发都很保守的还需要编译器晶体管电路合作

看不下去只好匿 · 发表于 2015-7-14 10:15:00

Fiji已经更新了，虽然规模上升到了4096个SP，但是DP性能是削减了的，不然功耗也不会下降那么多

z23wen · 发表于 2015-7-14 10:35:35

没觉得啊，FIJI增加了43%晶体管,增加了45%的SP,但是ROPS数量并没有增加，所以SP数量的增加跟晶体管数量的增加比例大致是差不多的。
至于功耗的降低，有很大原因是采用了HBM显存，另外更新的步进也是可以降低功耗的。
至于GCN架构的双精度，跟NV的双精度实现方法不一样，所以FURY X的双精度是基本没开启，而不是没有，至少在显卡的BIOS里面是关闭了大部分的。而且FURY 发布的时候也根本不提双精度了。

冶天 · 发表于 2015-7-14 11:00:11

本帖最后由冶天于 2015-7-14 11:23 编辑

可能有意识的放缓了光栅斐济增加那么多有一部分不属于内核缓存又有所增加更为固化本地如果联动的全局又可以降低开销的指令数量测试不能不当回事但是提前了那么多SP ALU SIMD 可以作为同步异步分配物理内核的线程分配是内存显存的外围又需要CPU 总线地址映射相互的HQ 原理可以但是构造还需要时日各有方法转换市场小A确实较慢是整个行业的问题尽量不要算哪些参数那是思路之后符合市场和衡量的呈现而不是定位构思和仿真的解决问题容易当局者迷隔壁的预研发高一些每次出都是逐步推到市场的想问题解决问题从求真求实出发也不要套用两家方式不一样市场谁硬谁说话难免有一些没有办法的妥协要维持又不能丢自己的小A的设计师应该也都活分也憔悴都急也只是急翻身要有用户群和源源不断的收支位宽可以分散压力但是各个区域需要对应调度沟通办公室和车间需要很多符合的东西反正参考国家城市涵盖千千万万的细节才能运转芯片可以当作微缩理解

冶天 · 发表于 2015-7-14 11:42:04

本帖最后由冶天于 2015-7-14 11:56 编辑

图形性能不是唯一单精度也不是不能用如何成为SP计算的内容之一要整合调取分配的七七八八太多硬件配软件软件要入硬件还要左右内外上下看得见看不见每个区域统筹协调

冶天 · 发表于 2015-7-14 12:07:26

本帖最后由冶天于 2015-7-14 12:43 编辑

用解码器的互相作用或许是可以代替总线和功能单元的但是太庞大和管理能力时钟频率发生器电源管理能量控制应该是解码器和各个存储融合的新状态的总线@Radeon @幽幽子

Radeon · 发表于 2015-7-14 15:04:46

冶天发表于 2015-7-14 12:07
用解码器的互相作用或许是可以代替总线和功能单元的但是太庞大和管理能力时钟频率发生器电源管理能量控 ...

完全没看懂你的意思。。

冶天 · 发表于 2015-7-14 15:10:55

本帖最后由冶天于 2015-7-14 15:23 编辑

Radeon 发表于 2015-7-14 15:04
完全没看懂你的意思。。

用ALU和缓存寄存器融合不同的分配相当于数据不需要常规连接总线 ALU通用协调可以起到增强数据流动的作用数据融于计算单元的加速形式各司其职又相互沟通分配走位信息类似人挨着人的接力传递各种方向更好的智能化有观察通知判断暂留引导能量加速推送传输的内容估计一时半会实现不了还是需要和CPU和周边的改进才能更好的乱序使用ALU加速到缓存寄存器 HBM 再交给ALU计算分配是学问

拜占廷查士丁尼 · 发表于 2015-7-14 17:36:32

专业卡游戏卡那家都分啊。fiji双精也就1/16啊

拜占廷查士丁尼 · 发表于 2015-7-14 17:37:03

nv专业卡一样也是开普勒麦克斯韦啊

冶天 · 发表于 2015-7-14 17:49:26

本帖最后由冶天于 2015-7-14 18:50 编辑

拜占廷查士丁尼发表于 2015-7-14 17:37
nv专业卡一样也是开普勒麦克斯韦啊

内部架构有一定区别特别是专用的CUDA GPGPU 通用计算双精度还有SFU 计算卡所以根据架构是可以减少不必要的民用模块但是架构图和数据又都是原始版没有之后细分就看小A是软控制还是硬控制了或者减少单元物理去掉或者不达标的 CPU可以帮助GPU GCN 显存可以获得桥帮助内核传给HBM或者GDDR5 双精度到解码器两家架构概念的诠释都有自己的风格 CUDA有生态有更高频率计算完成 GCN还是一体化联动分配之前是融合现在HSA/1.0 估计以后要看ZEN

ALUCARD · 发表于 2015-7-15 16:53:56

很不喜欢AMD学NV砍双精希望以后别再学驱动负优化。。。。。

帐号		自动登录	找回密码
密码			立即注册