Red Team 红色小队论坛

 找回密码
 立即注册
查看: 2035|回复: 12

AMD图形卡和计算卡不分的想法

  [复制链接]

79

主题

816

帖子

1万

积分

Polaris

Rank: 14Rank: 14Rank: 14Rank: 14

精华
0
金币
13841
经验
10
贡献
0
发表于 2015-7-13 19:41:49 | 显示全部楼层 |阅读模式

马上注册加入红色小队,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
本帖最后由 z23wen 于 2015-7-13 19:47 编辑

话说AMD图形架构变成了GCN,突然从5D,4D变成了1D架构。
再仔细看GCN架构,AMD对GCN架构的定义为“Non-VLIW ISA With Scalar+Vector Unint”---使用标量&矢量单元的非VLIW体系;
1个GCN即所谓的CU,包含4个SIMD,包含64个ALU,对于ALU,也就相当1个SP.
4D架构的6970(1536SP,核心频率880),384个统一处理器,26.4亿晶体管;
1D架构的7970(2048SP,核心频率925),32个CU,45亿晶体管;
3DMAR11,7970=7924,6970=5449,
7924/925=8.566
5449/880=6.192
这样算起来7970每MHZ的性能比6970的每MHZ性能高不了多少,估算值38.34%,如果是每SP每MHZ的性能提升仅有3.4%;
但是7970可是用45亿晶体管,而6970却只用26.4亿晶体管,足足多了18.6亿晶体管,足足增加了70.45%。
而性能却仅仅提升了38.34。
当然了GCN是一个即能图形又能计算的架构;

我认为作为一个通用处理器既要兼顾计算,又要兼顾图形,势必要更多的晶体管,估计需要增加20-30%的晶体管。
然后再看NV,游戏卡就是游戏卡,计算卡就是计算卡,所以更少的晶体管,更低的功耗,就能实现同样的性能;
我们再从GTX 980跟R9 390X的对比,980仅仅52亿晶体管,390X却有62亿晶体管,390X晶体管数量多19%,R9 390X性能却比GTX 980弱不少。
如果AMD 用4D架构的思路专做游戏卡,那么达到390X的性能,却只需要43-50亿晶体管,而且功耗还能降低20%-30%,这样的功耗和性能,AMD现在的市场会萎缩的这么厉害吗?
而NV却会把图形卡和计算卡完全的分开来,AMD既要兼顾图形又要兼顾计算,所以我觉得,AMD现在两头都没讨好,AMD和NV两家的计算卡比例,估计90%都是NV的了,而游戏卡市场70%以上都是NV的。
这是一个讲究性能、功耗、售价的综合年代,不是讲究个头大小。
像AMD这样设计思路,虽然理论性能非常高,但是实际性能却很低,这不排除驱动和软件优化原因。
我觉得,AMD应该改改思路,专用的肯定比通用的效能更高。
好比专用的光线追踪卡,只要十几瓦的功耗,就能比你两三百瓦功耗的显卡要强的多。
显卡,可以添加计算功能,但是游戏卡也不需要那么强大的计算,而是需要强大的图形计算。
GTX980就是一个很好的例子。


3330

主题

1万

帖子

14万

积分

特邀嘉宾

{[(A家A友)]}:功归功,过归过.尘归尘,土归土.

Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20

精华
0
金币
116075
经验
10
贡献
32
发表于 2015-7-13 19:58:49 | 显示全部楼层
本帖最后由 冶天 于 2015-7-13 20:28 编辑

ALU可以做很多事 只是太超前了 需要以通用计算调度的为配合CPU和GPU相接 不清楚主机是否使用 据索尼设计师说如果使用别的 就不用SP 如果想发挥 就的想办法利用 自然也就不需要额外 完全是CPU GPU 或者现在暴利提高传输的工艺物理 减少开发周期 也就推迟 GPU内部分配和单核多核的各自为战的牵引调度可能是有限的 木桶原理 层级智能 是很繁杂的 其实构思和生产出来都不长 不可能软件先走 二次开发都很保守的 还需要编译器 晶体管电路合作

1

主题

9

帖子

3002

积分

R520

Rank: 5Rank: 5

精华
0
金币
883
经验
10
贡献
41
发表于 2015-7-14 10:15:00 | 显示全部楼层
Fiji已经更新了,虽然规模上升到了4096个SP,但是DP性能是削减了的,不然功耗也不会下降那么多

79

主题

816

帖子

1万

积分

Polaris

Rank: 14Rank: 14Rank: 14Rank: 14

精华
0
金币
13841
经验
10
贡献
0
 楼主| 发表于 2015-7-14 10:35:35 | 显示全部楼层
没觉得啊,FIJI增加了43%晶体管,增加了45%的SP,但是ROPS数量并没有增加,所以SP数量的增加跟晶体管数量的增加比例大致是差不多的。
至于功耗的降低,有很大原因是采用了HBM显存,另外更新的步进也是可以降低功耗的。
至于GCN架构的双精度,跟NV的双精度实现方法不一样,所以FURY X的双精度是基本没开启,而不是没有,至少在显卡的BIOS里面是关闭了大部分的。而且FURY 发布的时候也根本不提双精度了。
葵花在手,啊哈哈哈哈哈哈!
江山我有,啊哈哈哈哈哈哈!

3330

主题

1万

帖子

14万

积分

特邀嘉宾

{[(A家A友)]}:功归功,过归过.尘归尘,土归土.

Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20

精华
0
金币
116075
经验
10
贡献
32
发表于 2015-7-14 11:00:11 | 显示全部楼层
本帖最后由 冶天 于 2015-7-14 11:23 编辑

可能有意识的放缓了光栅 斐济增加那么多 有一部分不属于内核 缓存又有所增加 更为固化本地 如果联动的全局 又可以降低开销的 指令数量测试不能不当回事 但是提前了 那么多SP ALU SIMD 可以作为同步异步分配物理内核的线程 分配是内存 显存的外围 又需要CPU 总线 地址映射 相互的HQ 原理可以 但是构造还需要时日 各有方法 转换市场小A确实较慢 是整个行业的问题 尽量不要算哪些参数 那是思路之后符合市场和衡量的呈现 而不是定位构思和仿真的解决问题 容易当局者迷 隔壁的预研发高一些 每次出都是逐步推到市场的 想问题解决问题从求真求实出发 也不要套用 两家方式不一样 市场谁硬谁说话 难免有一些没有办法的妥协要维持 又不能丢自己的 小A的设计师应该也都活分 也憔悴 都急也只是急 翻身要有用户群和源源不断的收支 位宽可以分散压力 但是各个区域需要对应调度 沟通 办公室和车间 需要很多符合的东西 反正参考国家城市涵盖千千万万的细节才能运转 芯片可以当作微缩理解

3330

主题

1万

帖子

14万

积分

特邀嘉宾

{[(A家A友)]}:功归功,过归过.尘归尘,土归土.

Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20

精华
0
金币
116075
经验
10
贡献
32
发表于 2015-7-14 11:42:04 | 显示全部楼层
本帖最后由 冶天 于 2015-7-14 11:56 编辑

图形性能不是唯一 单精度也不是不能用 如何成为SP计算的内容之一 要整合 调取 分配的七七八八太多 硬件配软件 软件要入硬件 还要左右内外上下 看得见看不见 每个区域统筹协调

3330

主题

1万

帖子

14万

积分

特邀嘉宾

{[(A家A友)]}:功归功,过归过.尘归尘,土归土.

Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20

精华
0
金币
116075
经验
10
贡献
32
发表于 2015-7-14 12:07:26 | 显示全部楼层
本帖最后由 冶天 于 2015-7-14 12:43 编辑

用解码器的互相作用或许是可以代替总线和功能单元的 但是太庞大和管理能力 时钟频率发生器 电源管理 能量控制 应该是解码器和各个存储融合的新状态的总线@Radeon @幽幽子

75

主题

843

帖子

3万

积分

AMD工作人员

一般晚上在线...

Rank: 32Rank: 32Rank: 32Rank: 32Rank: 32Rank: 32Rank: 32Rank: 32

精华
2
金币
15947
经验
100
贡献
200
发表于 2015-7-14 15:04:46 | 显示全部楼层
冶天 发表于 2015-7-14 12:07
用解码器的互相作用或许是可以代替总线和功能单元的 但是太庞大和管理能力 时钟频率发生器 电源管理 能量控 ...

完全没看懂你的意思。。

3330

主题

1万

帖子

14万

积分

特邀嘉宾

{[(A家A友)]}:功归功,过归过.尘归尘,土归土.

Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20

精华
0
金币
116075
经验
10
贡献
32
发表于 2015-7-14 15:10:55 | 显示全部楼层
本帖最后由 冶天 于 2015-7-14 15:23 编辑
Radeon 发表于 2015-7-14 15:04
完全没看懂你的意思。。

用ALU和缓存 寄存器融合 不同的分配 相当于数据不需要常规连接总线 ALU通用协调可以起到增强数据流动的作用 数据融于计算单元的加速形式 各司其职 又相互沟通 分配走位信息 类似人挨着人的接力传递 各种方向 更好的智能化 有观察 通知 判断 暂留 引导 能量加速推送传输的内容 估计一时半会实现不了 还是需要和CPU和周边的改进才能更好的乱序 使用ALU加速到缓存 寄存器 HBM 再交给ALU计算 分配是学问

45

主题

341

帖子

1万

积分

铁杆A饭

A饭市市长

Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20

精华
1
金币
8000
经验
10
贡献
64
发表于 2015-7-14 17:36:32 | 显示全部楼层
专业卡游戏卡那家都分啊。fiji双精也就1/16啊

45

主题

341

帖子

1万

积分

铁杆A饭

A饭市市长

Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20

精华
1
金币
8000
经验
10
贡献
64
发表于 2015-7-14 17:37:03 | 显示全部楼层
nv专业卡一样也是开普勒 麦克斯韦啊

3330

主题

1万

帖子

14万

积分

特邀嘉宾

{[(A家A友)]}:功归功,过归过.尘归尘,土归土.

Rank: 20Rank: 20Rank: 20Rank: 20Rank: 20

精华
0
金币
116075
经验
10
贡献
32
发表于 2015-7-14 17:49:26 | 显示全部楼层
本帖最后由 冶天 于 2015-7-14 18:50 编辑
拜占廷查士丁尼 发表于 2015-7-14 17:37
nv专业卡一样也是开普勒 麦克斯韦啊

内部架构有一定区别 特别是专用的CUDA GPGPU 通用计算 双精度 还有SFU 计算卡 所以根据架构是可以减少不必要的民用模块 但是架构图和数据 又都是原始版 没有之后细分 就看小A是软控制还是硬控制了 或者减少单元 物理去掉 或者不达标的 CPU可以帮助GPU GCN 显存可以获得桥帮助 内核传给HBM或者GDDR5 双精度到解码器 两家架构概念的诠释都有自己的风格 CUDA有生态有更高频率计算完成 GCN还是一体化联动分配 之前是融合 现在HSA/1.0 估计以后要看ZEN

2

主题

54

帖子

3533

积分

R520

Rank: 5Rank: 5

精华
0
金币
3029
经验
10
贡献
0
发表于 2015-7-15 16:53:56 | 显示全部楼层
很不喜欢AMD学NV砍双精    希望以后别再学驱动负优化。。。。。
CPU:9590
散热:9590自带水冷
主板:话说败家国度C5F-Z
内存:咪西啃DDR3 2207 32G
显卡:西施公版290X CF
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

快速回复 返回顶部 返回列表