POPPUR爱换

标题: PCINLIFE 原创：AMD RADEON HD 7970 技术全析 [打印本页]

作者: Edison 时间: 2011-12-22 07:07
标题: PCINLIFE 原创：AMD RADEON HD 7970 技术全析

前言
Tahiti 的体系架构
GNC Compute Unit
Tahiti 的高速缓存层次
Tahiti 的 ROP、纹理单元及内存控制器
Tahiti 的 Tessellator
通用计算性能有何提升？
GCN 和 Partially Resident Textures
Tahiti 的电力控制
VCE 视频编码技术
AMD Steady Video 2.0
Eyefinity 2.0 与 DDMA
RADEON HD 7970/7950 规格与大图

若转载的话，请注明原文链接为：http://pc.pcinlife.com/Graphics/20111222/Amd-Radeon-HD-7970.html，承蒙赏析。

作者: kevinkt 时间: 2011-12-22 07:25
感謝分享
支持一下

作者: 66666 时间: 2011-12-22 07:36
感谢CHO技术大作

作者: cgx0606 时间: 2011-12-22 07:58
支持，辛苦了

作者: GTX999 时间: 2011-12-22 08:09
占位看。哈哈

作者: ak75 时间: 2011-12-22 08:30
感觉7970和7950差距太小了， 58和69都至少在20%左右

不过3g显存很吓人的说

作者: ioia 时间: 2011-12-22 08:32
提示: 作者被禁止或删除内容自动屏蔽

作者: gz_easy 时间: 2011-12-22 08:32
前排强力插入...

作者: disruptor 时间: 2011-12-22 09:09
这里的向量单元和之前的simd有多大区别呢？是不是和cuda core里面的fp unit类似，两者吞吐量和数据形式有木有区别？另外整数单元和cuda core里面的整数单元功能是不是类似？cuda core里面有木有那两个纹理模块？gcn架构比fermi的架构先进在哪里，还是说两者基本是类似的

作者: vista@xp 时间: 2011-12-22 09:17

感谢分享，静等实物

作者: jackyangel 时间: 2011-12-22 09:18
只关心实际性能了

作者: nanika 时间: 2011-12-22 09:51
好文。帮顶！！

作者: mooncocoon 时间: 2011-12-22 10:02
对于ALU集群和资源层面的改动，我只想说两个字——精彩

AMD终于开始面对现实，拿出勇气来修正错误了~
只要肯做就是好样的！

作者: fn109 时间: 2011-12-22 10:48
提示: 作者被禁止或删除内容自动屏蔽

作者: solidusmic 时间: 2011-12-22 10:50
本帖最后由 solidusmic 于 2011-12-22 10:54 编辑

性能技术都是扯淡
价格才是关键

花多少钱,能得到多少性能

这才是我们普通消费者关心的东西

你搞到个5850x2的性能，换了张皮，抹点厚底大宝霜.
定个四千五千的价格
就为了省那点电费？
有毛实际意义。

作者: xiaolongzi 时间: 2011-12-22 11:03
支持了~~~~

作者: 左脚选手 时间: 2011-12-22 11:05

solidusmic 发表于 2011-12-22 10:50
性能技术都是扯淡
价格才是关键

性能目前看爆料对580的优势也没当初5870对280这么大，首发价格还这么高，这次真T.M.D.不HD。

作者: disruptor 时间: 2011-12-22 11:25
哦，大概明白了。
我感觉和gf100主要的区别是1：16个simd打包成一组，每组分配一个64kBYTE的向量寄存器外加4kBYTE的标量寄存器（这个ms fermi的sm里是一组32k 32bit的无差别的寄存器）寄存器大小差不多但是一个是8bit一个32bit，不知道有什么影响。
2另外shared memory和l1是固定不可变的，和fermi中不太一样。
3线程数量也不太一样，fermi貌似在gt200以后精简了线程调度。
4gcn里比sm里多了一个scaler unit。不知道他的simd里有没有整数单元，而fermi的cuda core里都有alu，整数运算量上两者不知道是否有差距，另外开普勒不是要增加整数运算性能么，这样的话整数性能不知道和开普勒能不能战在同一起跑线上。
本人是学机械的，对于如此具体的差别甚是不精，求e大明示

作者: potomac 时间: 2011-12-22 11:39
提示: 作者被禁止或删除内容自动屏蔽

作者: 爿登 时间: 2011-12-22 12:52
E管就是强悍啊！

作者: aumo 时间: 2011-12-22 13:00
强贴留名~~

作者: Edison 时间: 2011-12-22 13:14

disruptor 发表于 2011-12-22 11:25
哦，大概明白了。
我感觉和gf100主要的区别是1：16个simd打包成一组，每组分配一个64kBYTE的向量寄存器外加 ...

其实 Fermi 也是 16 个一"组"，看架构图就知道了，一组一个硬件线程。
http://www.pcinlife.com/article/ ... 54197427d834_3.html

sm 也有 scalar unit 的呀，见上文。。

作者: disruptor 时间: 2011-12-22 13:37

Edison 发表于 2011-12-22 13:14
其实 Fermi 也是 16 个一"组"，看架构图就知道了，一组一个硬件线程。
http://www.pcinlife.com/article ...

嗯，就是cuda core里的alu吧，这数量上明显差很多啊

作者: flyingfeifei 时间: 2011-12-22 13:45
技术文！！！！

作者: cellwing 时间: 2011-12-22 14:10
提示: 作者被禁止或删除内容自动屏蔽

作者: lacri 时间: 2011-12-22 19:27
本帖最后由 lacri 于 2011-12-22 19:27 编辑

一环占座慢慢看cho的大作。

作者: luckissy 时间: 2011-12-22 22:33
本帖最后由 luckissy 于 2011-12-22 22:33 编辑

e大的好文章来学习

作者: efficient3d 时间: 2011-12-23 15:31
这下AMD真的发飙了，原来停留在老架构好几年，这次真的后来居上。我想AMD是不是把太多精力放在显卡方面了，导致推土机性能不如预期

作者: xmap 时间: 2011-12-24 00:27
大赞美pcinlife的文。

作者: xmap 时间: 2011-12-24 00:34
本帖最后由 xmap 于 2011-12-24 00:34 编辑

“AMD 这次推出了 Steady Video 2.0 技术，借助 QSAD 指令，立体深度侦测性能提升到 48 倍，对于变动分辨率为 32 像素的 1088p60 视频运动侦测可以达到每秒 513G SAD ops/s。”

请问是不是1080p60？虽然图片里也是写的1920*1088，不过这个分辨率？

作者: chenhua007very 时间: 2011-12-24 02:35
支持，看来E大是拿到样卡了？

作者: CC9K 时间: 2011-12-24 06:59
本帖最后由 CC9K 于 2011-12-24 07:03 编辑

Edison 发表于 2011-12-22 13:14
其实 Fermi 也是 16 个一"组"，看架构图就知道了，一组一个硬件线程。
http://www.pcinlife.com/article ...

看起来结构相似，但HD 7970需要2048个ALU，而性能稍低的580只有512个ALU，AMD放弃VLIW的体系后为什么依然比NV多几倍规模的运算单元？

作者: Edison 时间: 2011-12-24 08:08
游戏性能还是和 rop、tex 有较大关系的。

芯片的实际架构有时候有不少东西都是未知的。

作者: 炽天使之翼 时间: 2011-12-27 16:28
从核心的角度剖析显卡，很高端的技术文章，如果能更深入浅出就更好了

作者: potomac 时间: 2011-12-28 23:18
提示: 作者被禁止或删除内容自动屏蔽

作者: Edison 时间: 2011-12-29 11:48
Larrabee 0/1 是 32 core，每个 core 有 1 个 SIMD-512bit（当成是 SIMD16 好了），按照 NVIDIA、AMD 的说法，Larrabee 0/1 是 512 core。

Larrabee 介绍：

http://www.pcinlife.com/article/ ... 1245662175d828.html

作者: panjanstoneborg 时间: 2012-1-7 00:20
问一下图元primitive是不是指三角形

作者: Edison 时间: 2012-1-7 01:33

panjanstoneborg 发表于 2012-1-7 00:20
问一下图元primitive是不是指三角形

点、线、多边形都是图元。

http://www.opengl.org/wiki/Primitives

作者: panjanstoneborg 时间: 2012-1-7 13:25
本帖最后由 panjanstoneborg 于 2012-1-7 13:35 编辑

对anand的几个图有疑问，求大牛解释
1、vliw5的执行示意图。

我认为这幅图意在显示vliw需要提取ilp，即前后不相关指令可以并发。
2、vliw和simd对相关指令的执行示意图。

这幅图意在显示两者的区别。

但是这两幅图对于vliw的情况存在偷换。图1显示了一个thread的前后数条指令的执行情况，表明一个thread，若是后一条指令和前一条无关，可以同时执行。图2的4个wvfront里，一个小方块代表一个thread，但是没有给出对于同一个thread的前后指令关系，反倒是给出几个并不相关的wvfront b，c，d，e来把他们塞给vliw。这种情况和图1完全是互斥的。

请问anand的图2是不是存在严重错误？我是从图形处理角度理解的，如果通用计算里可以出现图2的情形，请详细说明。
谢谢

另外图2的标注是denpendent wvfront，请问这是什么意思？wvfront可以指屏幕上位置不同的像素（不清楚是不是同一帧），为什么会出现不同位置像素互相依赖的情况？如果出现了，vliw是不是也可以通过sequencer切换执行不同wavefront的吗？

作者: Edison 时间: 2012-1-7 13:31
上面不是写着 D 相依于 C 吗。

作者: panjanstoneborg 时间: 2012-1-7 13:36
首先，图1的那一串方块，和图2的那五串方块，他们之间是什么关系？

作者: panjanstoneborg 时间: 2012-1-7 14:27
新图来了

这个图比较明显的修正了上图2的问题。
这样是不是能说明图2的vliw部分就是错误的呢？

作者: Edison 时间: 2012-1-7 14:53
这个图只是说 Cayman 会尝试同时执行同一个 Wavefront 里的不同指令，而 GCN 则可以同时跑不同的 wavefront 的同一指令而已。

作者: panjanstoneborg 时间: 2012-1-7 15:01

Edison 发表于 2012-1-7 14:53
这个图只是说 Cayman 会尝试同时执行同一个 Wavefront 里的不同指令，而 GCN 则可以同时跑不同的 wavefront ...

为什么说尝试？不是应该是cayman一定执行一个wavefront里的不同指令吗，如果前后指令有依赖，就不能执行，造成资源闲置。怎么可能cayman的一个simd在跑不同的wvfront呢？

GCN是同时执行不同wvfront，像tesla一样

作者: Edison 时间: 2012-1-7 15:03
因为不可能 wavefront 里的所有指令都能实现 VLIW4。

作者: panjanstoneborg 时间: 2012-1-7 15:09

Edison 发表于 2012-1-7 15:03
因为不可能 wavefront 里的所有指令都能实现 VLIW4。

那就是不能实现啊，这不就是vliw的缺点嘛

作者: Edison 时间: 2012-1-7 15:12

panjanstoneborg 发表于 2012-1-7 15:09
那就是不能实现啊，这不就是vliw的缺点嘛

VLIW4 还是可以有较高机会的，只要不相依。。

作者: panjanstoneborg 时间: 2012-1-7 15:18
本帖最后由 panjanstoneborg 于 2012-1-7 15:24 编辑

Edison 发表于 2012-1-7 15:12
VLIW4 还是可以有较高机会的，只要不相依。。

那也是一个wvfront前后指令不依赖，不是wvfront之间不依赖吧
说到这里我觉得第2副图根本上都搞错了呀

不是说wvfront就是64个thread的集合，一个wvfront跑的指令一样
那不同wvfront跑的指令本来就可以不一样……（实际好像很复杂的样子，我想不出来了）

或者难道说我对r600以来的执行方式理解都有偏差？？？
r600不是一个simd只能同时跑一个wvfront吗？（或者两个，ati设计了两组sequencer）

作者: Edison 时间: 2012-1-7 19:48
AMD R600-Cayman 都是 VLIW-style work-item。

作者: cbr250xc 时间: 2012-1-8 13:03
分析得很好。評論很給力反觀馬勒隔壁整一個a 槍 asus 槍到處爬敗家子無技術無品味可言。

作者: panjanstoneborg 时间: 2012-1-9 11:55
求证：tahiti是不是把ta砍掉了？

作者: Edison 时间: 2012-1-9 11:58
ta？ texture address = AGU。

作者: panjanstoneborg 时间: 2012-1-9 12:09
cu里也没有发现有agu啊？

作者: Edison 时间: 2012-1-9 12:24