POPPUR爱换

标题: PCINLIFE 原创:AMD RADEON HD 7970 技术全析 [打印本页]

作者: Edison    时间: 2011-12-22 07:07
标题: PCINLIFE 原创:AMD RADEON HD 7970 技术全析


前言
Tahiti 的体系架构
GNC Compute Unit
Tahiti 的高速缓存层次
Tahiti 的 ROP、纹理单元及内存控制器
Tahiti 的 Tessellator
通用计算性能有何提升?
GCN 和 Partially Resident Textures
Tahiti 的电力控制
VCE 视频编码技术
AMD Steady Video 2.0
Eyefinity 2.0 与 DDMA
RADEON HD 7970/7950 规格与大图


若转载的话,请注明原文链接为:http://pc.pcinlife.com/Graphics/20111222/Amd-Radeon-HD-7970.html,承蒙赏析。







作者: kevinkt    时间: 2011-12-22 07:25
感謝分享
支持一下
作者: 66666    时间: 2011-12-22 07:36
感谢CHO技术大作
作者: cgx0606    时间: 2011-12-22 07:58
支持,辛苦了
作者: GTX999    时间: 2011-12-22 08:09
占位看。哈哈
作者: ak75    时间: 2011-12-22 08:30
感觉7970和7950差距太小了, 58和69都至少在20%左右
不过3g显存很吓人的说

作者: ioia    时间: 2011-12-22 08:32
提示: 作者被禁止或删除 内容自动屏蔽
作者: gz_easy    时间: 2011-12-22 08:32
前排强力插入...
作者: disruptor    时间: 2011-12-22 09:09
这里的向量单元和之前的simd有多大区别呢?是不是和cuda core里面的fp unit类似,两者吞吐量和数据形式有木有区别?另外整数单元和cuda core里面的整数单元功能是不是类似?cuda core里面有木有那两个纹理模块?gcn架构比fermi的架构先进在哪里,还是说两者基本是类似的
作者: vista@xp    时间: 2011-12-22 09:17
感谢分享,静等实物
作者: jackyangel    时间: 2011-12-22 09:18
只关心实际性能了
作者: nanika    时间: 2011-12-22 09:51
好文。帮顶!!
作者: mooncocoon    时间: 2011-12-22 10:02
对于ALU集群和资源层面的改动,我只想说两个字——精彩
AMD终于开始面对现实,拿出勇气来修正错误了~
只要肯做就是好样的!
作者: fn109    时间: 2011-12-22 10:48
提示: 作者被禁止或删除 内容自动屏蔽
作者: solidusmic    时间: 2011-12-22 10:50
本帖最后由 solidusmic 于 2011-12-22 10:54 编辑

性能技术都是扯淡
价格才是关键

花多少钱,能得到多少性能

这才是我们普通消费者关心的东西

你搞到个5850x2的性能,换了张皮,抹点厚底大宝霜.
定个四千五千的价格
就为了省那点电费?
有毛实际意义。

作者: xiaolongzi    时间: 2011-12-22 11:03
支持了~~~~
作者: 左脚选手    时间: 2011-12-22 11:05
solidusmic 发表于 2011-12-22 10:50
性能技术都是扯淡
价格才是关键

性能目前看爆料对580的优势也没当初5870对280这么大,首发价格还这么高,这次真T.M.D.不HD。
作者: disruptor    时间: 2011-12-22 11:25
哦,大概明白了。
我感觉和gf100主要的区别是1:16个simd打包成一组,每组分配一个64kBYTE的向量寄存器外加4kBYTE的标量寄存器(这个ms fermi的sm里是一组32k 32bit的无差别的寄存器)寄存器大小差不多但是一个是8bit一个32bit,不知道有什么影响。
2另外shared memory和l1是固定不可变的,和fermi中不太一样。
3线程数量也不太一样,fermi貌似在gt200以后精简了线程调度。
4gcn里比sm里多了一个scaler unit。不知道他的simd里有没有整数单元,而fermi的cuda core里都有alu,整数运算量上两者不知道是否有差距,另外开普勒不是要增加整数运算性能么,这样的话整数性能不知道和开普勒能不能战在同一起跑线上。
本人是学机械的,对于如此具体的差别甚是不精,求e大明示
作者: potomac    时间: 2011-12-22 11:39
提示: 作者被禁止或删除 内容自动屏蔽
作者: 爿登    时间: 2011-12-22 12:52
E管就是强悍啊!
作者: aumo    时间: 2011-12-22 13:00
强贴留名~~
作者: Edison    时间: 2011-12-22 13:14
disruptor 发表于 2011-12-22 11:25
哦,大概明白了。
我感觉和gf100主要的区别是1:16个simd打包成一组,每组分配一个64kBYTE的向量寄存器外加 ...

其实 Fermi 也是 16 个一"组",看架构图就知道了,一组一个硬件线程。
http://www.pcinlife.com/article/ ... 54197427d834_3.html

sm 也有 scalar unit 的呀,见上文。。
作者: disruptor    时间: 2011-12-22 13:37
Edison 发表于 2011-12-22 13:14
其实 Fermi 也是 16 个一"组",看架构图就知道了,一组一个硬件线程。
http://www.pcinlife.com/article ...

嗯,就是cuda core里的alu吧,这数量上明显差很多啊
作者: flyingfeifei    时间: 2011-12-22 13:45
技术文!!!!
作者: cellwing    时间: 2011-12-22 14:10
提示: 作者被禁止或删除 内容自动屏蔽
作者: lacri    时间: 2011-12-22 19:27
本帖最后由 lacri 于 2011-12-22 19:27 编辑

一环占座慢慢看cho的大作。
作者: luckissy    时间: 2011-12-22 22:33
本帖最后由 luckissy 于 2011-12-22 22:33 编辑

e大的好文章 来学习
作者: efficient3d    时间: 2011-12-23 15:31
这下AMD真的发飙了,原来停留在老架构好几年,这次真的后来居上。我想AMD是不是把太多精力放在显卡方面了,导致推土机性能不如预期
作者: xmap    时间: 2011-12-24 00:27
大赞美pcinlife的文。
作者: xmap    时间: 2011-12-24 00:34
本帖最后由 xmap 于 2011-12-24 00:34 编辑

“AMD 这次推出了 Steady Video 2.0 技术,借助 QSAD 指令,立体深度侦测性能提升到 48 倍,对于变动分辨率为 32 像素的 1088p60 视频运动侦测可以达到每秒 513G SAD ops/s。”

请问是不是1080p60?虽然图片里也是写的1920*1088,不过这个分辨率?
作者: chenhua007very    时间: 2011-12-24 02:35
   支持,看来E大是拿到样卡了?
作者: CC9K    时间: 2011-12-24 06:59
本帖最后由 CC9K 于 2011-12-24 07:03 编辑
Edison 发表于 2011-12-22 13:14
其实 Fermi 也是 16 个一"组",看架构图就知道了,一组一个硬件线程。
http://www.pcinlife.com/article ...

看起来结构相似,但HD 7970需要2048个ALU,而性能稍低的580只有512个ALU,AMD放弃VLIW的体系后为什么依然比NV多几倍规模的运算单元?
作者: Edison    时间: 2011-12-24 08:08
游戏性能还是和 rop、tex 有较大关系的。

芯片的实际架构有时候有不少东西都是未知的。
作者: 炽天使之翼    时间: 2011-12-27 16:28
从核心的角度剖析显卡,很高端的技术文章,如果能更深入浅出就更好了
作者: potomac    时间: 2011-12-28 23:18
提示: 作者被禁止或删除 内容自动屏蔽
作者: Edison    时间: 2011-12-29 11:48
Larrabee 0/1 是 32 core,每个 core 有 1 个 SIMD-512bit(当成是 SIMD16 好了),按照 NVIDIA、AMD 的说法,Larrabee 0/1 是 512 core。

Larrabee 介绍:

http://www.pcinlife.com/article/ ... 1245662175d828.html
作者: panjanstoneborg    时间: 2012-1-7 00:20
问一下图元primitive是不是指三角形
作者: Edison    时间: 2012-1-7 01:33
panjanstoneborg 发表于 2012-1-7 00:20
问一下图元primitive是不是指三角形

点、线、多边形都是图元。

http://www.opengl.org/wiki/Primitives
作者: panjanstoneborg    时间: 2012-1-7 13:25
本帖最后由 panjanstoneborg 于 2012-1-7 13:35 编辑

对anand的几个图有疑问,求大牛解释
1、vliw5的执行示意图。

我认为这幅图意在显示vliw需要提取ilp,即前后不相关指令可以并发。
2、vliw和simd对相关指令的执行示意图。

这幅图意在显示两者的区别。

但是这两幅图对于vliw的情况存在偷换。图1显示了一个thread的前后数条指令的执行情况,表明一个thread,若是后一条指令和前一条无关,可以同时执行。图2的4个wvfront里,一个小方块代表一个thread,但是没有给出对于同一个thread的前后指令关系,反倒是给出几个并不相关的wvfront b,c,d,e来把他们塞给vliw。这种情况和图1完全是互斥的。

请问anand的图2是不是存在严重错误?我是从图形处理角度理解的,如果通用计算里可以出现图2的情形,请详细说明。
谢谢



另外图2的标注是denpendent wvfront,请问这是什么意思?wvfront可以指屏幕上位置不同的像素(不清楚是不是同一帧),为什么会出现不同位置像素互相依赖的情况?如果出现了,vliw是不是也可以通过sequencer切换执行不同wavefront的吗?

作者: Edison    时间: 2012-1-7 13:31
上面不是写着 D 相依于 C 吗。
作者: panjanstoneborg    时间: 2012-1-7 13:36
首先,图1的那一串方块,和图2的那五串方块,他们之间是什么关系?
作者: panjanstoneborg    时间: 2012-1-7 14:27
新图来了

这个图比较明显的修正了上图2的问题。
这样是不是能说明图2的vliw部分就是错误的呢?

作者: Edison    时间: 2012-1-7 14:53
这个图只是说 Cayman 会尝试同时执行同一个 Wavefront 里的不同指令,而 GCN 则可以同时跑不同的 wavefront 的同一指令而已。

作者: panjanstoneborg    时间: 2012-1-7 15:01
Edison 发表于 2012-1-7 14:53
这个图只是说 Cayman 会尝试同时执行同一个 Wavefront 里的不同指令,而 GCN 则可以同时跑不同的 wavefront ...

为什么说尝试?不是应该是cayman一定执行一个wavefront里的不同指令吗,如果前后指令有依赖,就不能执行,造成资源闲置。怎么可能cayman的一个simd在跑不同的wvfront呢?

GCN是同时执行不同wvfront,像tesla一样
作者: Edison    时间: 2012-1-7 15:03
因为不可能 wavefront 里的所有指令都能实现 VLIW4。
作者: panjanstoneborg    时间: 2012-1-7 15:09
Edison 发表于 2012-1-7 15:03
因为不可能 wavefront 里的所有指令都能实现 VLIW4。

那就是不能实现啊,这不就是vliw的缺点嘛
作者: Edison    时间: 2012-1-7 15:12
panjanstoneborg 发表于 2012-1-7 15:09
那就是不能实现啊,这不就是vliw的缺点嘛

VLIW4 还是可以有较高机会的,只要不相依。。
作者: panjanstoneborg    时间: 2012-1-7 15:18
本帖最后由 panjanstoneborg 于 2012-1-7 15:24 编辑
Edison 发表于 2012-1-7 15:12
VLIW4 还是可以有较高机会的,只要不相依。。


那也是一个wvfront前后指令不依赖,不是wvfront之间不依赖吧
说到这里我觉得第2副图根本上都搞错了呀

不是说wvfront就是64个thread的集合,一个wvfront跑的指令一样
那不同wvfront跑的指令本来就可以不一样……(实际好像很复杂的样子,我想不出来了)

或者难道说我对r600以来的执行方式理解都有偏差???
r600不是一个simd只能同时跑一个wvfront吗?(或者两个,ati设计了两组sequencer)
作者: Edison    时间: 2012-1-7 19:48
AMD  R600-Cayman 都是 VLIW-style work-item。
作者: cbr250xc    时间: 2012-1-8 13:03
分析得很好 。評論很給力 反觀 馬勒隔壁整一個a 槍 asus 槍到處爬敗家子 無技術 無品味可言。
作者: panjanstoneborg    时间: 2012-1-9 11:55
求证:tahiti是不是把ta砍掉了?
作者: Edison    时间: 2012-1-9 11:58
ta? texture address = AGU。
作者: panjanstoneborg    时间: 2012-1-9 12:09
cu里也没有发现有agu啊?
作者: Edison    时间: 2012-1-9 12:24
panjanstoneborg 发表于 2012-1-9 12:09
cu里也没有发现有agu啊?

AMD 把它画进 L1-D 里了
作者: panjanstoneborg    时间: 2012-1-9 12:27
那些测试理论性能fillrate,triangle rate,instrution throughput的程序,是可以公开下载的吗?
作者: amdxp4800    时间: 2012-1-9 14:48
这就是传说中某人有的精彩PPT吗?
作者: RacingPHT    时间: 2012-1-10 11:20
提示: 作者被禁止或删除 内容自动屏蔽
作者: Edison    时间: 2012-1-10 12:13
RacingPHT 发表于 2012-1-10 11:20
3.5倍能达到吗?

是指哪个指标呀

small triangle 暂时搞不定,参数有点无从入手。

跑了 SubD11:
http://pc.pcinlife.com/Graphics/20120108/AMD-Radeon-HD-7970.html

作者: RacingPHT    时间: 2012-1-10 22:45
提示: 作者被禁止或删除 内容自动屏蔽
作者: 道丽的狗狗    时间: 2012-2-14 22:34
鉴定完毕!












地心历险记2神秘岛




欢迎光临 POPPUR爱换 (https://we.poppur.com/) Powered by Discuz! X3.4