R600的shader

Eji · 发表于 2007-3-3 11:15

http://pc.watch.impress.co.jp/docs/2007/0302/amd.htm

根據Dave Orton的說法，會場上展示的R600 CF有1TFLOPS的效能，並且每個R600有320個steam processor。

這樣一來spec就很明顯了：64個4D+1D、800MHz左右的整體時脈，沒有倍頻shader，這樣每個R600大約就是500GFLOPS前後，CrossFire後就是1TFLOPS。

現在的問題大概只有每個 bank是16個4+1（類似C1），還是其他的組態。

Edison · 发表于 2007-3-3 12:17

就是4个bank*16个US亚。

Eji · 发表于 2007-3-3 13:20

原帖由 Edison 于 2007-3-3 12:17 发表
就是4个bank*16个US亚。

不會吧。:funk:

linwu1 · 发表于 2007-3-3 15:19

如果只算1D，ｇ８０没有５２０Ｇ浮点。那么ｒ６００的这个５００Ｇ是只算１Ｄ＋４Ｄ？还是和ｎｖ一样，包括了其他的运算力？
如果有包括其他的运算力，那频率就没８００ｍｈｚ了

只看该作者 · 发表于 2007-3-3 16:26

提示: 作者被禁止或删除内容自动屏蔽

Eji · 发表于 2007-3-3 16:45

原帖由 linwu1 于 2007-3-3 15:19 发表
如果只算1D，ｇ８０没有５２０Ｇ浮点。那么ｒ６００的这个５００Ｇ是只算１Ｄ＋４Ｄ？还是和ｎｖ一样，包括了其他的运算力？
如果有包括其他的运算力，那频率就没８００ｍｈｚ了

NV在G7x以前會算到一堆很怪的咚隳芰Γ?贿^那和Shader的結構有關係，
NV4x/G7x的Shader非常重視co-issue，導致結構錯綜複雜。
G80能算到520G的話，基本上就是算成MAD + MUL，因為missing-MUL的關係，"現在"G80就是只有345.6GFLOPS。

如果真的是4 banks、16Shader per bank的話，就很有理由可以相信每個shader只有1D + 4D MAD。
基本上就是C1的強化版（加強1/4）然後提升時脈，改變周邊配置而已了。

----
以G80來說，整個結構只有128個1D，和幾乎有58個4D的G71比起來，每個1D分到的電晶體規模整整大了4倍以上。
過去來說DX10據稱大約需要1.4倍的DX9 shader成本，G80的成本提升看起來很難讓人相信確有必要，
也就是說G80應該還有很大的成本效益改善空間才是。

R600如果真的有700M的話，那應該和G80有同樣的問題存在。

[ 本帖最后由 Eji 于 2007-3-3 16:54 编辑 ]

Eji · 发表于 2007-3-3 16:47

原帖由 来不及思考 于 2007-3-3 16:26 发表
这样就太让人失望了
基本是C1放大而已

C1也不錯啊.... NVIDIA也有過 G70 = NV40放大版的前例....

不過G70/G71在產品配置上作了許多努力，讓成本效益大幅提升；
R600如果真的是C1放大，那應該可以用C1為立足點提升成本效益，
但是卻沒有看到那種表現....

只看该作者 · 发表于 2007-3-3 17:36

提示: 作者被禁止或删除内容自动屏蔽

PS5 · 发表于 2007-3-3 19:11

AMD居然没有shader的倍频技术，太令人失望了

[ 本帖最后由 PS5 于 2007-3-3 19:23 编辑 ]

PS5 · 发表于 2007-3-3 19:20

原帖由 Eji 于 2007-3-3 16:45 发表

以G80來說，整個結構只有128個1D，和幾乎有58個4D的G71比起來，每個1D分到的電晶體規模整整大了4倍以上。
過去來說DX10據稱大約需要1.4倍的DX9 shader成本，G80的成本提升看起來很難讓人相信確有必要，
也就是說G80應該還有很大的成本效益改善空間才是。
..

言下之意就是NV在浪费晶体管？:funk:

linwu1 · 发表于 2007-3-3 21:34

原帖由 Eji 于 2007-3-3 16:45 发表

NV在G7x以前會算到一堆很怪的咚隳芰Γ?贿^那和Shader的結構有關係，
NV4x/G7x的Shader非常重視co-issue，導致結構錯綜複雜。
G80能算到520G的話，基本上就是算成MAD + MUL，因為missing-MUL的關係，&qu ...

http://news.mydrivers.com/1/78/78173.htm
上面的新闻中，nv宣称：8800显卡在CUDA架构中的峰值运算能力可达520GFlops，因此如果构建SLI双卡系统，可以达到1TFlops（即每秒运算1万亿次）的强大运算能力。

这是nv在吹牛？还是媒体误导？

Eji · 发表于 2007-3-3 23:35

原帖由 PS5 于 2007-3-3 19:20 发表

言下之意就是NV在浪费晶体管？:funk:

也不能這麼說，畢竟結構與體質的改善是必須的，否則性能發展必然會有其上限。
G71的成本效能比雖然出色，但是結構上有其犧牲，比方說HDR。
而且Quad-SLI G71 和 G80 SLI相比，成本上應該還是後者較低，而且後者有前者無法達成的性能。
所以轉向G8x是有必要的。

你不能光看到R580的成功，就否定R520的價值，因為是後者的存在確立了前者的基礎，
應該質疑的是ATI/AMD本身的執行力，使得R520在time-to-market上面出現了問題。

反過來說，G80如果也大幅delay的話，面對R600時只怕就與R520的遭遇沒多少差異，
而由於前有C1的經驗，R600從上面的資訊來說，已知與C1沒有太大的差異，
目的也應該就是在於類似G70的time-to-market策略，但是卻沒有看到其效果，使得R600現在看來即將面臨T2M的問題，
這才是AMD未來的課題所在。

Eji · 发表于 2007-3-3 23:40

原帖由 linwu1 于 2007-3-3 21:34 发表

http://news.mydrivers.com/1/78/78173.htm
上面的新闻中，nv宣称：8800显卡在CUDA架构中的峰值运算能力可达520GFlops，因此如果构建SLI双卡系统，可以达到1TFlops（即每秒运算1万亿次）的强大运算能力。

...

聽起來像是missing-MUL只能在CUDA裡面使用？

只看该作者 · 发表于 2007-3-5 09:23

提示: 作者被禁止或删除内容自动屏蔽

SM5 · 发表于 2007-3-5 14:44

原帖由 RacingPHT 于 2007-3-5 09:23 发表
多出来的晶体管在做什么呢？

其实多出来的整数指令集会占用很多晶体管吗？我比较怀疑。因为从G80的经验, 全速的int指令只有24bit精度, 也就是说整数指令是在复用浮点运算的部件。

48个ALU的核心只有232M晶 ...

G80的int指令只有24bit精度？不是32bit的么？:o

Edison · 发表于 2007-3-5 15:05

G80的TA数量增加了50%，TF增加了1.6倍，cache容量、GPRF、内存控制器、实现CSAA、8 MRT等等都会导致不少的晶体管增加吧。

Edison · 发表于 2007-3-5 15:26

原帖由 SM5 于 2007-3-5 14:44 发表
G80的int指令只有24bit精度？不是32bit的么？:o

http://we.pcinlife.com/viewthread.php?tid=715490

32-bit integer multiplication takes 8 clock cycles, but __mul24 and __umul24 (see Appendix A) provide signed and unsigned 24-bit integer multiplication in 2 clock cycles. Integer division and modulo operation are particularly costly and should be avoided if possible or replaced with bitwise operations whenever possible: If n is apower of 2, (i/n) is equivalent to (i>>log2(n)) and (i%n) is equivalent to (i&(n-1)); the compiler will perform these conversions if n is literal.

PS5 · 发表于 2007-3-5 19:10

原帖由 Eji 于 2007-3-3 23:35 发表

也不能這麼說，畢竟結構與體質的改善是必須的，否則性能發展必然會有其上限。
G71的成本效能比雖然出色，但是結構上有其犧牲，比方說HDR。
而且Quad-SLI G71 和 G80 SLI相比，成本上應該還是後者較低，而 ...

我的意思你没看懂！MIMD架构与SIMD相比要消耗更多的晶体管，那么NV为什么要把大量的晶体管浪费在MIMD上呢？:lol:

只看该作者 · 发表于 2007-3-5 19:17

提示: 作者被禁止或删除内容自动屏蔽

Edison · 发表于 2007-3-5 23:35

80 core根本就是一个ALUs array嘛，当初Intel也弄过更接近于x86 GPU的i860，后来还不是不了了之。

帐号		自动登录	找回密码
密码			注册

来不及思考该用户已被删除	5^# 发表于 2007-3-3 16:26 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
来不及思考该用户已被删除
	回复支持反对使用道具举报显身卡

来不及思考该用户已被删除	8^# 发表于 2007-3-3 17:36 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
来不及思考该用户已被删除
	回复支持反对使用道具举报显身卡

RacingPHT 该用户已被删除	14^# 发表于 2007-3-5 09:23 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
RacingPHT 该用户已被删除
	回复支持反对使用道具举报显身卡

来不及思考该用户已被删除	19^# 发表于 2007-3-5 19:17 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
来不及思考该用户已被删除
	回复支持反对使用道具举报显身卡