既然都是US，那R600也一定有类似G80-Gigathread的功能吧

大死人花 · 发表于 2006-11-17 11:27

如题，之前的XB360的C1只是简单的把US分为3组，我觉得这样的话，那PS/VS比例无疑就是2：1 或3：0，US的优势跟本没发挥出来。

到了R600这代会怎么样呢？很久前听说4US一组（正好和16TMU，16ROP对应），如果这样那就是NVIDIA爱好者所说的不如G80“彻底”，在分配资源的时候，R600就不会向G80那样，至少会一组US的得不到合理分配，在加上R600的SIMD在利用率上就不如G80的1D ALU，那浪费是不是相当可观了吧？

我在想如果R600要赶上G80那就有和Gigathread近似的能力，把64个US做到每个一组，同时在把4D ALU做点改进，比如在3D+1D，2D+2D的基础上加入1D+1D+1D+1D那会怎么样呢？另外ATI很早就购买了FAST 14技术，shader倍频于chip应该在R600能实现吧？

ghrs2010 · 发表于 2006-11-17 11:46

不是这样比的...

squll · 发表于 2006-11-17 11:49

X19x0已经有极线程技术了。R600应该还有改进
这个和是不是US没有关系

Eji · 发表于 2006-11-17 11:58

原帖由 大死人花 于 2006-11-17 11:27 发表
如题，之前的XB360的C1只是简单的把US分为3组，我觉得这样的话，那PS/VS比例无疑就是2：1 或3：0，US的优势跟本没发挥出来。

到了R600这代会怎么样呢？很久前听说4US一组（正好和16TMU，16ROP对应），如果这 ...

...唔，這要怎麼說呢....
R600目前是4D+1D，而不是純4D的關係，還是可以作一些修補的。
只是每個bank的資料結構要相同這點，要改變大概有點困難。

G80雖然包含跨bank的load-balance，但是條件是因為它的比例分配是完全不可控制的。
除了一開始透過VS/PS/GS等標記性的fifo分離之外，在ALU內是完全不討論其屬性的。
所以不論DX9/DX10 app，G80都是以US的自動判定來面對。

最後，Fast14購買的"早晚"並不能決定它何時可以使用，比方說如果R600當時已經設計到半路了，
那當然是塞不進去.... 更何況NVIDIA並沒有購買類似的技術，那倍頻ALU從何而來？
所以凡事還是要靠自己。
至少R700應該就會做了吧？

Asuka · 发表于 2006-11-17 11:59

G80的Gigathread跟R520/580上的是同一类技术
ATI已经有了类似技术
NV第一个比较有多执行诸体系样子的架构应该是NV40

只看该作者 · 发表于 2006-11-17 12:01

提示: 作者被禁止或删除内容自动屏蔽

Eji · 发表于 2006-11-17 12:30

原帖由 来不及思考 于 2006-11-17 12:01 发表
http://topic.expreview.com/2006-11-09/1163061761d1465_5.html

偷了后腾大叔一张图 :p

說起來後藤大叔對thread的解說後面還補充不少，
比方說可能有三階層的thread切換（register file可能只在其中一層），
還有ATI與NVIDIA長期以來對thread定義的模糊等等，宣傳部份都很有可能造成誤解。

另外，G80的1D拆解不知道是不是每個純量都給一個thread，如果是的話thread數量可能真的要達到4096。
而且拆解之後可以有限度地跨cluster作load-balance，1個vertex的XYZW不見得都在同一個cluster上，這才誇張。

有這種重武裝，難怪G80還是以G7x的LMA-based Crossbar為基礎結構。

只看该作者 · 发表于 2006-11-17 12:46

提示: 作者被禁止或删除内容自动屏蔽

Edison · 发表于 2006-11-17 12:57

G80是类似于Quad Pixel为单位方式共享一块LRF。

shu0202 · 发表于 2006-11-17 13:01

认为4D+1D的架构效率不如纯1D是胡说八道。G80的资源利用细节有不少模糊的地方，NV是不会讲的。也许到G85的时候，我们能知道G80的设计在哪方面作了妥协。

只看该作者 · 发表于 2006-11-17 13:11

提示: 作者被禁止或删除内容自动屏蔽

shu0202 · 发表于 2006-11-17 13:25

我并不看好R600。AMD根本没有多少精力放在这上面。ATi设计的这东西恐怕连他自己都不好交代。

jhj9 · 发表于 2006-11-17 14:01

原帖由 shu0202 于 2006-11-17 13:01 发表
认为4D+1D的架构效率不如纯1D是胡说八道。G80的资源利用细节有不少模糊的地方，NV是不会讲的。也许到G85的时候，我们能知道G80的设计在哪方面作了妥协。

仔细看清楚点，是4US一组的分组策略不如G80灵活，在这上面可能会降低点效率，这是很正常的想法，也应该会有这样的问题。

shu0202 · 发表于 2006-11-17 14:16

多数情况下4D比1D的效率要好得多。至于架构的灵活性也只能是在现有工艺局限性下讨论。我想NV可能是想打造一个“彻底的US”架构，所以把空前的灵活性放在了优先考虑的地位。但是理论上讲，4D并不是不灵活。如果设计条件允许，用10亿晶体管打造一款96US的4D+1D架构的GPU性能会让G80望尘莫及。（当然只是想想）我猜测NV使用1D标量架构只是暂时的。未来也许会回归到传统思路。

shu0202 · 发表于 2006-11-17 14:18

4US分组效率的开销可以忽略不计。G80资源灵活分配的细节上还是一团迷雾。G80的许多好处都是“理论上的”。

[ 本帖最后由 shu0202 于 2006-11-17 14:23 编辑 ]

只看该作者 · 发表于 2006-11-17 14:20

提示: 作者被禁止或删除内容自动屏蔽

niwei · 发表于 2006-11-17 14:22

G80线程分配问题是一个不可回避的事实

从目前资料看,比R580的超级线程分配器功能好不到哪去,而且NV的资料也不详尽:mad:

[ 本帖最后由 niwei 于 2006-11-17 14:24 编辑 ]

皓龙 · 发表于 2006-11-17 14:23

原帖由 niwei 于 2006-11-17 14:22 发表
G80线程分配问题是一个不可回避的事实

whyw00t)

只看该作者 · 发表于 2006-11-17 14:24

提示: 作者被禁止或删除内容自动屏蔽

niwei · 发表于 2006-11-17 14:25

原帖由皓龙于 2006-11-17 14:23 发表

whyw00t)

square,几个月没动你筋骨骨头痒了是不:mad:

帐号		自动登录	找回密码
密码			注册

来不及思考该用户已被删除	6^# 发表于 2006-11-17 12:01 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
来不及思考该用户已被删除
	回复支持反对使用道具举报显身卡

zl841226 该用户已被删除	8^# 发表于 2006-11-17 12:46 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
zl841226 该用户已被删除
	回复支持反对使用道具举报显身卡

来不及思考该用户已被删除	11^# 发表于 2006-11-17 13:11 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
来不及思考该用户已被删除
	回复支持反对使用道具举报显身卡

来不及思考该用户已被删除	16^# 发表于 2006-11-17 14:20 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
来不及思考该用户已被删除
	回复支持反对使用道具举报显身卡

来不及思考该用户已被删除	19^# 发表于 2006-11-17 14:24 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
来不及思考该用户已被删除
	回复支持反对使用道具举报显身卡

既然都是US，那R600也一定有类似G80-Gigathread的功能吧

浏览过的版块