POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
查看: 11433|回复: 137
打印 上一主题 下一主题

既然都是US,那R600也一定有类似G80-Gigathread的功能吧

 关闭 [复制链接]
跳转到指定楼层
1#
发表于 2006-11-17 11:27 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
如题,之前的XB360的C1只是简单的把US分为3组,我觉得这样的话,那PS/VS比例无疑就是2:1 或3:0,US的优势跟本没发挥出来。

到了R600这代会怎么样呢?很久前听说4US一组(正好和16TMU,16ROP对应),如果这样那就是NVIDIA爱好者所说的不如G80“彻底”,在分配资源的时候,R600就不会向G80那样,至少会一组US的得不到合理分配,在加上R600的SIMD在利用率上就不如G80的1D ALU,那浪费是不是相当可观了吧?

我在想如果R600要赶上G80那就有和Gigathread近似的能力,把64个US做到每个一组,同时在把4D ALU做点改进,比如在3D+1D,2D+2D的基础上加入1D+1D+1D+1D那会怎么样呢?另外ATI很早就购买了FAST 14技术,shader倍频于chip应该在R600能实现吧?
2#
发表于 2006-11-17 11:46 | 只看该作者
不是这样比的...
回复 支持 反对

使用道具 举报

3#
发表于 2006-11-17 11:49 | 只看该作者
X19x0已经有极线程技术了。R600应该还有改进
这个和是不是US没有关系
回复 支持 反对

使用道具 举报

4#
发表于 2006-11-17 11:58 | 只看该作者
原帖由 大死人花 于 2006-11-17 11:27 发表
如题,之前的XB360的C1只是简单的把US分为3组,我觉得这样的话,那PS/VS比例无疑就是2:1 或3:0,US的优势跟本没发挥出来。

到了R600这代会怎么样呢?很久前听说4US一组(正好和16TMU,16ROP对应),如果这 ...


...唔,這要怎麼說呢....
R600目前是4D+1D,而不是純4D的關係,還是可以作一些修補的。
只是每個bank的資料結構要相同這點,要改變大概有點困難。

G80雖然包含跨bank的load-balance,但是條件是因為它的比例分配是完全不可控制的。
除了一開始透過VS/PS/GS等標記性的fifo分離之外,在ALU內是完全不討論其屬性的。
所以不論DX9/DX10 app,G80都是以US的自動判定來面對。

最後,Fast14購買的"早晚"並不能決定它何時可以使用,比方說如果R600當時已經設計到半路了,
那當然是塞不進去.... 更何況NVIDIA並沒有購買類似的技術,那倍頻ALU從何而來?
所以凡事還是要靠自己。
至少R700應該就會做了吧?
回复 支持 反对

使用道具 举报

5#
发表于 2006-11-17 11:59 | 只看该作者
G80的Gigathread跟R520/580上的是同一类技术
ATI已经有了类似技术
NV第一个比较有多执行诸体系样子的架构应该是NV40
回复 支持 反对

使用道具 举报

来不及思考 该用户已被删除
6#
发表于 2006-11-17 12:01 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

7#
发表于 2006-11-17 12:30 | 只看该作者
原帖由 来不及思考 于 2006-11-17 12:01 发表
http://topic.expreview.com/2006-11-09/1163061761d1465_5.html

偷了后腾大叔一张图 :p


說起來後藤大叔對thread的解說後面還補充不少,
比方說可能有三階層的thread切換(register file可能只在其中一層),
還有ATI與NVIDIA長期以來對thread定義的模糊等等,宣傳部份都很有可能造成誤解。

另外,G80的1D拆解不知道是不是每個純量都給一個thread,如果是的話thread數量可能真的要達到4096。
而且拆解之後可以有限度地跨cluster作load-balance,1個vertex的XYZW不見得都在同一個cluster上,這才誇張。

有這種重武裝,難怪G80還是以G7x的LMA-based Crossbar為基礎結構。
回复 支持 反对

使用道具 举报

zl841226 该用户已被删除
8#
发表于 2006-11-17 12:46 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

9#
发表于 2006-11-17 12:57 | 只看该作者
G80是类似于Quad Pixel为单位方式共享一块LRF。
回复 支持 反对

使用道具 举报

10#
发表于 2006-11-17 13:01 | 只看该作者
认为4D+1D的架构效率不如纯1D是胡说八道。G80的资源利用细节有不少模糊的地方,NV是不会讲的。也许到G85的时候,我们能知道G80的设计在哪方面作了妥协。
回复 支持 反对

使用道具 举报

来不及思考 该用户已被删除
11#
发表于 2006-11-17 13:11 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

12#
发表于 2006-11-17 13:25 | 只看该作者
我并不看好R600。AMD根本没有多少精力放在这上面。ATi设计的这东西恐怕连他自己都不好交代。
回复 支持 反对

使用道具 举报

13#
发表于 2006-11-17 14:01 | 只看该作者
原帖由 shu0202 于 2006-11-17 13:01 发表
认为4D+1D的架构效率不如纯1D是胡说八道。G80的资源利用细节有不少模糊的地方,NV是不会讲的。也许到G85的时候,我们能知道G80的设计在哪方面作了妥协。


仔细看清楚点,是4US一组的分组策略不如G80灵活,在这上面可能会降低点效率,这是很正常的想法,也应该会有这样的问题。
回复 支持 反对

使用道具 举报

14#
发表于 2006-11-17 14:16 | 只看该作者
多数情况下4D比1D的效率要好得多。至于架构的灵活性也只能是在现有工艺局限性下讨论。我想NV可能是想打造一个“彻底的US”架构,所以把空前的灵活性放在了优先考虑的地位。但是理论上讲,4D并不是不灵活。如果设计条件允许,用10亿晶体管打造一款96US的4D+1D架构的GPU性能会让G80望尘莫及。(当然只是想想)我猜测NV使用1D标量架构只是暂时的。未来也许会回归到传统思路。
回复 支持 反对

使用道具 举报

15#
发表于 2006-11-17 14:18 | 只看该作者
4US分组效率的开销可以忽略不计。G80资源灵活分配的细节上还是一团迷雾。G80的许多好处都是“理论上的”。

[ 本帖最后由 shu0202 于 2006-11-17 14:23 编辑 ]
回复 支持 反对

使用道具 举报

来不及思考 该用户已被删除
16#
发表于 2006-11-17 14:20 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

17#
发表于 2006-11-17 14:22 | 只看该作者
G80线程分配问题是一个不可回避的事实

从目前资料看,比R580的超级线程分配器功能好不到哪去,而且NV的资料也不详尽:mad:

[ 本帖最后由 niwei 于 2006-11-17 14:24 编辑 ]
回复 支持 反对

使用道具 举报

18#
发表于 2006-11-17 14:23 | 只看该作者
原帖由 niwei 于 2006-11-17 14:22 发表
G80线程分配问题是一个不可回避的事实

whyw00t)
回复 支持 反对

使用道具 举报

来不及思考 该用户已被删除
19#
发表于 2006-11-17 14:24 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

20#
发表于 2006-11-17 14:25 | 只看该作者
原帖由 皓龙 于 2006-11-17 14:23 发表

whyw00t)


square,几个月没动你筋骨骨头痒了是不:mad:
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-4-3 16:43

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表