POPPUR爱换

标题: 既然都是US,那R600也一定有类似G80-Gigathread的功能吧 [打印本页]

作者: 大死人花    时间: 2006-11-17 11:27
标题: 既然都是US,那R600也一定有类似G80-Gigathread的功能吧
如题,之前的XB360的C1只是简单的把US分为3组,我觉得这样的话,那PS/VS比例无疑就是2:1 或3:0,US的优势跟本没发挥出来。

到了R600这代会怎么样呢?很久前听说4US一组(正好和16TMU,16ROP对应),如果这样那就是NVIDIA爱好者所说的不如G80“彻底”,在分配资源的时候,R600就不会向G80那样,至少会一组US的得不到合理分配,在加上R600的SIMD在利用率上就不如G80的1D ALU,那浪费是不是相当可观了吧?

我在想如果R600要赶上G80那就有和Gigathread近似的能力,把64个US做到每个一组,同时在把4D ALU做点改进,比如在3D+1D,2D+2D的基础上加入1D+1D+1D+1D那会怎么样呢?另外ATI很早就购买了FAST 14技术,shader倍频于chip应该在R600能实现吧?
作者: ghrs2010    时间: 2006-11-17 11:46
不是这样比的...
作者: squll    时间: 2006-11-17 11:49
X19x0已经有极线程技术了。R600应该还有改进
这个和是不是US没有关系
作者: Eji    时间: 2006-11-17 11:58
原帖由 大死人花 于 2006-11-17 11:27 发表
如题,之前的XB360的C1只是简单的把US分为3组,我觉得这样的话,那PS/VS比例无疑就是2:1 或3:0,US的优势跟本没发挥出来。

到了R600这代会怎么样呢?很久前听说4US一组(正好和16TMU,16ROP对应),如果这 ...


...唔,這要怎麼說呢....
R600目前是4D+1D,而不是純4D的關係,還是可以作一些修補的。
只是每個bank的資料結構要相同這點,要改變大概有點困難。

G80雖然包含跨bank的load-balance,但是條件是因為它的比例分配是完全不可控制的。
除了一開始透過VS/PS/GS等標記性的fifo分離之外,在ALU內是完全不討論其屬性的。
所以不論DX9/DX10 app,G80都是以US的自動判定來面對。

最後,Fast14購買的"早晚"並不能決定它何時可以使用,比方說如果R600當時已經設計到半路了,
那當然是塞不進去.... 更何況NVIDIA並沒有購買類似的技術,那倍頻ALU從何而來?
所以凡事還是要靠自己。
至少R700應該就會做了吧?
作者: Asuka    时间: 2006-11-17 11:59
G80的Gigathread跟R520/580上的是同一类技术
ATI已经有了类似技术
NV第一个比较有多执行诸体系样子的架构应该是NV40
作者: 来不及思考    时间: 2006-11-17 12:01
提示: 作者被禁止或删除 内容自动屏蔽
作者: Eji    时间: 2006-11-17 12:30
原帖由 来不及思考 于 2006-11-17 12:01 发表
http://topic.expreview.com/2006-11-09/1163061761d1465_5.html

偷了后腾大叔一张图 :p


說起來後藤大叔對thread的解說後面還補充不少,
比方說可能有三階層的thread切換(register file可能只在其中一層),
還有ATI與NVIDIA長期以來對thread定義的模糊等等,宣傳部份都很有可能造成誤解。

另外,G80的1D拆解不知道是不是每個純量都給一個thread,如果是的話thread數量可能真的要達到4096。
而且拆解之後可以有限度地跨cluster作load-balance,1個vertex的XYZW不見得都在同一個cluster上,這才誇張。

有這種重武裝,難怪G80還是以G7x的LMA-based Crossbar為基礎結構。
作者: zl841226    时间: 2006-11-17 12:46
提示: 作者被禁止或删除 内容自动屏蔽
作者: Edison    时间: 2006-11-17 12:57
G80是类似于Quad Pixel为单位方式共享一块LRF。
作者: shu0202    时间: 2006-11-17 13:01
认为4D+1D的架构效率不如纯1D是胡说八道。G80的资源利用细节有不少模糊的地方,NV是不会讲的。也许到G85的时候,我们能知道G80的设计在哪方面作了妥协。
作者: 来不及思考    时间: 2006-11-17 13:11
提示: 作者被禁止或删除 内容自动屏蔽
作者: shu0202    时间: 2006-11-17 13:25
我并不看好R600。AMD根本没有多少精力放在这上面。ATi设计的这东西恐怕连他自己都不好交代。
作者: jhj9    时间: 2006-11-17 14:01
原帖由 shu0202 于 2006-11-17 13:01 发表
认为4D+1D的架构效率不如纯1D是胡说八道。G80的资源利用细节有不少模糊的地方,NV是不会讲的。也许到G85的时候,我们能知道G80的设计在哪方面作了妥协。


仔细看清楚点,是4US一组的分组策略不如G80灵活,在这上面可能会降低点效率,这是很正常的想法,也应该会有这样的问题。
作者: shu0202    时间: 2006-11-17 14:16
多数情况下4D比1D的效率要好得多。至于架构的灵活性也只能是在现有工艺局限性下讨论。我想NV可能是想打造一个“彻底的US”架构,所以把空前的灵活性放在了优先考虑的地位。但是理论上讲,4D并不是不灵活。如果设计条件允许,用10亿晶体管打造一款96US的4D+1D架构的GPU性能会让G80望尘莫及。(当然只是想想)我猜测NV使用1D标量架构只是暂时的。未来也许会回归到传统思路。
作者: shu0202    时间: 2006-11-17 14:18
4US分组效率的开销可以忽略不计。G80资源灵活分配的细节上还是一团迷雾。G80的许多好处都是“理论上的”。

[ 本帖最后由 shu0202 于 2006-11-17 14:23 编辑 ]
作者: 来不及思考    时间: 2006-11-17 14:20
提示: 作者被禁止或删除 内容自动屏蔽
作者: niwei    时间: 2006-11-17 14:22
G80线程分配问题是一个不可回避的事实

从目前资料看,比R580的超级线程分配器功能好不到哪去,而且NV的资料也不详尽:mad:

[ 本帖最后由 niwei 于 2006-11-17 14:24 编辑 ]
作者: 皓龙    时间: 2006-11-17 14:23
原帖由 niwei 于 2006-11-17 14:22 发表
G80线程分配问题是一个不可回避的事实

whyw00t)
作者: 来不及思考    时间: 2006-11-17 14:24
提示: 作者被禁止或删除 内容自动屏蔽
作者: niwei    时间: 2006-11-17 14:25
原帖由 皓龙 于 2006-11-17 14:23 发表

whyw00t)


square,几个月没动你筋骨骨头痒了是不:mad:
作者: 来不及思考    时间: 2006-11-17 14:26
提示: 作者被禁止或删除 内容自动屏蔽
作者: shu0202    时间: 2006-11-17 14:26
原帖由 来不及思考 于 2006-11-17 14:20 发表


看来你对渲染体系的了解还有待加深

愿闻指教。
作者: niwei    时间: 2006-11-17 14:26
原帖由 来不及思考 于 2006-11-17 14:24 发表


这话首先应该对R520或R580说
原来相对于G7X,多执行诸体系革新得更彻底的R5XX的线程分配问题也是一个不可回避的事实


只能说ATI攻关部分太逊,弄不到"GET IN THE GAME",否则不会是现在这点差距
作者: 来不及思考    时间: 2006-11-17 14:27
提示: 作者被禁止或删除 内容自动屏蔽
作者: 皓龙    时间: 2006-11-17 14:28
原帖由 niwei 于 2006-11-17 14:25 发表


square,几个月没动你筋骨骨头痒了是不:mad:

看来你的恶习始终难改w00t)
作者: niwei    时间: 2006-11-17 14:29
原帖由 皓龙 于 2006-11-17 14:28 发表

看来你的恶习始终难改w00t)


上次狗牙图被我教训记忆犹新啊w00t)
作者: 来不及思考    时间: 2006-11-17 14:32
提示: 作者被禁止或删除 内容自动屏蔽
作者: 来不及思考    时间: 2006-11-17 14:44
提示: 作者被禁止或删除 内容自动屏蔽
作者: 大死人花    时间: 2006-11-17 14:55
原帖由 来不及思考 于 2006-11-17 14:32 发表


说过N遍了,太简单了,4个标量可以当一个矢量用,而且这个合成在G80上是免费的
但1个矢量就永远不能分成4个标量
首先这在指令执行效率上就有本质区别,因为流水线中的状况是很复杂的,最基本最“细致”的 ...

为什么G80 4个标量当一个矢量用是免费的?

如果是一个4D矢量,那G80的执行能力不就减到原有的1/4了么?

另外R600的5D+1D比R580的4D+1D多了什么?
作者: fineday    时间: 2006-11-17 15:00
原帖由 大死人花 于 2006-11-17 14:55 发表

为什么G80 4个标量当一个矢量用是免费的?

如果是一个4D矢量,那G80的执行能力不就减到原有的1/4了么?

另外R600的5D+1D比R580的4D+1D多了什么?

:wacko: 4个1D合并成一个“4D”难道还不是免费的……
作者: 来不及思考    时间: 2006-11-17 15:01
提示: 作者被禁止或删除 内容自动屏蔽
作者: 来不及思考    时间: 2006-11-17 15:04
提示: 作者被禁止或删除 内容自动屏蔽
作者: ghrs2010    时间: 2006-11-17 15:08
原帖由 fineday 于 2006-11-17 15:00 发表

:wacko: 4个1D合并成一个“4D”难道还不是免费的……


如果直接是4D指令的话多少还是有落差的,无论多小,调度开销都是存在着的

区别在于能够在多大程度上掩盖
作者: ghrs2010    时间: 2006-11-17 15:08
原帖由 大死人花 于 2006-11-17 14:55 发表

为什么G80 4个标量当一个矢量用是免费的?

如果是一个4D矢量,那G80的执行能力不就减到原有的1/4了么?

另外R600的5D+1D比R580的4D+1D多了什么?



非常好奇地问一句:5D是什么玩艺?
作者: 来不及思考    时间: 2006-11-17 15:09
提示: 作者被禁止或删除 内容自动屏蔽
作者: ghrs2010    时间: 2006-11-17 15:10
原帖由 来不及思考 于 2006-11-17 15:04 发表


不是4个当一个用,而是1个标量单元用4个周期来完成
期间造成的延迟Gigathread完全可以掩藏,所以说是免费的


还是那句话:极端情况下的话...完全掩藏这样绝对化的判断还是算了吧

绝大多数情况下,这样说比较稳妥
作者: 来不及思考    时间: 2006-11-17 15:11
提示: 作者被禁止或删除 内容自动屏蔽
作者: ghrs2010    时间: 2006-11-17 15:11
原帖由 来不及思考 于 2006-11-17 15:09 发表


C1就是4D+1D
R600继承下来完全不奇怪哦


请看原文,他说的是5D+1D
作者: ghrs2010    时间: 2006-11-17 15:13
原帖由 来不及思考 于 2006-11-17 15:11 发表


这个问题比4D SIMD流水线所面临的困扰要小得多


困扰较小是没错,然而这里还有一个问题:等效晶体管

打个比方:同样的晶体管开销,追求100X90%真的会比120X80%好吗?

G80有一些过于激进了,当然这只是我的个人看法
作者: 来不及思考    时间: 2006-11-17 15:14
提示: 作者被禁止或删除 内容自动屏蔽
作者: ghrs2010    时间: 2006-11-17 15:16
原帖由 来不及思考 于 2006-11-17 15:14 发表


tex fetch那种规模的延迟都能掩盖,相比之下这些算术指令实在不算什么

G80的问题根本就不在于效率,这点我现在就敢保证G80绝对可以有效率优势
G80的问题是执行能力比R600不如


问题在于效率和资源往往是矛盾的
作者: 大死人花    时间: 2006-11-17 15:22
原帖由 ghrs2010 于 2006-11-17 15:11 发表


请看原文,他说的是5D+1D

我写错了,R600是4D+1D,R580是3D+1D
作者: pkking    时间: 2006-11-17 15:23
学习。...:a) :a)
作者: pliflier    时间: 2006-11-17 16:23
原帖由 ghrs2010 于 2006-11-17 15:08 发表


非常好奇地问一句:5D是什么玩艺?

2D+3D=5Dw00t)
作者: zl841226    时间: 2006-11-17 16:25
提示: 作者被禁止或删除 内容自动屏蔽
作者: Eji    时间: 2006-11-17 16:37
原帖由 shu0202 于 2006-11-17 14:16 发表
多数情况下4D比1D的效率要好得多。至于架构的灵活性也只能是在现有工艺局限性下讨论。我想NV可能是想打造一个“彻底的US”架构,所以把空前的灵活性放在了优先考虑的地位。但是理论上讲,4D并不是不灵活。如果设 ...


不必設想,R680就是這樣的設計,同樣是R520 -> R580的觀念。
可能有高達192個(64x3)的ALU,但是thread不會增加,所以理論上就是R600的2x效能。
(ALU資源3x、分支開銷3倍,兩相抵銷之後2x左右的performance,電晶體沒有顯著增加)

但是,G80並沒有G70/G71的thread資源限制,R680能夠像R580一樣,只要屬於thread吃重就能大贏G71?我想會有疑問;
而且目前G80的Shader Array還離它的時脈限界很遠,現在是結構上的散熱不良造成時脈限制,re-spin過就會有不一樣的表現,
更別提換到65nm process。

總之,從結構上來說雙方都有各自的贏面,G80早發表是為了對抗XBOX360的長期優勢,
R600的兩段式產品配置也有其後著存在,而4D的效率缺陷有額外的1D可以做修補,
現在要再遇上當年NV30那種狀況,我覺得可能還要再多拜拜才看得到。

[ 本帖最后由 Eji 于 2006-11-17 16:41 编辑 ]
作者: zl841226    时间: 2006-11-17 16:41
提示: 作者被禁止或删除 内容自动屏蔽
作者: 来不及思考    时间: 2006-11-17 16:45
提示: 作者被禁止或删除 内容自动屏蔽
作者: Eji    时间: 2006-11-17 16:50
原帖由 ghrs2010 于 2006-11-17 15:16 发表

问题在于效率和资源往往是矛盾的


主要都是所謂的overhead....
1D可以帶來100%的使用率,但是結合的時候有overhead、增加的control也是成本,所以有做co-issue。
4D的話普遍來說就是70%上下,所以那個+1D自然是有其必要。

但是話說資源又有一個很妙的地方存在對比:
NVIDIA認為Programmable資源寶貴,所以持續地強化hardwired unit的規模來當輔助;
ATI則認為全面的programmable才能調配資源,避免hardwired不可挪用調整的浪費,
所以TMU和ROP不增加,FP filtering由ALU處理。

這應該是各有看法,各有主張的程度.... 還不到誰對誰錯的問題。
比方說我自己是認為TMU/ROP是輔助ALU做steam process吞吐時的加速器,
就像MPEG decoder一樣應該全面具備;但是ATI覺得有Fetch4這樣的功能來輔助ALU的話,
以大量的thread為後盾,就可以讓ALU做類似softshadow filter/PCF filter一樣吃效能的東西,
R580證明這樣的作法和hardwired的PCF相比毫不遜色,但是我還是比較喜歡Hardwired....

所以當討論進入平行線的時候,或許留給時間證明才是適當的。
作者: 来不及思考    时间: 2006-11-17 16:55
提示: 作者被禁止或删除 内容自动屏蔽
作者: Eji    时间: 2006-11-17 16:55
原帖由 zl841226 于 2006-11-17 16:41 发表
某人说,R600最多应该可以扩展到256个US........也就是和C1一样,16US per bank.....................:huh:


我知道,我也這麼認為;
但是就像R5x0其實可以做到128個shader per-bank、最大512個shader的時候,
卻只做到48個shader一樣,真的把Shader照理論擴充能力做滿,那只會有極為大量的閒置ALU而已。
所以我想應該就是類似當初R520 -> R580的3x成長比率,因為R600->R680還是在現在的ring-bus結構上的關係。

而目前所知,G8x的賣點似乎是shader array的可達時脈....
作者: ayanamei    时间: 2006-11-17 19:53
R600还是纯粹Shader power为主要考虑的思路。极限的branch性能不太可能是为了PixelShader的常规应用准备的,至少维持原来的设计 可以以比较低的成本维持Shader power.
G80实现128x scalar Stream processor事实上应该是付出了相当大的代价在Gigathreading上面。
作者: ayanamei    时间: 2006-11-17 19:59
原帖由 来不及思考 于 2006-11-17 15:04 发表


不是4个当一个用,而是1个标量单元用4个周期来完成
期间造成的延迟Gigathread完全可以掩藏,所以说是免费的

严格的来说 不光是延迟 控制指令一样要多3条 虽然不多 但不可以忽视开销
全面跑4D Vector  1D ALU还是有损的。
但是实际情况这些额外的损失在更多的1D操作中可以赚回来
作者: 来不及思考    时间: 2006-11-17 20:03
提示: 作者被禁止或删除 内容自动屏蔽
作者: ayanamei    时间: 2006-11-17 20:06
原帖由 来不及思考 于 2006-11-17 20:03 发表


SIMD的特点就是指令发射数和执行能力的不对等
G80在很大程度上粉碎了这个障碍,相对于R600,这些多出的控制指令开销可以说是免费的

一定程度上免费吧 死嚼这个问题没意思 也罢
作者: 来不及思考    时间: 2006-11-18 02:26
提示: 作者被禁止或删除 内容自动屏蔽
作者: 来不及思考    时间: 2006-11-18 03:02
提示: 作者被禁止或删除 内容自动屏蔽
作者: ghrs2010    时间: 2006-11-18 07:04
原帖由 来不及思考 于 2006-11-18 03:02 发表
G80好玩的地方在于:很少有人理解这个新体系的真正含义

这也正好
我等着看工艺壁垒被粉碎的那天


工艺壁垒是对等的吧,如果R600做到256US呢?

好吧,那个某人就是我

另外,个人认为R600很难简单地认为就是C1的方法增强,不过要说两者没有关系也不至于(所以我觉得思考兄稍微有一些低估的味道,至于Leo大说"不是大多数人现象的样子"也不是很理解----那是什么样子)
作者: Eji    时间: 2006-11-18 07:41
原帖由 leo8008 于 2006-11-18 02:52 发表

ringbus就是一个明显的为了效率而接近画蛇添足的玩意。
试想r520若是r580的无rb版本(反正晶体管也差不多),g7X系列还能这么轻松么?若rv570缩到2.9亿呢?


我想不至於,如果R5x0沒有ring-bus,那很可能就沒有1950xtx GDDR4版了。(逃
他們說的crossbar MC的散熱問題,不見得nVIDIA會遇到,但是至少應該代表他們遇到了。
所以沒有做Ring-bus的話,可能代表沒辦法弄出高頻的MC來支援GDDR4。

另外,R5x0的大量thread到底算不算畫蛇添足?
今天是有不少thread吃重的東西讓G7x不太輕鬆沒錯,
不過首先這種寫法就不見得是好事。
(我現在還是覺得softshadow filter用分支寫很病態,hardwired PCF就搞定啦?)
作者: Eji    时间: 2006-11-18 07:50
原帖由 ghrs2010 于 2006-11-18 07:04 发表


工艺壁垒是对等的吧,如果R600做到256US呢?

好吧,那个某人就是我

另外,个人认为R600很难简单地认为就是C1的方法增强,
不过要说两者没有关系也不至于(所以我觉得思考兄稍微有一些低估的味道,至于Leo大说 ...


作256US沒什麼不好啊,只是和R5x0做到512PS一樣,2/3的shader大概都是閒置的吧。
C1現在就苦於thread不足問題,ALU利用率只有1/2左右。
但是320M -> 384M從16變成48個ps,一個ALU大約2M,全部加滿就1280M了。
這些單元有多少ps會有thread來推動很讓人懷疑,die size的問題就先別提了。
R600和C1終究是有落差,落差最大的應該就是thread數量部分。

G80的process wall主要是那些shader如何走向更高頻,
和R6x0的US數量應該是不同的問題才對;當然R6x0的ALU資源有機會達到很驚人的地步。
作者: 来不及思考    时间: 2006-11-18 14:29
提示: 作者被禁止或删除 内容自动屏蔽
作者: SM5    时间: 2006-11-18 18:43
原帖由 Eji 于 2006-11-17 16:50 发表


主要都是所謂的overhead....
1D可以帶來100%的使用率,但是結合的時候有overhead、增加的control也是成本,所以有做co-issue。
4D的話普遍來說就是70%上下,所以那個+1D自然是有其必要。

但是話說資源 ...


看来NV是要把1D进行到底了
作者: fineday    时间: 2006-11-18 21:13
:p 256US?
对了,CF不是能到256way么?怎么Quad SLi这么久了,连个4way的都没影子?
作者: zl841226    时间: 2006-11-18 21:50
提示: 作者被禁止或删除 内容自动屏蔽
作者: samsung    时间: 2006-11-19 00:53
原帖由 来不及思考 于 2006-11-17 16:55 发表
R600可以有类似R520-->R580一样的三倍能量增强
而G80的shader设计时钟目标是接近Northwood P4的极限

看来双方都未完成热身



Northwood ??? 3GHz  750MHz X4 ??????w00t)
作者: epu2000    时间: 2006-11-19 02:23
原帖由 来不及思考 于 2006-11-18 14:29 发表


G80的shader array,时钟设计目标是northwood P4
如果R600不等同的增加辅助资源而只添加ALU到256,很难想象能与之对抗



:blink: 那是说G80只要换换工艺就能提升至少1倍的效能?
作者: Eji    时间: 2006-11-19 02:50
原帖由 fineday 于 2006-11-18 21:13 发表
:p 256US?
对了,CF不是能到256way么?怎么Quad SLi这么久了,连个4way的都没影子?


CF如果"外部合成"的話,可以辨識256個GPU(還是quad忘了,當時因為是9700pro所以應該是256個GPU、512quad);
結果其實也沒那麼大頻寬(256個single-link DVI "in")的裝置去做這玩意兒....
總之,CF其實在interconnection方面還沒有考慮得很好,SLI則比較早想到很多事情。
作者: Eji    时间: 2006-11-19 02:56
原帖由 samsung 于 2006-11-19 00:53 发表
Northwood ??? 3GHz  750MHz X4 ??????w00t)


考慮結構本身的話,Northwood應該可以上到大約4GHz。
我想這邊是指這個數字....
作者: killpmp    时间: 2006-11-19 08:35
原帖由 epu2000 于 2006-11-19 02:23 发表
:blink: 那是说G80只要换换工艺就能提升至少1倍的效能?

变换工艺后,不用增加Stream Processor的数量,只要让它频率翻一倍,就等于又多了128个Steam Processor
当然其它东西也得跟上去,比如显存总带宽得增加上去
作者: ghrs2010    时间: 2006-11-19 13:12
原帖由 来不及思考 于 2006-11-18 14:29 发表


G80的shader array,时钟设计目标是northwood P4
如果R600不等同的增加辅助资源而只添加ALU到256,很难想象能与之对抗


很遗憾,可预见的将来这个目标不具有可行性

就算是IBM也不是万能的,何况还有价格壁垒
作者: ghrs2010    时间: 2006-11-19 13:14
原帖由 killpmp 于 2006-11-19 08:35 发表

变换工艺后,不用增加Stream Processor的数量,只要让它频率翻一倍,就等于又多了128个Steam Processor
当然其它东西也得跟上去,比如显存总带宽得增加上去


对于R600来说,最佳的平衡点或许是128US

这并不需要太大的DIE SIZE增量作为代价

或者说不是没有难度,然而至少比G80的频率翻倍要容易一些
作者: 来不及思考    时间: 2006-11-19 13:20
提示: 作者被禁止或删除 内容自动屏蔽
作者: ghrs2010    时间: 2006-11-19 13:36
原帖由 来不及思考 于 2006-11-19 13:20 发表



意思是说,NV设计Stream Processor Array的设计思路是完全错误的,那个2.X GHz的设计指标完全是空中楼阁,以后的工艺也不可能达到,NV又完全造就了一个废物
是么


不能说对与错,只能说此一时彼一时

看看"真正的G80"堆积了怎样的工艺技术?第3代绝缘体上覆硅,区域变相,伪二元共晶体,极低K值介电材料,堆栈晶体管...那么成本控制呢?退一步说,不考虑成本控制问题,IBM的初衷不过是为POWER6寻找适当的工艺验证罢了,POWER6+的工艺验证是不是依旧需要NV,那就是另一个问题了

我不否认工艺的进步最终可以达到今日必须动用火星技术方能企及的目标,不过这需要时间;另一方面,ATI同样可以从工艺技术的进步中获益----能够提升频率的不是只有G80

所以我的观点很简单:没有理由认为ATI会在工艺上处于相对静止的地位,考虑到AMD自身的技术水平以及IBM-AMD的战略联盟的话更是如此
作者: ghrs2010    时间: 2006-11-19 13:37
我对于G80的评价一向正面,然而实话实说,我并不认为这一架构在当前的工艺水平下具有绝对的统治力
作者: fineday    时间: 2006-11-19 13:40
原帖由 ghrs2010 于 2006-11-19 13:37 发表
我对于G80的评价一向正面,然而实话实说,我并不认为这一架构在当前的工艺水平下具有绝对的统治力

:p 您就直说ATi永远比NV牛不就得了?
作者: 来不及思考    时间: 2006-11-19 13:42
提示: 作者被禁止或删除 内容自动屏蔽
作者: zl841226    时间: 2006-11-19 13:43
提示: 作者被禁止或删除 内容自动屏蔽
作者: ghrs2010    时间: 2006-11-19 13:45
原帖由 fineday 于 2006-11-19 13:40 发表

:p 您就直说ATi永远比NV牛不就得了?


我不得不佩服阁下的理解力,同时哀悼一下自己的中文水平

在架构上,G80确实比R600的先进,只不过这样一种先进性目前来看待嫁过于高昂,并且其日后发挥需要相应的制程工艺作为保障

工艺的提升对于双方都有好处,至于R600能否生存到架构本身的频率上限,这一点不无疑问,因此我并不认为R600相比G80多么糟糕
作者: ghrs2010    时间: 2006-11-19 13:46
原帖由 来不及思考 于 2006-11-19 13:42 发表
如果考虑到R600本身的设计,可以认为从工艺进步中所受到的益处,肯定不如G80那么多
实际上,ATI根本就是情报战的失败者,等下我开贴来讨论一个类似的有趣话题


R600能够生存到架构频率极限的那一天吗?

还是说G80可以频繁调整制程?
作者: killpmp    时间: 2006-11-19 13:50
原帖由 ghrs2010 于 2006-11-19 13:46 发表
R600能够生存到架构频率极限的那一天吗?

还是说G80可以频繁调整制程?

问题是现在需要更先进制程的偏偏是AMD图形部
如果R600用90nm来做会如何??根本就不可想象!
G80如果用同样的80nm就可以做到SP频率翻倍——当然这不是我说的,我什么都不知道:unsure:
G80是少量基础资源很高频率,R600是大量复杂资源较低频率,至于谁的做法更好,DX10时代的游戏来证明
不过G80已经先入为主了,所以R600面对的压力更大一些

[ 本帖最后由 killpmp 于 2006-11-19 13:53 编辑 ]
作者: 来不及思考    时间: 2006-11-19 13:52
提示: 作者被禁止或删除 内容自动屏蔽
作者: samsung    时间: 2006-11-19 13:54
原帖由 来不及思考 于 2006-11-19 13:52 发表
G80保持原来的那些外星人工艺,制程用90NM就可以达到70%以上的频率指标




有疑問的是4 TCP  Double-clock的中階能夠整合 NVIO ????
作者: 来不及思考    时间: 2006-11-19 13:55
提示: 作者被禁止或删除 内容自动屏蔽
作者: samsung    时间: 2006-11-19 13:58
原帖由 来不及思考 于 2006-11-19 13:55 发表



频率够高的话,应该还是需要那个玩意



如果是500MHzX2 ???
作者: 来不及思考    时间: 2006-11-19 14:00
提示: 作者被禁止或删除 内容自动屏蔽
作者: ghrs2010    时间: 2006-11-19 14:07
原帖由 killpmp 于 2006-11-19 13:50 发表

问题是现在需要更先进制程的偏偏是AMD图形部
如果R600用90nm来做会如何??根本就不可想象!
G80如果用同样的80nm就可以做到SP频率翻倍——当然这不是我说的,我什么都不知道:unsure:
G80是少量基础资源很 ...


根本不可想象么?不要忘了R600的晶体管数量少于G80

我承认双方的布局实力落差巨大,这个实在没办法,反正原因何在参与讨论的各位也是心知肚明

至于说80nm下频率翻倍,我只能说言之尚早,何况即便是现在的R600,工艺也是高度不成熟的

反过来说,少量基础资源居然占用了相比大量复杂资源还要多一些的晶体管,这真的是完美的解决方案吗?
作者: ghrs2010    时间: 2006-11-19 14:09
原帖由 来不及思考 于 2006-11-19 13:52 发表
G80保持原来的那些外星人工艺,制程用90NM就可以达到70%以上的频率指标


保持?那么G80的DIE价格会是多少?何况现在的NV对于IBM的价值不及先前----POWER6已经不再需要验证了
作者: 来不及思考    时间: 2006-11-19 14:11
提示: 作者被禁止或删除 内容自动屏蔽
作者: 来不及思考    时间: 2006-11-19 14:12
提示: 作者被禁止或删除 内容自动屏蔽
作者: CoreSolo    时间: 2006-11-19 14:16
原帖由 来不及思考 于 2006-11-19 13:52 发表
G80保持原来的那些外星人工艺,制程用90NM就可以达到70%以上的频率指标

用不用得上是个大问题
作者: 来不及思考    时间: 2006-11-19 14:17
提示: 作者被禁止或删除 内容自动屏蔽
作者: CoreSolo    时间: 2006-11-19 14:20
原帖由 来不及思考 于 2006-11-19 14:17 发表


有什么问题? w00t)
如果NV不惜代价的话? w00t)

谈论不惜一切代价的话能做的事情没什么意义啊:lol:
作者: samsung    时间: 2006-11-19 14:24
原帖由 来不及思考 于 2006-11-19 14:17 发表


有什么问题? w00t)
如果NV不惜代价的话? w00t)



花錢請IBM代工w00t)
作者: CoreSolo    时间: 2006-11-19 14:27
原帖由 samsung 于 2006-11-19 14:24 发表



花錢請IBM代工w00t)

呃,我感觉即使在这方面两相情愿,诸如二元伪共晶之类的玩意儿还是太纸面了
作者: ghrs2010    时间: 2006-11-19 14:34
原帖由 来不及思考 于 2006-11-19 14:11 发表
后一句话可以收回去
"白银天堂",虽然是比较俗的名字,但后续一系列计划都已经展开了,NV都有参与,甚至是POWER6的后续小白
多的不用我说了吧


POWER6+的合作者还是NV?如果是这样的话,当我没说

不过这一次NV不是唯一合作者,因为还有NEC,后者可不仅仅是小白鼠
作者: samsung    时间: 2006-11-19 14:35
原帖由 来不及思考 于 2006-11-19 14:11 发表
后一句话可以收回去
"白银天堂",虽然是比较俗的名字,但后续一系列计划都已经展开了,NV都有参与,甚至是POWER6的后续小白
多的不用我说了吧



GPU 過1年後調整Shader頻率 在過半年後改ALU 在重新調回原頻率然後 在調整Shader頻率+改ALU............w00t)
作者: linwu1    时间: 2006-11-19 14:36
R600只有16个ROP,是不是说它的高分抗锯齿能力会不如G80?
作者: ghrs2010    时间: 2006-11-19 14:36
原帖由 来不及思考 于 2006-11-19 14:12 发表


貌似R5XX时代没有见你这么说过 :p


唯一可以类比的情况是R520 VS G70

不过两者效率上的落差大到了足以掩盖资源对比的程度,R600未必存在这个问题吧
作者: ghrs2010    时间: 2006-11-19 14:38
原帖由 linwu1 于 2006-11-19 14:36 发表
R600只有16个ROP,是不是说它的高分抗锯齿能力会不如G80?


很不凑巧,R600最引以为傲恰恰是AA
作者: 来不及思考    时间: 2006-11-19 14:38
提示: 作者被禁止或删除 内容自动屏蔽




欢迎光临 POPPUR爱换 (https://we.poppur.com/) Powered by Discuz! X3.4