POPPUR爱换

标题: 最近越看越有趣的R600 vs G8x [打印本页]

作者: Eji    时间: 2008-6-25 20:03
标题: 最近越看越有趣的R600 vs G8x
Edison扔的
Experiencing Various Massively Parallel Architectures and Programming
Models for Data-Intensive Applications
這篇文章實在太有趣...從這篇可以看得出來,R600是每個core164D+1DALU256KB register file、整個GPU192wavefront、每個wavefront則剛好是64thread,整個GPU12288 threads(RV670R600)
G80的每個SM24warp、共計16SM,即384warp、但每個warp由於只有32threads,所以總計其實也是12288thread
但是在此同時,G80只有512KBtotalregister fileR600/RV6701MB
G80每個SM只有32KB register file,每個TPC只有64KBR600的每個ALU array256KB
当然大家仔细看可以看出来:G80的每个SM只有81D、每个TPC只有161DR600164D+1D
所以双方的registerfile规模,几乎就是1Dvs 4D的规模,只是G80的结构因为SIMT的复杂度,所以thread规模可变;R600规模比较大,做得没那么细致,灵活性比较低,但是资源仍然充分。

----
这篇真正的意义在于,
GPU绘图用途上,双方其实是几乎同等的:TMUALU都是成对分开,变成数个小core,然后以crossbar来和ROP连接。
ROP再以其他的方式(G80crossbarR600ring-bus)來和memorycontroller連接。

問題就在於此了:其實RV670RV770的關係,正好就是G94G92的關係。
G94推出前,光比较RV670G92就会显得R600结构效率很差,运算密度很低,然后G92的成本很高;G94推出时就会看到G8x的结构比R6x0可以更小些....

RV770推出后则把R6x0的运算密度提高,达到和G92可以对抗的程度。也就是其实双方的core(TPCvs ALU array)几乎是可以单位上相对比的。

现在的问题就是ATI有没有办法已以现在RV770的方式拿出和GT200可以对抗的品?
这代表的是10core (= 16way SIMD ALU array+4way TMU array),与10core (=TPC = 3x8way SIMT + 8way TMU array)是否对等。

GT200顯示NVIDIA認為8TPC-256bit是適當,所以往上做就是16TPC-512bit(16TPC整合到10TPCx1.5,以縮小crossbar規模)
RV770可以看得出來,其實TMUROPR6x0裡面也是占較大規模,所以只增加20%就可以達成不刪減registerfile增加一倍的總咚懔俊?/font]

那么,
RV770之后谣传会到2000SP,可能是从10array变成25array;但是在此同时TMU的数量也跟着增加到100个,这时候还会是16ROP + 256bit(GDDR5)吗?
要不然的话NVIDIA也可以拿更多TPC来搭配256bit,就可以快速地缩小看起来很巨大的GT200了。

也就是其實這只是一些coding style、現有application對咚懔恳约邦l寬的平衡觀念而已。
我忽然覺得Larrabee其實機會不小了啊.....XD
那也不過只是把每個TPC or ALU array加上個小小的x86 core而已。


[ 本帖最后由 Eji 于 2008-6-25 20:07 编辑 ]
作者: PixelShader    时间: 2008-6-25 20:05
老大,你为什么不用简体中文……?!
作者: melissa    时间: 2008-6-25 20:05
哇靠

EJI大大的沙发

ORZ

顶完再看

沙发没了,板凳上看.

[ 本帖最后由 melissa 于 2008-6-25 20:10 编辑 ]
作者: xreal    时间: 2008-6-25 20:08
:mad: amd aa能力翻倍,就算256bit都能和gt200对抗:mad:
作者: fmer    时间: 2008-6-25 20:10
中心思想貌似是NA2家都会最终败在Intel手里。。。。
作者: Eji    时间: 2008-6-25 20:12
原帖由 xreal 于 2008-6-25 20:08 发表
:mad: amd aa能力翻倍,就算256bit都能和gt200对抗:mad:


ATI AA以前一直贏NVIDIA,是R600的時候太妄想靠shader資源省錢啦....XD
作者: Bohr    时间: 2008-6-25 20:15
提示: 作者被禁止或删除 内容自动屏蔽
作者: Eji    时间: 2008-6-25 20:16
原帖由 fmer 于 2008-6-25 20:10 发表
中心思想貌似是NA2家都会最终败在Intel手里。。。。


這是什麼標題黨XD
----
這意思是說,Register file + TMU 之類的規模,和一個CPU core相比大得多了。
那麼加上CPU core,不論是x86還是ARM,成本也不會高到哪去.... 除非想做得很複雜很快,但是這意義就不大了。
一定是類似Atom一樣的簡易core,然後cache不大。

在這個狀況下,所有的咚阗Y源都是靠ALU和TMU在撐,就像引入了新指令集的x86 core一樣,這沒有好好花功夫寫是不會比較快的

[ 本帖最后由 Eji 于 2008-6-25 20:19 编辑 ]
作者: Eji    时间: 2008-6-25 20:17
原帖由 superbad 于 2008-6-25 20:15 发表
RV770 也还是shader AA吧?有什么改进性能提升这么多?E大讲解一下:)


就我所知RV770這回不是shader AA了?
作者: logitechMX518    时间: 2008-6-25 20:20
原帖由 Eji 于 2008-6-25 20:17 发表


就我所知RV770這回不是shader AA了?



?真的么?
作者: 威廉第三    时间: 2008-6-25 20:24
标题: 回复 11# Eji 的帖子
不是shader AA是什么,望告知?
作者: shaolin711    时间: 2008-6-25 20:25
RV770 也还是shader AA
作者: Eji    时间: 2008-6-25 20:26
原帖由 logitechMX518 于 2008-6-25 20:20 发表
?真的么?


CFAA大部分都可以由ROP完成了,所以可以這麼說(大半不是shader AA)。
ATI 自己也這麼說、那麼能變快應該就是這個原因吧。

----
回過頭來說,很多人很關心的是R870 or RV770X2能不能打倒GT200之類的勝負,我是很想說我們就回頭看GT200 vs G92GX2吧....

[ 本帖最后由 Eji 于 2008-6-25 20:28 编辑 ]
作者: cataclyson    时间: 2008-6-25 20:32
想请教Eji大一个问题,就是R770在1680X1050 以下低分辨率NO AA的时候效能依然不是非常突出,请问这是和N的Shader频率较高有关系吗?谢谢。:)
作者: fmer    时间: 2008-6-25 20:38
原帖由 Eji 于 2008-6-25 20:26 发表


CFAA大部分都可以由ROP完成了,所以可以這麼說(大半不是shader AA)。
ATI 自己也這麼說、那麼能變快應該就是這個原因吧。

----
回過頭來說,很多人很關心的是R870 or RV770X2能不能打倒GT200之類的勝負,我 ...


意思是伯仲之间?
作者: alansweis    时间: 2008-6-25 20:40
:)
久违的技术贴,顶了再看
作者: michaelzyh    时间: 2008-6-25 20:42
提示: 作者被禁止或删除 内容自动屏蔽
作者: tomsmith123    时间: 2008-6-25 20:49
X86 的核可不是小小的,去掉SSE支持,去掉out of order,大致可以缩小到1/3 左右,压缩流水线,简化部分指令,再缩小一些。也许Larrabee 的核可以比较小,和GPU 的SP比,会大很多。
作者: 九泉苍月    时间: 2008-6-25 20:51
RV770撇弃Ringbus/Crossbar改用一个Switched Hub...求解
作者: 1empress    时间: 2008-6-25 20:51
提示: 作者被禁止或删除 内容自动屏蔽
作者: 1empress    时间: 2008-6-25 20:58
提示: 作者被禁止或删除 内容自动屏蔽
作者: kanata    时间: 2008-6-25 21:04
技术含量高的帖子   绝不能够视而不见。。。顶。。
作者: AFXIF    时间: 2008-6-25 21:16
[attach]887151[/attach]
根据这张图显示RV770的一个core,包括16个ALU和4个TMU了的像素是206*19=3914
GT200的一个core,也就是一个TPC同样包括了ALU和TMU,数量是24个与8个,像素是165*65=10725

虽然我不清楚G80那样同样是16ALU与4TMU的这么一个TPC做到65nm该是多少,就按60%算吧,然后面积考虑两者的工艺差是70%。结果10725*60%*70% = 4504.5,还是大了一些。
所以真比不顾MC纯堆SP core,还是NV成本更大一些的吧。

[ 本帖最后由 AFXIF 于 2008-6-25 21:22 编辑 ]
作者: 1empress    时间: 2008-6-25 21:21
提示: 作者被禁止或删除 内容自动屏蔽
作者: Asuka    时间: 2008-6-25 21:30
原帖由 九泉苍月 于 2008-6-25 20:51 发表
RV770撇弃Ringbus/Crossbar改用一个Switched Hub...求解


ringbus和crossbar不是一回事,switub就是crossbar

在现在来说,xbr架构依然是最高效的互联解决方案
作者: saintangel    时间: 2008-6-25 21:32
一堆英文缩写,看不懂
作者: gzcjb    时间: 2008-6-25 21:46
intel最可怕的还是制程和产能,假如AMD的CPU不争气,intel完全可以把最新的制程用在GPU上面,而不是mobile上面。到那时搞不好已经是0.32nm了:funk:
作者: shu0202    时间: 2008-6-25 22:06
Eji兄可以写得更通俗些,否则包括我在内的很多人只有张大嘴巴的份……
RV770抗锯齿性能的飞跃源于三部分改动:后处理器单元Z模版数量翻倍;AA算法仍交给Shader处理,但是可用资源提升150%;纹理单元数量提升150%,缓存容量提升(多少不清楚)。
RV770集中提升了shader单元的晶体管密度,并且放弃了环形总线,数据读取更迅速,但是不利于实现扩充总线带宽,这也是迫切使用GDDR5的原因。
作者: Eji    时间: 2008-6-25 22:11
呃,我觉得好像混淆太多东西了,所以很多人不知道我想表达什么。
我做一张表格好了,放入一些更CPU的名词:

1. NVIDIAGT100(G8x/G9x) & GT200(G100)
coreTPC
3array x 8way SIM"T"(2x4D ALU with SFU1D gather &scatter)
3x 24way FGMT(64KB register file)
2x 4D TMU
16KB scratch pad memory
[attach]887184[/attach]
2. AMD/ATIR6x0/R7x0
coreALU Array
16way SIMD x 4D Vector + 1D scalar + SFU
48way FGMT(256KB register file)
1x4DTMU(R6x0-4D+1DR7x0-4D)
16KB localdata cache(R7x0)
[attach]887185[/attach]
3. STI CELL
coreSPE
4way SIMDnoFGMTno TMU
256KB scarth pad memory

4. Intel Larrabee
corex86CPU core
way SIMD
way FGMT
TMU unknown
cache/scratch padunknown

------
所以这些GPU其实都是
core--[crossbar]-----ROP-----[crossbar or ringbus]----memorycontroller
的结构,所以CELL其实只要每个SPE放一个TMUmemory controller上放一个ROP,而这两个单元都只要4~8cycle一个4D thoughtput,这样CELL就可以顺利变身成一个GPU了,其实比想象中单纯,也就是,目前的GPU厂商其实优势都是在driversupport上,底层结构其实和CPU厂商相比都不复杂,他们也还做不大规模。

当然论规模的话,如果极端一点,我今天拿一堆x86CPUnetwork上模拟GPU的话,也是可以啦,只是是天大的浪费而已。

為了節省,上面的NVIDIA TPCAMD ALU arraySTISPE都是和host CPU不同的ISA,只有Intel想用和hostCPU相同的ISA,這是因為他們的製程大,所以相對之下"可以浪費"....不過即使是用ARMcore,感覺上在這個規模比較上也是很浪費就是。

然后从AMD/ATI的做法,16way 4D ALU来看,其实Larrabee目前号称32core x 512bitSIMD的设计并不算是真的很激进,只是除了STICELL3Larrabee之外,目前RV770倒是第一个两位数core(10)的设计。

[ 本帖最后由 Eji 于 2008-6-25 22:56 编辑 ]
作者: liii007    时间: 2008-6-25 22:24
提示: 作者被禁止或删除 内容自动屏蔽
作者: qb兔子    时间: 2008-6-25 22:34
按照这个观点,应该还有一个GT200版G92存在喽?

如果HD4870X2比预期提前上市,单靠65nm工艺的GT200自然不够,55nm版现在看起来也并不是个好办法(或者说这就是暂时取消的原因?):一方面是GT200单靠65nm->55nm很难做到500mm^2以下,良率改观不会太明显;另一方面我也对TSMC的产能持怀疑态度:RV670/RV770/G92-b1已经够呛,再来良率不算高的GT200-b1的话……
这么说24SP/TPC x 6TPC似乎是个不错的选择,若此规模可以满足"55nm工艺下整合NVIO2“的话,GT200体系还有的玩:单路版切入9800GTX+与GTX 260之间的空档,2-way版正面同R700交锋。当然达成以上假设主要还得看55nm究竟为GT200调高了多少Shader上限。毕竟8TPC版的260对HD4870就够呛,缩成6TPC若还没有高频Shader帮助的话想必凶多吉少——55nm会是GT200体系的救世主吗?

PS:仔细想想,这个思路岂不是在同R700一起讽刺GTX 280吗?

[ 本帖最后由 qb兔子 于 2008-6-25 22:38 编辑 ]
作者: shu0202    时间: 2008-6-25 22:42
NV的做法是提升每条US的灵活性和效能,逼对手用大量传统低效资源来和自己硬拼,从而拖垮对手。
AMD则是用数量换取效能,堆积大量效能较低但是结构简单的管线来从资源量上压过对手。
其中的关键是工艺!假如RV770使用的是65nm工艺并且维持R580/R600的水准,这样的RV770在芯片面积、性能功耗比上根本就没有任何竞争力!R600到RV770绝不仅仅是资源规模扩大这么简单,否则凭什么用43.5%的晶体管数量换取2.5倍的运算资源?单纯扩充R600到RV770的资源规模,恐怕不会比GT200小多少。
NV注重维持单个shader效能势必造成外围资源随shader数量同步增加的情况,因此随着管线数量提升结构也越来越臃肿越来越复杂,而可用资源量相对来说不能有效提升。偏偏NV在这个时候失去了工艺上的优势,使得最初的想法落空。对手确实堆积了大量的资源,但是依靠工艺优势反而绕过了成本障碍。
作者: Eji    时间: 2008-6-25 22:45
原帖由 Eji 于 2008-6-25 20:26 发表

CFAA大部分都可以由ROP完成了,所以可以這麼說(大半不是shader AA)。
ATI 自己也這麼說、那麼能變快應該就是這個原因吧。


自貶:標準MSAA(Box filter)應該是硬體化、CFAA的tent filter、edge detect仍然是shader AA。
http://www.anandtech.com/video/showdoc.aspx?i=3341&p=10
不過總之AA performance改善完全是ROP的強化。
作者: luanchuifeng    时间: 2008-6-25 22:50
AMD的构架效率低 但容易提升数量 而NV的构架效率高 但提升数量却需要付出相当多的晶体管  看来下代产品需要构架上的巨变阿
作者: 1empress    时间: 2008-6-25 22:54
提示: 作者被禁止或删除 内容自动屏蔽
作者: shu0202    时间: 2008-6-25 22:58
AMD疯狂扩充运算资源并未对外围设计造成沉重负担,反而游刃有余,除了纹理单元相应扩充之外,RV770只将线程分配部分的仲裁器和定序器增加了20个,这就足以维持160条管线的效能,这和GT200在线程调度上扩大的规模简直是天壤之别。而且运算单元的强力扩充反而弥补了R600资源调度僵化的缺陷,10组TPC和GT200处于同一水平。NV反而将每组16PS变成了每组24PS来维持一个合理的规模。
作者: feel囝    时间: 2008-6-25 23:01
顶完再看,技术贴必顶!!!!!!!
作者: feel囝    时间: 2008-6-25 23:03
原帖由 PixelShader 于 2008-6-25 20:05 发表
老大,你为什么不用简体中文……?!

老大,没必要这样制造对立。。。。。。。又不是写中文字的人就得是大陆人,再说我觉得繁体才是真正得中国字!
作者: wdy1234    时间: 2008-6-25 23:06
难得一见的技术帖..说实话 看了1天的帖.就这帖最值得一楼一楼的看!!
作者: feel囝    时间: 2008-6-25 23:08
原帖由 Eji 于 2008-6-25 20:17 发表


就我所知RV770這回不是shader AA了?

你上一篇不是说AMD增大shader资源就是为了做AA,但有人质疑用处不大(数据是1:4对1:5,大约这个),一直没有看到你解释!
作者: Eji    时间: 2008-6-25 23:09
原帖由 shu0202 于 2008-6-25 22:42 发表
NV的做法是提升每条US的灵活性和效能,逼对手用大量传统低效资源来和自己硬拼,从而拖垮对手。
AMD则是用数量换取效能,堆积大量效能较低但是结构简单的管线来从资源量上压过对手。


我覺得要強調的是,那篇文章校正的一個重點:register file必然是和core一起的。
所以RV670 -> RV770,從666M增加到965M,大半都是shader ALU,也就是說實質上R600/RV670非shader的部分,就已經400M前後,shader+TMU本身其實只有GPU的1/3,剩下的還是ROP和memory controller。
這個可以從G80/GT200的die photo看出部分來:
[attach]887220[/attach]
中間的十字部分集中了Raster unit、ROP、Memory Controller。

GT100/200花了非常多的精神在share memory和倍速shader上,主要是為了維持住效率,還有透過這個效率來減少compiler開發的困難之處;ATI這方面付之闕如,所以靠的主要是大幅擴充core數量。

----
話說回來,把CELL SPE加上8cycle的4D TMU(相當於CELL host clock的400MHz)、還有8cycle的2x4D ROP的話,差不多就是一個有64bit XDR的GPU了耶XD
只是這些東西都是ASIC,很難做XD 而且整個GPU的shader都用ringbus溝通,thought put大概會很難看....XDXD
作者: shu0202    时间: 2008-6-25 23:09
在工艺和资源都处于劣势的情况下NV继续维持标量架构的规模快速增长显然是不太可能了,NV必须在效能和资源密集度上取得平衡,但是NV是否来得及在较短时间内解决这个问题还是未知数。DX11的竞争迫在眉睫,DX10这一部分已经出现很大的危机,这种麻烦搞不好会影响下一代架构。
从RV770的表现来看,AMD有能力在45nm工艺上实现资源再反倍并且维持相对较低的成本,这对NV现有的东西是致命的威胁。
作者: feel囝    时间: 2008-6-25 23:10
原帖由 九泉苍月 于 2008-6-25 20:51 发表
RV770撇弃Ringbus/Crossbar改用一个Switched Hub...求解

同问,Switched Hub到底是什么???
作者: Eji    时间: 2008-6-25 23:10
原帖由 feel囝 于 2008-6-25 23:08 发表
你上一篇不是说AMD增大shader资源就是为了做AA,但有人质疑用处不大(数据是1:4对1:5,大约这个),一直没有看到你解释!


AMD這回改善AA性能的主力還是靠ROP本身的修改,Custom Filter AA相較於box filter來說還是有下降....
但是CFAA既然有shader強化,應該還是會有用處啦,重點是功能的實用性。

這次比較有趣的是,由於底層整個重新設計(ROP-> memory controller這段整個翻新),
所以傳統的box filter MSAA的性能整個翻倍,如果RV670也有這種結構可用,只怕G94沒辦法壓住RV670。

[ 本帖最后由 Eji 于 2008-6-26 02:42 编辑 ]
作者: Eji    时间: 2008-6-25 23:12
原帖由 feel囝 于 2008-6-25 23:10 发表
同问,Switched Hub到底是什么???


switching hub不就是crossbar?
作者: zhg9970025    时间: 2008-6-25 23:13
娱乐论坛的技术贴
作者: NONO    时间: 2008-6-25 23:18
現在NV面臨到了工藝的瓶頸,之後還會繼續走標量的架構嗎??:funk:
作者: 阿蓝2代    时间: 2008-6-25 23:20
提示: 作者被禁止或删除 内容自动屏蔽
作者: Eji    时间: 2008-6-25 23:20
原帖由 shu0202 于 2008-6-25 23:09 发表
在工艺和资源都处于劣势的情况下NV继续维持标量架构的规模快速增长显然是不太可能了,NV必须在效能和资源密集度上取得平衡,但是NV是否来得及在较短时间内解决这个问题还是未知数。DX11的竞争迫在眉睫,DX10这一部分已经出现很大的危机,这种麻烦搞不好会影响下一代架构。
从RV770的表现来看,AMD有能力在45nm工艺上实现资源再反倍并且维持相对较低的成本,这对NV现有的东西是致命的威胁。


其實我覺得還好耶.....
目前NVIDIA和ATI其實per core的性能幾乎是一樣的(TPC vs ALU array),所以說起來,RV770其實就是10TPC + 256bit的G92而已啊。(贏也差不多贏這個程度)
這和G94出來之前,大家都擔心G92的成本太高一樣....(話說我一開始好像就寫了?)
所以真的"只是要對抗"的話,我們把GT200砍到8TPC、256bit,馬上成本面就可以對抗了。

RV770下一步如果要走所謂2000sp的話,要從10core增加到25core,4core差不多耗了280M,也就是每個core 70M前後。
所以要加到2000SP的話,還是要多投入1050M電晶體,如果你想在45nm底下維持這個die size(250mm^2前後)的話,電晶體大約是1500M前後,比現在多約500M,那其實只能讓你從10core增加到20core而已的,那大概只有1600sp.....離2000sp還有一段距離。

反過來說,GT200幾乎就是G92的double(256sp + 32 ROP),如果我們要省的話大概就是256SP + 16ROP,每個core(TPC)大概也是70~80M前後....
如果G92只double shader、維持256bit ROP的話,其實也只需要1100M前後耶?
那看起來就不會是956M vs 1400M這麼大的差距了。

[ 本帖最后由 Eji 于 2008-6-26 00:01 编辑 ]
作者: rapfish    时间: 2008-6-25 23:22
技术贴:funk:
作者: 乱世火凤凰    时间: 2008-6-25 23:25
AMD会不会在下代产品中继续采用这种塞shader的做法提升性能呢?这样做的成本应该比NV低不少吧.不过效果如何呢?
作者: Eji    时间: 2008-6-25 23:26
原帖由 NONO 于 2008-6-25 23:18 发表
現在NV面臨到了工藝的瓶頸,之後還會繼續走標量的架構嗎??:funk:


底層其實不是pure scalar啊。
8SP 其實是兩個4D Vector ALU,只是有個移位unit(gather & scatter)作排列。
但是這段的設計非常複雜......
作者: westlee    时间: 2008-6-25 23:33
提示: 作者被禁止或删除 内容自动屏蔽
作者: job555    时间: 2008-6-25 23:33
Eji很客观,很理性,PCI难得这样的版主,呵呵,台湾人?
作者: jhj9    时间: 2008-6-25 23:42
原帖由 水银 于 2008-6-25 20:56 发表
Larrabee不是many core,作为图形运算X86比shader多出来的众多指令有何意义?
larrabee会不会有个把X86指令拆成Shader能执行的简单指令呢,就像CICS to RISC那样


Larrabee完整版本是24核,指令多其实无所谓,因为内部是微指令在跑,x86只是表象
Shader指令同样可以变成微指令

我认为Larrabee的问题是在于到底有多少Fixed Unit,如果setup、rop、tmu都用x86跑,整体效率未免不足,这也是为什么用CPU来软渲染性能低下的原因之一。
作者: Eji    时间: 2008-6-25 23:43
原帖由 shu0202 于 2008-6-25 22:58 发表
AMD疯狂扩充运算资源并未对外围设计造成沉重负担,反而游刃有余,除了纹理单元相应扩充之外,RV770只将线程分配部分的仲裁器和定序器增加了20个,这就足以维持160条管线的效能,这和GT200在线程调度上扩大的规模简直是天壤之别。
而且运算单元的强力扩充反而弥补了R600资源调度僵化的缺陷,10组TPC和GT200处于同一水平。NV反而将每组16PS变成了每组24PS来维持一个合理的规模。


呃,話不能這麼說,它咚阗Y源擴充背後全部都有相應增加的register file啊。
每個16way SIMD array全部都有256KB 的register file,等效於48個wafefront(warp),所以整個RV770擴充到了480個warp,和GT200一樣都相當於30720個thread呢。

所以我說你要繼續擴充下去馬上會遇到瓶頸的。這些array本身也是crossbar連接啊。
作者: jhj9    时间: 2008-6-25 23:44
原帖由 shu0202 于 2008-6-25 22:58 发表
AMD疯狂扩充运算资源并未对外围设计造成沉重负担,反而游刃有余,除了纹理单元相应扩充之外,RV770只将线程分配部分的仲裁器和定序器增加了20个,这就足以维持160条管线的效能,这和GT200在线程调度上扩大的规模简直 ...


外围负担未必没有变重,AMD把TMU加倍了,ROP重新设计了
所以外围其实也同样提高了的
但ROP增加的是对于复杂情况的处理能力,也就是AA AF的处理能力,但是数量没有增加
这也是为什么0AA下性能一般的原因
作者: Eji    时间: 2008-6-25 23:47
原帖由 jhj9 于 2008-6-25 23:42 发表
我认为Larrabee的问题是在于到底有多少Fixed Unit,如果setup、rop、tmu都用x86跑,整体效率未免不足,这也是为什么用CPU来软渲染性能低下的原因之一。


是啊,要有人替他們設計足夠強大的的TMU、ROP和setup。
TMU要和shader在一起(其實說起來這不是理所當然嗎XD)、
ROP要和memory controller在一起,setup的部分又要放在TMU旁邊。

不過TMU和ROP、ROP和memory controller之間要用ringbus還是crossbar就真的是隨人家做了。
現在看起來感覺用不用ringbus or crossbar並不是問題....還是說RV770真的就只是把ROP和memory controller之間換成crossbar就解決了MSAA性能?
作者: 1empress    时间: 2008-6-25 23:49
提示: 作者被禁止或删除 内容自动屏蔽
作者: jhj9    时间: 2008-6-25 23:50
原帖由 westlee 于 2008-6-25 23:33 发表


现在就看nv会怎么走了,你觉得nv会拿出“只是为了对抗”的产品吗?


估计年底会出GT200 55nm改良版,然后再下一步很可能出现486到Pentium这样的跨越式产品,来和Intel抗衡
作者: 1empress    时间: 2008-6-25 23:53
提示: 作者被禁止或删除 内容自动屏蔽
作者: 1empress    时间: 2008-6-25 23:58
提示: 作者被禁止或删除 内容自动屏蔽
作者: Eji    时间: 2008-6-26 00:03
原帖由 1empress 于 2008-6-25 23:49 发表
我对这张图有所疑问

我觉得边上是thread scheduler,中间才是TPC

這你就得問NVIDIA啦_A_ 這是他們給的圖....
作者: jhj9    时间: 2008-6-26 00:05
原帖由 1empress 于 2008-6-25 23:58 发表


可能性很小吧    tsmc的55nm没法冲频率,但成本好看一些,
GT200就算做成55nm,频率冲不高的话,效能也很可疑


话说起来离DX11发布还有1年半,算是还有一次更新高端DX10产品的空间,双方全新设计应该都是留 ...


9800GTX做成55nm后难道频率没有上去?谁说的不能提高频率呢?只是能不能达到你说的冲的程度,那就各人评价标准不同了。

想想G80出来的时候DX10真正发布了吗?所以一年后DX11没有正式发布,但是Demo和显卡先出来也不能说有什么可奇怪的。
作者: lincoln    时间: 2008-6-26 00:12
先收藏,接着慢慢看。:loveliness:
作者: 1empress    时间: 2008-6-26 00:20
提示: 作者被禁止或删除 内容自动屏蔽
作者: 单晶硅传奇    时间: 2008-6-26 00:22
如果SP频率异步做倍频的话代价大不大?

比如下一步不做2000SP,而是维持800SP做2倍的频率
作者: Eji    时间: 2008-6-26 02:29
原帖由 单晶硅传奇 于 2008-6-26 00:22 发表
如果SP频率异步做倍频的话代价大不大?

比如下一步不做2000SP,而是维持800SP做2倍的频率


那可能比做2000sp 更大XD
其實到25core這麼大的規模,就可以準備開始考慮在core之間用mesh or ringbus了。
現在4~10core的時候AMD還在用Xbar,上面的數字也是把這算進去了,用mesh or ringbus的話還會省很多。
G80是8x2的雙段、GT200現在是10 x 3 way的雙段crossbar,基本上也是在省。

CELL可是在8core時期就在用ringbus....未來的32core應該八成會用mesh interconnection吧。
Larrabee看起來也是會一開始就用ringbus....

[ 本帖最后由 Eji 于 2008-6-26 02:55 编辑 ]
作者: Eji    时间: 2008-6-26 02:39
原帖由 1empress 于 2008-6-25 22:54 发表
3array x 8way SIM"T"(2x4D ALU with SFU、1D gather &scatter)

是4D  shader ?


底層應該是。
雙方都是4cycle latency的FGMT,但是NVIDIA做到了4cycle latency的gather & scatter、local store和SP對應成8way的8bank,每個bank 2KB....
在4cycle latency內,所有的指令和threading交換完全都沒有成本;反過來說,就是這個4cycle的排序下,底層是幾way的ALU完全沒有任何意義。
所以考慮4cycle latency,我認為最可能的數字就是4D unit。
作者: Eji    时间: 2008-6-26 02:52
原帖由 westlee 于 2008-6-25 23:33 发表
现在就看nv会怎么走了,你觉得nv会拿出“只是为了对抗”的产品吗?

看怎麼去tap晶片啦。

如果他們真的想短期內作出對抗的東西的話,有下面幾種模式:

1. GTX260/280的性能是有點低於預期,但是從架構上看不出來會變這樣。
這種狀況其實比較像是那8~10個3SM版TPC現在還在當2SM版用,所以性能只高一點點而已,Driver看能不能修出一點名堂。

2. 也許G92b其實有GDDR5,去和ATI硬幹性能價格比(老實說我還真擔心現在的GTX260連G92b + GDDR5都打不過);
而GTX260/280完全當成Tesla賣,直到GT200的GDDR5版推出為止。G92b完全是G71的觀念,只有砍結構省電晶體然後靠時脈來補....

3. 完全靠TWIMTBP對抗,大推PhysX + AIseek,靠CUDA的優勢來和AMD周旋。

-------
上面三個預想有可能只有其中一個兌現、也有可能三種都有。

比方說,GTX280/260其實是為了G92b + GDDR5暫時賠錢擋一陣(類似G94推出之前拿G92當8800GT用)、
等到G92b 和GDDR5的搭配驗證結束之後,再來個9900GTX + 9900GT的搭配,勉強能和4870對抗,然後GT200看能不能用GDDR5....
老實說GDDR5 support需要改動的地方並不如想像中地多。

然後PhysX + AIseek是已經在某些presentation上看到了....

[ 本帖最后由 Eji 于 2008-6-26 03:00 编辑 ]
作者: Eji    时间: 2008-6-26 02:56
原帖由 我奏是马甲 于 2008-6-26 02:47 发表
问题是,TSMC都是跳过45NM居多吧。直接上40NM的话,260MM左右做2000SP刚好……问题只是时间而已。

嗯.....這倒是啦。 會跳過45nm嗎.... 55nm的前面也還是用65nm啊....(RV670/G92/G94都還是TSMC 65nm,沒有跳過去)

[ 本帖最后由 Eji 于 2008-6-26 03:00 编辑 ]
作者: AFXIF    时间: 2008-6-26 03:29
半代工艺很多指标都是沿用上代的
从RV630到RV635可以看出效能长进不大。
G92b现在看起来也差不多如此,而且我很失望G92b没有同GT200一样加入新的电源控制,静置功耗依旧很高。

GT200架构现在看起来如果砍成6TPC的话多半不是G92系对手。
所以可能不会推出此架构的中端产品,改用G92b维持中端。

那么双方能用55nm做的事情已经不多了,GT200b已经知道了,那么至多来款G94b。
而AMD已经全线55nm化了,RV730现在不清楚,多半是原生128bit的RV670,稍微再降一些面积。

考虑TSMC的情况,要年底才有可能有更新的工艺可用,那么硬件层面方面就只有如此了。

能周旋的也就是驱动的优化情况,CUDA的支持与反支持(虽然不一定有行动,但Intel、AMD多少会期待短期内支援CUDA的软体少些;而NV自然期望越多越好),The Way虽然也有意义,但短期内支援厂商数量难以产生变化。
作者: Eji    时间: 2008-6-26 04:07
原帖由 我奏是马甲 于 2008-6-26 03:08 发表


eji……这个低级错误……rv670是55nm啊……何况跳过45nm直接40nm是tsmc自己的意思。

http://publish.it168.com/2008/0328/20080328037701.shtml


噗。|||||||

原帖由 我奏是马甲 于 2008-6-26 03:06 发表
GTX280/260现在不卖或变成火星卡的话,GT200b出来前情况就大了。而且从g92b的情况看来,55nm根本对功耗没有什么帮助,98GTX+居然功耗能秒掉90nm的88GTX,g92都没搞定的状况下GT200把宝都押在55nm上太不明智了。


呃,我"非常"懷疑GT200會有55nm.....其中一點原因是先前西川善司有提到,GT200的3SM TPC用的是custom logic design,不是high-level library....
這代表這個結構如果要換製程會很麻煩。

source:
http://www.4gamer.net/games/050/G005004/20080614003/

 ただし,ここで特筆しておきたいのは,GeForce8/9までのシェーダコアが,汎用の半導体(ASIC)をベースに改良を加えていく設計だったのに対し,GeForce GTX200シリーズのシェーダコアが,CPUなどと同じように一から設計されている点だ。つまり,「汎用ロジック」ではなく,「カスタムロジック」が採用されているのである。
 ベースとなるアーキテクチャ,そして“設計図”がほぼ同じ場合,カスタムロジックを採用すると,汎用ロジックを採用するよりも開発期間が長くかかり,コストも高くなるが,その代わりにより高速な動作が可能になる。もしかするとNVIDIAは,フルプロセスチェンジとなる45nm世代を迎えるまでの間,今回開発したカスタムロジック形成のシェーダコアを流用し続けるつもりで,ロジックを設計し直したのかもしれない。


當然我不知道在哪邊看過G80/G92其中一代也是custom logic design就是了

[ 本帖最后由 Eji 于 2008-6-26 04:13 编辑 ]
作者: AFXIF    时间: 2008-6-26 04:31
我看法是GT200多半有55nm版本,理由是年内用45/40nm的都是当小白鼠,NV和AMD都还不至于用最高端芯片去尝试。
那55nm就是可用的最高制程(要不就道了歉,然后找英特尔代工去)
而NV也不会想未来半年都看起来没法子应付吧。

每1cm^2的风冷散热极限一般被认为是80W,显然GT200巨大的面积有非常大的余地来应付加压超频增长的功耗,哪怕GT200b也应该足有4cm^2……散热余地非常大。
但是,GDDR3也算是到极限了,这就是另一个理由,为了避免白提升频率,支持GDDR5是必须的。
那反正就要基本重新设计了,所以大可放心的用55nm,而不担心麻烦。

而GT200的中端产品,我又认为至少55nm不会出现,我前面表示了,6TPC的GT200恐怕多半不是G92b的对手,而8TPC的还不如直接用GT200的不良品。
真要中端能和4870竞争,最好的选择是出G94b然后搞9600GX2。
作者: Eji    时间: 2008-6-26 11:28
原帖由 我奏是马甲 于 2008-6-26 04:57 发表
未必。RV670是什么时候出来的?tsmc40nm是什么时候宣布的?到今年11月的话55nm都实用一年,40nm宣布9个月了。年底前一定不能推出太武断了。gt200上55nm面积和770也依然是两个级别,对NV最快的方法是优化好G92的55nm版,出g92b2……解决得了功耗和拱频率的问题,和770还是可以一拼的

至于96GX2当笑话看看可以,即使55nm也有19X左右的面积,双PCB 19XX2的面积对4870?还不如大力气把96GT得到的经验来改进g92,其实更应该说是GT200的中端版GT240。如果240的128SP到160SP能优化到96GT X2的级别,那才有戏看


G92b2.....我是覺得不太可能了,G92b不是什麼天大的bug,那只是overclock到頂了,雖然還能往上衝,但是發熱量成長不允許。
應該是用library兜一兜就出來了。

----
96GX2應該是AIC的點子吧?
作者: Eji    时间: 2008-6-26 11:39
原帖由 我奏是马甲 于 2008-6-26 04:13 发表
就算转制程不麻烦,g92b现在这个状况,明眼人都知道55nm除了减成本带不来太多东西了。
eji讨论下GT200的中端大概性能系数?这点好像比较重要……不过话又说回来,如果GT200的中端做到55nm下300MM内,很难想象性能 ...


不知道耶,和G8x/G9x相比,GT200系的TPC最大的修改就是register file整個double。
但是和高複雜度的share memory相比,其實從32KB擴大到64KB的register file並不會讓我覺得TPC整個會double.....
只是因為SM也增加了一組,TMU沒有加、所以怎麼說都會有個至少1.3倍。

所以如果維持256bit、GT200系ROP的話,4~6TPC的中階版個人是估接近700M。
但其實這規模已經和G92差不多了....讓我猛然看到了NV42 vs G73的往事啊。

所以關鍵變成,3SM版的TPC能不能再現當年G73的風光,可以的話事情就好辦了。
作者: R620    时间: 2008-6-26 17:52
个人感觉GTX280的游戏性能不佳:mad:    CUDA性能不知道
作者: Travis    时间: 2008-6-26 20:24
标题: 回复 79# 我奏是马甲 的帖子
我觉得“9800GTX+功耗秒掉8800GTX”的结果有些可疑,主要是不只这一张卡的数据有出入
有兴趣专门收集一下9800GTX+和9800GTX/G80/9800GX2/HD3870X2的功耗对比测试数据吧。
作者: R620    时间: 2008-6-27 10:40
非运算单元多过运算单元导致GTX280未能征服CRYSIS:mad:
作者: R620    时间: 2008-6-27 14:33
原帖由 Eji 于 2008-6-26 11:39 发表


不知道耶,和G8x/G9x相比,GT200系的TPC最大的修改就是register file整個double。
但是和高複雜度的share memory相比,其實從32KB擴大到64KB的register file並不會讓我覺得TPC整個會double.....
只是因為SM也增 ...


45nm才能拯救GT200:shifty:
作者: ckyim5216    时间: 2008-6-27 14:49
原帖由 Eji 于 2008-6-26 02:56 发表

(RV670/G92/G94都還是TSMC 65nm,沒有跳過去)

:blink: {sweat:] 你肯定?
作者: Eji    时间: 2008-6-27 16:08
原帖由 R620 于 2008-6-27 14:33 发表
45nm才能拯救GT200:shifty:


救不了吧。
問題不是縮小或是發熱總量,而是耗能和性能、成本的比例....
作者: Eji    时间: 2008-6-27 17:15
話說寫到後面有點偏了,我其實想寫的是CPU和GPU的整合:

我是覺得如果未來要走向數十個core的程度,是可以考慮ringbus和mesh network啦。

比方說,CPU和shader core都用ringbus 或 mesh連接,並且內附cache和一定程度的register file來對抗延遲;然後連到ROP、ROP這邊會有Texture L2和讓CPU使用的L3 cache,再看規模用crossbar和memory controller連接....

就和SPE靠MFC做位址轉換一樣,其實GPU core只要做類似的位址轉換就可以做出NUMA來,比方說這篇:

    https://www.cs.tcd.ie/Michael.Manzke/researPGraphics.html
    A Shared-Memory Hybrid Graphics Cluster for Visualisation and Video Processing [HPGraphics]
    https://www.cs.tcd.ie/Michael.Ma ... anzke_ERSA_2007.pdf

用SCI(Scalable Coherent Interface)的方式實作的NUMA介面,直接轉到AGP上頭,所以就可以替AGP的GPU做出NUMA;但是這顯然太多overhead、介面也太慢,但是如果把這樣的位址轉換單元作在TPC、processor array上的畫,就可以達到NUMA的平面記憶體定址才是,剩下的只要CPU core和co-processor core都能共享同一個記憶體定址協定,就可以混合各種不同的CPU core才是;不過ROP這種東西似乎就比較麻煩一點,一定得跟在記憶體控制器和次階快取系統上,這讓傳統CPU很難花這麼大的成本來實作....(為了達到高效率,ROP單元幾乎吃掉目前GPU約1/3~1/4的規模)
作者: smaller    时间: 2008-6-27 17:30
技术贴!看看!
作者: 九泉苍月    时间: 2008-6-27 17:52
原帖由 zhuoke 于 2008-6-26 05:04 发表
rop的增加让A卡这次在AA上出尽了风头

ROP维持在16个,没有增加,重新设计了
作者: lcd21    时间: 2008-6-27 17:52
好帖,认真拜读,顺便支持Eji。
作者: graphiccard    时间: 2008-6-27 22:52
好贴
难的啊
PCI重现技术贴···
作者: ikinari    时间: 2008-6-28 00:34
提示: 作者被禁止或删除 内容自动屏蔽
作者: ayanamei    时间: 2008-6-28 00:53
原帖由 Eji 于 2008-6-25 20:03 发表
G80的每個SM24warp、共計16SM,即384warp、但每個warp由於只有32threads,所以總計其實也是12288thread

虽然threadmanage 能够并发的总数是一样的
但是实际平行度还是不同
g8x                        r600
384 warps  vs       194wavefronts
warp size=32T       Wavefront size=64t

那么实际g8x 同时在运作的thread 是32T X16 SM =512Thread
而r600 是64t x4 block =256Thread
作者: R620    时间: 2008-6-28 01:34
原帖由 Eji 于 2008-6-27 16:08 发表


救不了吧。
問題不是縮小或是發熱總量,而是耗能和性能、成本的比例....


不是这个意思,我的意思是GT200受累于65nm导致主频与shader频率过低性能未能达到预期,目前看来GT200主要受困于shader频率与主频率,如用45nm来生产绝无此问题(_(
作者: eDRAM    时间: 2008-6-28 11:20
现在都RV770 VS GT2XX的时代了,怎么还在谈R600 VS G8X?
作者: Travis    时间: 2008-6-28 12:35
标题: 回复 103# eDRAM 的帖子
似乎说是RV770 vs G92b更合适?

如果说RV770 vs GT200的话成本上多少有些不对称
RV770是R600路线的补完,GT200是G80的后继,改动了一些东西,而相当一部分东西没改动。
作者: jojococo    时间: 2008-6-28 13:52
原帖由 superbad 于 2008-6-25 20:08 发表


AN一起完蛋INTEL一统江湖:funk:


顶这个
作者: G81    时间: 2008-6-29 00:07
估计GTX280是因为架构先天不足造成性能增长不大  想比于9800GX2没有什么优势{huffy:]
作者: G81    时间: 2008-6-29 00:10
RV770的ROP怎么还是16个啊:sweatingbullets:
作者: G81    时间: 2008-6-29 00:29
G92B完败:o
作者: complexmind    时间: 2008-8-30 16:40
进来好好学习一番{blush:] {blush:]
作者: lapin    时间: 2008-12-22 23:17
原帖由 eDRAM 于 2008-6-28 11:20 发表
现在都RV770 VS GT2XX的时代了,怎么还在谈R600 VS G8X?

架构~~~:sweatingbullets:
作者: Azl2    时间: 2008-12-23 13:16
哎~ ~~
看INTEL的吧,我感觉AN这次都要被INTEL背后一刀
作者: zkkyo    时间: 2009-1-18 14:48
帮顶一下!!!!




欢迎光临 POPPUR爱换 (https://we.poppur.com/) Powered by Discuz! X3.4