POPPUR爱换

标题: 最近越看越有趣的R600 vs G8x [打印本页]

作者: Eji 时间: 2008-6-25 20:03
标题: 最近越看越有趣的R600 vs G8x
Edison兄扔的
Experiencing Various Massively Parallel Architectures and Programming
Models for Data-Intensive Applications
這篇文章實在太有趣...從這篇可以看得出來，R600是每個core有16個4D+1DALU、256KB register file、整個GPU有192個wavefront、每個wavefront則剛好是64個thread，整個GPU有12288個 threads。(RV670同R600)
G80的每個SM有24warp、共計16個SM，即384個warp、但每個warp由於只有32個threads，所以總計其實也是12288個thread。
但是在此同時，G80只有512KBtotal的register file，R600/RV670有1MB。
G80每個SM只有32KB register file，每個TPC只有64KB；R600的每個ALU array有256KB。
当然大家仔细看可以看出来：G80的每个SM只有8个1D、每个TPC只有16个1D；R600有16个4D+1D。
所以双方的registerfile规模，几乎就是1Dvs 4D的规模，只是G80的结构因为SIMT的复杂度，所以thread规模可变；R600规模比较大，做得没那么细致，灵活性比较低，但是资源仍然充分。

----
这篇真正的意义在于，GPU绘图用途上，双方其实是几乎同等的：TMU和ALU都是成对分开，变成数个小core，然后以crossbar来和ROP连接。
ROP再以其他的方式(G80是crossbar、R600是ring-bus)來和memorycontroller連接。

問題就在於此了：其實RV670和RV770的關係，正好就是G94與G92的關係。
在G94推出前，光比较RV670和G92就会显得R600结构效率很差，运算密度很低，然后G92的成本很高；G94推出时就会看到G8x的结构比R6x0可以更小些....

RV770推出后则把R6x0的运算密度提高，达到和G92可以对抗的程度。也就是说其实双方的core(TPCvs ALU array)几乎是可以单位上相对比的。

现在的问题就是ATI有没有办法已以现在RV770的方式拿出和GT200可以对抗的产品？
这代表的是10个core (= 16way SIMD ALU array+4way TMU array)，与10个core (=TPC = 3x8way SIMT + 8way TMU array)是否对等。

GT200顯示NVIDIA認為8TPC-256bit是適當，所以往上做就是16TPC-512bit(16TPC整合到10TPCx1.5，以縮小crossbar規模)
從RV770可以看得出來，其實TMU和ROP在R6x0裡面也是占較大規模，所以只增加20%就可以達成不刪減registerfile增加一倍的總咚懔俊?/font]

那么，RV770之后谣传会到2000个SP，可能是从10个array变成25个array；但是在此同时TMU的数量也跟着增加到100个，这时候还会是16ROP + 256bit(GDDR5)吗？
要不然的话NVIDIA也可以拿更多TPC来搭配256bit，就可以快速地缩小看起来很巨大的GT200了。

也就是說其實這只是一些coding style、現有application對咚懔恳约邦l寬的平衡觀念而已。
我忽然覺得Larrabee其實機會不小了啊.....XD
那也不過只是把每個TPC or ALU array加上個小小的x86 core而已。

[ 本帖最后由 Eji 于 2008-6-25 20:07 编辑 ]

作者: PixelShader 时间: 2008-6-25 20:05
老大，你为什么不用简体中文……？！

作者: melissa 时间: 2008-6-25 20:05
哇靠

EJI大大的沙发

ORZ

顶完再看

沙发没了,板凳上看.

[ 本帖最后由 melissa 于 2008-6-25 20:10 编辑 ]

作者: xreal 时间: 2008-6-25 20:08
:mad: amd aa能力翻倍，就算256bit都能和gt200对抗:mad:

作者: fmer 时间: 2008-6-25 20:10
中心思想貌似是NA2家都会最终败在Intel手里。。。。

作者: Eji 时间: 2008-6-25 20:12

原帖由 xreal 于 2008-6-25 20:08 发表
:mad: amd aa能力翻倍，就算256bit都能和gt200对抗:mad:

ATI AA以前一直贏NVIDIA，是R600的時候太妄想靠shader資源省錢啦....XD

作者: Bohr 时间: 2008-6-25 20:15
提示: 作者被禁止或删除内容自动屏蔽

作者: Eji 时间: 2008-6-25 20:16

原帖由 fmer 于 2008-6-25 20:10 发表
中心思想貌似是NA2家都会最终败在Intel手里。。。。

這是什麼標題黨XD
----
這意思是說，Register file + TMU 之類的規模，和一個CPU core相比大得多了。
那麼加上CPU core，不論是x86還是ARM，成本也不會高到哪去.... 除非想做得很複雜很快，但是這意義就不大了。
一定是類似Atom一樣的簡易core，然後cache不大。

在這個狀況下，所有的咚阗Y源都是靠ALU和TMU在撐，就像引入了新指令集的x86 core一樣，這沒有好好花功夫寫是不會比較快的

[ 本帖最后由 Eji 于 2008-6-25 20:19 编辑 ]

作者: Eji 时间: 2008-6-25 20:17

原帖由 superbad 于 2008-6-25 20:15 发表
RV770 也还是shader AA吧？有什么改进性能提升这么多？E大讲解一下:)

就我所知RV770這回不是shader AA了？

作者: logitechMX518 时间: 2008-6-25 20:20

原帖由 Eji 于 2008-6-25 20:17 发表

就我所知RV770這回不是shader AA了？

？真的么？

作者: 威廉第三 时间: 2008-6-25 20:24
标题: 回复 11# Eji 的帖子
不是shader AA是什么，望告知？

作者: shaolin711 时间: 2008-6-25 20:25
RV770 也还是shader AA

作者: Eji 时间: 2008-6-25 20:26

原帖由 logitechMX518 于 2008-6-25 20:20 发表
？真的么？

CFAA大部分都可以由ROP完成了，所以可以這麼說(大半不是shader AA)。
ATI 自己也這麼說、那麼能變快應該就是這個原因吧。

----
回過頭來說，很多人很關心的是R870 or RV770X2能不能打倒GT200之類的勝負，我是很想說我們就回頭看GT200 vs G92GX2吧....

[ 本帖最后由 Eji 于 2008-6-25 20:28 编辑 ]

作者: cataclyson 时间: 2008-6-25 20:32
想请教Eji大一个问题，就是R770在1680X1050 以下低分辨率NO AA的时候效能依然不是非常突出，请问这是和N的Shader频率较高有关系吗？谢谢。:)

作者: fmer 时间: 2008-6-25 20:38

原帖由 Eji 于 2008-6-25 20:26 发表

CFAA大部分都可以由ROP完成了，所以可以這麼說(大半不是shader AA)。
ATI 自己也這麼說、那麼能變快應該就是這個原因吧。

----
回過頭來說，很多人很關心的是R870 or RV770X2能不能打倒GT200之類的勝負，我 ...

意思是伯仲之间？

作者: alansweis 时间: 2008-6-25 20:40
:)
久违的技术贴，顶了再看

作者: michaelzyh 时间: 2008-6-25 20:42
提示: 作者被禁止或删除内容自动屏蔽

作者: tomsmith123 时间: 2008-6-25 20:49
X86 的核可不是小小的，去掉SSE支持，去掉out of order，大致可以缩小到1/3 左右，压缩流水线，简化部分指令，再缩小一些。也许Larrabee 的核可以比较小，和GPU 的SP比，会大很多。

作者: 九泉苍月 时间: 2008-6-25 20:51
RV770撇弃Ringbus/Crossbar改用一个Switched Hub...求解

作者: 1empress 时间: 2008-6-25 20:51
提示: 作者被禁止或删除内容自动屏蔽

作者: 1empress 时间: 2008-6-25 20:58
提示: 作者被禁止或删除内容自动屏蔽

作者: kanata 时间: 2008-6-25 21:04
技术含量高的帖子绝不能够视而不见。。。顶。。

作者: AFXIF 时间: 2008-6-25 21:16
[attach]887151[/attach]
根据这张图显示RV770的一个core，包括16个ALU和4个TMU了的像素是206*19=3914
GT200的一个core，也就是一个TPC同样包括了ALU和TMU，数量是24个与8个，像素是165*65=10725

虽然我不清楚G80那样同样是16ALU与4TMU的这么一个TPC做到65nm该是多少，就按60%算吧，然后面积考虑两者的工艺差是70%。结果10725*60%*70% = 4504.5，还是大了一些。
所以真比不顾MC纯堆SP core，还是NV成本更大一些的吧。

[ 本帖最后由 AFXIF 于 2008-6-25 21:22 编辑 ]

作者: 1empress 时间: 2008-6-25 21:21
提示: 作者被禁止或删除内容自动屏蔽

作者: Asuka 时间: 2008-6-25 21:30

原帖由 九泉苍月 于 2008-6-25 20:51 发表
RV770撇弃Ringbus/Crossbar改用一个Switched Hub...求解

ringbus和crossbar不是一回事，switub就是crossbar

在现在来说，xbr架构依然是最高效的互联解决方案

作者: saintangel 时间: 2008-6-25 21:32
一堆英文缩写，看不懂

作者: gzcjb 时间: 2008-6-25 21:46
intel最可怕的还是制程和产能，假如AMD的CPU不争气，intel完全可以把最新的制程用在GPU上面，而不是mobile上面。到那时搞不好已经是0.32nm了:funk:

作者: shu0202 时间: 2008-6-25 22:06
Eji兄可以写得更通俗些，否则包括我在内的很多人只有张大嘴巴的份……
RV770抗锯齿性能的飞跃源于三部分改动：后处理器单元Z模版数量翻倍；AA算法仍交给Shader处理，但是可用资源提升150%；纹理单元数量提升150%，缓存容量提升（多少不清楚）。
RV770集中提升了shader单元的晶体管密度，并且放弃了环形总线，数据读取更迅速，但是不利于实现扩充总线带宽，这也是迫切使用GDDR5的原因。

作者: Eji 时间: 2008-6-25 22:11
呃，我觉得好像混淆太多东西了，所以很多人不知道我想表达什么。
我做一张表格好了，放入一些更CPU的名词：

1. NVIDIAGT100(G8x/G9x) & GT200(G100)：
core：TPC
3array x 8way SIM"T"(2x4D ALU with SFU、1D gather &scatter)
3x 24way FGMT(64KB register file)
2x 4D TMU
16KB scratch pad memory
[attach]887184[/attach]
2. AMD/ATIR6x0/R7x0
core：ALU Array
16way SIMD x 4D Vector + 1D scalar + SFU
48way FGMT(256KB register file)
1x4DTMU(R6x0-4D+1D、R7x0-4D)
16KB localdata cache(R7x0)
[attach]887185[/attach]
3. STI CELL
core：SPE
4way SIMD、noFGMT、no TMU
256KB scarth pad memory

4. Intel Larrabee
core：x86CPU core
？way SIMD
？way FGMT
TMU unknown
cache/scratch pad：unknown

------
所以这些GPU其实都是
core--[crossbar]-----ROP-----[crossbar or ringbus]----memorycontroller
的结构，所以CELL其实只要每个SPE放一个TMU，memory controller上放一个ROP，而这两个单元都只要4~8cycle一个4D thoughtput，这样CELL就可以顺利变身成一个GPU了，其实比想象中单纯，也就是说，目前的GPU厂商其实优势都是在driver与support上，底层结构其实和CPU厂商相比都不复杂，他们也还做不大规模。

当然论规模的话，如果极端一点，我今天拿一堆x86CPU在network上模拟GPU的话，也是可以啦，只是是天大的浪费而已。

為了節省，上面的NVIDIA TPC、AMD ALU array、STISPE都是和host CPU不同的ISA，只有Intel想用和hostCPU相同的ISA，這是因為他們的製程夠大，所以相對之下"可以浪費"....不過即使是用ARMcore，感覺上在這個規模比較上也是很浪費就是。

然后从AMD/ATI的做法，16way 4D ALU来看，其实Larrabee目前号称32core x 512bitSIMD的设计并不算是真的很激进，只是除了STICELL3和Larrabee之外，目前RV770倒是第一个两位数core(10个)的设计。

[ 本帖最后由 Eji 于 2008-6-25 22:56 编辑 ]

作者: liii007 时间: 2008-6-25 22:24
提示: 作者被禁止或删除内容自动屏蔽

作者: qb兔子 时间: 2008-6-25 22:34

按照这个观点，应该还有一个GT200版G92存在喽？

如果HD4870X2比预期提前上市，单靠65nm工艺的GT200自然不够，55nm版现在看起来也并不是个好办法（或者说这就是暂时取消的原因？）：一方面是GT200单靠65nm->55nm很难做到500mm^2以下，良率改观不会太明显；另一方面我也对TSMC的产能持怀疑态度：RV670/RV770/G92-b1已经够呛，再来良率不算高的GT200-b1的话……

这么说24SP/TPC x 6TPC似乎是个不错的选择，若此规模可以满足"55nm工艺下整合NVIO2“的话，GT200体系还有的玩：单路版切入9800GTX+与GTX 260之间的空档，2-way版正面同R700交锋。当然达成以上假设主要还得看55nm究竟为GT200调高了多少Shader上限。毕竟8TPC版的260对HD4870就够呛，缩成6TPC若还没有高频Shader帮助的话想必凶多吉少——55nm会是GT200体系的救世主吗？

PS：仔细想想，这个思路岂不是在同R700一起讽刺GTX 280吗？

[ 本帖最后由 qb兔子于 2008-6-25 22:38 编辑 ]

作者: shu0202 时间: 2008-6-25 22:42
NV的做法是提升每条US的灵活性和效能，逼对手用大量传统低效资源来和自己硬拼，从而拖垮对手。
AMD则是用数量换取效能，堆积大量效能较低但是结构简单的管线来从资源量上压过对手。
其中的关键是工艺！假如RV770使用的是65nm工艺并且维持R580/R600的水准，这样的RV770在芯片面积、性能功耗比上根本就没有任何竞争力！R600到RV770绝不仅仅是资源规模扩大这么简单，否则凭什么用43.5%的晶体管数量换取2.5倍的运算资源？单纯扩充R600到RV770的资源规模，恐怕不会比GT200小多少。
NV注重维持单个shader效能势必造成外围资源随shader数量同步增加的情况，因此随着管线数量提升结构也越来越臃肿越来越复杂，而可用资源量相对来说不能有效提升。偏偏NV在这个时候失去了工艺上的优势，使得最初的想法落空。对手确实堆积了大量的资源，但是依靠工艺优势反而绕过了成本障碍。

作者: Eji 时间: 2008-6-25 22:45

原帖由 Eji 于 2008-6-25 20:26 发表

CFAA大部分都可以由ROP完成了，所以可以這麼說(大半不是shader AA)。
ATI 自己也這麼說、那麼能變快應該就是這個原因吧。

自貶：標準MSAA(Box filter)應該是硬體化、CFAA的tent filter、edge detect仍然是shader AA。
http://www.anandtech.com/video/showdoc.aspx?i=3341&p=10
不過總之AA performance改善完全是ROP的強化。

作者: luanchuifeng 时间: 2008-6-25 22:50
AMD的构架效率低但容易提升数量而NV的构架效率高但提升数量却需要付出相当多的晶体管看来下代产品需要构架上的巨变阿

作者: 1empress 时间: 2008-6-25 22:54
提示: 作者被禁止或删除内容自动屏蔽

作者: shu0202 时间: 2008-6-25 22:58
AMD疯狂扩充运算资源并未对外围设计造成沉重负担，反而游刃有余，除了纹理单元相应扩充之外，RV770只将线程分配部分的仲裁器和定序器增加了20个，这就足以维持160条管线的效能，这和GT200在线程调度上扩大的规模简直是天壤之别。而且运算单元的强力扩充反而弥补了R600资源调度僵化的缺陷，10组TPC和GT200处于同一水平。NV反而将每组16PS变成了每组24PS来维持一个合理的规模。

作者: feel囝 时间: 2008-6-25 23:01
顶完再看，技术贴必顶！！！！！！！

作者: feel囝 时间: 2008-6-25 23:03

原帖由 PixelShader 于 2008-6-25 20:05 发表
老大，你为什么不用简体中文……？！

老大，没必要这样制造对立。。。。。。。又不是写中文字的人就得是大陆人，再说我觉得繁体才是真正得中国字！

作者: wdy1234 时间: 2008-6-25 23:06
难得一见的技术帖..说实话看了1天的帖.就这帖最值得一楼一楼的看!!

作者: feel囝 时间: 2008-6-25 23:08

原帖由 Eji 于 2008-6-25 20:17 发表

就我所知RV770這回不是shader AA了？

你上一篇不是说AMD增大shader资源就是为了做AA，但有人质疑用处不大（数据是1：4对1：5，大约这个），一直没有看到你解释！

作者: Eji 时间: 2008-6-25 23:09

原帖由 shu0202 于 2008-6-25 22:42 发表
NV的做法是提升每条US的灵活性和效能，逼对手用大量传统低效资源来和自己硬拼，从而拖垮对手。
AMD则是用数量换取效能，堆积大量效能较低但是结构简单的管线来从资源量上压过对手。

我覺得要強調的是，那篇文章校正的一個重點：register file必然是和core一起的。
所以RV670 -> RV770，從666M增加到965M，大半都是shader ALU，也就是說實質上R600/RV670非shader的部分，就已經400M前後，shader+TMU本身其實只有GPU的1/3，剩下的還是ROP和memory controller。
這個可以從G80/GT200的die photo看出部分來：
[attach]887220[/attach]
中間的十字部分集中了Raster unit、ROP、Memory Controller。

GT100/200花了非常多的精神在share memory和倍速shader上，主要是為了維持住效率，還有透過這個效率來減少compiler開發的困難之處；ATI這方面付之闕如，所以靠的主要是大幅擴充core數量。

----
話說回來，把CELL SPE加上8cycle的4D TMU(相當於CELL host clock的400MHz)、還有8cycle的2x4D ROP的話，差不多就是一個有64bit XDR的GPU了耶XD
只是這些東西都是ASIC，很難做XD 而且整個GPU的shader都用ringbus溝通，thought put大概會很難看....XDXD

作者: shu0202 时间: 2008-6-25 23:09
在工艺和资源都处于劣势的情况下NV继续维持标量架构的规模快速增长显然是不太可能了，NV必须在效能和资源密集度上取得平衡，但是NV是否来得及在较短时间内解决这个问题还是未知数。DX11的竞争迫在眉睫，DX10这一部分已经出现很大的危机，这种麻烦搞不好会影响下一代架构。
从RV770的表现来看，AMD有能力在45nm工艺上实现资源再反倍并且维持相对较低的成本，这对NV现有的东西是致命的威胁。

作者: feel囝 时间: 2008-6-25 23:10

原帖由 九泉苍月 于 2008-6-25 20:51 发表
RV770撇弃Ringbus/Crossbar改用一个Switched Hub...求解

同问，Switched Hub到底是什么？？？

作者: Eji 时间: 2008-6-25 23:10

原帖由 feel囝 于 2008-6-25 23:08 发表
你上一篇不是说AMD增大shader资源就是为了做AA，但有人质疑用处不大（数据是1：4对1：5，大约这个），一直没有看到你解释！

AMD這回改善AA性能的主力還是靠ROP本身的修改，Custom Filter AA相較於box filter來說還是有下降....
但是CFAA既然有shader強化，應該還是會有用處啦，重點是功能的實用性。

這次比較有趣的是，由於底層整個重新設計(ROP-> memory controller這段整個翻新)，
所以傳統的box filter MSAA的性能整個翻倍，如果RV670也有這種結構可用，只怕G94沒辦法壓住RV670。

[ 本帖最后由 Eji 于 2008-6-26 02:42 编辑 ]

作者: Eji 时间: 2008-6-25 23:12

原帖由 feel囝 于 2008-6-25 23:10 发表
同问，Switched Hub到底是什么？？？

switching hub不就是crossbar?

作者: zhg9970025 时间: 2008-6-25 23:13
娱乐论坛的技术贴

作者: NONO 时间: 2008-6-25 23:18
現在NV面臨到了工藝的瓶頸，之後還會繼續走標量的架構嗎??:funk:

作者: 阿蓝2代 时间: 2008-6-25 23:20
提示: 作者被禁止或删除内容自动屏蔽

作者: Eji 时间: 2008-6-25 23:20

原帖由 shu0202 于 2008-6-25 23:09 发表
在工艺和资源都处于劣势的情况下NV继续维持标量架构的规模快速增长显然是不太可能了，NV必须在效能和资源密集度上取得平衡，但是NV是否来得及在较短时间内解决这个问题还是未知数。DX11的竞争迫在眉睫，DX10这一部分已经出现很大的危机，这种麻烦搞不好会影响下一代架构。
从RV770的表现来看，AMD有能力在45nm工艺上实现资源再反倍并且维持相对较低的成本，这对NV现有的东西是致命的威胁。

其實我覺得還好耶.....
目前NVIDIA和ATI其實per core的性能幾乎是一樣的(TPC vs ALU array)，所以說起來，RV770其實就是10TPC + 256bit的G92而已啊。(贏也差不多贏這個程度)
這和G94出來之前，大家都擔心G92的成本太高一樣....(話說我一開始好像就寫了？)
所以真的"只是要對抗"的話，我們把GT200砍到8TPC、256bit，馬上成本面就可以對抗了。

RV770下一步如果要走所謂2000sp的話，要從10core增加到25core，4core差不多耗了280M，也就是每個core 70M前後。
所以要加到2000SP的話，還是要多投入1050M電晶體，如果你想在45nm底下維持這個die size(250mm^2前後)的話，電晶體大約是1500M前後，比現在多約500M，那其實只能讓你從10core增加到20core而已的，那大概只有1600sp.....離2000sp還有一段距離。

反過來說，GT200幾乎就是G92的double(256sp + 32 ROP)，如果我們要省的話大概就是256SP + 16ROP，每個core(TPC)大概也是70~80M前後....
如果G92只double shader、維持256bit ROP的話，其實也只需要1100M前後耶？
那看起來就不會是956M vs 1400M這麼大的差距了。

[ 本帖最后由 Eji 于 2008-6-26 00:01 编辑 ]

作者: rapfish 时间: 2008-6-25 23:22
技术贴:funk:

作者: 乱世火凤凰 时间: 2008-6-25 23:25
AMD会不会在下代产品中继续采用这种塞shader的做法提升性能呢?这样做的成本应该比NV低不少吧.不过效果如何呢?

作者: Eji 时间: 2008-6-25 23:26

原帖由 NONO 于 2008-6-25 23:18 发表
現在NV面臨到了工藝的瓶頸，之後還會繼續走標量的架構嗎??:funk:

底層其實不是pure scalar啊。
8SP 其實是兩個4D Vector ALU，只是有個移位unit(gather & scatter)作排列。
但是這段的設計非常複雜......

作者: westlee 时间: 2008-6-25 23:33
提示: 作者被禁止或删除内容自动屏蔽

作者: job555 时间: 2008-6-25 23:33
Eji很客观，很理性，PCI难得这样的版主，呵呵，台湾人？

作者: jhj9 时间: 2008-6-25 23:42

原帖由水银于 2008-6-25 20:56 发表
Larrabee不是many core，作为图形运算X86比shader多出来的众多指令有何意义？
larrabee会不会有个把X86指令拆成Shader能执行的简单指令呢，就像CICS to RISC那样

Larrabee完整版本是24核，指令多其实无所谓，因为内部是微指令在跑，x86只是表象
Shader指令同样可以变成微指令

我认为Larrabee的问题是在于到底有多少Fixed Unit，如果setup、rop、tmu都用x86跑，整体效率未免不足，这也是为什么用CPU来软渲染性能低下的原因之一。

作者: Eji 时间: 2008-6-25 23:43

原帖由 shu0202 于 2008-6-25 22:58 发表
AMD疯狂扩充运算资源并未对外围设计造成沉重负担，反而游刃有余，除了纹理单元相应扩充之外，RV770只将线程分配部分的仲裁器和定序器增加了20个，这就足以维持160条管线的效能，这和GT200在线程调度上扩大的规模简直是天壤之别。
而且运算单元的强力扩充反而弥补了R600资源调度僵化的缺陷，10组TPC和GT200处于同一水平。NV反而将每组16PS变成了每组24PS来维持一个合理的规模。

呃，話不能這麼說，它咚阗Y源擴充背後全部都有相應增加的register file啊。
每個16way SIMD array全部都有256KB 的register file，等效於48個wafefront(warp)，所以整個RV770擴充到了480個warp，和GT200一樣都相當於30720個thread呢。

所以我說你要繼續擴充下去馬上會遇到瓶頸的。這些array本身也是crossbar連接啊。

作者: jhj9 时间: 2008-6-25 23:44

原帖由 shu0202 于 2008-6-25 22:58 发表
AMD疯狂扩充运算资源并未对外围设计造成沉重负担，反而游刃有余，除了纹理单元相应扩充之外，RV770只将线程分配部分的仲裁器和定序器增加了20个，这就足以维持160条管线的效能，这和GT200在线程调度上扩大的规模简直 ...

外围负担未必没有变重，AMD把TMU加倍了，ROP重新设计了
所以外围其实也同样提高了的
但ROP增加的是对于复杂情况的处理能力，也就是AA AF的处理能力，但是数量没有增加
这也是为什么0AA下性能一般的原因

作者: Eji 时间: 2008-6-25 23:47

原帖由 jhj9 于 2008-6-25 23:42 发表
我认为Larrabee的问题是在于到底有多少Fixed Unit，如果setup、rop、tmu都用x86跑，整体效率未免不足，这也是为什么用CPU来软渲染性能低下的原因之一。

是啊，要有人替他們設計足夠強大的的TMU、ROP和setup。
TMU要和shader在一起(其實說起來這不是理所當然嗎XD)、
ROP要和memory controller在一起，setup的部分又要放在TMU旁邊。

不過TMU和ROP、ROP和memory controller之間要用ringbus還是crossbar就真的是隨人家做了。
現在看起來感覺用不用ringbus or crossbar並不是問題....還是說RV770真的就只是把ROP和memory controller之間換成crossbar就解決了MSAA性能？

作者: 1empress 时间: 2008-6-25 23:49
提示: 作者被禁止或删除内容自动屏蔽

作者: jhj9 时间: 2008-6-25 23:50

原帖由 westlee 于 2008-6-25 23:33 发表

现在就看nv会怎么走了，你觉得nv会拿出“只是为了对抗”的产品吗？

估计年底会出GT200 55nm改良版，然后再下一步很可能出现486到Pentium这样的跨越式产品，来和Intel抗衡

作者: 1empress 时间: 2008-6-25 23:53
提示: 作者被禁止或删除内容自动屏蔽

作者: 1empress 时间: 2008-6-25 23:58
提示: 作者被禁止或删除内容自动屏蔽

作者: Eji 时间: 2008-6-26 00:03

原帖由 1empress 于 2008-6-25 23:49 发表
我对这张图有所疑问

我觉得边上是thread scheduler，中间才是TPC

這你就得問NVIDIA啦_A_ 這是他們給的圖....

作者: jhj9 时间: 2008-6-26 00:05

原帖由 1empress 于 2008-6-25 23:58 发表

可能性很小吧 tsmc的55nm没法冲频率，但成本好看一些，
GT200就算做成55nm，频率冲不高的话，效能也很可疑

话说起来离DX11发布还有1年半，算是还有一次更新高端DX10产品的空间，双方全新设计应该都是留 ...

9800GTX做成55nm后难道频率没有上去？谁说的不能提高频率呢？只是能不能达到你说的冲的程度，那就各人评价标准不同了。

想想G80出来的时候DX10真正发布了吗？所以一年后DX11没有正式发布，但是Demo和显卡先出来也不能说有什么可奇怪的。

作者: lincoln 时间: 2008-6-26 00:12
先收藏，接着慢慢看。:loveliness:

作者: 1empress 时间: 2008-6-26 00:20
提示: 作者被禁止或删除内容自动屏蔽

作者: 单晶硅传奇 时间: 2008-6-26 00:22
如果SP频率异步做倍频的话代价大不大？

比如下一步不做2000SP，而是维持800SP做2倍的频率

作者: Eji 时间: 2008-6-26 02:29

原帖由 单晶硅传奇 于 2008-6-26 00:22 发表
如果SP频率异步做倍频的话代价大不大？

比如下一步不做2000SP，而是维持800SP做2倍的频率

那可能比做2000sp 更大XD
其實到25core這麼大的規模，就可以準備開始考慮在core之間用mesh or ringbus了。
現在4~10core的時候AMD還在用Xbar，上面的數字也是把這算進去了，用mesh or ringbus的話還會省很多。
G80是8x2的雙段、GT200現在是10 x 3 way的雙段crossbar，基本上也是在省。

CELL可是在8core時期就在用ringbus....未來的32core應該八成會用mesh interconnection吧。
Larrabee看起來也是會一開始就用ringbus....

[ 本帖最后由 Eji 于 2008-6-26 02:55 编辑 ]

作者: Eji 时间: 2008-6-26 02:39

原帖由 1empress 于 2008-6-25 22:54 发表
3array x 8way SIM"T"(2x4D ALU with SFU、1D gather &scatter)

是4D shader ？

底層應該是。
雙方都是4cycle latency的FGMT，但是NVIDIA做到了4cycle latency的gather & scatter、local store和SP對應成8way的8bank，每個bank 2KB....
在4cycle latency內，所有的指令和threading交換完全都沒有成本；反過來說，就是這個4cycle的排序下，底層是幾way的ALU完全沒有任何意義。
所以考慮4cycle latency，我認為最可能的數字就是4D unit。

作者: Eji 时间: 2008-6-26 02:52

原帖由 westlee 于 2008-6-25 23:33 发表
现在就看nv会怎么走了，你觉得nv会拿出“只是为了对抗”的产品吗？

看怎麼去tap晶片啦。

如果他們真的想短期內作出對抗的東西的話，有下面幾種模式：

1. GTX260/280的性能是有點低於預期，但是從架構上看不出來會變這樣。
這種狀況其實比較像是那8~10個3SM版TPC現在還在當2SM版用，所以性能只高一點點而已，Driver看能不能修出一點名堂。

2. 也許G92b其實有GDDR5，去和ATI硬幹性能價格比(老實說我還真擔心現在的GTX260連G92b + GDDR5都打不過)；
而GTX260/280完全當成Tesla賣，直到GT200的GDDR5版推出為止。G92b完全是G71的觀念，只有砍結構省電晶體然後靠時脈來補....

3. 完全靠TWIMTBP對抗，大推PhysX + AIseek，靠CUDA的優勢來和AMD周旋。

-------
上面三個預想有可能只有其中一個兌現、也有可能三種都有。

比方說，GTX280/260其實是為了G92b + GDDR5暫時賠錢擋一陣(類似G94推出之前拿G92當8800GT用)、
等到G92b 和GDDR5的搭配驗證結束之後，再來個9900GTX + 9900GT的搭配，勉強能和4870對抗，然後GT200看能不能用GDDR5....
老實說GDDR5 support需要改動的地方並不如想像中地多。

然後PhysX + AIseek是已經在某些presentation上看到了....

[ 本帖最后由 Eji 于 2008-6-26 03:00 编辑 ]

作者: Eji 时间: 2008-6-26 02:56

原帖由 我奏是马甲 于 2008-6-26 02:47 发表
问题是，TSMC都是跳过45NM居多吧。直接上40NM的话，260MM左右做2000SP刚好……问题只是时间而已。

嗯.....這倒是啦。會跳過45nm嗎.... 55nm的前面也還是用65nm啊....(RV670/G92/G94都還是TSMC 65nm，沒有跳過去)

[ 本帖最后由 Eji 于 2008-6-26 03:00 编辑 ]

作者: AFXIF 时间: 2008-6-26 03:29
半代工艺很多指标都是沿用上代的
从RV630到RV635可以看出效能长进不大。
G92b现在看起来也差不多如此，而且我很失望G92b没有同GT200一样加入新的电源控制，静置功耗依旧很高。

GT200架构现在看起来如果砍成6TPC的话多半不是G92系对手。
所以可能不会推出此架构的中端产品，改用G92b维持中端。

那么双方能用55nm做的事情已经不多了，GT200b已经知道了，那么至多来款G94b。
而AMD已经全线55nm化了，RV730现在不清楚，多半是原生128bit的RV670，稍微再降一些面积。

考虑TSMC的情况，要年底才有可能有更新的工艺可用，那么硬件层面方面就只有如此了。

能周旋的也就是驱动的优化情况，CUDA的支持与反支持（虽然不一定有行动，但Intel、AMD多少会期待短期内支援CUDA的软体少些；而NV自然期望越多越好），The Way虽然也有意义，但短期内支援厂商数量难以产生变化。

作者: Eji 时间: 2008-6-26 04:07

原帖由 我奏是马甲 于 2008-6-26 03:08 发表

eji……这个低级错误……rv670是55nm啊……何况跳过45nm直接40nm是tsmc自己的意思。

http://publish.it168.com/2008/0328/20080328037701.shtml

噗。|||||||

原帖由 我奏是马甲 于 2008-6-26 03:06 发表
GTX280/260现在不卖或变成火星卡的话，GT200b出来前情况就大了。而且从g92b的情况看来，55nm根本对功耗没有什么帮助，98GTX+居然功耗能秒掉90nm的88GTX，g92都没搞定的状况下GT200把宝都押在55nm上太不明智了。

呃，我"非常"懷疑GT200會有55nm.....其中一點原因是先前西川善司有提到，GT200的3SM TPC用的是custom logic design，不是high-level library....
這代表這個結構如果要換製程會很麻煩。

source：
http://www.4gamer.net/games/050/G005004/20080614003/

　ただし，ここで特筆しておきたいのは，GeForce8/9までのシェーダコアが，汎用の半導体（ASIC）をベースに改良を加えていく設計だったのに対し，GeForce GTX200シリーズのシェーダコアが，CPUなどと同じように一から設計されている点だ。つまり，「汎用ロジック」ではなく，「カスタムロジック」が採用されているのである。
　ベースとなるアーキテクチャ，そして“設計図”がほぼ同じ場合，カスタムロジックを採用すると，汎用ロジックを採用するよりも開発期間が長くかかり，コストも高くなるが，その代わりにより高速な動作が可能になる。もしかするとNVIDIAは，フルプロセスチェンジとなる45nm世代を迎えるまでの間，今回開発したカスタムロジック形成のシェーダコアを流用し続けるつもりで，ロジックを設計し直したのかもしれない。

當然我不知道在哪邊看過G80/G92其中一代也是custom logic design就是了

[ 本帖最后由 Eji 于 2008-6-26 04:13 编辑 ]

作者: AFXIF 时间: 2008-6-26 04:31
我看法是GT200多半有55nm版本，理由是年内用45/40nm的都是当小白鼠，NV和AMD都还不至于用最高端芯片去尝试。
那55nm就是可用的最高制程（要不就道了歉，然后找英特尔代工去）
而NV也不会想未来半年都看起来没法子应付吧。

每1cm^2的风冷散热极限一般被认为是80W，显然GT200巨大的面积有非常大的余地来应付加压超频增长的功耗，哪怕GT200b也应该足有4cm^2……散热余地非常大。
但是，GDDR3也算是到极限了，这就是另一个理由，为了避免白提升频率，支持GDDR5是必须的。
那反正就要基本重新设计了，所以大可放心的用55nm，而不担心麻烦。

而GT200的中端产品，我又认为至少55nm不会出现，我前面表示了，6TPC的GT200恐怕多半不是G92b的对手，而8TPC的还不如直接用GT200的不良品。
真要中端能和4870竞争，最好的选择是出G94b然后搞9600GX2。

作者: Eji 时间: 2008-6-26 11:28

原帖由 我奏是马甲 于 2008-6-26 04:57 发表
未必。RV670是什么时候出来的？tsmc40nm是什么时候宣布的？到今年11月的话55nm都实用一年，40nm宣布9个月了。年底前一定不能推出太武断了。gt200上55nm面积和770也依然是两个级别，对NV最快的方法是优化好G92的55nm版，出g92b2……解决得了功耗和拱频率的问题，和770还是可以一拼的

至于96GX2当笑话看看可以，即使55nm也有19X左右的面积，双PCB 19XX2的面积对4870？还不如大力气把96GT得到的经验来改进g92，其实更应该说是GT200的中端版GT240。如果240的128SP到160SP能优化到96GT X2的级别，那才有戏看

G92b2.....我是覺得不太可能了，G92b不是什麼天大的bug，那只是overclock到頂了，雖然還能往上衝，但是發熱量成長不允許。
應該是用library兜一兜就出來了。

----
96GX2應該是AIC的點子吧？

作者: Eji 时间: 2008-6-26 11:39

原帖由 我奏是马甲 于 2008-6-26 04:13 发表
就算转制程不麻烦，g92b现在这个状况，明眼人都知道55nm除了减成本带不来太多东西了。
eji讨论下GT200的中端大概性能系数？这点好像比较重要……不过话又说回来，如果GT200的中端做到55nm下300MM内，很难想象性能 ...

不知道耶，和G8x/G9x相比，GT200系的TPC最大的修改就是register file整個double。
但是和高複雜度的share memory相比，其實從32KB擴大到64KB的register file並不會讓我覺得TPC整個會double.....
只是因為SM也增加了一組，TMU沒有加、所以怎麼說都會有個至少1.3倍。

所以如果維持256bit、GT200系ROP的話，4~6TPC的中階版個人是估接近700M。
但其實這規模已經和G92差不多了....讓我猛然看到了NV42 vs G73的往事啊。

所以關鍵變成，3SM版的TPC能不能再現當年G73的風光，可以的話事情就好辦了。

作者: R620 时间: 2008-6-26 17:52
个人感觉GTX280的游戏性能不佳:mad: CUDA性能不知道

作者: Travis 时间: 2008-6-26 20:24
标题: 回复 79# 我奏是马甲的帖子
我觉得“9800GTX+功耗秒掉8800GTX”的结果有些可疑，主要是不只这一张卡的数据有出入
有兴趣专门收集一下9800GTX+和9800GTX/G80/9800GX2/HD3870X2的功耗对比测试数据吧。

作者: R620 时间: 2008-6-27 10:40
非运算单元多过运算单元导致GTX280未能征服CRYSIS:mad:

作者: R620 时间: 2008-6-27 14:33

原帖由 Eji 于 2008-6-26 11:39 发表

不知道耶，和G8x/G9x相比，GT200系的TPC最大的修改就是register file整個double。
但是和高複雜度的share memory相比，其實從32KB擴大到64KB的register file並不會讓我覺得TPC整個會double.....
只是因為SM也增 ...

45nm才能拯救GT200:shifty:

作者: ckyim5216 时间: 2008-6-27 14:49

原帖由 Eji 于 2008-6-26 02:56 发表

(RV670/G92/G94都還是TSMC 65nm，沒有跳過去)

:blink: {sweat:] 你肯定？

作者: Eji 时间: 2008-6-27 16:08

原帖由 R620 于 2008-6-27 14:33 发表
45nm才能拯救GT200:shifty:

救不了吧。
問題不是縮小或是發熱總量，而是耗能和性能、成本的比例....

作者: Eji 时间: 2008-6-27 17:15
話說寫到後面有點偏了，我其實想寫的是CPU和GPU的整合：

我是覺得如果未來要走向數十個core的程度，是可以考慮ringbus和mesh network啦。

比方說，CPU和shader core都用ringbus 或 mesh連接，並且內附cache和一定程度的register file來對抗延遲；然後連到ROP、ROP這邊會有Texture L2和讓CPU使用的L3 cache，再看規模用crossbar和memory controller連接....

就和SPE靠MFC做位址轉換一樣，其實GPU core只要做類似的位址轉換就可以做出NUMA來，比方說這篇：

https://www.cs.tcd.ie/Michael.Manzke/researPGraphics.html
A Shared-Memory Hybrid Graphics Cluster for Visualisation and Video Processing [HPGraphics]
https://www.cs.tcd.ie/Michael.Ma ... anzke_ERSA_2007.pdf

用SCI(Scalable Coherent Interface)的方式實作的NUMA介面，直接轉到AGP上頭，所以就可以替AGP的GPU做出NUMA；但是這顯然太多overhead、介面也太慢，但是如果把這樣的位址轉換單元作在TPC、processor array上的畫，就可以達到NUMA的平面記憶體定址才是，剩下的只要CPU core和co-processor core都能共享同一個記憶體定址協定，就可以混合各種不同的CPU core才是；不過ROP這種東西似乎就比較麻煩一點，一定得跟在記憶體控制器和次階快取系統上，這讓傳統CPU很難花這麼大的成本來實作....(為了達到高效率，ROP單元幾乎吃掉目前GPU約1/3~1/4的規模)

作者: smaller 时间: 2008-6-27 17:30
技术贴！看看！

作者: 九泉苍月 时间: 2008-6-27 17:52

原帖由 zhuoke 于 2008-6-26 05:04 发表
rop的增加让A卡这次在AA上出尽了风头

ROP维持在16个，没有增加，重新设计了

作者: lcd21 时间: 2008-6-27 17:52
好帖，认真拜读，顺便支持Eji。

作者: graphiccard 时间: 2008-6-27 22:52
好贴
难的啊
PCI重现技术贴···

作者: ikinari 时间: 2008-6-28 00:34
提示: 作者被禁止或删除内容自动屏蔽

作者: ayanamei 时间: 2008-6-28 00:53

原帖由 Eji 于 2008-6-25 20:03 发表
G80的每個SM有24warp、共計16個SM，即384個warp、但每個warp由於只有32個threads，所以總計其實也是12288個thread

虽然threadmanage 能够并发的总数是一样的
但是实际平行度还是不同
g8x                      r600
384 warps  vs    194wavefronts
warp size=32T    Wavefront size=64t

那么实际g8x 同时在运作的thread 是32T X16 SM =512Thread
而r600 是64t x4 block =256Thread

作者: R620 时间: 2008-6-28 01:34

原帖由 Eji 于 2008-6-27 16:08 发表

救不了吧。
問題不是縮小或是發熱總量，而是耗能和性能、成本的比例....

不是这个意思,我的意思是GT200受累于65nm导致主频与shader频率过低性能未能达到预期,目前看来GT200主要受困于shader频率与主频率,如用45nm来生产绝无此问题(_(

作者: eDRAM 时间: 2008-6-28 11:20
现在都RV770 VS GT2XX的时代了,怎么还在谈R600 VS G8X?

作者: Travis 时间: 2008-6-28 12:35
标题: 回复 103# eDRAM 的帖子
似乎说是RV770 vs G92b更合适？

如果说RV770 vs GT200的话成本上多少有些不对称
RV770是R600路线的补完，GT200是G80的后继，改动了一些东西，而相当一部分东西没改动。

作者: jojococo 时间: 2008-6-28 13:52

原帖由 superbad 于 2008-6-25 20:08 发表

AN一起完蛋INTEL一统江湖:funk:

顶这个

作者: G81 时间: 2008-6-29 00:07
估计GTX280是因为架构先天不足造成性能增长不大想比于9800GX2没有什么优势{huffy:]

作者: G81 时间: 2008-6-29 00:10
RV770的ROP怎么还是16个啊:sweatingbullets:

作者: G81 时间: 2008-6-29 00:29
G92B完败:o

作者: complexmind 时间: 2008-8-30 16:40
进来好好学习一番{blush:] {blush:]

作者: lapin 时间: 2008-12-22 23:17

原帖由 eDRAM 于 2008-6-28 11:20 发表
现在都RV770 VS GT2XX的时代了,怎么还在谈R600 VS G8X?

架构～～～:sweatingbullets:

作者: Azl2 时间: 2008-12-23 13:16
哎~ ~~
看INTEL的吧，我感觉AN这次都要被INTEL背后一刀

作者: zkkyo 时间: 2009-1-18 14:48
帮顶一下！！！！

欢迎光临 POPPUR爱换 (https://we.poppur.com/)