最近越看越有趣的R600 vs G8x

Eji · 发表于 2008-6-25 23:09

原帖由 shu0202 于 2008-6-25 22:42 发表
NV的做法是提升每条US的灵活性和效能，逼对手用大量传统低效资源来和自己硬拼，从而拖垮对手。
AMD则是用数量换取效能，堆积大量效能较低但是结构简单的管线来从资源量上压过对手。

我覺得要強調的是，那篇文章校正的一個重點：register file必然是和core一起的。
所以RV670 -> RV770，從666M增加到965M，大半都是shader ALU，也就是說實質上R600/RV670非shader的部分，就已經400M前後，shader+TMU本身其實只有GPU的1/3，剩下的還是ROP和memory controller。
這個可以從G80/GT200的die photo看出部分來：

中間的十字部分集中了Raster unit、ROP、Memory Controller。

GT100/200花了非常多的精神在share memory和倍速shader上，主要是為了維持住效率，還有透過這個效率來減少compiler開發的困難之處；ATI這方面付之闕如，所以靠的主要是大幅擴充core數量。

----
話說回來，把CELL SPE加上8cycle的4D TMU(相當於CELL host clock的400MHz)、還有8cycle的2x4D ROP的話，差不多就是一個有64bit XDR的GPU了耶XD
只是這些東西都是ASIC，很難做XD 而且整個GPU的shader都用ringbus溝通，thought put大概會很難看....XDXD

shu0202 · 发表于 2008-6-25 23:09

在工艺和资源都处于劣势的情况下NV继续维持标量架构的规模快速增长显然是不太可能了，NV必须在效能和资源密集度上取得平衡，但是NV是否来得及在较短时间内解决这个问题还是未知数。DX11的竞争迫在眉睫，DX10这一部分已经出现很大的危机，这种麻烦搞不好会影响下一代架构。
从RV770的表现来看，AMD有能力在45nm工艺上实现资源再反倍并且维持相对较低的成本，这对NV现有的东西是致命的威胁。

feel囝 · 发表于 2008-6-25 23:10

原帖由 九泉苍月 于 2008-6-25 20:51 发表
RV770撇弃Ringbus/Crossbar改用一个Switched Hub...求解

同问，Switched Hub到底是什么？？？

Eji · 发表于 2008-6-25 23:10

原帖由 feel囝 于 2008-6-25 23:08 发表
你上一篇不是说AMD增大shader资源就是为了做AA，但有人质疑用处不大（数据是1：4对1：5，大约这个），一直没有看到你解释！

AMD這回改善AA性能的主力還是靠ROP本身的修改，Custom Filter AA相較於box filter來說還是有下降....
但是CFAA既然有shader強化，應該還是會有用處啦，重點是功能的實用性。

這次比較有趣的是，由於底層整個重新設計(ROP-> memory controller這段整個翻新)，
所以傳統的box filter MSAA的性能整個翻倍，如果RV670也有這種結構可用，只怕G94沒辦法壓住RV670。

[ 本帖最后由 Eji 于 2008-6-26 02:42 编辑 ]

Eji · 发表于 2008-6-25 23:12

原帖由 feel囝 于 2008-6-25 23:10 发表
同问，Switched Hub到底是什么？？？

switching hub不就是crossbar?

zhg9970025 · 发表于 2008-6-25 23:13

娱乐论坛的技术贴

NONO · 发表于 2008-6-25 23:18

現在NV面臨到了工藝的瓶頸，之後還會繼續走標量的架構嗎??:funk:

只看该作者 · 发表于 2008-6-25 23:20

提示: 作者被禁止或删除内容自动屏蔽

Eji · 发表于 2008-6-25 23:20

原帖由 shu0202 于 2008-6-25 23:09 发表
在工艺和资源都处于劣势的情况下NV继续维持标量架构的规模快速增长显然是不太可能了，NV必须在效能和资源密集度上取得平衡，但是NV是否来得及在较短时间内解决这个问题还是未知数。DX11的竞争迫在眉睫，DX10这一部分已经出现很大的危机，这种麻烦搞不好会影响下一代架构。
从RV770的表现来看，AMD有能力在45nm工艺上实现资源再反倍并且维持相对较低的成本，这对NV现有的东西是致命的威胁。

其實我覺得還好耶.....
目前NVIDIA和ATI其實per core的性能幾乎是一樣的(TPC vs ALU array)，所以說起來，RV770其實就是10TPC + 256bit的G92而已啊。(贏也差不多贏這個程度)
這和G94出來之前，大家都擔心G92的成本太高一樣....(話說我一開始好像就寫了？)
所以真的"只是要對抗"的話，我們把GT200砍到8TPC、256bit，馬上成本面就可以對抗了。

RV770下一步如果要走所謂2000sp的話，要從10core增加到25core，4core差不多耗了280M，也就是每個core 70M前後。
所以要加到2000SP的話，還是要多投入1050M電晶體，如果你想在45nm底下維持這個die size(250mm^2前後)的話，電晶體大約是1500M前後，比現在多約500M，那其實只能讓你從10core增加到20core而已的，那大概只有1600sp.....離2000sp還有一段距離。

反過來說，GT200幾乎就是G92的double(256sp + 32 ROP)，如果我們要省的話大概就是256SP + 16ROP，每個core(TPC)大概也是70~80M前後....
如果G92只double shader、維持256bit ROP的話，其實也只需要1100M前後耶？
那看起來就不會是956M vs 1400M這麼大的差距了。

[ 本帖最后由 Eji 于 2008-6-26 00:01 编辑 ]

rapfish · 发表于 2008-6-25 23:22

技术贴:funk:

乱世火凤凰 · 发表于 2008-6-25 23:25

AMD会不会在下代产品中继续采用这种塞shader的做法提升性能呢?这样做的成本应该比NV低不少吧.不过效果如何呢?

Eji · 发表于 2008-6-25 23:26

原帖由 NONO 于 2008-6-25 23:18 发表
現在NV面臨到了工藝的瓶頸，之後還會繼續走標量的架構嗎??:funk:

底層其實不是pure scalar啊。
8SP 其實是兩個4D Vector ALU，只是有個移位unit(gather & scatter)作排列。
但是這段的設計非常複雜......

只看该作者 · 发表于 2008-6-25 23:33

提示: 作者被禁止或删除内容自动屏蔽

job555 · 发表于 2008-6-25 23:33

Eji很客观，很理性，PCI难得这样的版主，呵呵，台湾人？

jhj9 · 发表于 2008-6-25 23:42

原帖由水银于 2008-6-25 20:56 发表
Larrabee不是many core，作为图形运算X86比shader多出来的众多指令有何意义？
larrabee会不会有个把X86指令拆成Shader能执行的简单指令呢，就像CICS to RISC那样

Larrabee完整版本是24核，指令多其实无所谓，因为内部是微指令在跑，x86只是表象
Shader指令同样可以变成微指令

我认为Larrabee的问题是在于到底有多少Fixed Unit，如果setup、rop、tmu都用x86跑，整体效率未免不足，这也是为什么用CPU来软渲染性能低下的原因之一。

Eji · 发表于 2008-6-25 23:43

原帖由 shu0202 于 2008-6-25 22:58 发表
AMD疯狂扩充运算资源并未对外围设计造成沉重负担，反而游刃有余，除了纹理单元相应扩充之外，RV770只将线程分配部分的仲裁器和定序器增加了20个，这就足以维持160条管线的效能，这和GT200在线程调度上扩大的规模简直是天壤之别。
而且运算单元的强力扩充反而弥补了R600资源调度僵化的缺陷，10组TPC和GT200处于同一水平。NV反而将每组16PS变成了每组24PS来维持一个合理的规模。

呃，話不能這麼說，它咚阗Y源擴充背後全部都有相應增加的register file啊。
每個16way SIMD array全部都有256KB 的register file，等效於48個wafefront(warp)，所以整個RV770擴充到了480個warp，和GT200一樣都相當於30720個thread呢。

所以我說你要繼續擴充下去馬上會遇到瓶頸的。這些array本身也是crossbar連接啊。

jhj9 · 发表于 2008-6-25 23:44

原帖由 shu0202 于 2008-6-25 22:58 发表
AMD疯狂扩充运算资源并未对外围设计造成沉重负担，反而游刃有余，除了纹理单元相应扩充之外，RV770只将线程分配部分的仲裁器和定序器增加了20个，这就足以维持160条管线的效能，这和GT200在线程调度上扩大的规模简直 ...

外围负担未必没有变重，AMD把TMU加倍了，ROP重新设计了
所以外围其实也同样提高了的
但ROP增加的是对于复杂情况的处理能力，也就是AA AF的处理能力，但是数量没有增加
这也是为什么0AA下性能一般的原因

Eji · 发表于 2008-6-25 23:47

原帖由 jhj9 于 2008-6-25 23:42 发表
我认为Larrabee的问题是在于到底有多少Fixed Unit，如果setup、rop、tmu都用x86跑，整体效率未免不足，这也是为什么用CPU来软渲染性能低下的原因之一。

是啊，要有人替他們設計足夠強大的的TMU、ROP和setup。
TMU要和shader在一起(其實說起來這不是理所當然嗎XD)、
ROP要和memory controller在一起，setup的部分又要放在TMU旁邊。

不過TMU和ROP、ROP和memory controller之間要用ringbus還是crossbar就真的是隨人家做了。
現在看起來感覺用不用ringbus or crossbar並不是問題....還是說RV770真的就只是把ROP和memory controller之間換成crossbar就解決了MSAA性能？

1empress · 发表于 2008-6-25 23:49

提示: 作者被禁止或删除内容自动屏蔽

jhj9 · 发表于 2008-6-25 23:50

原帖由 westlee 于 2008-6-25 23:33 发表

现在就看nv会怎么走了，你觉得nv会拿出“只是为了对抗”的产品吗？

估计年底会出GT200 55nm改良版，然后再下一步很可能出现486到Pentium这样的跨越式产品，来和Intel抗衡

帐号		自动登录	找回密码
密码			注册

阿蓝2代该用户已被删除	48^# 发表于 2008-6-25 23:20 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
阿蓝2代该用户已被删除
	回复支持反对使用道具举报显身卡

westlee 该用户已被删除	53^# 发表于 2008-6-25 23:33 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
westlee 该用户已被删除
	回复支持反对使用道具举报显身卡

1empress 1empress 当前离线积分 8 IP卡狗仔卡头像被屏蔽	59^# 发表于 2008-6-25 23:49 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
1empress 1empress 当前离线积分 8 IP卡狗仔卡头像被屏蔽
	回复支持反对使用道具举报显身卡

最近越看越有趣的R600 vs G8x

本帖子中包含更多资源

浏览过的版块