替RV770說點好話

Travis · 发表于 2008-3-12 12:05

从16KB大幅提升到256KB是个好消息
越来越像更灵活的GPU了，有这个容量对GPGPU是个好消息

xreal · 发表于 2008-3-12 12:07

:devil: amd采取保守策略了,基本上不去争那个第一了。

johngoo · 发表于 2008-3-12 12:50

原帖由 1empress 于 2008-3-11 19:39 发表
总算把TMU加上去了

不过执行单元加了一倍，才只做到和G94一样的面积

AMD在制程成本上的功力真是很可怕

背后站了个蓝色巨人，功力深厚真那:lol:

shu0202 · 发表于 2008-3-12 12:56

原帖由 Eji 于 2008-3-12 10:46 发表

well，我不覺得哪種ALU結構是所謂的"未來".... 我只是覺得夠強的記憶體延遲遮蔽、夠好的multi-threading、夠高的電晶體效率才是關鍵。比方說，NVIDIA的ALU底層其實還是SIMD，只是中間有架一層額外的高速移位單元 ...

矢量架构显现为标量架构是怎么回事？我不能理解。谁来解释一下？这样做的目的是什么？GT200不大可能做到18亿，这对整个产品线的成本控制都是灾难性的。除非NV为GT200单独设立品牌并以K$为单位销售他。

shu0202 · 发表于 2008-3-12 13:02

原帖由 Asuka 于 2008-3-12 09:37 发表

这些分析获得的意义很小

crysis的shader是最大瓶颈，这个不是什么秘密，已经是妇孺皆知的东西

这个测试只抽象的告诉你shader是瓶颈，但是shader可以有无数种写法，crysis是卡在哪些shader上？

RV670的F ...

G80不是说什么样的shader对效能都没有影响么？

xreal · 发表于 2008-3-12 13:07

:sleeping: 鉴于amd疲软和美元贬值，gt200 999usd一块有可能:devil:

只看该作者 · 发表于 2008-3-12 13:24

提示: 作者被禁止或删除内容自动屏蔽

k10 · 发表于 2008-3-12 13:34

提示: 作者被禁止或删除内容自动屏蔽

shu0202 · 发表于 2008-3-12 14:17

谢谢思考的解释，受教了！

只看该作者 · 发表于 2008-3-12 14:48

提示: 作者被禁止或删除内容自动屏蔽

Eji · 发表于 2008-3-12 15:12

原帖由 haifengx88 于 2008-3-12 13:54 发表
Gt200晶体管9亿多...

~1000M嗎....看起來像是現有的ALU規模，再加執行資源....果然NVIDIA比較重視procedure。

[ 本帖最后由 Eji 于 2008-3-12 15:27 编辑 ]

Eji · 发表于 2008-3-12 15:22

思考好久不見XD

原帖由 来不及思考 于 2008-3-12 13:24 发表
矢量架构显现为标量架构是怎么回事？我不能理解。谁来解释一下？
-->
G80的batch size是4×2×2=32pixel (per warp)，执行的单位却是1/2 warp，所以每个SM很可能是4SP再加上duuble pump
另外，对于每个SM来说，4个thread在dynamic branch的时候走不同的方向，就要顺序执行，因此底层实际上应该是4D SIMD unit + duuble pump + SFU
具体的细节不是很清楚，但是可以肯定它的元件管理非常的独立，内部reg资源也非常丰富，通过一些特别的设计，swizzle是完全free的，所以可以把它看成full scalar
换句话说，G80只有16个4D SIMD unit，但是因为优良的设计，它直接可以当成full scalar来用

補充兩個部分：swizzle = 移位，所以如果你們看CUDA的performance guideline的話，有一系列的圖提到了share memory access的bank conflict、以及boardcast機制。
而且對繪圖工作來說，share memory是完全由compiler管理的，shader並不會碰觸到這塊，這就是NVIDIA的人員有空間作optimize的部分。
以性質來說，這和CELL SPE那個高頻寬的256KB/s Local Storage是同類型的。(對SPE的ALU有50GB/s的頻寬)

原帖由 来不及思考 于 2008-3-12 13:24 发表
这样做的目的是什么？
-->
完全硬件化的MIMD在旗舰级GPU这种芯片上是不现实的，G80是量产芯片，不是用来做实验的，除了成本，产能和工艺承受度也是必须考虑的问题

GT200不大可能做到18亿，这对整个产品线的成本控制都是灾难性的。除非NV为GT200单独设立品牌并以K$为单位销售他。
-->
我能告诉你的是，GT200的晶体管小于或者等于1000M

G80不是说什么样的shader对效能都没有影响么？
-->
通吃指令不意味着通吃shader，要写一个让G80跑不动的shader实在太简单了。记住：在batch size做到per pixel之前，这种话都属于行销手段
G80能保证的，就是它对各种复杂shader的适应性远好过R6XX，仅此而已，离“任何shader对效能都没有影响”还差几个世纪

以前RacingPHT兄寫的ray tracer program，就可以看出G8x可以提供的register資源還沒辦法支撐光跡追蹤的需求，share memory也不夠大。
當然這並不是個很好的例子.... 不過shader並不是加三倍ALU就一定會有三倍的性能跑出來。

[ 本帖最后由 Eji 于 2008-3-12 15:24 编辑 ]

Edison · 发表于 2008-3-12 20:51

原帖由 airforce14 于 2008-3-12 09:51 发表
这文章是最近难得的好文章了不过如果是4bank x 40個shader的话那就只有对AMD太失望了难道新增加的SP都来做AA了?

RV770是 160 ALUs per shader array 。

Bocelli · 发表于 2008-3-12 21:06

好文章，虽然看得有点晕乎:sweatingbullets:

fineday · 发表于 2008-3-12 23:14

原帖由 Edison 于 2008-3-12 20:51 发表

RV770是 160 ALUs per shader array 。

:p 玩完咯～

Edison · 发表于 2008-3-12 23:30

原帖由 haifengx88 于 2008-3-12 23:17 发表
RV670是80么...

RV670/R600都是80 ALUs、RV63x是40 ALUs、2400是20 ALUs。:charles:

Eji · 发表于 2008-3-12 23:34

所以不是40個4D ，是32個5D....聽說這是最新說法.... _A_
我看ATI的PM大概也搞不清楚自家的產品到底長什麼樣子。

well，單元x2 + 時脈上升 = "最佳狀況下" 兩倍多一點的性能？

shu0202 · 发表于 2008-3-12 23:48

奇怪，为什么说RV670是80ALU？RV770是160X5D才对吧？怎么又搞成32个5D？

Edison · 发表于 2008-3-13 00:07

原帖由 shu0202 于 2008-3-12 23:48 发表
奇怪，为什么说RV670是80ALU？RV770是160X5D才对吧？怎么又搞成32个5D？

R600//RV670是4 shader array, 16*5 way superscalar shader per shader array。
http://www.pcinlife.com/article/ ... 1180790746d363.html

lcd21 · 发表于 2008-3-13 09:35

原帖由 Eji 于 2008-3-12 23:34 发表
所以不是40個4D ，是32個5D....聽說這是最新說法.... _A_
我看ATI的PM大概也搞不清楚自家的產品到底長什麼樣子。

well，單元x2 + 時脈上升 = "最佳狀況下" 兩倍多一點的性能？

能提升这么多吗？如果确实是这样，还是很有效的，不过看R580对R520的提升没有2倍啊。

帐号		自动登录	找回密码
密码			注册

来不及思考该用户已被删除	47^# 发表于 2008-3-12 13:24 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
来不及思考该用户已被删除
	回复支持反对使用道具举报显身卡

k10 k10 当前离线积分 13 IP卡狗仔卡头像被屏蔽	48^# 发表于 2008-3-12 13:34 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
k10 k10 当前离线积分 13 IP卡狗仔卡头像被屏蔽
	回复支持反对使用道具举报显身卡

w23j 该用户已被删除	50^# 发表于 2008-3-12 14:48 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
w23j 该用户已被删除
	回复支持反对使用道具举报显身卡

替RV770說點好話

回复 43# 的帖子

浏览过的版块