POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
楼主: Eji
打印 上一主题 下一主题

替RV770說點好話

[复制链接]
41#
发表于 2008-3-12 12:05 | 只看该作者

回复 43# 的帖子

从16KB大幅提升到256KB是个好消息
越来越像更灵活的GPU了,有这个容量对GPGPU是个好消息
回复 支持 反对

使用道具 举报

42#
发表于 2008-3-12 12:07 | 只看该作者
:devil: amd采取保守策略了,基本上不去争那个第一了。
回复 支持 反对

使用道具 举报

43#
发表于 2008-3-12 12:50 | 只看该作者
原帖由 1empress 于 2008-3-11 19:39 发表
总算把TMU加上去了

不过执行单元加了一倍,才只做到和G94一样的面积

AMD在制程成本上的功力真是很可怕


背后站了个蓝色巨人,功力深厚真那:lol:
回复 支持 反对

使用道具 举报

44#
发表于 2008-3-12 12:56 | 只看该作者
原帖由 Eji 于 2008-3-12 10:46 发表


well,我不覺得哪種ALU結構是所謂的"未來".... 我只是覺得夠強的記憶體延遲遮蔽、夠好的multi-threading、夠高的電晶體效率才是關鍵。比方說,NVIDIA的ALU底層其實還是SIMD,只是中間有架一層額外的高速移位單元 ...


矢量架构显现为标量架构是怎么回事?我不能理解。谁来解释一下?这样做的目的是什么?GT200不大可能做到18亿,这对整个产品线的成本控制都是灾难性的。除非NV为GT200单独设立品牌并以K$为单位销售他。
回复 支持 反对

使用道具 举报

45#
发表于 2008-3-12 13:02 | 只看该作者
原帖由 Asuka 于 2008-3-12 09:37 发表


这些分析获得的意义很小

crysis的shader是最大瓶颈,这个不是什么秘密,已经是妇孺皆知的东西

这个测试只抽象的告诉你shader是瓶颈,但是shader可以有无数种写法,crysis是卡在哪些shader上?

RV670的F ...


G80不是说什么样的shader对效能都没有影响么?
回复 支持 反对

使用道具 举报

46#
发表于 2008-3-12 13:07 | 只看该作者
:sleeping: 鉴于amd疲软和美元贬值,gt200 999usd一块有可能:devil:
回复 支持 反对

使用道具 举报

来不及思考 该用户已被删除
47#
发表于 2008-3-12 13:24 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

头像被屏蔽
48#
发表于 2008-3-12 13:34 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

49#
发表于 2008-3-12 14:17 | 只看该作者
谢谢思考的解释,受教了!
回复 支持 反对

使用道具 举报

w23j 该用户已被删除
50#
发表于 2008-3-12 14:48 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

51#
 楼主| 发表于 2008-3-12 15:12 | 只看该作者
原帖由 haifengx88 于 2008-3-12 13:54 发表
Gt200晶体管9亿多...


~1000M嗎....看起來像是現有的ALU規模,再加執行資源....果然NVIDIA比較重視procedure。

[ 本帖最后由 Eji 于 2008-3-12 15:27 编辑 ]
回复 支持 反对

使用道具 举报

52#
 楼主| 发表于 2008-3-12 15:22 | 只看该作者
思考好久不見XD

原帖由 来不及思考 于 2008-3-12 13:24 发表
矢量架构显现为标量架构是怎么回事?我不能理解。谁来解释一下?
-->
G80的batch size是4×2×2=32pixel (per warp),执行的单位却是1/2 warp,所以每个SM很可能是4SP再加上duuble pump
另外,对于每个SM来说,4个thread在dynamic branch的时候走不同的方向,就要顺序执行,因此底层实际上应该是4D SIMD unit + duuble pump + SFU
具体的细节不是很清楚,但是可以肯定它的元件管理非常的独立,内部reg资源也非常丰富,通过一些特别的设计,swizzle是完全free的,所以可以把它看成full scalar
换句话说,G80只有16个4D SIMD unit,但是因为优良的设计,它直接可以当成full scalar来用


補充兩個部分:swizzle = 移位,所以如果你們看CUDA的performance guideline的話,有一系列的圖提到了share memory access的bank conflict、以及boardcast機制。
而且對繪圖工作來說,share memory是完全由compiler管理的,shader並不會碰觸到這塊,這就是NVIDIA的人員有空間作optimize的部分。
以性質來說,這和CELL SPE那個高頻寬的256KB/s Local Storage是同類型的。(對SPE的ALU有50GB/s的頻寬)

原帖由 来不及思考 于 2008-3-12 13:24 发表
这样做的目的是什么?
-->
完全硬件化的MIMD在旗舰级GPU这种芯片上是不现实的,G80是量产芯片,不是用来做实验的,除了成本,产能和工艺承受度也是必须考虑的问题

GT200不大可能做到18亿,这对整个产品线的成本控制都是灾难性的。除非NV为GT200单独设立品牌并以K$为单位销售他。
-->
我能告诉你的是,GT200的晶体管小于或者等于1000M

G80不是说什么样的shader对效能都没有影响么?
-->
通吃指令不意味着通吃shader,要写一个让G80跑不动的shader实在太简单了。记住:在batch size做到per pixel之前,这种话都属于行销手段
G80能保证的,就是它对各种复杂shader的适应性远好过R6XX,仅此而已,离“任何shader对效能都没有影响”还差几个世纪


以前RacingPHT兄寫的ray tracer program,就可以看出G8x可以提供的register資源還沒辦法支撐光跡追蹤的需求,share memory也不夠大。
當然這並不是個很好的例子.... 不過shader並不是加三倍ALU就一定會有三倍的性能跑出來。

[ 本帖最后由 Eji 于 2008-3-12 15:24 编辑 ]
回复 支持 反对

使用道具 举报

53#
发表于 2008-3-12 20:51 | 只看该作者
原帖由 airforce14 于 2008-3-12 09:51 发表
这文章是最近难得的好文章了  不过如果是4bank x 40個shader的话 那就只有对AMD太失望了  难道新增加的SP都来做AA了?

RV770是 160 ALUs per shader array 。
回复 支持 反对

使用道具 举报

54#
发表于 2008-3-12 21:06 | 只看该作者
好文章,虽然看得有点晕乎:sweatingbullets:
回复 支持 反对

使用道具 举报

55#
发表于 2008-3-12 23:14 | 只看该作者
原帖由 Edison 于 2008-3-12 20:51 发表

RV770是 160 ALUs per shader array 。

:p 玩完咯~
回复 支持 反对

使用道具 举报

56#
发表于 2008-3-12 23:30 | 只看该作者
原帖由 haifengx88 于 2008-3-12 23:17 发表
RV670是80么...

RV670/R600都是80 ALUs、RV63x是40 ALUs、2400是20 ALUs。:charles:
回复 支持 反对

使用道具 举报

57#
 楼主| 发表于 2008-3-12 23:34 | 只看该作者
所以不是40個4D ,是32個5D....聽說這是最新說法.... _A_
我看ATI的PM大概也搞不清楚自家的產品到底長什麼樣子。

well,單元x2 + 時脈上升 = "最佳狀況下" 兩倍多一點的性能?
回复 支持 反对

使用道具 举报

58#
发表于 2008-3-12 23:48 | 只看该作者
奇怪,为什么说RV670是80ALU?RV770是160X5D才对吧?怎么又搞成32个5D?
回复 支持 反对

使用道具 举报

59#
发表于 2008-3-13 00:07 | 只看该作者
原帖由 shu0202 于 2008-3-12 23:48 发表
奇怪,为什么说RV670是80ALU?RV770是160X5D才对吧?怎么又搞成32个5D?

R600//RV670是4 shader array, 16*5 way superscalar shader per shader array。
http://www.pcinlife.com/article/ ... 1180790746d363.html
回复 支持 反对

使用道具 举报

60#
发表于 2008-3-13 09:35 | 只看该作者
原帖由 Eji 于 2008-3-12 23:34 发表
所以不是40個4D ,是32個5D....聽說這是最新說法.... _A_
我看ATI的PM大概也搞不清楚自家的產品到底長什麼樣子。

well,單元x2 + 時脈上升 = "最佳狀況下" 兩倍多一點的性能?


能提升这么多吗?如果确实是这样,还是很有效的,不过看R580对R520的提升没有2倍啊。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-8-18 04:34

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表