原帖由 287381906 于 2008-3-11 17:34 发表
“但是記憶體在階層面的擴充則變得困難”
什么叫阶层面??:huh:
因为台湾话与大陆话不太一致,还是用英文同步一下吧,什么“记忆体、韧体、汇流排”的,好怕怕:p
原帖由 287381906 于 2008-3-11 17:34 发表
“但是記憶體在階層面的擴充則變得困難”
什么叫阶层面??:huh:
因为台湾话与大陆话不太一致,还是用英文同步一下吧,什么“记忆体、韧体、汇流排”的,好怕怕:p
原帖由 1empress 于 2008-3-11 19:51 发表
这个未必吧,如果1:4不够的话,很难相信1:5的比例就可以做得好,但从R520一路看下来,这种ALU增加起来很容易,面积也很小.
这样持续增加Pixel Shader的ALU比例,在我看来是以最少成本尽可能获得更大效能的方式,而不是为了追求效率而增加晶体管.
说起来MS的DX10真是害人哪....NV连主流方案都做到240mm了,想当年横扫一切的NV40也只有260mm而已。我是很不看好G9X系列的寿命的
原帖由 Eji 于 2008-3-11 21:33 发表
唔,我既然這篇寫要說好話,我就很不希望作出"批評"....不過要寫的話還是可以寫一些。
今天我們可以從G94看到,NVIDIA的結構效率是高得多的,而且電晶體的數量也比較少。
die size會比較大,單純是因為NVIDI ...
原帖由 1empress 于 2008-3-12 01:05 发表
G9X系列分支指令调度,隐藏延迟这部分功能效率很好,可以百分之百的喂饱SP,但我猜测相应的逻辑电路也非常复杂难做,即使新制程也不能缩小多少面积,所以NV制程上保守,之所以占用这么大面积不应是制程落后的原因,而是面积根本就减不下来,造成成本居高不下
相反ATI宁可用DX9时代的落后设计缝缝补补,也不愿意把5D更换为类似SP的设计,原因也在于此,毕竟市场定位类似的东西,拼的是售价.
原帖由 k10 于 2008-3-12 03:39 发表
所以说R7XX 砸资源是省时又省力的做法:loveliness:
原帖由 k10 于 2008-3-12 03:28 发表
单就CRYSIS来讲 瓶井不在SP 而在是shader
AMD GPU PerfStudio v1.2是一个基于单帧的分析工具,分析的是单帧的硬件静态数据。原理很简单,通过driver,hook住所有的api序列,然后分析的时候开始回放api序列,就可以 ...
原帖由 Eji 于 2008-3-11 19:24 发表
這邊講的是memory hierarchy,G80在這方面有在TPC裡面擺一組scratch pad memory(16KB share memory),還有constance register、temp register都已經有做到virtualize了,所以理論上G8x的資源是無限的;
R6x0這方 ...
原帖由 287381906 于 2008-3-12 09:47 发表
感谢E大解释了!!其实还是不怎么明白XD
E大的意思……RV770因为缺乏存储器所以效率会低吗?至少可以达到R520->R580的性能提升吧?
原帖由 airforce14 于 2008-3-12 09:51 发表
这文章是最近难得的好文章了 不过如果是4bank x 40個shader的话 那就只有对AMD太失望了 难道新增加的SP都来做AA了?
原帖由 shu0202 于 2008-3-12 08:40 发表
Eji的意思是RV770的扩展式架构不是什么好东西。一方面是用尽可能少的晶体管代价提高效能,一方面是规模扩大造成执行效率下降。Eji也倾向于标量架构是GPU的未来了吗?那为什么Intel没有选择标量的路子呢?我不认为AMD架构缺陷和矢量单元有必然关系。倒是暴露出传统架构在新一代指令执行上的力不从心。不过NV的标量架构现在看也好不了多少。
原帖由 Asuka 于 2008-3-12 10:03 发表
不是存储器,是存储器与GPU时钟差距带来的延迟
其实你可以自己算一下:
以Radeon 3870为例,它的核心部件,也就是ALU/reg file/UTDP 的工作时钟是770MHz,这样它内部每个时钟周期的长度在1.3ns左右.它搭配 ...
原帖由 Eji 于 2008-3-12 10:46 发表
well,我不覺得哪種ALU結構是所謂的"未來".... 我只是覺得夠強的記憶體延遲遮蔽、夠好的multi-threading、夠高的電晶體效率才是關鍵。比方說,NVIDIA的ALU底層其實還是SIMD,只是中間有架一層額外的高速移位單元 ...
原帖由 Asuka 于 2008-3-12 09:37 发表
这些分析获得的意义很小
crysis的shader是最大瓶颈,这个不是什么秘密,已经是妇孺皆知的东西
这个测试只抽象的告诉你shader是瓶颈,但是shader可以有无数种写法,crysis是卡在哪些shader上?
RV670的F ...
原帖由 来不及思考 于 2008-3-12 13:24 发表
矢量架构显现为标量架构是怎么回事?我不能理解。谁来解释一下?
-->
G80的batch size是4×2×2=32pixel (per warp),执行的单位却是1/2 warp,所以每个SM很可能是4SP再加上duuble pump
另外,对于每个SM来说,4个thread在dynamic branch的时候走不同的方向,就要顺序执行,因此底层实际上应该是4D SIMD unit + duuble pump + SFU
具体的细节不是很清楚,但是可以肯定它的元件管理非常的独立,内部reg资源也非常丰富,通过一些特别的设计,swizzle是完全free的,所以可以把它看成full scalar
换句话说,G80只有16个4D SIMD unit,但是因为优良的设计,它直接可以当成full scalar来用
原帖由 来不及思考 于 2008-3-12 13:24 发表
这样做的目的是什么?
-->
完全硬件化的MIMD在旗舰级GPU这种芯片上是不现实的,G80是量产芯片,不是用来做实验的,除了成本,产能和工艺承受度也是必须考虑的问题
GT200不大可能做到18亿,这对整个产品线的成本控制都是灾难性的。除非NV为GT200单独设立品牌并以K$为单位销售他。
-->
我能告诉你的是,GT200的晶体管小于或者等于1000M
G80不是说什么样的shader对效能都没有影响么?
-->
通吃指令不意味着通吃shader,要写一个让G80跑不动的shader实在太简单了。记住:在batch size做到per pixel之前,这种话都属于行销手段
G80能保证的,就是它对各种复杂shader的适应性远好过R6XX,仅此而已,离“任何shader对效能都没有影响”还差几个世纪
原帖由 airforce14 于 2008-3-12 09:51 发表
这文章是最近难得的好文章了 不过如果是4bank x 40個shader的话 那就只有对AMD太失望了 难道新增加的SP都来做AA了?
原帖由 Eji 于 2008-3-12 23:34 发表
所以不是40個4D ,是32個5D....聽說這是最新說法.... _A_
我看ATI的PM大概也搞不清楚自家的產品到底長什麼樣子。
well,單元x2 + 時脈上升 = "最佳狀況下" 兩倍多一點的性能?
原帖由 Edison 于 2008-3-13 00:07 发表
R600//RV670是4 shader array, 16*5 way superscalar shader per shader array。
http://www.pcinlife.com/article/graphics/2007-06-02/1180790746d363.html
原帖由 haifengx88 于 2008-3-13 09:16 发表
简单的说就是RV670是分4组SP,每组16个5D...
RV770分5组SP,每组32个5D...
以此类推:
RV630/635分3组,每组8个5D...
RV610/620分2组,每组4个5D...
原帖由 haifengx88 于 2008-3-13 09:16 发表
简单的说就是RV670是分4组SP,每组16个5D...
RV770分5组SP,每组32个5D...
以此类推:
RV630/635分3组,每组8个5D...
RV610/620分2组,每组4个5D...
原帖由 shu0202 于 2008-3-13 11:48 发表
这样的话RV770的效率不会比RV670好。性能大概和G92持平。
有意思的在这:
http://news.mydrivers.com/1/101/101293.htm
RV770比G92多数千万晶体管,但是相同制程核心面积更小。
原帖由 noble_long 于 2008-3-13 14:40 发表
DX10游戏相对于DX9而言,合适的分支粒度变化大不大?GS流行后对此有何影响?
如果变化大,NV会否调整TPC内SP数量或share memory的大小来抓这个sweet point,以及相应的时间点是一个有趣的问题。
加大share memory更多的是为了图形应用还是GPGPU?
原帖由 littlebird 于 2008-3-13 15:27 发表
显卡能帮助渲染的话就太棒了,cpu做ray tracing慢的让人想跳楼:-(。
而且,以pc游戏市场现状,高端显卡有点不值。nvidia能发展娱乐之外的应用会对显卡销售提供新的支持。
原帖由 aibo 于 2008-3-13 23:59 发表
俺也来YY
G92对比G94,可以说就是64个sp的差别。
G92 330mm2 754M
G94 240mm2 505M
也就是说64个sp大概是250M个晶体管。
假设GT200其他都没有动,光增加sp了。那么以1000M的数量来算的话,最多也就192个 ...
原帖由 远大 于 2008-3-15 18:06 发表
"GeForce 8800 GTX的统一着色器架构由8组着色器矩阵组成,每个着色器矩阵内包含16个标量流处理器。"
---------那么应该说是8核,或者说是:8*16=128核,
那个16核指的是什么?
原帖由 RacingPHT 于 2008-3-16 13:04 发表
另外我其实不觉得branch会是那么重要的因素, 以现在两家的表现我觉得branch都已经算是可以。
我觉得并行化提高以后其实有很多问题会变得更加突出, 在一个很复杂的scene里面, 整个pipeline会因为一些莫名其妙的因素变得效率很低,可能是因为small batch, small polygon, context switch之类的因素, 最后就表现为shaderbound, 但其实是整个pipeline没有办法有效利用shader的原因。
| 欢迎光临 POPPUR爱换 (https://we.poppur.com/) | Powered by Discuz! X3.4 |