望达人解答：为何ATI的ROP比NV的给力？

inSeek · 发表于 2011-12-23 15:15

望达人解答：为何ATI的ROP比NV的给力？特别是AA性能
希望从比较深层的原因解答下这个问题... 一直困惑无比

inSeek · 发表于 2011-12-25 00:40

Edison 发表于 2011-12-24 21:25
理论上每个 SM 可以每个周期输出 32 个像素 compoent（SIMD32 per warp / 1 cycle = 32 compoent/cycle）， ...

那光栅化这类的瓶颈，会造成多少性能损失呢？
NV当时这么设计的原因？

另外这也是Kepler SP和非核心同频的原因么？

帮忙解答下吧...

panjanstoneborg · 发表于 2011-12-24 22:23

本帖最后由 panjanstoneborg 于 2011-12-24 22:26 编辑

Edison 发表于 2011-12-24 21:25
理论上每个 SM 可以每个周期输出 32 个像素 compoent（SIMD32 per warp / 1 cycle = 32 compoent/cycle）， ...

那为什么以前的GPU没有这样的问题呢，是fermi的光栅化单元大大精简了吗，为了做成多个
而且也没发现6900的双光栅化单元喂不饱32个rop，或者说32个就是上限了，所以7900也就限制在32个了
那么nv增加rop也就是为了aa性能而不是填充率了

Edison · 发表于 2011-12-24 21:25

理论上每个 SM 可以每个周期输出 32 个像素 compoent（SIMD32 per warp / 1 cycle = 32 compoent/cycle），而每个像素需要 4 个 compoent，这样就是 32 compoent/4compoent/pixel = (8 pixels/SM) per cycle。

要令每个 SM 的吞吐率从 8 pixel 降低到 2 pixel，似乎就是内部带宽问题吧。

当然，似乎 GPC 本身的光栅化能力只能做到 8 片元（fragment） per cycle，这样算起来，就是 2 pixel per SM 了，此时瓶颈也就在 GPC 的光栅化能力上了。

inSeek · 发表于 2011-12-24 20:29

Edison 发表于 2011-12-24 19:55
跑 MSAA 的话就会和 ROP 有关系。

那为什么Fermi的填充率和SM数量有关呢？只是因为SM到ROP之间的带宽形成瓶颈的问题？

Edison · 发表于 2011-12-24 19:55

跑 MSAA 的话就会和 ROP 有关系。

inSeek · 发表于 2011-12-24 19:13

本帖最后由 inSeek 于 2011-12-24 19:24 编辑

Edison 发表于 2011-12-24 14:57
目前的共识是，Fermi 的 fillrate = core clock x SMs x 2.

我也看到新版的GPU-Z是这么算的了。那这块的填充率和ROP的数量没关系了？还是说ROP的性能还是有那么多的填充率（频率*ROP个数），只是因为内部带宽等的问题造成实际理论最大值就频率*SM个数*2？

Edison · 发表于 2011-12-24 18:59

panjanstoneborg 发表于 2011-12-24 18:40
有没有什么原理可以解释一下呢
基础不好，不能理解啊

一般都是内部带宽问题约束造成的。

panjanstoneborg · 发表于 2011-12-24 18:40

Edison 发表于 2011-12-24 15:55
560 Ti 实测：
——08SM@822MHz 12864.030273M pixels/sec

有没有什么原理可以解释一下呢
基础不好，不能理解啊

Edison · 发表于 2011-12-24 15:55

560 Ti 实测：
——08SM@822MHz 12864.030273M pixels/sec

理论值：core clock x SMs x 2 = 822MHz * 8 * 2 = 13152 M pixels/sec。

btw，这里讨论的是 pixel fillrate，不是 texel rate 呀。

fengpc · 发表于 2011-12-24 15:38

Edison 发表于 2011-12-24 15:26
我这里的色彩填充率实测（single texture）：

GTX 580

测过8TPC的560TI了吗？GF114和GF110的TEX单元一样多

Edison · 发表于 2011-12-24 15:26

fengpc 发表于 2011-12-24 15:07
这是对GF10X来说吧，GF10X每个SM有2个TEX，GF100/110才一个

我这里的色彩填充率实测（single texture）：

GTX 580
——16SM@772MHz 24082.011719M pixels/sec
——09SM@772MHz 13679.347656M pixels/sec

按照我上面帖子中的“公式”得出的理论值：
——16SM@772MHz 24704M pixels/sec
——09SM@772MHz 13896M pixels/sec

基本吻合吧。

fengpc · 发表于 2011-12-24 15:07

Edison 发表于 2011-12-24 14:57
目前的共识是，Fermi 的 fillrate = core clock x SMs x 2.

这是对GF10X来说吧，GF10X每个SM有2个TEX，GF100/110才一个

Edison · 发表于 2011-12-24 14:57

目前的共识是，Fermi 的 fillrate = core clock x SMs x 2.

eternal0 · 发表于 2011-12-24 14:39

啥时候SSAA性能也能给力就好了。

Windyson · 发表于 2011-12-24 14:23

NV在想办法提升核频,或者GK就会看出来

SnakeLee · 发表于 2011-12-23 18:06

前提不开AA的时候跑得快就行呗，这样就算损失幅度大了，最终的效果还是好的嘛，至于其他的么...DX11普及后的MSAA对A和N这两家都谈不上谁更在行了吧，跌幅都很大了

panjanstoneborg · 发表于 2011-12-23 17:21

iamw2d 发表于 2011-12-23 15:23
估计带宽是个原因吧
不过以前看b3d的测试 570的color rop只有a卡28个效果
当时我就无语了

据说fermi的GPC和ROP之间的互联宽度不足，造成fillrate低
不是很理解，但测试是这样的

GTX999 · 发表于 2011-12-23 17:20

Elwin 发表于 2011-12-23 16:54
肯定有啊，无敌8AA就是典型的例子。

不过俺是眼见为实派，实在是丁点看不出所谓的8xAA和4x有什么区别，因 ...

8aa在crysis warhead里看的非常明显。

inSeek · 发表于 2011-12-23 17:18

Elwin 发表于 2011-12-23 17:10
早期HD4800甚至出现8x比4x快的现象，有没有问题这就不消说了吧。还是那句话，反正都看不出来。

估计又是被强大的AI功能优化了...？

帐号		自动登录	找回密码
密码			注册

望达人解答：为何ATI的ROP比NV的给力？

RE: 望达人解答：为何ATI的ROP比NV的给力？

浏览过的版块