POPPUR爱换

标题: 望达人解答：为何ATI的ROP比NV的给力？ [打印本页]

作者: inSeek 时间: 2011-12-23 15:15
标题: 望达人解答：为何ATI的ROP比NV的给力？
望达人解答：为何ATI的ROP比NV的给力？特别是AA性能
希望从比较深层的原因解答下这个问题... 一直困惑无比

作者: iamw2d 时间: 2011-12-23 15:23
估计带宽是个原因吧
不过以前看b3d的测试 570的color rop只有a卡28个效果
当时我就无语了

作者: fax528 时间: 2011-12-23 15:44
竞争就是好事，家家都拿出压箱底的东西。cpu过了这阵子就没这好事了，

作者: asd04122661 时间: 2011-12-23 16:31
费米锁定1：2所以核心频率上不去一直比a要低，而核心频率就是tmu和rops的频率，所以虽然570有40个rops但因为频率低所以和6970比的话理论上也只能等效于32rops，至于rops效率什么的就不清楚了

作者: inSeek 时间: 2011-12-23 16:33

asd04122661 发表于 2011-12-23 16:31
费米锁定1：2所以核心频率上不去一直比a要低，而核心频率就是tmu和rops的频率，所以虽然570有40个rops但因为 ...

其实是这个情况：
NoAA到16xAA的过程中，A卡比N卡的性能下降幅度下...

作者: asd04122661 时间: 2011-12-23 16:35

inSeek 发表于 2011-12-23 16:33
其实是这个情况：
NoAA到16xAA的过程中，A卡比N卡的性能下降幅度下...

有评测没？

作者: Cherbim 时间: 2011-12-23 16:42
提示: 作者被禁止或删除内容自动屏蔽

作者: inSeek 时间: 2011-12-23 16:52

asd04122661 发表于 2011-12-23 16:35
有评测没？

其实Fermi这一代的4xMSAA的性能很不错了，有当时HD4000宣传的FreeAA的程度了。
但是再高还是不行- -

作者: luckissy 时间: 2011-12-23 16:55
nv从gt200到gf100 AA性能的提升还是很明显的最明显的就是4X MSAA的情况下

作者: inSeek 时间: 2011-12-23 17:03

Elwin 发表于 2011-12-23 17:01
现在AMD最高采样是多少，还是8xMSAA级别？

其实你看AMD不停的推出新采样方案，这些都无一例外的统称浆糊 ...

所以，不排除4xMSAA之后 ATI的AA算法放水的可能？

我只知到NV的SLI-AA 有64xAA...

作者: inSeek 时间: 2011-12-23 17:18

Elwin 发表于 2011-12-23 17:10
早期HD4800甚至出现8x比4x快的现象，有没有问题这就不消说了吧。还是那句话，反正都看不出来。

估计又是被强大的AI功能优化了...？

作者: GTX999 时间: 2011-12-23 17:20
标题: RE: 望达人解答：为何ATI的ROP比NV的给力？

Elwin 发表于 2011-12-23 16:54
肯定有啊，无敌8AA就是典型的例子。

不过俺是眼见为实派，实在是丁点看不出所谓的8xAA和4x有什么区别，因 ...

8aa在crysis warhead里看的非常明显。

作者: panjanstoneborg 时间: 2011-12-23 17:21

iamw2d 发表于 2011-12-23 15:23
估计带宽是个原因吧
不过以前看b3d的测试 570的color rop只有a卡28个效果
当时我就无语了

据说fermi的GPC和ROP之间的互联宽度不足，造成fillrate低
不是很理解，但测试是这样的

作者: SnakeLee 时间: 2011-12-23 18:06
前提不开AA的时候跑得快就行呗，这样就算损失幅度大了，最终的效果还是好的嘛，至于其他的么...DX11普及后的MSAA对A和N这两家都谈不上谁更在行了吧，跌幅都很大了

作者: Windyson 时间: 2011-12-24 14:23
NV在想办法提升核频,或者GK就会看出来

作者: eternal0 时间: 2011-12-24 14:39
啥时候SSAA性能也能给力就好了。

作者: Edison 时间: 2011-12-24 14:57
目前的共识是，Fermi 的 fillrate = core clock x SMs x 2.

作者: fengpc 时间: 2011-12-24 15:07

Edison 发表于 2011-12-24 14:57
目前的共识是，Fermi 的 fillrate = core clock x SMs x 2.

这是对GF10X来说吧，GF10X每个SM有2个TEX，GF100/110才一个

作者: Edison 时间: 2011-12-24 15:26

fengpc 发表于 2011-12-24 15:07
这是对GF10X来说吧，GF10X每个SM有2个TEX，GF100/110才一个

我这里的色彩填充率实测（single texture）：

GTX 580
——16SM@772MHz 24082.011719M pixels/sec
——09SM@772MHz 13679.347656M pixels/sec

按照我上面帖子中的“公式”得出的理论值：
——16SM@772MHz 24704M pixels/sec
——09SM@772MHz 13896M pixels/sec

基本吻合吧。

作者: fengpc 时间: 2011-12-24 15:38

Edison 发表于 2011-12-24 15:26
我这里的色彩填充率实测（single texture）：

GTX 580

测过8TPC的560TI了吗？GF114和GF110的TEX单元一样多

作者: Edison 时间: 2011-12-24 15:55
560 Ti 实测：
——08SM@822MHz 12864.030273M pixels/sec

理论值：core clock x SMs x 2 = 822MHz * 8 * 2 = 13152 M pixels/sec。

btw，这里讨论的是 pixel fillrate，不是 texel rate 呀。

作者: panjanstoneborg 时间: 2011-12-24 18:40

Edison 发表于 2011-12-24 15:55
560 Ti 实测：
——08SM@822MHz 12864.030273M pixels/sec

有没有什么原理可以解释一下呢
基础不好，不能理解啊

作者: Edison 时间: 2011-12-24 18:59

panjanstoneborg 发表于 2011-12-24 18:40
有没有什么原理可以解释一下呢
基础不好，不能理解啊

一般都是内部带宽问题约束造成的。

作者: inSeek 时间: 2011-12-24 19:13
本帖最后由 inSeek 于 2011-12-24 19:24 编辑

Edison 发表于 2011-12-24 14:57
目前的共识是，Fermi 的 fillrate = core clock x SMs x 2.

我也看到新版的GPU-Z是这么算的了。那这块的填充率和ROP的数量没关系了？还是说ROP的性能还是有那么多的填充率（频率*ROP个数），只是因为内部带宽等的问题造成实际理论最大值就频率*SM个数*2？

作者: Edison 时间: 2011-12-24 19:55
跑 MSAA 的话就会和 ROP 有关系。

作者: inSeek 时间: 2011-12-24 20:29

Edison 发表于 2011-12-24 19:55
跑 MSAA 的话就会和 ROP 有关系。

那为什么Fermi的填充率和SM数量有关呢？只是因为SM到ROP之间的带宽形成瓶颈的问题？

作者: Edison 时间: 2011-12-24 21:25
理论上每个 SM 可以每个周期输出 32 个像素 compoent（SIMD32 per warp / 1 cycle = 32 compoent/cycle），而每个像素需要 4 个 compoent，这样就是 32 compoent/4compoent/pixel = (8 pixels/SM) per cycle。

要令每个 SM 的吞吐率从 8 pixel 降低到 2 pixel，似乎就是内部带宽问题吧。

当然，似乎 GPC 本身的光栅化能力只能做到 8 片元（fragment） per cycle，这样算起来，就是 2 pixel per SM 了，此时瓶颈也就在 GPC 的光栅化能力上了。

作者: panjanstoneborg 时间: 2011-12-24 22:23
本帖最后由 panjanstoneborg 于 2011-12-24 22:26 编辑

Edison 发表于 2011-12-24 21:25
理论上每个 SM 可以每个周期输出 32 个像素 compoent（SIMD32 per warp / 1 cycle = 32 compoent/cycle）， ...

那为什么以前的GPU没有这样的问题呢，是fermi的光栅化单元大大精简了吗，为了做成多个
而且也没发现6900的双光栅化单元喂不饱32个rop，或者说32个就是上限了，所以7900也就限制在32个了
那么nv增加rop也就是为了aa性能而不是填充率了

作者: inSeek 时间: 2011-12-25 00:40

Edison 发表于 2011-12-24 21:25
理论上每个 SM 可以每个周期输出 32 个像素 compoent（SIMD32 per warp / 1 cycle = 32 compoent/cycle）， ...

那光栅化这类的瓶颈，会造成多少性能损失呢？
NV当时这么设计的原因？

另外这也是Kepler SP和非核心同频的原因么？

帮忙解答下吧...

欢迎光临 POPPUR爱换 (https://we.poppur.com/)