POPPUR爱换

标题: 望达人解答:为何ATI的ROP比NV的给力? [打印本页]

作者: inSeek    时间: 2011-12-23 15:15
标题: 望达人解答:为何ATI的ROP比NV的给力?
望达人解答:为何ATI的ROP比NV的给力?特别是AA性能
希望从比较深层的原因解答下这个问题... 一直困惑无比


作者: iamw2d    时间: 2011-12-23 15:23
估计带宽是个原因吧
不过以前看b3d的测试 570的color rop只有a卡28个效果
当时我就无语了
作者: fax528    时间: 2011-12-23 15:44
竞争就是好事,家家都拿出压箱底的东西。cpu过了这阵子就没这好事了,
作者: asd04122661    时间: 2011-12-23 16:31
费米锁定1:2所以核心频率上不去一直比a要低,而核心频率就是tmu和rops的频率,所以虽然570有40个rops但因为频率低所以和6970比的话理论上也只能等效于32rops,至于rops效率什么的就不清楚了
作者: inSeek    时间: 2011-12-23 16:33
asd04122661 发表于 2011-12-23 16:31
费米锁定1:2所以核心频率上不去一直比a要低,而核心频率就是tmu和rops的频率,所以虽然570有40个rops但因为 ...

其实是这个情况:
NoAA到16xAA的过程中,A卡比N卡的性能下降幅度下...
作者: asd04122661    时间: 2011-12-23 16:35
inSeek 发表于 2011-12-23 16:33
其实是这个情况:
NoAA到16xAA的过程中,A卡比N卡的性能下降幅度下...

有评测没?
作者: Cherbim    时间: 2011-12-23 16:42
提示: 作者被禁止或删除 内容自动屏蔽
作者: inSeek    时间: 2011-12-23 16:52
asd04122661 发表于 2011-12-23 16:35
有评测没?

其实Fermi这一代的4xMSAA的性能很不错了,有当时HD4000宣传的FreeAA的程度了。
但是再高还是不行- -
作者: luckissy    时间: 2011-12-23 16:55
nv从gt200到gf100  AA性能的提升 还是很明显的 最明显的就是4X MSAA的情况下
作者: inSeek    时间: 2011-12-23 17:03
Elwin 发表于 2011-12-23 17:01
现在AMD最高采样是多少,还是8xMSAA级别?

其实你看AMD不停的推出新采样方案,这些都无一例外的统称浆糊 ...

所以,不排除4xMSAA之后 ATI的AA算法放水的可能?

我只知到NV的SLI-AA 有64xAA...
作者: inSeek    时间: 2011-12-23 17:18
Elwin 发表于 2011-12-23 17:10
早期HD4800甚至出现8x比4x快的现象,有没有问题这就不消说了吧。还是那句话,反正都看不出来。

估计又是被强大的AI功能优化了...?
作者: GTX999    时间: 2011-12-23 17:20
标题: RE: 望达人解答:为何ATI的ROP比NV的给力?
Elwin 发表于 2011-12-23 16:54
肯定有啊,无敌8AA就是典型的例子。

不过俺是眼见为实派,实在是丁点看不出所谓的8xAA和4x有什么区别,因 ...

8aa在crysis warhead里看的非常明显。
作者: panjanstoneborg    时间: 2011-12-23 17:21
iamw2d 发表于 2011-12-23 15:23
估计带宽是个原因吧
不过以前看b3d的测试 570的color rop只有a卡28个效果
当时我就无语了

据说fermi的GPC和ROP之间的互联宽度不足,造成fillrate低
不是很理解,但测试是这样的
作者: SnakeLee    时间: 2011-12-23 18:06
前提不开AA的时候跑得快就行呗,这样就算损失幅度大了,最终的效果还是好的嘛,至于其他的么...DX11普及后的MSAA对A和N这两家都谈不上谁更在行了吧,跌幅都很大了
作者: Windyson    时间: 2011-12-24 14:23
NV在想办法提升核频,或者GK就会看出来
作者: eternal0    时间: 2011-12-24 14:39
啥时候SSAA性能也能给力就好了。
作者: Edison    时间: 2011-12-24 14:57
目前的共识是,Fermi 的 fillrate = core clock x SMs x 2.
作者: fengpc    时间: 2011-12-24 15:07
Edison 发表于 2011-12-24 14:57
目前的共识是,Fermi 的 fillrate = core clock x SMs x 2.

这是对GF10X来说吧,GF10X每个SM有2个TEX,GF100/110才一个
作者: Edison    时间: 2011-12-24 15:26
fengpc 发表于 2011-12-24 15:07
这是对GF10X来说吧,GF10X每个SM有2个TEX,GF100/110才一个

我这里的色彩填充率实测(single texture):

GTX 580
——16SM@772MHz 24082.011719M pixels/sec
——09SM@772MHz 13679.347656M pixels/sec

按照我上面帖子中的“公式”得出的理论值:
——16SM@772MHz 24704M pixels/sec
——09SM@772MHz 13896M pixels/sec

基本吻合吧。

作者: fengpc    时间: 2011-12-24 15:38
Edison 发表于 2011-12-24 15:26
我这里的色彩填充率实测(single texture):

GTX 580

测过8TPC的560TI了吗?GF114和GF110的TEX单元一样多
作者: Edison    时间: 2011-12-24 15:55
560 Ti 实测:
——08SM@822MHz 12864.030273M pixels/sec

理论值:core clock x SMs x 2 = 822MHz * 8 * 2 = 13152 M pixels/sec。

btw,这里讨论的是 pixel fillrate,不是 texel rate 呀。

作者: panjanstoneborg    时间: 2011-12-24 18:40
Edison 发表于 2011-12-24 15:55
560 Ti 实测:
——08SM@822MHz 12864.030273M pixels/sec

有没有什么原理可以解释一下呢
基础不好,不能理解啊
作者: Edison    时间: 2011-12-24 18:59
panjanstoneborg 发表于 2011-12-24 18:40
有没有什么原理可以解释一下呢
基础不好,不能理解啊

一般都是内部带宽问题约束造成的。
作者: inSeek    时间: 2011-12-24 19:13
本帖最后由 inSeek 于 2011-12-24 19:24 编辑
Edison 发表于 2011-12-24 14:57
目前的共识是,Fermi 的 fillrate = core clock x SMs x 2.

我也看到新版的GPU-Z是这么算的了。那这块的填充率和ROP的数量没关系了?还是说ROP的性能还是有那么多的填充率(频率*ROP个数),只是因为内部带宽等的问题造成实际理论最大值就 频率*SM个数*2?

作者: Edison    时间: 2011-12-24 19:55
跑 MSAA 的话就会和 ROP 有关系。
作者: inSeek    时间: 2011-12-24 20:29
Edison 发表于 2011-12-24 19:55
跑 MSAA 的话就会和 ROP 有关系。

那为什么Fermi的填充率和SM数量有关呢?只是因为SM到ROP之间的带宽形成瓶颈的问题?
作者: Edison    时间: 2011-12-24 21:25
理论上每个 SM 可以每个周期输出 32 个像素 compoent(SIMD32 per warp / 1 cycle = 32 compoent/cycle),而每个像素需要 4 个 compoent,这样就是 32 compoent/4compoent/pixel = (8 pixels/SM) per cycle。

要令每个 SM 的吞吐率从 8 pixel 降低到 2 pixel,似乎就是内部带宽问题吧。

当然,似乎 GPC 本身的光栅化能力只能做到 8 片元(fragment) per cycle,这样算起来,就是 2 pixel per SM 了,此时瓶颈也就在 GPC 的光栅化能力上了。

作者: panjanstoneborg    时间: 2011-12-24 22:23
本帖最后由 panjanstoneborg 于 2011-12-24 22:26 编辑
Edison 发表于 2011-12-24 21:25
理论上每个 SM 可以每个周期输出 32 个像素 compoent(SIMD32 per warp / 1 cycle = 32 compoent/cycle), ...


那为什么以前的GPU没有这样的问题呢,是fermi的光栅化单元大大精简了吗,为了做成多个
而且也没发现6900的双光栅化单元喂不饱32个rop,或者说32个就是上限了,所以7900也就限制在32个了
那么nv增加rop也就是为了aa性能而不是填充率了

作者: inSeek    时间: 2011-12-25 00:40
Edison 发表于 2011-12-24 21:25
理论上每个 SM 可以每个周期输出 32 个像素 compoent(SIMD32 per warp / 1 cycle = 32 compoent/cycle), ...

那光栅化这类的瓶颈,会造成多少性能损失呢?
NV当时这么设计的原因?

另外这也是Kepler SP和非核心同频的原因么?

帮忙解答下吧...




欢迎光临 POPPUR爱换 (https://we.poppur.com/) Powered by Discuz! X3.4