POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
查看: 4564|回复: 28
打印 上一主题 下一主题

望达人解答:为何ATI的ROP比NV的给力?

[复制链接]
跳转到指定楼层
1#
发表于 2011-12-23 15:15 | 只看该作者 回帖奖励 |正序浏览 |阅读模式
望达人解答:为何ATI的ROP比NV的给力?特别是AA性能
希望从比较深层的原因解答下这个问题... 一直困惑无比

29#
 楼主| 发表于 2011-12-25 00:40 | 只看该作者
Edison 发表于 2011-12-24 21:25
理论上每个 SM 可以每个周期输出 32 个像素 compoent(SIMD32 per warp / 1 cycle = 32 compoent/cycle), ...

那光栅化这类的瓶颈,会造成多少性能损失呢?
NV当时这么设计的原因?

另外这也是Kepler SP和非核心同频的原因么?

帮忙解答下吧...
回复 支持 反对

使用道具 举报

28#
发表于 2011-12-24 22:23 | 只看该作者
本帖最后由 panjanstoneborg 于 2011-12-24 22:26 编辑
Edison 发表于 2011-12-24 21:25
理论上每个 SM 可以每个周期输出 32 个像素 compoent(SIMD32 per warp / 1 cycle = 32 compoent/cycle), ...


那为什么以前的GPU没有这样的问题呢,是fermi的光栅化单元大大精简了吗,为了做成多个
而且也没发现6900的双光栅化单元喂不饱32个rop,或者说32个就是上限了,所以7900也就限制在32个了
那么nv增加rop也就是为了aa性能而不是填充率了
回复 支持 反对

使用道具 举报

27#
发表于 2011-12-24 21:25 | 只看该作者
理论上每个 SM 可以每个周期输出 32 个像素 compoent(SIMD32 per warp / 1 cycle = 32 compoent/cycle),而每个像素需要 4 个 compoent,这样就是 32 compoent/4compoent/pixel = (8 pixels/SM) per cycle。

要令每个 SM 的吞吐率从 8 pixel 降低到 2 pixel,似乎就是内部带宽问题吧。

当然,似乎 GPC 本身的光栅化能力只能做到 8 片元(fragment) per cycle,这样算起来,就是 2 pixel per SM 了,此时瓶颈也就在 GPC 的光栅化能力上了。
回复 支持 反对

使用道具 举报

26#
 楼主| 发表于 2011-12-24 20:29 | 只看该作者
Edison 发表于 2011-12-24 19:55
跑 MSAA 的话就会和 ROP 有关系。

那为什么Fermi的填充率和SM数量有关呢?只是因为SM到ROP之间的带宽形成瓶颈的问题?
回复 支持 反对

使用道具 举报

25#
发表于 2011-12-24 19:55 | 只看该作者
跑 MSAA 的话就会和 ROP 有关系。
回复 支持 反对

使用道具 举报

24#
 楼主| 发表于 2011-12-24 19:13 | 只看该作者
本帖最后由 inSeek 于 2011-12-24 19:24 编辑
Edison 发表于 2011-12-24 14:57
目前的共识是,Fermi 的 fillrate = core clock x SMs x 2.

我也看到新版的GPU-Z是这么算的了。那这块的填充率和ROP的数量没关系了?还是说ROP的性能还是有那么多的填充率(频率*ROP个数),只是因为内部带宽等的问题造成实际理论最大值就 频率*SM个数*2?
回复 支持 反对

使用道具 举报

23#
发表于 2011-12-24 18:59 | 只看该作者
panjanstoneborg 发表于 2011-12-24 18:40
有没有什么原理可以解释一下呢
基础不好,不能理解啊

一般都是内部带宽问题约束造成的。
回复 支持 反对

使用道具 举报

22#
发表于 2011-12-24 18:40 | 只看该作者
Edison 发表于 2011-12-24 15:55
560 Ti 实测:
——08SM@822MHz 12864.030273M pixels/sec

有没有什么原理可以解释一下呢
基础不好,不能理解啊
回复 支持 反对

使用道具 举报

21#
发表于 2011-12-24 15:55 | 只看该作者
560 Ti 实测:
——08SM@822MHz 12864.030273M pixels/sec

理论值:core clock x SMs x 2 = 822MHz * 8 * 2 = 13152 M pixels/sec。

btw,这里讨论的是 pixel fillrate,不是 texel rate 呀。
回复 支持 反对

使用道具 举报

20#
发表于 2011-12-24 15:38 | 只看该作者
Edison 发表于 2011-12-24 15:26
我这里的色彩填充率实测(single texture):

GTX 580

测过8TPC的560TI了吗?GF114和GF110的TEX单元一样多
回复 支持 反对

使用道具 举报

19#
发表于 2011-12-24 15:26 | 只看该作者
fengpc 发表于 2011-12-24 15:07
这是对GF10X来说吧,GF10X每个SM有2个TEX,GF100/110才一个

我这里的色彩填充率实测(single texture):

GTX 580
——16SM@772MHz 24082.011719M pixels/sec
——09SM@772MHz 13679.347656M pixels/sec

按照我上面帖子中的“公式”得出的理论值:
——16SM@772MHz 24704M pixels/sec
——09SM@772MHz 13896M pixels/sec

基本吻合吧。
回复 支持 反对

使用道具 举报

18#
发表于 2011-12-24 15:07 | 只看该作者
Edison 发表于 2011-12-24 14:57
目前的共识是,Fermi 的 fillrate = core clock x SMs x 2.

这是对GF10X来说吧,GF10X每个SM有2个TEX,GF100/110才一个
回复 支持 反对

使用道具 举报

17#
发表于 2011-12-24 14:57 | 只看该作者
目前的共识是,Fermi 的 fillrate = core clock x SMs x 2.
回复 支持 反对

使用道具 举报

16#
发表于 2011-12-24 14:39 | 只看该作者
啥时候SSAA性能也能给力就好了。
回复 支持 反对

使用道具 举报

15#
发表于 2011-12-24 14:23 | 只看该作者
NV在想办法提升核频,或者GK就会看出来
回复 支持 反对

使用道具 举报

14#
发表于 2011-12-23 18:06 | 只看该作者
前提不开AA的时候跑得快就行呗,这样就算损失幅度大了,最终的效果还是好的嘛,至于其他的么...DX11普及后的MSAA对A和N这两家都谈不上谁更在行了吧,跌幅都很大了
回复 支持 反对

使用道具 举报

13#
发表于 2011-12-23 17:21 | 只看该作者
iamw2d 发表于 2011-12-23 15:23
估计带宽是个原因吧
不过以前看b3d的测试 570的color rop只有a卡28个效果
当时我就无语了

据说fermi的GPC和ROP之间的互联宽度不足,造成fillrate低
不是很理解,但测试是这样的
回复 支持 反对

使用道具 举报

12#
发表于 2011-12-23 17:20 | 只看该作者

RE: 望达人解答:为何ATI的ROP比NV的给力?

Elwin 发表于 2011-12-23 16:54
肯定有啊,无敌8AA就是典型的例子。

不过俺是眼见为实派,实在是丁点看不出所谓的8xAA和4x有什么区别,因 ...

8aa在crysis warhead里看的非常明显。
回复 支持 反对

使用道具 举报

11#
 楼主| 发表于 2011-12-23 17:18 | 只看该作者
Elwin 发表于 2011-12-23 17:10
早期HD4800甚至出现8x比4x快的现象,有没有问题这就不消说了吧。还是那句话,反正都看不出来。

估计又是被强大的AI功能优化了...?
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-12-19 02:13

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表