POPPUR爱换

标题: G80整合24个ROP,因此效率比G71不会有多大飞跃 [打印本页]

作者: G81    时间: 2006-11-3 12:07
标题: G80整合24个ROP,因此效率比G71不会有多大飞跃
G80其将整合128个Shader单元,但是其Raster OperATIons Units(光栅操作处理器,ROPs)却只有24个。



ROP的数量为24个话标志着G80每个时钟周期可以处理24个像素,而之前的G71以及G70都是内建16个ROP单元,而ROP的数量决定着显示卡的最终效率,因此从ROP单元来看G80并没有太强,也不是之前估计的32个。

因此GeForce 8800GTX应该不会比GeForce 7900GTX快50%。因此,部分人建议用户持观望态度。

[ 本帖最后由 G81 于 2006-11-3 13:36 编辑 ]
作者: justinguo    时间: 2006-11-3 12:11
传说中的ROP党又来了?

快多少不能只看ROP。许多情况下G80肯定能比79GTX快50%。
作者: saintangel    时间: 2006-11-3 12:11
以ROP衡量性能完全无稽之谈
楼主脑袋被门夹了吧
NV40/R420也都是内建16个ROP,从NV40-G71 ROP数量可没有任何提升
作者: ft5555    时间: 2006-11-3 12:12
可怜的lz:lol:
作者: G81    时间: 2006-11-3 12:13
从各种资料来看,G80就是顶点,像素渲染分离的.G80那128个 渲染单元其实是128个可执行1D操作的ALU,R600是64个可执行4D操作的ALU.G80的设计初衷就是要把渲染单元"打散",以量取胜,现在的G71是24*2个4D ALU.所以说,G80的dx9性能不会比现在的顶级CPU快很多,至于DX10,还不好说,可能的确R600将是最快的DX9显卡,正如ATI自己所说的.基本上,G80 是nv又一个新的实验品,类似于NV30那代.因为实际上等G81出来,都不会有多少dx10游戏面世,所以G80/R600纵然有多好的dx10性能,也不可能比G81,R680好.倒是dx9性能依然非常受人关注.极品飞车10的测试大家都看到了把..即使x1950xtx的帧数都很可怜.使用超频到3G的扣肉6600,gf8800GTS也只比x1950xtx快20%(实际游戏性能),如果使用更低端的cpu,gf8800GTs的性能还要差
作者: RacingPHT    时间: 2006-11-3 12:15
提示: 作者被禁止或删除 内容自动屏蔽
作者: zl841226    时间: 2006-11-3 12:17
提示: 作者被禁止或删除 内容自动屏蔽
作者: clawhammer    时间: 2006-11-3 12:20
原来显示器上所有像素的工作都是由ROP完成的
原来ROP=显卡
原来ROP数量=绝对性能
作者: killpmp    时间: 2006-11-3 12:22
现在还在说G80是分离架构的那是脑子烧坏掉的表现

G80是不折不扣的统一渲染架构,统一程度比R600和C1还要彻底,128个Stream Processor可以任意指派做PS/VS/GS的任务,根本就不存在Shader这个概念
G80的设计初衷就是并发性,可以认为是NV4x超标量运算架构的重大改进
G80跑DX9反而要用模拟方式执行,要将Stream Processor进行分组,分别承担PS和VS的任务。这跟C1那种PS和VS只能按有限几种比例分配的做法是完全不同的

还是多担心一下R600的前途吧,真的很不容乐观。原先512bit显存性能还算不错,现在降到256bit了,性能也有了明显的下降,最重要的是R600更像C1的简单扩大增强版,因此跑DX9绝对没问题,也可能根本不需要模拟执行,但跑DX10真的不太好说

[ 本帖最后由 killpmp 于 2006-11-3 12:25 编辑 ]
作者: pliflier    时间: 2006-11-3 12:24
好贴,应该加精w00t)
作者: pliflier    时间: 2006-11-3 12:26
原帖由 G81 于 2006-11-3 12:13 发表
从各种资料来看,G80就是顶点,像素渲染分离的.G80那128个 渲染单元其实是128个可执行1D操作的ALU,R600是64个可执行4D操作的ALU.G80的设计初衷就是要把渲染单元"打散",以量取胜,现在的G71是24*2个4D AL ...

这个应该拿去做签名w00t) w00t)
作者: rxx    时间: 2006-11-3 12:27
现在新人真厉害,语不惊人死不休啊。
作者: ayanamei    时间: 2006-11-3 12:29
原帖由 G81 于 2006-11-3 12:13 发表
从各种资料来看,G80就是顶点,像素渲染分离的.G80那128个 渲染单元其实是128个可执行1D操作的ALU,R600是64个可执行4D操作的ALU.G80的设计初衷就是要把渲染单元"打散",以量取胜,现在的G71是24*2个4D AL ...

莫名其妙的理论
G80现在什么资料表明是VS/PS分离的结构
128个1D ALU的实际意义也完全不是你想象的那么回事。虽然帐面的峰值Flop/s有所下降,但是平行度可以大幅度提高。Flop/s也相对平稳。峰值Flop/s只是一个参考数据 ok?
最后一句话完全说明了lz小白本质。CPU/GPU之间的关系完全没有弄明白,我倒要看看CPU怎么让G80性能下降。
作者: skywalker_hao    时间: 2006-11-3 12:30
rop和rop之间还有区别呢:lol:
作者: saintangel    时间: 2006-11-3 12:31
原帖由 killpmp 于 2006-11-3 12:22 发表
现在还在说G80是分离架构的那是脑子烧坏掉的表现

G80是不折不扣的统一渲染架构,统一程度比R600和C1还要彻底,128个Stream Processor可以任意指派做PS/VS/GS的任务,根本就不存在Shader这个概念
G80的设计初 ...


Pro-A到现在还不肯接受G80是比R600更彻底的统一渲染架构这个无情的事实
还天真地幻想R300 VS NV30重现,不过很可惜,这次两者身份对调了……
作者: 我系高手!    时间: 2006-11-3 12:34
原帖由 yehaku01 于 2006-11-3 12:26 发表
在微软的DX10支持下R600将是最接进DX10硬件统一渲染架构的GPU
而且以后的Vista平台上开发的游戏也更能和R600相容。G80的技术已经落后了。
看看新出的NSF10就知道了。以后这样的平台开发的游戏会更多。:loveliness:


这几天pro-a空口yy的技术又提升了,完全无视事实的话越说越多:wacko:
作者: lancer90    时间: 2006-11-3 12:35
Pro-A 的YY文,被G80吓坏了:lol: :lol:
作者: G81    时间: 2006-11-3 12:36
原帖由 saintangel 于 2006-11-3 12:11 发表
以ROP衡量性能完全无稽之谈
楼主脑袋被门夹了吧
NV40/R420也都是内建16个ROP,从NV40-G71 ROP数量可没有任何提升


ROP的数量为24个话标志着G80每个时钟周期可以处理24个像素,而之前的G71以及G70都是内建16个ROP单元,而ROP的数量决定着显示卡的最终效率,因此从ROP单元来看G80并没有太强,也不是之前估计的32个。
作者: zl841226    时间: 2006-11-3 12:38
提示: 作者被禁止或删除 内容自动屏蔽
作者: 贵族蓝翼    时间: 2006-11-3 12:39
提示: 作者被禁止或删除 内容自动屏蔽
作者: ayanamei    时间: 2006-11-3 12:39
原帖由 G81 于 2006-11-3 12:36 发表


ROP的数量为24个话标志着G80每个时钟周期可以处理24个像素,而之前的G71以及G70都是内建16个ROP单元,而ROP的数量决定着显示卡的最终效率,因此从ROP单元来看G80并没有太强,也不是之前估计的32个。

现在的应用都是密集Shader型,给你32个ROP同样是无米下炊
真正左右性能的是Shader,而ROP数量只是一个峰值像素输出值而已
作者: skynet2046    时间: 2006-11-3 12:40
进来学习技术:lol: :lol:
作者: ayanamei    时间: 2006-11-3 12:40
原帖由 zl841226 于 2006-11-3 12:38 发表
晕,搞的好象ROP想做几个做几个一样。:wacko:

ROP在GPU里面占的晶体管比率到真是不高  问题是塞那么多进去有必要么
作者: saintangel    时间: 2006-11-3 12:43
原帖由 G81 于 2006-11-3 12:36 发表


ROP的数量为24个话标志着G80每个时钟周期可以处理24个像素,而之前的G71以及G70都是内建16个ROP单元,而ROP的数量决定着显示卡的最终效率,因此从ROP单元来看G80并没有太强,也不是之前估计的32个。


那你解释一下从ROP单元来看NV40-G71没有任何提升,但性能却提高了一倍多这个事实
作者: G81    时间: 2006-11-3 12:45
原帖由 ayanamei 于 2006-11-3 12:39 发表

现在的应用都是密集Shader型,给你32个ROP同样是无米下炊
真正左右性能的是Shader,而ROP数量只是一个峰值像素输出值而已


关键就是G80每个时钟周期只能处理24个像素,遭遇到了瓶径,而ROP的数量就是那个瓶径
作者: ayanamei    时间: 2006-11-3 12:47
原帖由 G81 于 2006-11-3 12:45 发表


关键就是G80每个时钟周期只能处理24个像素,遭遇到了瓶径,而ROP的数量就是那个瓶径

事实上 现在复杂Shader 一个像素处理可能就需要若干的周期 甚至上百个周期
你ROP在Shader完成之前就是闲置的  你要那么多ROP干什么?
你真以为在什么情况下图形卡每周期都能输出8个以上像素? 莫名其妙
作者: zl841226    时间: 2006-11-3 12:47
提示: 作者被禁止或删除 内容自动屏蔽
作者: 大死人花    时间: 2006-11-3 12:48
原帖由 killpmp 于 2006-11-3 12:22 发表
现在还在说G80是分离架构的那是脑子烧坏掉的表现

G80是不折不扣的统一渲染架构,统一程度比R600和C1还要彻底,128个Stream Processor可以任意指派做PS/VS/GS的任务,根本就不存在Shader这个概念
G80的设计初 ...

请问G80所谓的“统一程度”那里比R600和C1还要彻底?
作者: dennis    时间: 2006-11-3 12:49
如果以ROP论英雄,那我是不是能说R580相对于R520没有任何变化呢?w00t)
作者: dennis    时间: 2006-11-3 12:50
原帖由 大死人花 于 2006-11-3 12:48 发表

请问G80所谓的“统一程度”那里比R600和C1还要彻底?



C1 的Shader不是彻底打散的,只能是16个一组进行分配。G80是完全打散的,可以任意分配。
作者: G81    时间: 2006-11-3 12:51
原帖由 ayanamei 于 2006-11-3 12:47 发表

事实上 现在复杂Shader 一个像素处理可能就需要若干的周期 甚至上百个周期
你ROP在Shader完成之前就是闲置的  你要那么多ROP干什么?
你真以为在什么情况下图形卡每周期都能输出8个以上像素? 莫名其妙


反正ROP的数量和CPU的FSB一样,是多多益善!总不至于越少越好?你说是吗?:lol:
作者: 大死人花    时间: 2006-11-3 12:52
原帖由 dennis 于 2006-11-3 12:50 发表



C1 的Shader不是彻底打散的,只能是16个一组进行分配。G80是完全打散的,可以任意分配。

G80是128个能处理1D的ALU?还是128个Shader?
作者: rxx    时间: 2006-11-3 12:53
原帖由 G81 于 2006-11-3 12:51 发表


反正ROP的数量和CPU的FSB一样,是多多益善!总不至于越少越好?你说是吗?:lol:

不考虑成本啊,人人都买的起 1k 美元的显卡啊
作者: zl841226    时间: 2006-11-3 12:54
提示: 作者被禁止或删除 内容自动屏蔽
作者: s7777    时间: 2006-11-3 12:55
提示: 作者被禁止或删除 内容自动屏蔽
作者: ft5555    时间: 2006-11-3 12:56
此帖应该加精置顶供大家来拜!w00t)
作者: 大死人花    时间: 2006-11-3 12:58
原帖由 zl841226 于 2006-11-3 12:54 发表


R580是48个PIXEL SHADER ?还有48个4D+1D ALU?w00t)

我不太明白,不是有的卡里一个pixel shader有N个ALU么?还有能处理4D+1D 的ALU与1D ALU的区别
作者: 冰山    时间: 2006-11-3 12:59
最近怎么这么多类似的帖子,好象每次NV新产品来临前就有很多pro-a浑身不舒服..
作者: ayanamei    时间: 2006-11-3 13:02
原帖由 G81 于 2006-11-3 12:51 发表


反正ROP的数量和CPU的FSB一样,是多多益善!总不至于越少越好?你说是吗?:lol:

现在游戏都是走Shader密集线路
够用就好了 再多就是浪费  为对性能没啥影响的东西多花钱又意义么
ROP的重要性远远不如CPU的FSB  OK?
作者: Travis    时间: 2006-11-3 13:02
路过,进来b4一下lz
一边拿着“统一渲染架构”在那儿YY,一边又说什么固定功能单元是最终性能的瓶颈
作者: G81    时间: 2006-11-3 13:13
原帖由 ayanamei 于 2006-11-3 13:02 发表

现在游戏都是走Shader密集线路
够用就好了 再多就是浪费  为对性能没啥影响的东西多花钱又意义么
ROP的重要性远远不如CPU的FSB  OK?


我只知道瓶子里的水在多,瓶口太小也出不来。
作者: dennis    时间: 2006-11-3 13:13
原帖由 大死人花 于 2006-11-3 12:52 发表

G80是128个能处理1D的ALU?还是128个Shader?


2样都有w00t)
事实上,把G80里面的执行单元说成Shader显然低估了它。G80里面Stream Processor能做的事情已经远远超过C1里面Shader的范畴
作者: ayanamei    时间: 2006-11-3 13:17
原帖由 G81 于 2006-11-3 13:13 发表


我只知道瓶子里的水在多,瓶口太小也出不来。

那你怎么推断出24ROP就“太小”呢
就算128个shader 全部跑PS 那么每个Shader都不必须在6cyc内完成 才能够喂饱24个ROP

但是事实上 现在是Shader的长度和复杂度都在不断增加  Shader这头只会负担越来越重 需要更多的周期
你给太多ROP有啥用?
作者: skywalker_hao    时间: 2006-11-3 13:21
原帖由 dennis 于 2006-11-3 13:13 发表


2样都有w00t)
事实上,把G80里面的执行单元说成Shader显然低估了它。G80里面Stream Processor能做的事情已经远远超过C1里面Shader的范畴

而且至今不了解到底强悍的数字怎么算出来的:p
作者: G81    时间: 2006-11-3 13:24
[quote]原帖由 ayanamei 于 2006-11-3 13:17 发表

那你怎么推断出24ROP就“太小”呢


因为G80惊人的38.4Gpixel/s的這個fillrate
作者: ayanamei    时间: 2006-11-3 13:26
原帖由 G81 于 2006-11-3 13:24 发表
原帖由 ayanamei 于 2006-11-3 13:17 发表

那你怎么推断出24ROP就“太小”呢


因为G80惊人的38.4Gpixel/s的這個fillrate

峰值Fillrate只是一个理论值 不等于性能
现阶段
最后能够实现多少Fillrate取决于Shader复杂度 和Shader单元是否足够强劲
你对图形就一点概念都没有 就别来鹦鹉学舌

[ 本帖最后由 ayanamei 于 2006-11-3 13:27 编辑 ]
作者: ayanamei    时间: 2006-11-3 13:27
原帖由 dennis 于 2006-11-3 13:13 发表


2样都有w00t)
事实上,把G80里面的执行单元说成Shader显然低估了它。G80里面Stream Processor能做的事情已经远远超过C1里面Shader的范畴

但是它的基本职责之一还是跑Shader,至于它还可以用来干哪些有意思的工作是题外话了
作者: shu0202    时间: 2006-11-3 13:32
半年后就会有人说G80是DX10残废卡。
作者: G81    时间: 2006-11-3 13:34
原帖由 shu0202 于 2006-11-3 13:32 发表
半年后就会有人说G80是DX10残废卡。


现在就是产费的
作者: Dr.BT    时间: 2006-11-3 13:36
原帖由 G81 于 2006-11-3 13:34 发表


现在就是产费的

说得对!
半年后没人敢说了
只有现在能说:p
作者: 大死人花    时间: 2006-11-3 13:38
原帖由 dennis 于 2006-11-3 13:13 发表


2样都有w00t)
事实上,把G80里面的执行单元说成Shader显然低估了它。G80里面Stream Processor能做的事情已经远远超过C1里面Shader的范畴

是不是以前显卡中Shader > ALU,而G80是一个 ALU > ’传统意义的shader‘ ?G80的1D ALU能处理VS/PS/GS?

那R600中的shader和ALU有是什么情况?

另外论计算能力是不是如下?
G80是  128*1*1350
R600是 64*(4+1)*450
作者: clawhammer    时间: 2006-11-3 13:39
原帖由 ayanamei 于 2006-11-3 13:02 发表

现在游戏都是走Shader密集线路
够用就好了 再多就是浪费  为对性能没啥影响的东西多花钱又意义么
ROP的重要性远远不如CPU的FSB  OK?

简直就和SATA2和硬盘的关系一模一样
作者: bravoskay    时间: 2006-11-3 13:40
原帖由 shu0202 于 2006-11-3 13:32 发表
半年后就会有人说G80是DX10残废卡。

然后会有更多的人说R600更残废。
作者: ayanamei    时间: 2006-11-3 13:40
原帖由 大死人花 于 2006-11-3 13:38 发表

是不是以前显卡中Shader > ALU,而G80是一个 ALU > ’传统意义的shader‘ ?G80的1D ALU能处理VS/PS/GS?

那R600中的shader和ALU有是什么情况?

另外论计算能力是不是如下?
G80是  128*1*1350
...

ALU是构成Shader执行单元的基本单元
没有SHADER>ALU的说法
这个>指数量?重要性? 反正不是上面说的这个关系

R600的Shader 规格还不清楚
但是肯定的 这些支持FMA的ALU理论Flop/s会很高
但是实际落差也会很大

[ 本帖最后由 ayanamei 于 2006-11-3 13:41 编辑 ]
作者: Dr.BT    时间: 2006-11-3 13:40
原帖由 大死人花 于 2006-11-3 13:38 发表

是不是以前显卡中Shader > ALU,而G80是一个 ALU > ’传统意义的shader‘ ?G80的1D ALU能处理VS/PS/GS?

那R600中的shader和ALU有是什么情况?

另外论计算能力是不是如下?
G80是  128*1*1350
...

只能说你完全不会算:p
作者: zl841226    时间: 2006-11-3 13:42
提示: 作者被禁止或删除 内容自动屏蔽
作者: ayanamei    时间: 2006-11-3 13:48
原帖由 zl841226 于 2006-11-3 13:42 发表


R580的不是4D+1D的ALU,而是一个PSU内,1个4DALU一个1D ALU~~~~:wacko:

ALU就是基本运算单元,你那个SHADER>ALU什么意思呀:wacko:


R580 PS =4D ALU /w MADD + (1D+3D) ALU
Flops =12
作者: Dr.BT    时间: 2006-11-3 13:49
原帖由 zl841226 于 2006-11-3 13:42 发表


R580的不是4D+1D的ALU,而是一个PSU内,1个4DALU一个1D ALU~~~~:wacko:

ALU就是基本运算单元,你那个SHADER>ALU什么意思呀:wacko:

r580,一个shader
两个alu啊:p 不过一个不能fma
G7X也是一个SHADER两个ALU的,不过G7X两个都可以FMA

个人认为你应该转接问他“D”是什么意思
:p
作者: 大死人花    时间: 2006-11-3 13:51
原帖由 zl841226 于 2006-11-3 13:42 发表


R580的不是4D+1D的ALU,而是一个PSU内,1个4DALU一个1D ALU~~~~:wacko:

ALU就是基本运算单元,你那个SHADER>ALU什么意思呀:wacko:

就是sharder包含ALU的意思..
作者: pliflier    时间: 2006-11-3 13:58
cho应该补几篇3d基础贴了
作者: zl841226    时间: 2006-11-3 13:59
提示: 作者被禁止或删除 内容自动屏蔽
作者: atigo    时间: 2006-11-3 14:03
好像半年前,大多数pro-N"专家“已经论证这种方式反而效率不高,需要调度cycles, 在d9以前的游戏中肯定不占上风,所以lz的推测有道理,半年后‘专家“们又开始掌自己的嘴巴啦,哈哈



原帖由 dennis 于 2006-11-3 12:50 发表



C1 的Shader不是彻底打散的,只能是16个一组进行分配。G80是完全打散的,可以任意分配。

作者: zl841226    时间: 2006-11-3 14:04
提示: 作者被禁止或删除 内容自动屏蔽
作者: pliflier    时间: 2006-11-3 14:09
原帖由 zl841226 于 2006-11-3 14:04 发表


问下这个为什么是1D+3D??:huh::huh:

co-issue
作者: keepwalking    时间: 2006-11-3 14:12
原帖由 clawhammer 于 2006-11-3 12:20 发表
原来显示器上所有像素的工作都是由ROP完成的
原来ROP=显卡
原来ROP数量=绝对性能




w00t) w00t) 我等ROP=128再买
作者: zl841226    时间: 2006-11-3 14:15
提示: 作者被禁止或删除 内容自动屏蔽
作者: 努力奋斗    时间: 2006-11-3 14:18
楼上几位争论的,我完全看不懂,看来老了:wacko:
作者: RacingPHT    时间: 2006-11-3 14:19
提示: 作者被禁止或删除 内容自动屏蔽
作者: Edison    时间: 2006-11-3 14:25
ROP的作用就是吐出结果像素或者中间像素,多少个ROP意味着每个周期能吐出多少个像素,24个ROP就是每个周期吐出24个pixel,G80@575MHz就是13.8GPixles/s

现在的ROP都具备MSAA能力,在"像素操作"的计算上,还要乘于ROP每个周期能做的MSAA取样能力,G80@575MHz就是16X MSAA*24 ROP*575MHz=220.800G sub-pixel samplies/s。

以60fps的速率为例,G80可以在60fps的情况下做到每帧画面包含230Mpixels,这个规模的像素数量相当于100个1080p以上的屏幕画面,ROP的数量根本不是什么重要的瓶颈

因此单纯说什么ROP决定性能瓶颈是纯粹的狭隘之见。

这就好像有人经常拿木桶理论来比喻电脑电脑性能的时候,却往往忽略在衡量水桶容积的时候,既需要木板的高度,同时也需要木桶的半径方可,更何况现在的"木桶"里还有很多高度非常高的金属桶。
作者: 阿蓝2代    时间: 2006-11-3 14:37
提示: 作者被禁止或删除 内容自动屏蔽
作者: airpotato    时间: 2006-11-3 14:55
原帖由 G81 于 2006-11-3 12:13 发表
从各种资料来看,G80就是顶点,像素渲染分离的.G80那128个 渲染单元其实是128个可执行1D操作的ALU,R600是64个可执行4D操作的ALU.G80的设计初衷就是要把渲染单元"打散",以量取胜,现在的G71是24*2个4D AL ...

还真是无知者无畏啊
作者: airpotato    时间: 2006-11-3 14:59
原帖由 G81 于 2006-11-3 12:51 发表


反正ROP的数量和CPU的FSB一样,是多多益善!总不至于越少越好?你说是吗?:lol:

反正频率总是越高越好,您老就一辈子用这P4吧
作者: jhj9    时间: 2006-11-3 15:36
原帖由 G81 于 2006-11-3 12:45 发表


关键就是G80每个时钟周期只能处理24个像素,遭遇到了瓶径,而ROP的数量就是那个瓶径


是跑什么应用时碰到了瓶颈?而你又是用什么证据来证实这一点的?
作者: G81    时间: 2006-11-3 15:37
原帖由 Edison 于 2006-11-3 14:25 发表
ROP的作用就是吐出结果像素或者中间像素,多少个ROP意味着每个周期能吐出多少个像素,24个ROP就是每个周期吐出24个pixel,G80@575MHz就是13.8GPixles/s

现在的ROP都具备MSAA能力,在"像素操作"的计 ...


问题在于24个ROP每个周期只能吐出24个象素,是否多余的象素就被浪费了呢?
作者: jhj9    时间: 2006-11-3 15:38
原帖由 G81 于 2006-11-3 12:51 发表


反正ROP的数量和CPU的FSB一样,是多多益善!总不至于越少越好?你说是吗?:lol:


废话,如果是1024个还更好,问题现在瓶颈根本不在它上面,再多也提高不了性能
作者: ayanamei    时间: 2006-11-3 15:48
原帖由 G81 于 2006-11-3 15:37 发表


问题在于24个ROP每个周期只能吐出24个象素,是否多余的象素就被浪费了呢?

:wacko: 靠 你知不知道这个填充律是怎么出来的
什么乱七八糟的  怎么会出现多余的像素 !#
36.8Gpixel 的输出能力正是你说的不够用的24个ROP所提供的
你现在还不知道ROP的频率 就在这里YY不够用

[ 本帖最后由 ayanamei 于 2006-11-3 15:52 编辑 ]
作者: 梦游的猪    时间: 2006-11-3 15:48
原帖由 ayanamei 于 2006-11-3 13:26 发表

峰值Fillrate只是一个理论值 不等于性能
现阶段
最后能够实现多少Fillrate取决于Shader复杂度 和Shader单元是否足够强劲
你对图形就一点概念都没有 就别来鹦鹉学舌


现在这号人多了,不少都是从饭XO开始的。
作者: G81    时间: 2006-11-3 15:52
原帖由 ayanamei 于 2006-11-3 15:48 发表

:wacko: 靠 你知不知道这个填充律是怎么出来的
什么乱七八糟的  怎么会出现多余的像素 !#


g71的ROP有16个,但是却有着 24条象素流水线,由于一次只能吐出16个象素,那么另外的8个不是浪费了么?

[ 本帖最后由 G81 于 2006-11-3 15:53 编辑 ]
作者: jhj9    时间: 2006-11-3 15:54
原帖由 G81 于 2006-11-3 15:37 发表


问题在于24个ROP每个周期只能吐出24个象素,是否多余的象素就被浪费了呢?


以cho的分析来看,只有在1920*1080分辨率下每秒输出达到7000帧的时候才会碰到rop瓶颈,请问有哪个游戏需要在如此高分辨率下有如此高的帧数。
即使是在2560*1920分辨率下,也要fps超过2800帧/秒才会碰到ROP瓶颈,你说这个性能还可能成为瓶颈吗?
作者: ayanamei    时间: 2006-11-3 15:55
原帖由 G81 于 2006-11-3 15:52 发表


g71 有 16 rop,但是却有着 24条象素流水线,由于一次只能吐出16个象素,那么另外的8个不是浪费了么?

你有没有看我上面说的话
24个shader 但是每个shader不可能一个周期就完成 至少大部分都需要很多个周期
所以16个ROP基本上在实际游戏中是没多大可能每个周期能输出16个像素的
ROP在现在的应用中多数时间都在等待Shader   除非只是做z/alpha等填充动作
作者: zl841226    时间: 2006-11-3 15:57
提示: 作者被禁止或删除 内容自动屏蔽
作者: 梦游的猪    时间: 2006-11-3 15:58
原帖由 G81 于 2006-11-3 15:52 发表


g71的ROP有16个,但是却有着 24条象素流水线,由于一次只能吐出16个象素,那么另外的8个不是浪费了么?


谁告诉您有24个PS就要每周期都要吐24个像素到ROP?
怎么您在这一点上就想不明白呢--每个像素的处理都是单周期就能搞定的?
那你算算按现在显卡的PS性能,市面上的那些游戏得跑多少帧?
作者: G81    时间: 2006-11-3 15:59
原帖由 ayanamei 于 2006-11-3 15:55 发表

你有没有看我上面说的话
24个shader 但是每个shader不可能一个周期就完成 至少大部分都需要很多个周期
所以16个ROP基本上在实际游戏中是没多大可能每个周期能输出16个像素的
ROP在现在的应用中多数时间 ...


如果16个ROP没可能输出16个象素,那NV设计那么多shader是吃屎的,多余的shader跑哪去了?

[ 本帖最后由 G81 于 2006-11-3 16:03 编辑 ]
作者: G81    时间: 2006-11-3 16:02
原帖由 zl841226 于 2006-11-3 15:57 发表


你还真以为是管.线呀,一根一根的w00t) w00t)


和液晶一样,点对点 w00t)
作者: jhj9    时间: 2006-11-3 16:03
原帖由 G81 于 2006-11-3 15:59 发表


如果16个ROP没可能输出16个象素,那NV设计那么多shader是吃屎的?


一个像素只需要PS进行1次操作吗?那不成最简单的贴图了?那还设计什么PS啊?
PS可编程性从哪里体现?
PS要运行一段现在来说恐怕是不简单的代码,ROP才需要运行一次输出结果。
作者: ayanamei    时间: 2006-11-3 16:06
原帖由 G81 于 2006-11-3 15:59 发表


如果没可能,那NV设计那么多shader是吃屎的?

 正因为Shader不能够Pre cyc完成
所以才需要Shader单元 > ROP单元数倍的设计
不同的quad的PS在执行的Shader有可能是不同的 所以不同的Quad输出的周期也是不同的 所以多个Shader是交错着输出给ROP的
ok?  即使是这样 ROP在多数时间内还是等待  Shader越复杂 需要的周期就越多
作者: bearbear    时间: 2006-11-3 16:07
支持LZ:lol: 尽情的问吧!让专家和高手都浮出来扫盲,让白菜们都来拍砖,人气就是这样起来的:wub:
作者: G81    时间: 2006-11-3 16:09
原帖由 ayanamei 于 2006-11-3 16:06 发表

 正因为Shader不能够Pre cyc完成
所以才需要Shader单元 > ROP单元数倍的设计
不同的quad的PS在执行的Shader有可能是不同的 所以不同的Quad输出的周期也是不同的 所以多个Shader是交错着输出给ROP的
...


shader number>rop number  多少是最佳?
作者: ayanamei    时间: 2006-11-3 16:10
原帖由 G81 于 2006-11-3 16:09 发表


shader number>rop number  多少是最佳?

看软件走势...这个比例只会越来越大 
ROP应该会在24这个规模停留很久
除非以后1080i 4xAA 16xAF 成为主流  ROP规模才可能需要继续提高
作者: G81    时间: 2006-11-3 16:13
原帖由 ayanamei 于 2006-11-3 16:10 发表

看软件走势...这个比例只会越来越大 
ROP应该会在24这个规模停留很久
除非以后1080i 4xAA 16xAF 成为主流  ROP规模才可能需要继续提高


据说,G80 有 512bit MC ,ROP的数量会为32个吗?

[ 本帖最后由 G81 于 2006-11-3 16:14 编辑 ]
作者: ayanamei    时间: 2006-11-3 16:14
原帖由 G81 于 2006-11-3 16:13 发表


据说,G80 有 512bit MC ,是否有 32个ROP呢?

现在G80没有512BIT 这个规格 
也不需要32个ROP
现在图形卡的像素输出能力有余
所以没有必要太与执着提高这个
倒是Shader资源的需求还在成几何式提升

[ 本帖最后由 ayanamei 于 2006-11-3 16:15 编辑 ]
作者: G81    时间: 2006-11-3 16:15
原帖由 ayanamei 于 2006-11-3 16:14 发表

现在G80没有512BIT 这个规格 


eji说过有
作者: ayanamei    时间: 2006-11-3 16:23
原帖由 G81 于 2006-11-3 16:15 发表


eji说过有

只看现在的384BIT是否够用 然后是否市场需要极限分辨率下的高AA应用
然后NV才会决定要不要推出512bit版本
这个市场是决定因素 而且这个高成本也是要靠市场来消化的

但是即使是512bit版本 也不会需要32ROP
作者: 大死人花    时间: 2006-11-3 16:25
当初X1300不是ROP太少很被6600GT压制么?
作者: ayanamei    时间: 2006-11-3 16:26
原帖由 大死人花 于 2006-11-3 16:25 发表
当初X1300不是ROP太少很被6600GT压制么?


4个太少了

其实就是一个够不够用 成不成为瓶颈的问题
4个这个规模实在太极端了
作者: killpmp    时间: 2006-11-3 16:29
原帖由 大死人花 于 2006-11-3 16:25 发表
当初X1300不是ROP太少很被6600GT压制么?

X1300  PS数量太少才是性能烂的主要原因。
4个PS对现在的游戏来说根本不够用!
同样X1600就凭借12PS超过了8PS的6600GT,虽然幅度实在小得可怜(因为R5xx的单位PS性能很弱)

[ 本帖最后由 killpmp 于 2006-11-3 16:31 编辑 ]
作者: jhj9    时间: 2006-11-3 16:30
原帖由 大死人花 于 2006-11-3 16:25 发表
当初X1300不是ROP太少很被6600GT压制么?


X1300只是ROP少吗?
TMU也少,Shader效率也低。
作者: RacingPHT    时间: 2006-11-3 16:32
提示: 作者被禁止或删除 内容自动屏蔽
作者: ayanamei    时间: 2006-11-3 16:32
原帖由 jhj9 于 2006-11-3 16:30 发表


X1300只是ROP少吗?
TMU也少,Shader效率也低。

Shader效率倒也谈不上低
同样规模干稍逊G73而已

[ 本帖最后由 ayanamei 于 2006-11-3 16:37 编辑 ]
作者: ayanamei    时间: 2006-11-3 16:34
晕倒 #1300... 没看清就回帖了
x1300就不谈了 垃圾




欢迎光临 POPPUR爱换 (https://we.poppur.com/) Powered by Discuz! X3.4