POPPUR爱换

标题: PC上现在有没有超越GOW的Game啦? [打印本页]

作者: roy2006    时间: 2007-2-20 23:19
标题: PC上现在有没有超越GOW的Game啦?
最近轻松一下,搞了台360来耍耍,GOW的确是不错
现在PC上有没有超越GOW的Game,介绍一下阿。
作者: 来不及思考    时间: 2007-2-20 23:29
提示: 作者被禁止或删除 内容自动屏蔽
作者: hourousha    时间: 2007-2-21 00:06
我说LS啊,回复了一个叫做ZJRS的人的PM了没?
那人貌似不见了~
作者: aeondxf    时间: 2007-2-21 00:08
帖子转进3D图形初阶讨论区了……
作者: 来不及思考    时间: 2007-2-21 00:15
提示: 作者被禁止或删除 内容自动屏蔽
作者: hourousha    时间: 2007-2-21 00:19
早在昨天LU就和ZJRS战过了,ZJRS认为我半桶水什么都不会所以才来问pci的各位啊
DS的问题,我在ocfantasy不是也说过么,表面问题是MRT和MSAA目前不能共存,实际问题是即使共存也得不到正确结果,因为DS的G-Buffer存储的东西很多是几何信息(如位置坐标)等,这些东西和最终颜色不是线性运算关系,所以将这些元素AA后得不到正确结果。
作者: 来不及思考    时间: 2007-2-21 00:20
提示: 作者被禁止或删除 内容自动屏蔽
作者: hourousha    时间: 2007-2-21 00:24
我倒觉得说我半桶水也没什么不对。
他PM你们那不是显然因为他对你们非常信任么,他在LU可是大力宣传PCI呢,你应该感谢他的~
作者: 来不及思考    时间: 2007-2-21 00:28
提示: 作者被禁止或删除 内容自动屏蔽
作者: ZJRS    时间: 2007-2-21 00:28
来不及思考 版主,您的回答在那里啊,我没收到啊。
作者: 来不及思考    时间: 2007-2-21 00:30
提示: 作者被禁止或删除 内容自动屏蔽
作者: ZJRS    时间: 2007-2-21 00:36
我收到了,您能不能帮我找下C1的在PS时,是4D操作还是4D+1D的的资料啊,麻烦您了。
作者: 来不及思考    时间: 2007-2-21 00:48
提示: 作者被禁止或删除 内容自动屏蔽
作者: ZJRS    时间: 2007-2-21 01:19
你去查一个叫"co-issue"的词,就会明白你问的这个问题了

您还是没明白我的意思,我的意思是说,C1的SHADE在执行PS操作时操作会大于4D吗?一般不都是3D+1D的4D方式吗?如果是3D+1D的方式,那C1的4D+1D的方式是否会下降到3D+1D.如果可以执行4D+1D的话,那另外的1D可以做什么呢?
作者: ayanamei    时间: 2007-2-21 01:22
你把ISSUE搞明白 就不会存在这样的问题了
作者: hourousha    时间: 2007-2-21 01:22
唉……祝LSS学习愉快,睡觉去了~
作者: Eji    时间: 2007-2-21 01:35
原帖由 ZJRS 于 2007-2-21 01:19 发表
您还是没明白我的意思,我的意思是说,C1的SHADE在执行PS操作时操作会大于4D吗?一般不都是3D+1D的4D方式吗?如果是3 ...


繪圖裡面沒有什麼東西是大於4D的,C1做4D+1D的用意是為了改善消化指令時的效率,並非實際存在4D+1D這種"動作"。
RSX還是1D+1D+3D、1D+2D+2D呢,還不是為了效率問題?

效率的終極解還是放棄一切回去用1D.....但是成本問題就浮現了。
G80的全組件化其實是苦肉之策啊。

[ 本帖最后由 Eji 于 2007-2-21 01:41 编辑 ]
作者: hourousha    时间: 2007-2-21 01:40
LS又理解错了,ZJRS问的是C1在执行PS时是否能够4D+1D并发的问题,他认为C1在执行PS时,4D+1D的并发会缩水为3D+1D或者4D+0D什么的,从而,C1性能在执行PS时缩水……
作者: Eji    时间: 2007-2-21 01:46
原帖由 hourousha 于 2007-2-21 01:40 发表
LS又理解错了,ZJRS问的是C1在执行PS时是否能够4D+1D并发的问题,
他认为C1在执行PS时,4D+1D的并发会缩水为3D+1D或者4D+0D什么的,从而,C1性能在执行PS时缩水……


印象中沒這種問題啊?
C1的PS性能問題和thread數、比例限制比較有關係吧?
作者: hourousha    时间: 2007-2-21 01:52
当然没有这种问题啦,我是在替ZJRS问罢了。
对了,RSX什么时候又多出个1D了?
作者: ayanamei    时间: 2007-2-21 01:53
原帖由 hourousha 于 2007-2-21 01:40 发表
LS又理解错了,ZJRS问的是C1在执行PS时是否能够4D+1D并发的问题,他认为C1在执行PS时,4D+1D的并发会缩水为3D+1D或者4D+0D什么的,从而,C1性能在执行PS时缩水……


=.= 其实这些东西都不是真正左右性能的 塞满这样的操作来达到peak不现实
但是8VS+24PS VS 48US 落差还是肯定有的
差距在US ,thread.register file等更主要的东西上 虽然C1这些东西都还不是很明了

C1可以操作内存窗口这点就够气死RSX了..

[ 本帖最后由 ayanamei 于 2007-2-21 01:55 编辑 ]
作者: ZJRS    时间: 2007-2-21 01:59
各位能详细的解答下小弟的问题吗?#19楼说的不全是,你也理解错了,我没有说4D+0D,可能是我没有表述清楚.还有如果真的是4D+1D不会变成3D+1D那么多出的1D矢量可以执行什么呢?这里是我最不理解的地方,4D ALU应该是不能拆开的吧.

[ 本帖最后由 ZJRS 于 2007-2-21 02:15 编辑 ]
作者: hourousha    时间: 2007-2-21 02:06
原帖由 ayanamei 于 2007-2-21 01:53 发表


=.= 其实这些东西都不是真正左右性能的 塞满这样的操作来达到peak不现实
但是8VS+24PS VS 48US 落差还是肯定有的
差距在US ,thread.register file等更主要的东西上 虽然C1这些东西都还不是很明了

C1可 ...

本来实际应用中达到那个纸面上的peak performance就是不可能的事情,尤其是对RSX来说。这点我想大多数人都知道。
作者: ZJRS    时间: 2007-2-21 02:13
=.= 其实这些东西都不是真正左右性能的 塞满这样的操作来达到peak不现实
但是8VS+24PS VS 48US 落差还是肯定有的
差距在US ,thread.register file等更主要的东西上 虽然C1这些东西都还不是很明了

C1可以操作内存窗口这点就够气死RSX了..


你搞错了吧,是8VS+24(4D+4D)PS.你这样很容易让人误解,回应你挑我"VS更是4D操作 被扯几成*D+1D"你真是和我有仇啊。非要贬低我?
作者: ayanamei    时间: 2007-2-21 02:18
原帖由 ZJRS 于 2007-2-21 02:13 发表
=.= 其实这些东西都不是真正左右性能的 塞满这样的操作来达到peak不现实
但是8VS+24PS VS 48US 落差还是肯定有的
差距在US ,thread.register file等更主要的东西上 虽然C1这些东西都还不是很明了

C1可以操 ...


在一个Shader unit塞更多的ALU不会让它变成2个Shader的
至于挑你错 我没那个闲情 上面是陈述 你和的话没太大关系
基本上不存在拆的问题 更多的情况下 问题是如何去"拼"

[ 本帖最后由 ayanamei 于 2007-2-21 02:20 编辑 ]
作者: ayanamei    时间: 2007-2-21 02:25
大个比方
长4只手的人 也许在某些工作上 可能比长2只手的人能多做一些动作
但并不是所有的 许多情况下它们的效率并不会有区别
但并不是所有的事情
因为根据工作的本身特性 是否需要那么多手 和脑是否能够精确控制4只手完成好特定的操作

所以 终归24个4只手的人 不会比 32个2只手的人更能干 更别说48个的情况下了
比喻而已
作者: ZJRS    时间: 2007-2-21 02:27
在一个Shader unit塞更多的ALU不会让它变成2个Shader的
至于挑你错 我没那个闲情 上面是陈述 你和的话没太大关系
基本上不存在拆的问题 更多的情况下 问题是如何去"拼"

呵呵,那就好,希望你没那个闲情,但是你说扯什么意思呢?另外一个ALU失效也不是时时都有的,而且是大部分时间有效的。难道你认为时时都是1个4D ALU?难道我理解错你的话?
作者: ayanamei    时间: 2007-2-21 02:28
:lol: 真的很诧异这个大部分时间 2xALU都是有效的这个结论怎么来的
作者: hourousha    时间: 2007-2-21 02:32
此贴严重跑题,错源于我啊,大家到那扫盲贴去说吧还是~
作者: ssnzh    时间: 2007-2-21 02:32
提示: 作者被禁止或删除 内容自动屏蔽
作者: ZJRS    时间: 2007-2-21 02:35
呵呵,算了,我也不想和你说什么了,我先把我要弄懂的再说.

[ 本帖最后由 ZJRS 于 2007-2-21 02:43 编辑 ]
作者: ayanamei    时间: 2007-2-21 02:45
原帖由 ZJRS 于 2007-2-21 02:35 发表
呵呵,我也很差异这个大部分时间 2xALU都是无效的这个结论怎么来的呢.

我可没这么说
这话是你说的

Tex的时候ALU1基本就不能干别的了 就只有ALU2能够干活
在同一个段Shader里面 连续关联的操作 ALU2我也实在不知道怎么能跑起来
诸如此类 实际情况还是Shader本身
而且由于是1个Shader彼此牵制是无可避免的 要知道ALU1,2毕竟是在跑一Shader
而2个Shader的话 要灵活的多得多

大部分 这个概念怎么定义呢? 60%以上算算大部分? 还是 40%以下算小部分?
humm. 决定这个数字的还是程序本身
作者: jhj9    时间: 2007-2-21 02:59
原帖由 ZJRS 于 2007-2-21 02:35 发表
呵呵,算了,我也不想和你说什么了,我先把我要弄懂的再说.


这么比喻吧,在软件很好的针对多核进行过优化的情况下
用单核提高一倍的流水线长度和增加一个核心,哪个的效率更高?
ALU的增加就跟CPU的流水线长度增加类似,后面的流水线在不少情况下是用不到的。
作者: graphiccard    时间: 2007-2-21 06:10

看这图~我的理解是
co-issue 在同一个ALU同一周期上执行一个矢量指令与一个标量指令

R580两ALU 一个4D,另一个1D,co-issue由4D ALU来完成,而另外那个1D的~就是标量单元

NV40 一个PSU两个ALU,都是4D的;每个ALU都能co-issue,可以3D+1D,也可以2D+2D,同时也可以两个ALU在同一个周期内同时执行(2D+2D)+(2D+2D)或者(3D+1D)+(2D+2D)====依次类推,这个也就是所谓的DUAL-ISSUE

求教高人,是否该这样理解?:unsure:

[ 本帖最后由 graphiccard 于 2007-2-21 06:12 编辑 ]
作者: graphiccard    时间: 2007-2-21 06:26
回主题
要是PC下有GOW,用高配跑的效果绝对比叉烧包360下跑出来的效果好很多
作者: Eji    时间: 2007-2-21 13:51
原帖由 ZJRS 于 2007-2-21 01:59 发表
各位能详细的解答下小弟的问题吗?#19楼说的不全是,你也理解错了,我没有说4D+0D,可能是我没有表述清楚.还有如果真的是4D+1D不会变成3D+1D那么多出的1D矢量可以执行什么呢?这里是我最不理解的 ...


喔,你是這個意思啊。
那麼答案是:沒錯,會空下來。

基本上4D+1D的兩個unit,最大指令數就是2個OP,可以接受1個1D與1D/2D/3D/4D。
如果送進去的指令是1D+3D的話,那麼就是由1D 與 4D unit去接受這兩個指令,並且4D的部份會[空著]一個scalar,
而不能"再接受"一個1D。

所以,如果今天是三個指令,如3D + 1D + 1D、或是 2D+2D+1D 的話,那4D+1D的單元是無法一個cycle吃下去的。
作者: ZJRS    时间: 2007-2-21 14:08
原帖由 Eji 于 2007-2-21 13:51 发表


喔,你是這個意思啊。
那麼答案是:沒錯,會空下來。

基本上4D+1D的兩個unit,最大指令數就是2個OP,可以接受1個1D與1D/2D/3D/4D。
如果送進去的指令是1D+3D的話,那麼就是由1D 與 4D unit去接受這兩個 ...



我还想问个问题就是,在大多数情况下4D+1D的方式会有多少效率,在大多数情况下会充分利用4D+1D吗?应该都是3D+1D这样的吧.所以我认为在大多数情况下我认为在处理PS程序时4D+1D不会充分发挥,而是多数情况下是3D+1D这样.
作者: Eji    时间: 2007-2-21 14:21
原帖由 ZJRS 于 2007-2-21 14:08 发表

我还想问个问题就是,在大多数情况下4D+1D的方式会有多少效率,在大多数情况下会充分利用4D+1D吗?应该都是3D+1D这样的吧.所以我认为在大多数情况下我认为在处理PS程序时4D+1D不会 ...


比效率的話,最後都會走上1D x4的道路吧。(笑
作者: graphiccard    时间: 2007-2-21 14:41
原帖由 Eji 于 2007-2-21 13:51 发表
所以,如果今天是三個指令,如3D + 1D + 1D、或是 2D+2D+1D 的話,那4D+1D的單元是無法一個cycle吃下去的。

斑竹
这个是在co-issue失效的情况下,还是任何情况下呢?

要是是任何情况下的话,那搞成4D+1D~那不是很没有多大意义么?:unsure:
作者: ZJRS    时间: 2007-2-21 14:49
我就是认为PS操作中不存在4D+1D的动作所以才会说C1的SHADE在处理PS程序时会把执行变为3D+1D或4D矢量直接完成4D.我个人理解是PS操作是最大4D的,而PS一般是1-4D的,而通过3D+1D这种方式可以同时实现一个小于等于3D和一个1D的方式,提高效率,当为4D的运算时,可以通过3D+1D的方式来计算这个4D,.我的意思是,大部分时间PS是4D 1D 2D 3D这样,而4D+1D中的4D处理会变成3D.这个4D+1D是为了适应VS操作.而PS操作既然是4D的,那么对于PS的4D操作,一个4D就应该能完成,而那一个1D这时做是什么呢?而我的意思是,他可能会失效或者在处理3D和1D时,4D的矢量的D会失效,我一直想问的是这个,还有是不是PC的多数显卡在处理mad r0,r0,r1,v0  rsq r2.w,r3.w时,是否是用2个周期来完成,而C1可以一个周期来完成?还有这样的代码是大部分的操作吗?
作者: ZJRS    时间: 2007-2-21 15:01
还有大家也说了,而我的意思也表述了,PS的操作最大为4D,那这事,一个4D矢量处理不就完成了,而另一个1D这时应该没有作用啊。而大家误会我co-issue的问题,我想我还是说下,我并不是说4D+1D中的1D标量失效.而是说当4D指令已经可以在4D矢量运算的ALU完成,那1D标量会做什么.在处理1D 2D 3D的时候那个1D才会co-issue,例如处理成2D+1D 或 3D+1D.并不是说co-issue问题.主要是讨论PS的4D指令,或小于4D指令时,都可以由4D矢量的完成,那另外1个1D应该空闲.如果我没表述明白的话,我会再补充的。
作者: graphiccard    时间: 2007-2-21 15:02
0
等等```我把R580的PS部分数据搞错了,
R580 PSP部分是3D+1D,VS才是4D+1D

而C1是US,都是4D+1D
作者: hourousha    时间: 2007-2-21 15:33
原帖由 ZJRS 于 2007-2-21 14:49 发表
还有是不是PC的多数显卡在处理mad r0,r0,r1,v0  rsq r2.w,r3.w时,是否是用2个周期来完成,而C1可以一个周期来完成?

对于3D+1D的运算单元,上述指令需要2周期来执行。
对于4D+1D的运算单元,上述指令需要1周期来执行。
对于RSX是24x(4D+4D),所以上述指令对于一条完整的RSX的PS流水线,在没有纹理贴图操作时,可以一周期完成,也就是RSX一周期可以执行24次上述指令。但往后倒推到NV40,由于rsq会block掉另一个SU,所以需要两周期。
对于C1,因为它是48x(4D+1D)所以上述指令对于一个C1的shader pipeline来说可以1周期完成。也就是C1可以一周期执行48次上述指令。
对于X1900,因为它是48x(3D+1D),所以上述指令需要两周期完成,不过如果把第一个指令从mad换成add,则该指令可由mini alu执行,所以上述指令依然可以一周期完成。
作者: hourousha    时间: 2007-2-21 15:37
原帖由 ZJRS 于 2007-2-21 15:01 发表
还有大家也说了,而我的意思也表述了,PS的操作最大为4D,那这事,一个4D矢量处理不就完成了,而另一个1D这时应该没有作用啊。而大家误会我co-issue的问题,我想我还是说下,我并不是说4D+1D中的1 ...

在vector单元执行4D指令同时,scalar单元可以执行其他的1D指令,还没明白?这就叫co-issue
换句话说,一段shader代码,对于3D+1D的GPU来说,可能需要20个周期才能完成,但是对于4D+1D的GPU来说,可能就只需要17个周期就可以完成。这就是它的用处,还没明白?
作者: hourousha    时间: 2007-2-21 15:42
这种问题本是应该在2003年底gz就已经解决的问题,冏……
作者: ZJRS    时间: 2007-2-21 16:10
我不想在和你再弄什么了,你愿意解答下就解答下,不愿意就算了,我没勉强你,还有不要老误解我的意思.我没有讨论co-issue的问题,我上面说过了.你要非认为我在和你说co-issue的问题我也没办法.可能我也没懂你什么意思,但我可以和你说,在我的理解来看,你说的和我说的根本就是两码事.
作者: ayanamei    时间: 2007-2-21 16:11
原帖由 hourousha 于 2007-2-21 15:42 发表
这种问题本是应该在2003年底gz就已经解决的问题,冏……

放弃吧
还有很多事可以干
作者: ayanamei    时间: 2007-2-21 16:15
原帖由 ZJRS 于 2007-2-21 16:10 发表
我不想在和你再弄什么了,你愿意解答下就解答下,不愿意就算了,我没勉强你,还有不要老误解我的意思.我没有讨论co-issue的问题,我上面说过了.你要非认为我在和你说co-issue的问题我也没办法.可能我也没懂你 ...

不考虑co-issue 就不存在任何关于*D+*D的方式

那么就没人知道你在说什么了
好吧 我承认我又无聊了一个晚上 88。。
作者: 尖石头    时间: 2007-2-21 16:20
原帖由 graphiccard 于 2007-2-21 06:26 发表
回主题
要是PC下有GOW,用高配跑的效果绝对比叉烧包360下跑出来的效果好很多



大隻講。。
人家Cliffy B都沒敢這樣説耶。
那360用戶可以説畫面可以在提升嘛。只是張數不能穩定而已。
製作人會衡量平臺的實力來開發游戲,而且時代的不同更加沒比較性了吧。。。說話真不够客觀==
作者: ZJRS    时间: 2007-2-21 16:21
如果PS指令如果大多数情况下需要额外处理其他1D指令,我想大部分PC显卡也早就在其PS部分使用了4D+1D这种方式.我喜欢说峰值但是也是正常情况下的。你所说4D+1D也根本是是经常出现,所以我说他代表不了峰值.
作者: ayanamei    时间: 2007-2-21 16:29
是否需要很多1D取决于Shader本身的动作
1D操作能占到3成 就算不小的比率了。。。
作者: hourousha    时间: 2007-2-21 16:33
原帖由 ZJRS 于 2007-2-21 16:21 发表
如果PS指令如果大多数情况下需要额外处理其他1D指令,我想大部分PC显卡也早就在其PS部分使用了4D+1D这种方式.我喜欢说峰值但是也是正常情况下的。你所说4D+1D也根本是是经常出现,所以我说他代表 ...

胡搅蛮缠+智商炫耀?

还实际情况,那我跟你说实际情况3D或4D的mad指令能占到5成就祖坟上冒青烟了,你问问edison他们,峰值flop是怎么计算的ok?
作者: hourousha    时间: 2007-2-21 16:50
我还告诉你,RSX的‘峰值’的‘非常规性’比C1还要高。因为前者还要保证没有TMU操作,明白?哦,想必你是明白不了的……
作者: ayanamei    时间: 2007-2-21 17:06
原帖由 hourousha 于 2007-2-21 16:50 发表
我还告诉你,RSX的‘峰值’的‘非常规性’比C1还要高。因为前者还要保证没有TMU操作,明白?哦,想必你是明白不了的……

节外生枝以下 貌似G7X PSU ALU1/ALU2 附属的那个mini ALU的执行能力是怎样的貌似不清楚
因为貌似以前有说过G7X 做Tex的时候 ALU还是可以做一些操作 但是受限制
作者: hourousha    时间: 2007-2-21 17:18
哪里来这么多mini ALU,无非就是ALU和SFU之类的外加个nrm_pp单元,还有就是指令发射宽度问题……
作者: ayanamei    时间: 2007-2-21 17:28
原帖由 hourousha 于 2007-2-21 17:18 发表
哪里来这么多mini ALU,无非就是ALU和SFU之类的外加个nrm_pp单元,还有就是指令发射宽度问题……


资料上是说speacial function
并列在ALU1/ALU2 上的2个mini-alu一共提供了4个flops
具体含义就不知道了
作者: ZJRS    时间: 2007-2-21 17:29
呵呵,你可以指责我错误啊,我就你提出我的错误有异议不可以?我需要对你负什么则?就是峰值又怎样?我就算 32*5*2*500=160GFLOPS,那也没有RSX高啊.
作者: hourousha    时间: 2007-2-21 17:48
faint~你想对我负责我还不干呢,我又不断背w00t)
作者: roy2006    时间: 2007-2-21 17:51
我晕:wacko: :wacko: :wacko:
作者: Eji    时间: 2007-2-21 18:56
原帖由 graphiccard 于 2007-2-21 14:41 发表

斑竹
这个是在co-issue失效的情况下,还是任何情况下呢?

要是是任何情况下的话,那搞成4D+1D~那不是很没有多大意义么?:unsure:


只有兩個 issue 的ALU你要怎樣讓她吃得下3個 issue ?
頂多是2個 issue 合起來吃1個 issue (如3+1D、2+2D合起來吃 1 個4D),想太多。
作者: Eji    时间: 2007-2-21 19:21
原帖由 ZJRS 于 2007-2-21 17:29 发表
呵呵,你可以指责我错误啊,我就你提出我的错误有异议不可以?我需要对你负什么则?就是峰值又怎样?我就算 32*5*2*500=160GFLOPS,那也没有RSX高啊.


反正只要有Tex op,RSX的ALU資源就砍半啦....
作者: Eji    时间: 2007-2-21 19:45
原帖由 hourousha 于 2007-2-21 15:33 发表

对于3D+1D的运算单元,上述指令需要2周期来执行。
对于4D+1D的运算单元,上述指令需要1周期来执行。
对于RSX是24x(4D+4D),所以上述指令对于一条完整的RSX的PS流水线,在没有纹理贴图操作时,可以一周期完成 ...


嗯.... 我記得RSX是兩個 4D+1D ?
作者: hourousha    时间: 2007-2-21 19:49
原帖由 Eji 于 2007-2-21 19:45 发表


嗯.... 我記得RSX是兩個 4D+1D ?

我记得只有后藤大爷还是西川二叔的文章中这么写过一次……
作者: yxmmxy    时间: 2007-2-21 20:42
别说PC了,任何能玩游戏的机器目前都没有比GOW好的游戏
作者: roy2006    时间: 2007-2-21 23:28
原帖由 yxmmxy 于 2007-2-21 20:42 发表
别说PC了,任何能玩游戏的机器目前都没有比GOW好的游戏

GOW的确是很过瘾,而且和朋友一起合作过关更有乐趣。
作者: Eji    时间: 2007-2-22 23:17
原帖由 hourousha 于 2007-2-21 19:49 发表

我记得只有后藤大爷还是西川二叔的文章中这么写过一次……


怪,我反而記得是3DCenter和ANANDTECH寫的,後藤和西川只是引用這些資料。

照理來說3DCenter那篇應該是這個:
http://www.3dcenter.org/artikel/nv40_pipeline/index2_e.php
是當初NV40 Shader的結構。

[EDIT]
不對,這篇也只是寫 4個 co-issue....orz

[ 本帖最后由 Eji 于 2007-2-22 23:33 编辑 ]




欢迎光临 POPPUR爱换 (https://we.poppur.com/) Powered by Discuz! X3.4