POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
楼主: roy2006
打印 上一主题 下一主题

PC上现在有没有超越GOW的Game啦?

[复制链接]
21#
发表于 2007-2-21 01:53 | 只看该作者
原帖由 hourousha 于 2007-2-21 01:40 发表
LS又理解错了,ZJRS问的是C1在执行PS时是否能够4D+1D并发的问题,他认为C1在执行PS时,4D+1D的并发会缩水为3D+1D或者4D+0D什么的,从而,C1性能在执行PS时缩水……


=.= 其实这些东西都不是真正左右性能的 塞满这样的操作来达到peak不现实
但是8VS+24PS VS 48US 落差还是肯定有的
差距在US ,thread.register file等更主要的东西上 虽然C1这些东西都还不是很明了

C1可以操作内存窗口这点就够气死RSX了..

[ 本帖最后由 ayanamei 于 2007-2-21 01:55 编辑 ]
回复 支持 反对

使用道具 举报

22#
发表于 2007-2-21 01:59 | 只看该作者
各位能详细的解答下小弟的问题吗?#19楼说的不全是,你也理解错了,我没有说4D+0D,可能是我没有表述清楚.还有如果真的是4D+1D不会变成3D+1D那么多出的1D矢量可以执行什么呢?这里是我最不理解的地方,4D ALU应该是不能拆开的吧.

[ 本帖最后由 ZJRS 于 2007-2-21 02:15 编辑 ]
回复 支持 反对

使用道具 举报

23#
发表于 2007-2-21 02:06 | 只看该作者
原帖由 ayanamei 于 2007-2-21 01:53 发表


=.= 其实这些东西都不是真正左右性能的 塞满这样的操作来达到peak不现实
但是8VS+24PS VS 48US 落差还是肯定有的
差距在US ,thread.register file等更主要的东西上 虽然C1这些东西都还不是很明了

C1可 ...

本来实际应用中达到那个纸面上的peak performance就是不可能的事情,尤其是对RSX来说。这点我想大多数人都知道。
回复 支持 反对

使用道具 举报

24#
发表于 2007-2-21 02:13 | 只看该作者
=.= 其实这些东西都不是真正左右性能的 塞满这样的操作来达到peak不现实
但是8VS+24PS VS 48US 落差还是肯定有的
差距在US ,thread.register file等更主要的东西上 虽然C1这些东西都还不是很明了

C1可以操作内存窗口这点就够气死RSX了..


你搞错了吧,是8VS+24(4D+4D)PS.你这样很容易让人误解,回应你挑我"VS更是4D操作 被扯几成*D+1D"你真是和我有仇啊。非要贬低我?
回复 支持 反对

使用道具 举报

25#
发表于 2007-2-21 02:18 | 只看该作者
原帖由 ZJRS 于 2007-2-21 02:13 发表
=.= 其实这些东西都不是真正左右性能的 塞满这样的操作来达到peak不现实
但是8VS+24PS VS 48US 落差还是肯定有的
差距在US ,thread.register file等更主要的东西上 虽然C1这些东西都还不是很明了

C1可以操 ...


在一个Shader unit塞更多的ALU不会让它变成2个Shader的
至于挑你错 我没那个闲情 上面是陈述 你和的话没太大关系
基本上不存在拆的问题 更多的情况下 问题是如何去"拼"

[ 本帖最后由 ayanamei 于 2007-2-21 02:20 编辑 ]
回复 支持 反对

使用道具 举报

26#
发表于 2007-2-21 02:25 | 只看该作者
大个比方
长4只手的人 也许在某些工作上 可能比长2只手的人能多做一些动作
但并不是所有的 许多情况下它们的效率并不会有区别
但并不是所有的事情
因为根据工作的本身特性 是否需要那么多手 和脑是否能够精确控制4只手完成好特定的操作

所以 终归24个4只手的人 不会比 32个2只手的人更能干 更别说48个的情况下了
比喻而已
回复 支持 反对

使用道具 举报

27#
发表于 2007-2-21 02:27 | 只看该作者
在一个Shader unit塞更多的ALU不会让它变成2个Shader的
至于挑你错 我没那个闲情 上面是陈述 你和的话没太大关系
基本上不存在拆的问题 更多的情况下 问题是如何去"拼"

呵呵,那就好,希望你没那个闲情,但是你说扯什么意思呢?另外一个ALU失效也不是时时都有的,而且是大部分时间有效的。难道你认为时时都是1个4D ALU?难道我理解错你的话?
回复 支持 反对

使用道具 举报

28#
发表于 2007-2-21 02:28 | 只看该作者
:lol: 真的很诧异这个大部分时间 2xALU都是有效的这个结论怎么来的
回复 支持 反对

使用道具 举报

29#
发表于 2007-2-21 02:32 | 只看该作者
此贴严重跑题,错源于我啊,大家到那扫盲贴去说吧还是~
回复 支持 反对

使用道具 举报

ssnzh 该用户已被删除
30#
发表于 2007-2-21 02:32 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

31#
发表于 2007-2-21 02:35 | 只看该作者
呵呵,算了,我也不想和你说什么了,我先把我要弄懂的再说.

[ 本帖最后由 ZJRS 于 2007-2-21 02:43 编辑 ]
回复 支持 反对

使用道具 举报

32#
发表于 2007-2-21 02:45 | 只看该作者
原帖由 ZJRS 于 2007-2-21 02:35 发表
呵呵,我也很差异这个大部分时间 2xALU都是无效的这个结论怎么来的呢.

我可没这么说
这话是你说的

Tex的时候ALU1基本就不能干别的了 就只有ALU2能够干活
在同一个段Shader里面 连续关联的操作 ALU2我也实在不知道怎么能跑起来
诸如此类 实际情况还是Shader本身
而且由于是1个Shader彼此牵制是无可避免的 要知道ALU1,2毕竟是在跑一Shader
而2个Shader的话 要灵活的多得多

大部分 这个概念怎么定义呢? 60%以上算算大部分? 还是 40%以下算小部分?
humm. 决定这个数字的还是程序本身
回复 支持 反对

使用道具 举报

33#
发表于 2007-2-21 02:59 | 只看该作者
原帖由 ZJRS 于 2007-2-21 02:35 发表
呵呵,算了,我也不想和你说什么了,我先把我要弄懂的再说.


这么比喻吧,在软件很好的针对多核进行过优化的情况下
用单核提高一倍的流水线长度和增加一个核心,哪个的效率更高?
ALU的增加就跟CPU的流水线长度增加类似,后面的流水线在不少情况下是用不到的。
回复 支持 反对

使用道具 举报

34#
发表于 2007-2-21 06:10 | 只看该作者

看这图~我的理解是
co-issue 在同一个ALU同一周期上执行一个矢量指令与一个标量指令

R580两ALU 一个4D,另一个1D,co-issue由4D ALU来完成,而另外那个1D的~就是标量单元

NV40 一个PSU两个ALU,都是4D的;每个ALU都能co-issue,可以3D+1D,也可以2D+2D,同时也可以两个ALU在同一个周期内同时执行(2D+2D)+(2D+2D)或者(3D+1D)+(2D+2D)====依次类推,这个也就是所谓的DUAL-ISSUE

求教高人,是否该这样理解?:unsure:

[ 本帖最后由 graphiccard 于 2007-2-21 06:12 编辑 ]
回复 支持 反对

使用道具 举报

35#
发表于 2007-2-21 06:26 | 只看该作者
回主题
要是PC下有GOW,用高配跑的效果绝对比叉烧包360下跑出来的效果好很多
回复 支持 反对

使用道具 举报

36#
发表于 2007-2-21 13:51 | 只看该作者
原帖由 ZJRS 于 2007-2-21 01:59 发表
各位能详细的解答下小弟的问题吗?#19楼说的不全是,你也理解错了,我没有说4D+0D,可能是我没有表述清楚.还有如果真的是4D+1D不会变成3D+1D那么多出的1D矢量可以执行什么呢?这里是我最不理解的 ...


喔,你是這個意思啊。
那麼答案是:沒錯,會空下來。

基本上4D+1D的兩個unit,最大指令數就是2個OP,可以接受1個1D與1D/2D/3D/4D。
如果送進去的指令是1D+3D的話,那麼就是由1D 與 4D unit去接受這兩個指令,並且4D的部份會[空著]一個scalar,
而不能"再接受"一個1D。

所以,如果今天是三個指令,如3D + 1D + 1D、或是 2D+2D+1D 的話,那4D+1D的單元是無法一個cycle吃下去的。
回复 支持 反对

使用道具 举报

37#
发表于 2007-2-21 14:08 | 只看该作者
原帖由 Eji 于 2007-2-21 13:51 发表


喔,你是這個意思啊。
那麼答案是:沒錯,會空下來。

基本上4D+1D的兩個unit,最大指令數就是2個OP,可以接受1個1D與1D/2D/3D/4D。
如果送進去的指令是1D+3D的話,那麼就是由1D 與 4D unit去接受這兩個 ...



我还想问个问题就是,在大多数情况下4D+1D的方式会有多少效率,在大多数情况下会充分利用4D+1D吗?应该都是3D+1D这样的吧.所以我认为在大多数情况下我认为在处理PS程序时4D+1D不会充分发挥,而是多数情况下是3D+1D这样.
回复 支持 反对

使用道具 举报

38#
发表于 2007-2-21 14:21 | 只看该作者
原帖由 ZJRS 于 2007-2-21 14:08 发表

我还想问个问题就是,在大多数情况下4D+1D的方式会有多少效率,在大多数情况下会充分利用4D+1D吗?应该都是3D+1D这样的吧.所以我认为在大多数情况下我认为在处理PS程序时4D+1D不会 ...


比效率的話,最後都會走上1D x4的道路吧。(笑
回复 支持 反对

使用道具 举报

39#
发表于 2007-2-21 14:41 | 只看该作者
原帖由 Eji 于 2007-2-21 13:51 发表
所以,如果今天是三個指令,如3D + 1D + 1D、或是 2D+2D+1D 的話,那4D+1D的單元是無法一個cycle吃下去的。

斑竹
这个是在co-issue失效的情况下,还是任何情况下呢?

要是是任何情况下的话,那搞成4D+1D~那不是很没有多大意义么?:unsure:
回复 支持 反对

使用道具 举报

40#
发表于 2007-2-21 14:49 | 只看该作者
我就是认为PS操作中不存在4D+1D的动作所以才会说C1的SHADE在处理PS程序时会把执行变为3D+1D或4D矢量直接完成4D.我个人理解是PS操作是最大4D的,而PS一般是1-4D的,而通过3D+1D这种方式可以同时实现一个小于等于3D和一个1D的方式,提高效率,当为4D的运算时,可以通过3D+1D的方式来计算这个4D,.我的意思是,大部分时间PS是4D 1D 2D 3D这样,而4D+1D中的4D处理会变成3D.这个4D+1D是为了适应VS操作.而PS操作既然是4D的,那么对于PS的4D操作,一个4D就应该能完成,而那一个1D这时做是什么呢?而我的意思是,他可能会失效或者在处理3D和1D时,4D的矢量的D会失效,我一直想问的是这个,还有是不是PC的多数显卡在处理mad r0,r0,r1,v0  rsq r2.w,r3.w时,是否是用2个周期来完成,而C1可以一个周期来完成?还有这样的代码是大部分的操作吗?
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-4-21 09:55

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表