SONY是否有实力搞好CELL的编译器?

只看该作者 · 发表于 2006-11-13 14:19

提示: 作者被禁止或删除内容自动屏蔽

Edison · 发表于 2006-11-13 14:21

关于在CELL上消除分支的方法：
http://www.cellperformance.com/a ... elimination_pa.html

其实上次我就问过你说的AI到底是指哪种？专家系统还是图形分析系统，如果是专家系统，Cell可能不如XCPU，如果是图形分析系统，Cell还是非常适合的，例如Influence Mapping，在现在的游戏中，Pathfinding是最消耗AI资源的，如果对若干个点作lines of sight侦测，传统的CPU都会消耗很多的资源。

在CELL上面如果要侦测A是否看到B，可以以A视点到B窗口的中心渲染一个低分辨的render target纹理，例如64X64，然后对同样的窗口用伪色渲染，这个用来侦测Window中B的“部分“是否暴露了，这就是电脑可视化计算了，SPE的强项，IBM当初的几个CELL实例文件中就有一个关于监控系统。这里的轮廓，也可以是阴影、烟雾、伪装等。

而且对大多数的游戏来说，AI是允许一定的延时，不需要在0.00X秒内马上作出反应。

H Peter Hofstee是这样回答我的：

- It is an easy misperception to think of an SPE as a SIMD(vector) only processor. IT IS NOT. Just because we have unified the register file does not mean you have to use SIMD. ( An x86 with SSE or a 970 with VMX is still perfectly ok to use for scalar code and so is the SPE). Compilers support scalar code just fine.

- This SPE implementation has only trivial hardware branch prediction (because large branch prediction structures do not provide a good return on investment in terms of area and power ... better to have more SPEs). Still we do care a lot about idle cycles due to branches, so there is a nice branch hint instruction (architecturally a no-op) that notifies the instruction fetch unit that at address x a branch will end up at address y. Also we support the select instruction that often allows one to eliminate a branch altogether.

- With respect to AI, I don't have the answers, but I have good hope. I think AI is usually not bound by computation but by memory access penalties (on high-frequency processors). I can imagine tree search algorithms for the SPEs that absolutely rock, by getting a lot of memory accesses in flight concurrently. There may be a patent out there by M. Necker and myself that describes some of this for the case of routing table accesses ( also a kind of tree search ).

地上的云 · 发表于 2006-11-13 19:04

小日本为什么要把开发难度弄那么复杂

ibelieveicandie · 发表于 2006-11-13 19:45

原帖由 Edison 于 2006-11-13 14:21 发表
关于在CELL上消除分支的方法：
http://www.cellperformance.com/a ... elimination_pa.html

其实上次我就问过你说的AI到底是指哪种？专家系统还是图形分析系统，如果是专家系统 ...

第一感觉是你说的很有道理。不过仔细一想觉得还是不对。用渲染来模拟碰撞检测的前提是所有场景相对需要做linecheck的物体渲染一遍。由于启动可见性探测的对象未必是主角，也肯定远远多于一个，这个渲染步骤是很难合并的。如此，计算开销将远大于普通的碰撞检测方法。而且渲染需要大量内存（frame buffer+z buffer），也不是内存有限的SPE能够负担的。所以这个技术运用在游戏里的实用程度只怕非常有限。
当然如果碰撞检测能够构造的比较好，用SPE来处理不是不可以。但是数据结构一定得设计的足够好，才能匹配SPE有限的local memory，可能还得放弃一定的通用性。

Edison · 发表于 2006-11-13 19:50

我想如果是多个的话，可以采用类似BOX的方式，一个粗糙的box代表一群NPC，0.5秒间隔渲染一次，消耗的内存资源应该不大。

PS5 · 发表于 2006-11-13 19:51

原帖由 airforce18 于 2006-11-13 19:39 发表
再怎么挖掘也逃脱不了DX9 OP2.0的局限了

RSX的PS3.0有局限？

ayanamei · 发表于 2006-11-13 19:56

原帖由 PS5 于 2006-11-13 19:51 发表

RSX的PS3.0有局限？

有一些
不严重
基本上游戏机平台这个不成问题　全都是软件可以小心回避掉的问题
关键是现在放出来的游戏看　这些厂商实在是没把RSX用好
事实上RSX /C1基本还是同档次的

PS5 · 发表于 2006-11-13 19:58

原帖由 ayanamei 于 2006-11-13 19:56 发表

有一些
不严重
基本上游戏机平台这个不成问题　全都是软件可以小心回避掉的问题
关键是现在放出来的游戏看　这些厂商实在是没把RSX用好
事实上RSX /C1基本还是同档次的

同档次就好，只要同档次，MS就死定了

xreal · 发表于 2006-11-13 20:01

:unsure: ps3可是代表linux出战的，对抗垄断的ms windows.w00t)

ayanamei · 发表于 2006-11-13 20:01

原帖由 PS5 于 2006-11-13 19:58 发表

同档次就好，只要同档次，MS就死定了

为什么不是同档次了
:wacko: 　

PS5 · 发表于 2006-11-13 20:02

原帖由 ayanamei 于 2006-11-13 20:01 发表

为什么不是同档次了
:wacko: 　

因为多数人都说C1强于RSX

ayanamei · 发表于 2006-11-13 20:05

原帖由 PS5 于 2006-11-13 20:02 发表

因为多数人都说C1强于RSX

构架上强一些　差距不大
事实上c1在PS性能上还干不过R5XX
r5xx又能比G7x先进多少
所以这个差距还是很有限的

PS5 · 发表于 2006-11-13 20:06

原帖由 ayanamei 于 2006-11-13 20:05 发表

构架上强一些　差距不大
事实上c1在PS性能上还干不过R5XX
r5xx又能比G7x先进多少
所以这个差距还是很有限的

c1肯定干不过具有48PS的R5XX啦！

1天 · 发表于 2006-11-13 20:08

原帖由 PS5 于 2006-11-13 20:06 发表

c1肯定干不过具有48PS的R5XX啦！

ayanamei指的是单位PS性能

ayanamei · 发表于 2006-11-13 20:08

原帖由 PS5 于 2006-11-13 20:06 发表

c1肯定干不过具有48PS的R5XX啦！

C1也是48shader 就算3bank全跑PS 也干不过R580..

PS5 · 发表于 2006-11-13 20:09

原帖由 ayanamei 于 2006-11-13 20:08 发表

C1也是48shader 就算3bank全跑PS 也干不过R580..

C1是US，不可能全做PS，怎么可能干得过48固定PS的R5XX

ibelieveicandie · 发表于 2006-11-13 20:10

原帖由 Edison 于 2006-11-13 19:50 发表
我想如果是多个的话，可以采用类似BOX的方式，一个粗糙的box代表一群NPC，0.5秒间隔渲染一次，消耗的内存资源应该不大。

关键是没必要啊　＃这种计算方式比普通的碰撞检测没有什么特别的优势。如果可以每隔0.5秒才去测一次碰撞的话，传统方式一样没有任何效率问题，何必要用这种暴力解法呢　＃
另外消耗内存是和渲染分辨率相关的。如果想做全角度渲染的话，基本上4个渲染目标是至少的。哪怕只是渲染90度视锥，起码也得有300x200的分辨率才能基本保证检测的精确度吧。也许framebuffer 1byte/pixel就足够，但是z buffer最低也得有16bit精度，这样180K内存就去掉了。还有待渲染物体的几何模型也是必要的　＃这样算下来local memory根本就不可能够。

ayanamei · 发表于 2006-11-13 20:15

原帖由 PS5 于 2006-11-13 20:09 发表

C1是US，不可能全做PS，怎么可能干得过48固定PS的R5XX

:funk: 我说就算全跑　也跑不过　＃
:wacko:
算了　既然你一口咬定C1比RSX强很多。。

ximimi · 发表于 2006-11-13 22:40

原文很明白

图形系统用批量处理

搜索用树算法

Ayanaomi · 发表于 2006-11-13 23:01

rsx cant run hdr +aa :)

帐号		自动登录	找回密码
密码			注册

jackpeng33 该用户已被删除	21^# 发表于 2006-11-13 14:19 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
jackpeng33 该用户已被删除
	回复支持反对使用道具举报显身卡

SONY是否有实力搞好CELL的编译器?

浏览过的版块