G80与PS3的RSX和XO的C1的数据图！

ximimi · 发表于 2006-11-11 20:41

CELL BE 存在多种编程模型，对于简单的SPE程序（"small" SPE program）来说，与普通的应用程序编程是类似的。我们需要将任务进行划分，针对不同的SPE编写不同的代码，每个SPE完成一个特定的任务。这种方式下，SPE不需要访问主存，只需访问LS就够了。在这种方式下，SPE的数据段、代码段的大小限制为256kB (LS的大小)。

看一下吧

spe 512k的版本完全可以一次把所有代码装进去

若是流处理，就更不存在问题了

pliflier · 发表于 2006-11-11 20:50

ls的说法看起来似乎不错，但是适合spe的操作实在是不多

ayanamei · 发表于 2006-11-11 20:51

原帖由 ximimi 于 2006-11-11 20:36 发表

错了

xdr不等于高延迟

该问题我和eji以前就讨论过

不信自己去问

不高？要怎么样才较高？？
你知道现在CPU如果没有Cache访问内存是什么代价吧

老K8这种集成内存控制其直接访问DDR400的构架访问内存最后实测数据也要100+cyc
P4就更要说了
XDR要跑到4G以上才能接近DDR400的延迟你自己算吧

ayanamei · 发表于 2006-11-11 20:55

原帖由 ximimi 于 2006-11-11 20:41 发表
CELL BE 存在多种编程模型，对于简单的SPE程序（"small" SPE program）来说，与普通的应用程序编程是类似的。我们需要将任务进行划分，针对不同的SPE编写不同的代码，每个SPE完成一个特定的任务。这种 ...

这里感谢你提醒了我SPE的BUFFER是 256K 不然我刚才还在捏汗
上面说的这些都必须建立在这正确及时地把数据抓到SPE本地的 BUFFER为基础的条件下
事实上前者都没有保证这后面不就成空话了么

再退一步说，就算上面编译器能做好优化准确的指令动作，2次抓内存周期内如果需要抓新的数据根本就抓不到
这也太苛刻了

流应用当然简单 SPE本来就是用来干这个的简直是废话　＃

ayanamei · 发表于 2006-11-11 21:22

最后 ximimi 你确实注意过很多PS3相关的数据
可是现在你并不能理解这些内容的含义所以别再无意义的水这个帖子了

ximimi · 发表于 2006-11-11 21:50

原帖由 ayanamei 于 2006-11-11 21:22 发表
最后 ximimi 你确实注意过很多PS3相关的数据
可是现在你并不能理解这些内容的含义所以别再无意义的水这个帖子了

这个:funk: :funk:

complexmind · 发表于 2006-11-11 21:51

好精彩的对答。不管怎么说ayanamei和xiaomi都是牛人啊。

popwangyuII · 发表于 2006-11-11 22:12

原帖由 complexmind 于 2006-11-11 21:51 发表
好精彩的对答。不管怎么说ayanamei和xiaomi都是牛人啊。

:lol: 都是 MM

complexmind · 发表于 2006-11-11 22:18

而且是我喜欢的类型，想追啊。:wub: :wub: :wub:

xreal · 发表于 2006-11-11 22:18

:blink:
cell开发困难那也是ibm的搞的。cell+bd，要么这两样东西都成功，要么都成淘汰品。rsx不是决定ps3成败的因素

ximimi · 发表于 2006-11-11 22:29

原帖由 ayanamei 于 2006-11-11 20:55 发表

这里感谢你提醒了我SPE的BUFFER是 256K 不然我刚才还在捏汗
上面说的这些都必须建立在这正确及时地把数据抓到SPE本地的 BUFFER为基础的条件下
事实上前者都没有保证这后面不就成空话了么

再退一步说 ...

不知你凭什么一口咬定延迟很大，传统x86结构有延迟，sdram有潜伏周期，有cpu内存连接瓶颈，有解码，有乱序调度，有cache miss要flush tlb

你知道延迟都是来自哪里

这个环行设计不仅在硬件上很吊

在软件上也很吊
最新的linux net channel采用环行设计效能比传统bsd所谓的hardcode tcp/ip栈效能高4-6倍

spe可以有上下文，可以切换，每个spe可以用spu切换上下文。

我觉得把每个routing放在一个spe里执行256k就很大了。

apexmfg · 发表于 2006-11-11 22:39

PS3 不是X86架构的吧

yill · 发表于 2006-11-11 23:01

xb一代的机能貌似比PS2强一点.惨败!!!xb360貌似传说比PS3又要强一点..历史何其的相似..

从今天开始PS3胜利的号角响起来了而XB360的丧钟却已敲响了

ayanamei · 发表于 2006-11-11 23:26

原帖由 ximimi 于 2006-11-11 22:29 发表

不知你凭什么一口咬定延迟很大，传统x86结构有延迟，sdram有潜伏周期，有cpu内存连接瓶颈，有解码，有乱序调度，有cache miss要flush tlb

你知道延迟都是来自哪里

这个环行设计不仅在硬件上很吊

...

行行
x86都有延迟了
sdram 有latecny XDR就没有了
我列举的是K8  K8和Cell都是内置内存控制器为啥就K8有连接瓶颈　＃
更不得了的的是居然cpu和内存之间还有解码　＃。
不管乱序执行还是  有序执行这些都已经和这个延迟一点关系都没有
cache miss, 主流CPU cache的命中率都可以保证90%以上那么你SPE那种靠编译器来实现的更有可靠性了对吧?
那干啥IBM还有给PPE 512K L2 cache??
不要乱搞了好不好  我都说了不由去堆一些自己都没弄明白的东西

最后面你说的东西又是风马牛不相干了找个Derverloper来都会被你弄晕的

[ 本帖最后由 ayanamei 于 2006-11-11 23:28 编辑 ]

ayanamei · 发表于 2006-11-11 23:41

你知不知道为什么IBM要通过软件预先将数据读到SPE的BUFFER里去？
因为这个延迟很大不可能让CPU干等而SPE是有序处理器构架一旦堵塞就没办法遮掩就彻底停下了。于是把可预见的延迟，通过提前读取内存的方式掩盖掉。要真能做到低延迟还要这么麻烦干啥。
但事实是上靠编译器实现这个可靠度还是问题

ayanamei · 发表于 2006-11-12 00:09

原帖由 xreal 于 2006-11-11 22:18 发表
:blink:
cell开发困难那也是ibm的搞的。cell+bd，要么这两样东西都成功，要么都成淘汰品。rsx不是决定ps3成败的因素

Cell for ps3比较极端而已

CELL是根据应用配对PPE/SPE的
显然SONY这个配法　＃

hou · 发表于 2006-11-12 00:42

高手啊,进来拜一下

aeondxf · 发表于 2006-11-12 00:54

PS3如果去掉四个SPE换上一个PPE其结果都可能比现在好……

Eji · 发表于 2006-11-12 01:07

原帖由 aeondxf 于 2006-11-12 00:54 发表
PS3如果去掉四个SPE换上一个PPE其结果都可能比现在好……

很多人說PPE如果搭4個SPE效果會更好，不過IBM已經有自己的數據支持他們為何要作8個SPE，所以這邊不多所探究。
不過RoadRunner最後是Opteron CPU + Cell，PPE當成純I/O accerator，這應該可以視為一個解答。(顯然CPU並不限於Opteron)

aeondxf · 发表于 2006-11-12 01:21

原帖由 Eji 于 2006-11-12 01:07 发表

很多人說PPE如果搭4個SPE效果會更好，不過IBM已經有自己的數據支持他們為何要作8個SPE，所以這邊不多所探究。
不過RoadRunner最後是Opteron CPU + Cell，PPE當成純I/O accerator，這應該可以視為一個解答。 ...

CELL在ROADRUNNER上实在是像一个协处理器的命……那么可否认为单个PPE不足以满足PS3这种设计的需求？一个多月前听人说在PS3上4+个SPE会造成冲突，不知道现在如何。不过我觉得2PPE+4SPE可能对PS3更好。

帐号		自动登录	找回密码
密码			注册

G80与PS3的RSX和XO的C1的数据图！

浏览过的版块