Linux下Cell 3.2G vs. PPC G5 1.6G对比测试出炉

hopetoknow2 · 发表于 2006-11-23 16:04

原帖由 Edison 于 2006-11-23 14:44 发表
那就看整数性能好了：

你这是16bit的整数测试。还是峰值测试。

根本和通常指的整数性能是两个概念。
一个典型整数应用 Load和Store指令占40%，load数量两倍于store；分支占10-20%；剩下的一般是ALU指令。现在游戏在CPU中，跑的整数代码，基本上就是这类型的代码。

Edison · 发表于 2006-11-23 16:13

图片没有完全显示，在图片中最右面图柱是int32。

不过SPE的整数乘法只有16 bit，做32bit乘法的时候需要三条16bit乘法+两条32bit加法。

SPE是由pipeline2执行load/store执行，延迟是7个周期，在不相依的情况下，每个周期可以发射一条L/S和一条算术/字符串操作指令。

单晶硅传奇 · 发表于 2006-11-23 16:35

不明白，要是AMD弄颗傻龙再加上个X1300集成在一个DIE内，那是不是无论通用性能还是峰值性能都可以把CELL秒杀了:lol:

hopetoknow2 · 发表于 2006-11-23 16:51

原帖由 Edison 于 2006-11-23 16:13 发表
图片没有完全显示，在图片中最右面图柱是int32。

不过SPE的整数乘法只有16 bit，做32bit乘法的时候需要三条16bit乘法+两条32bit加法。

SPE是由pipeline2执行load/store执行，延迟是7个周期，在不相依的情 ...

而且SPE，好像连Load buffer/Store buffer也都没有。 Load指令和Store指令的实际执行效率，恐怕经常Stall

只看该作者 · 发表于 2006-11-23 17:01

提示: 作者被禁止或删除内容自动屏蔽

hopetoknow2 · 发表于 2006-11-23 17:10

SPE没有本地缓存，而是RAM。这是有区别的。

Load buffer/Store buffer和缓存也是不同的东西。

jgzyinnv · 发表于 2006-11-23 17:14

原帖由 Edison 于 2006-11-23 14:37 发表

你需要6300 OC 3GHz + Dual PPU + AISeek Processor才能和CELL比。

老大，没那么夸张把？:o Dual PPU + AISeek Processor什东东啊

Tanknet · 发表于 2006-11-23 17:24

其实Cell
主要还是要有好编译器和开发运行库才行
PC上程序可以用Intel Compiler自动向量化+多线程化

物理运算和图像运算并行度都是很高的,我编计算物理程序,体会颇深
PD 820 512M DDR2 533内存
同一个程序(GSAW-自规避随机行走,1000个粒子2000*2000网格)用VC6编译出来，跑10分钟
用Intel c++ compiler跑1分钟20秒，加速比就是这么高
关键就是IBM能不能开发出强大的编译器来。Cell的编译器开发应该比Intel双核难。

下面内容有争议：
而且Cell犯了和安腾一样的错，只不过没有鹌鹑那么深：把很多不该由编译器干的活交给了编译器。编译器毕竟是死板的东西啊

还有就是楼上人提到的SPE分支预测差，这个我倒觉得无所谓，毕竟对8条线程进行分别的分支预测是很耗晶体管的
软件写BPB？不太可能吧？

每个SPE单元都有本地缓存。

是本地内存，程序员可以访问的快速内存

如果以后显示芯片和CPU集成了，显示芯片还支持多线程，那个CPU的浮点速度一定非常快，可是毕竟Cell是第一个，第一个经常做的很幼稚。

[ 本帖最后由 Tanknet 于 2006-11-23 18:09 编辑 ]

hopetoknow2 · 发表于 2006-11-23 17:47

EPIC和CELL是两回事情。一个是RISC演生，一个VLIW演生。

LS所说的东西，他可能自己不知道，全部可以看成是攻击VLIW。

LS对体系结构极为重大的一个流派VLIW，很不了解，可以说成是有点不知天外有天了，先学习VLIW，再回来学习EPIC，不然很难了解什么是IA64。
http://we.pcinlife.com/thread-609496-1-1.html
VLIW是极有价值的体系结构，虽然搞RISC的仇恨它，但是...

Tanknet · 发表于 2006-11-23 18:11

原帖由 hopetoknow2 于 2006-11-23 17:47 发表
EPIC和CELL是两回事情。一个是RISC演生，一个VLIW演生。

LS所说的东西，他可能自己不知道，全部可以看成是攻击VLIW。

LS对体系结构极为重大的一个流派VLIW，很不了解，可以说成是有点不知天外有天了， ...

请推荐一本关于VLIW和EPIC的书。我看的是很老的书<RISC Architectures> 和<RISC单发射和多发射体系架构>内对VLIW的介绍,可能落后了

Tanknet · 发表于 2006-11-23 18:18

原帖由 hopetoknow2 于 2006-11-23 17:47 发表
http://we.pcinlife.com/thread-609496-1-1.html

这里面没有讨论IA64或者VLIW的啊？发错连接了？

hopetoknow2 · 发表于 2006-11-23 18:31

原帖由 Tanknet 于 2006-11-23 18:18 发表

这里面没有讨论IA64或者VLIW的啊？发错连接了？

呵呵，只是说VLIW派系也很牛，居然拿了2次最高荣誉。
咱没有资料啊。只是重复以前别人教训咱的话。说咱搞了半天，居然还没发现体系结构世界的另一半"邪恶势力"。

Edison · 发表于 2006-11-23 19:19

VLIW的代码尺寸成本很高，SPE那点内存可能塞不了几个VLIW包就爆掉了。

Edison · 发表于 2006-11-23 19:42

原帖由 hopetoknow2 于 2006-11-23 16:51 发表
而且SPE，好像连Load buffer/Store buffer也都没有。 Load指令和Store指令的实际执行效率，恐怕经常Stall

LS离得这么近，你觉得MOB弄多大合适？

hopetoknow2 · 发表于 2006-11-23 19:49

原帖由 Edison 于 2006-11-23 19:19 发表
VLIW的代码尺寸成本很高，SPE那点内存可能塞不了几个VLIW包就爆掉了。

处理这个问题，EPIC的寄存器旋转技术，可比原来的VLIW要高明多了。

hopetoknow2 · 发表于 2006-11-23 19:54

原帖由 Edison 于 2006-11-23 19:42 发表

LS离得这么近，你觉得MOB弄多大合适？

看上去近，但这不算近，不是说7周期延迟吗?

不少处理器的L1D也很近，还是需要Load buffer/Store buffer来缓冲，不然冲突停顿的开销很利害。

你以为是Itanium2的1周期延迟啊?还有ALAT猜测机制等等。

Edison · 发表于 2006-11-23 20:00

SPE的流水线是in-order的设计，又有128个128bit寄存器，如果把MOB做成Conroe那样成本太高了，性能改善也不见得合理。

只看该作者 · 发表于 2006-11-23 20:05

提示: 作者被禁止或删除内容自动屏蔽

hopetoknow2 · 发表于 2006-11-23 20:14

原帖由 Edison 于 2006-11-23 20:00 发表
SPE的流水线是in-order的设计，有128个4D SP寄存器，如果把MOB做成Conroe那样成本太高了，性能改善也不见得合理。

对于"典型"整数应用来说，这没什么。比寄存器数量，Itanium的寄存器够多吧? 猜猜看， Load/Store指令占多少比例? 还是很大的。

SPE最近的存储单元，高延迟，而Load Buffer/Store Buffer缓冲环节如此脆弱，还有Memory disambig.混叠的时候，有好戏看了。

hdfeel · 发表于 2006-11-24 07:04

spe 的发挥需要牺牲 ppe 的性能，这种测试对 pc 不公平，游戏机是简单化，被 sony fan 称做，专门优化，没有 windows 那么臃肿的系统，所以效率高很多。 sony fan 说 linux 效率比 windows 高很多。所以在windows 下测试出的成绩对 windows 不公平。 sony fan 的意思。

帐号		自动登录	找回密码
密码			注册

potomac 该用户已被删除	85^# 发表于 2006-11-23 17:01 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
potomac 该用户已被删除
	回复支持反对使用道具举报显身卡

potomac 该用户已被删除	98^# 发表于 2006-11-23 20:05 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
potomac 该用户已被删除
	回复支持反对使用道具举报显身卡

Linux下Cell 3.2G vs. PPC G5 1.6G对比测试出炉

浏览过的版块