POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
楼主: Prescott
打印 上一主题 下一主题

Linux下Cell 3.2G vs. PPC G5 1.6G对比测试出炉

[复制链接]
81#
发表于 2006-11-23 16:04 | 只看该作者
原帖由 Edison 于 2006-11-23 14:44 发表
那就看整数性能好了:


你这是16bit的整数测试。 还是峰值测试。

根本和通常指的整数性能是两个概念。
一个典型整数应用 Load和Store指令占40%,load数量两倍于store;分支占10-20%; 剩下的一般是ALU指令。  现在游戏在CPU中,跑的整数代码,基本上就是这类型的代码。
回复 支持 反对

使用道具 举报

82#
发表于 2006-11-23 16:13 | 只看该作者
图片没有完全显示,在图片中最右面图柱是int32。

不过SPE的整数乘法只有16 bit,做32bit乘法的时候需要三条16bit乘法+两条32bit加法。

SPE是由pipeline2执行load/store执行,延迟是7个周期,在不相依的情况下,每个周期可以发射一条L/S和一条算术/字符串操作指令。
回复 支持 反对

使用道具 举报

83#
发表于 2006-11-23 16:35 | 只看该作者
不明白,要是AMD弄颗傻龙再加上个X1300集成在一个DIE内,那是不是无论通用性能还是峰值性能都可以把CELL秒杀了:lol:
回复 支持 反对

使用道具 举报

84#
发表于 2006-11-23 16:51 | 只看该作者
原帖由 Edison 于 2006-11-23 16:13 发表
图片没有完全显示,在图片中最右面图柱是int32。

不过SPE的整数乘法只有16 bit,做32bit乘法的时候需要三条16bit乘法+两条32bit加法。

SPE是由pipeline2执行load/store执行,延迟是7个周期,在不相依的情 ...

而且SPE, 好像连Load buffer/Store buffer也都没有。 Load指令和Store指令的实际执行效率, 恐怕经常Stall
回复 支持 反对

使用道具 举报

potomac 该用户已被删除
85#
发表于 2006-11-23 17:01 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

86#
发表于 2006-11-23 17:10 | 只看该作者
SPE没有本地缓存, 而是RAM。   这是有区别的。

Load buffer/Store buffer和缓存也是不同的东西。
回复 支持 反对

使用道具 举报

87#
发表于 2006-11-23 17:14 | 只看该作者
原帖由 Edison 于 2006-11-23 14:37 发表

你需要6300 OC 3GHz + Dual PPU + AISeek Processor才能和CELL比。


老大,没那么夸张把?:o  Dual PPU + AISeek Processor什东东啊
回复 支持 反对

使用道具 举报

88#
发表于 2006-11-23 17:24 | 只看该作者
其实Cell
主要还是要有好编译器和开发运行库才行
PC上程序 可以用Intel Compiler自动向量化+多线程化

物理运算和图像运算并行度都是很高的,我编计算物理程序,体会颇深
PD 820 512M DDR2 533内存
同一个程序(GSAW-自规避随机行走,1000个粒子2000*2000网格)用VC6编译出来,跑10分钟
用Intel c++ compiler跑1分钟20秒,加速比就是这么高
关键就是IBM能不能开发出强大的编译器来。Cell的编译器开发应该比Intel双核难。


下面内容有争议:
而且Cell犯了和安腾一样的错,只不过没有鹌鹑那么深:把很多不该由编译器干的活交给了编译器。编译器毕竟是死板的东西啊


还有就是楼上人提到的SPE分支预测差,这个我倒觉得无所谓,毕竟对8条线程进行分别的分支预测是很耗晶体管的
软件写BPB?不太可能吧?
每个SPE单元都有本地缓存。

是本地内存,程序员可以访问的快速内存

如果以后显示芯片和CPU集成了,显示芯片还支持多线程,那个CPU的浮点速度一定非常快,可是毕竟Cell是第一个,第一个经常做的很幼稚。

[ 本帖最后由 Tanknet 于 2006-11-23 18:09 编辑 ]
回复 支持 反对

使用道具 举报

89#
发表于 2006-11-23 17:47 | 只看该作者
EPIC和CELL是两回事情。一个是RISC演生,  一个VLIW演生。

LS所说的东西,他可能自己不知道, 全部可以看成是攻击VLIW。

LS对体系结构极为重大的一个流派VLIW,很不了解, 可以说成是有点不知天外有天了,先学习VLIW, 再回来学习EPIC,不然很难了解什么是IA64。
http://we.pcinlife.com/thread-609496-1-1.html
VLIW是极有价值的体系结构, 虽然搞RISC的仇恨它, 但是...
回复 支持 反对

使用道具 举报

90#
发表于 2006-11-23 18:11 | 只看该作者
原帖由 hopetoknow2 于 2006-11-23 17:47 发表
EPIC和CELL是两回事情。一个是RISC演生,  一个VLIW演生。

LS所说的东西,他可能自己不知道, 全部可以看成是攻击VLIW。

LS对体系结构极为重大的一个流派VLIW,很不了解, 可以说成是有点不知天外有天了, ...


请推荐一本关于VLIW和EPIC的书。我看的是很老的书<RISC Architectures> 和<RISC单发射和多发射体系架构>内对VLIW的介绍,可能落后了
回复 支持 反对

使用道具 举报

91#
发表于 2006-11-23 18:18 | 只看该作者
原帖由 hopetoknow2 于 2006-11-23 17:47 发表
http://we.pcinlife.com/thread-609496-1-1.html


这里面没有讨论IA64或者VLIW的啊? 发错连接了?
回复 支持 反对

使用道具 举报

92#
发表于 2006-11-23 18:31 | 只看该作者
原帖由 Tanknet 于 2006-11-23 18:18 发表

这里面没有讨论IA64或者VLIW的啊? 发错连接了?

呵呵,只是说VLIW派系也很牛, 居然拿了2次最高荣誉。
咱没有资料啊。 只是重复以前别人教训咱的话。 说咱搞了半天,居然还没发现体系结构世界的另一半"邪恶势力"。
回复 支持 反对

使用道具 举报

93#
发表于 2006-11-23 19:19 | 只看该作者
VLIW的代码尺寸成本很高,SPE那点内存可能塞不了几个VLIW包就爆掉了。
回复 支持 反对

使用道具 举报

94#
发表于 2006-11-23 19:42 | 只看该作者
原帖由 hopetoknow2 于 2006-11-23 16:51 发表
而且SPE, 好像连Load buffer/Store buffer也都没有。 Load指令和Store指令的实际执行效率, 恐怕经常Stall

LS离得这么近,你觉得MOB弄多大合适?
回复 支持 反对

使用道具 举报

95#
发表于 2006-11-23 19:49 | 只看该作者
原帖由 Edison 于 2006-11-23 19:19 发表
VLIW的代码尺寸成本很高,SPE那点内存可能塞不了几个VLIW包就爆掉了。

处理这个问题,EPIC的寄存器旋转技术,可比原来的VLIW要高明多了。
回复 支持 反对

使用道具 举报

96#
发表于 2006-11-23 19:54 | 只看该作者
原帖由 Edison 于 2006-11-23 19:42 发表

LS离得这么近,你觉得MOB弄多大合适?

看上去近,但这不算近, 不是说7周期延迟吗?

不少处理器的L1D也很近, 还是需要Load buffer/Store buffer来缓冲,不然冲突停顿的开销很利害。

你以为是Itanium2的1周期延迟啊?还有ALAT猜测机制等等。
回复 支持 反对

使用道具 举报

97#
发表于 2006-11-23 20:00 | 只看该作者
SPE的流水线是in-order的设计,又有128个128bit寄存器,如果把MOB做成Conroe那样成本太高了,性能改善也不见得合理。
回复 支持 反对

使用道具 举报

potomac 该用户已被删除
98#
发表于 2006-11-23 20:05 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

99#
发表于 2006-11-23 20:14 | 只看该作者
原帖由 Edison 于 2006-11-23 20:00 发表
SPE的流水线是in-order的设计,有128个4D SP寄存器,如果把MOB做成Conroe那样成本太高了,性能改善也不见得合理。

对于"典型"整数应用来说,这没什么。 比寄存器数量,Itanium的寄存器够多吧?  猜猜看, Load/Store指令占多少比例? 还是很大的。

SPE最近的存储单元,高延迟,而Load Buffer/Store Buffer缓冲环节如此脆弱, 还有Memory disambig.混叠的时候, 有好戏看了。
回复 支持 反对

使用道具 举报

100#
发表于 2006-11-24 07:04 | 只看该作者
spe 的发挥需要牺牲 ppe 的性能,   这种测试 对 pc 不公平, 游戏机是 简单化, 被 sony fan 称做,  专门 优化,  没有 windows 那么臃肿的系统,所以效率 高很多。  sony fan 说 linux 效率比 windows 高很多。 所以 在windows 下 测试出的成绩 对 windows 不公平。 sony fan 的意思。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-4-17 03:42

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表