POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
查看: 4215|回复: 33
打印 上一主题 下一主题

好像Cell没有IBM叫嚣的那么夸张

[复制链接]
跳转到指定楼层
1#
发表于 2006-5-6 14:38 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
Linpack 1kx1k (DP)
Peak GFLOPS
Actual GFLOPS
Efficiency

SPU, 3.2GHz
1.83
1.45
79.23%

8 SPUs, 3.2GHz
14.63
9.46
64.66%

Pentium4, 3.2GHz
6.4
3.1
48.44%

Pentium4 + SSE3, 3.6GHz
14.4
7.2
50.00%

Itanium, 1.6GHz
6.4
5.95
92.97%


表9 Cell BE和其它处理器关于Linpack性能的比较
好像Cell没有IBM叫嚣的那么夸张吧,而且还是内部测试,水份很多!!
2#
发表于 2006-5-6 15:43 | 只看该作者
你在这里给出的linkpack测试是双精度的,CELL的SPU能支持FP32(单精度)、FP64(双精度)、FX32(32位定点)。

在执行FP64的时候,SPU是SI2D,而且是非流水线的,性能会下降到FP32(SI4D、流水线设计)的1/10~1/14。

(FP32的throughput是1cycle,由于SI2D,FLOP是8个;相比之下FP64的throughput是7个cycle,FLOP是4个,合计下来就是FP32性能的1/14)

双精度测试是针对HPC应用,而CELL本来是设计作为PS3游戏机的,单精度和FX32就足够了,FP64只是IBM预留着自己跑科学计算用的。

网络上,Linkpack有fp32/fp64的版本供下载测试,如果想测试CELL的游戏浮点性能,应该使用单精度的版本来测试,IBM也有提供相应的fp32测试结果:

http://www-128.ibm.com/developerworks/power/library/pa-cellperf/

1 SPU
1024x1024        16.5GFLOPS        64.5%
4096x4096        22.0GFLOPS        85.9%

8 SPUs
1024x1024        73.04GFLOPS        35.7%
4096x4096        155.5GFLOPS        75.9%


另外,Pentium 4 3.6GHz即使配合上SSE3,linpack 1000*1000的双精度测试也不可能达到7.2GFLOPS,实际上它本身的双精度峰值性能也只是7.2GFLOPS而已,而不是IBM表中的14.4GFLOPS,NetBurst架构在单精度时候的性能是双精度的两倍,因此也不会是IBM文中所说的25.6GFLOPS,而应该是14.4GFLOPS。

根据Intel自己提供的最佳化双精度linpack测试结果,3.4GHz Xeon在64bit OS下跑出来的效率是84%(这是在27000*27000下录得的,而在5000*5000下只有71%,即5.1GFLOPS),换算到Pentium 4 3.6GHz上,应该是6.1GFLOPS的水平,如果是单精度就是12.xGFLOPS左右。
回复 支持 反对

使用道具 举报

3#
 楼主| 发表于 2006-5-13 18:05 | 只看该作者
那么在现在哪种精度用的多??? 是32bit还是64bit??
谢谢大虾了!!
回复 支持 反对

使用道具 举报

4#
发表于 2006-5-15 10:32 | 只看该作者
高人!!!!!!!!!
回复 支持 反对

使用道具 举报

5#
发表于 2006-5-21 22:45 | 只看该作者
原帖由 Edison 于 2006-5-6 15:43 发表
你在这里给出的linkpack测试是双精度的,CELL的SPU能支持FP32(单精度)、FP64(双精度)、FX32(32位定点)。

在执行FP64的时候,SPU是SI2D,而且是非流水线的,性能会下降到FP32(SI4D、流水线设计)的1/10~1/14。 ...


第一:Linpack没人关心什么单精度的成绩。linpack既然用于衡量科学计算中的浮点处理能力,从来默认就是指双精度。
第二:Cell上市起码要到明年了,和那时的处理器比,Cell在它的强项上也没什么优势可言。Conroe 3G,单精度浮点理论能力48G,双精度24G,功耗65W。。4核心的kentfield明年Q1上市,80G以上的单精度,40G以上的双精度,功耗80W。
第三:PS3的游戏性能,发布时最多和同期的中高档PC打平。CPU + GPU的综合处理能力大大超越PS3,就凭Cell那差得一塌糊涂的整数性能,根本没办法处理得过来程序逻辑。处理8个SPE的DMA中断就够PPE忙了。其实,SPE功能和GPU重叠,大多数游戏中,CPU处理的浮点真是很少。

PS3的设计思想,和十几年前的P3没有任何不同。Cell本质上是一块图像处理器,而不是一块通用处理器。Sony死抱蓝光不放,是因为他知道如果没有蓝光,晚出来一年多的PS3相对于Xbox一点卖点都没有。

如果说Cell是一块适合游戏的处理器,那Netburst架构相对于P6/K8也是,因为他们都是超长流水线,适合处理流媒体,碰到不太规则的指令流效率下降很厉害(其实在这点上Netburst已经比Cell好了不止好几个时代,PPE连OOO都没有,完全就是一个超高频率486)。Netburst的单精度浮点能力超过P6/K8一大截。后果如何,大家都看见了。
回复 支持 反对

使用道具 举报

6#
 楼主| 发表于 2006-5-22 08:36 | 只看该作者
好贴!!
顶!!!!
回复 支持 反对

使用道具 举报

7#
 楼主| 发表于 2006-5-22 10:29 | 只看该作者
原帖由 Prescott 于 2006-5-21 10:45 PM 发表


第一:Linpack没人关心什么单精度的成绩。linpack既然用于衡量科学计算中的浮点处理能力,从来默认就是指双精度。
第二:Cell上市起码要到明年了,和那时的处理器比,Cell在它的强项上也没什么优势可言。Con ...

楼上Proscott大虾:
你知道PS2的EE实际效能到底在多少水平上下浮动么,小弟先谢了!!!
回复 支持 反对

使用道具 举报

zacard 该用户已被删除
8#
发表于 2006-5-22 11:15 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

9#
发表于 2006-5-22 11:19 | 只看该作者
牛人呀。
说一堆,俺没看懂几句。

呵呵!
顶,让大伙都看看。
回复 支持 反对

使用道具 举报

10#
发表于 2006-5-22 15:06 | 只看该作者
1、Linpack一开始出现的时候就有SGEFA和SGESL以及DGEFA和DGESL,分别对应单双精度,出现这样的设计是因为当时的Cray系统full precision是单精度,而IBM的full precision是双精度,Linpack在当时要求只是full precision,因此你说的Linpack一开始就是把双精度作为默认的精度是不准确的,在现实中只选择双精度性能只是TOP500的要求,而对于针对游戏机平台的Cell来说,只考虑双精度的性能是违背设计初衷的。

Linpack的FAQ:
“What numerical precision is required to run and benchmark and gain an entry in the Linpack Benchmark report?
In order to have an entry included in the Linpack Benchmark report the results must be computed using full precision. By full precision we generally mean 64 bit floating point arithmetic or higher. Note that this is not an issue of single or double precision as some systems have 64-bit floating point arithmetic as single precision. It is a function of the arithmetic used.”

2、MC的CELL Blade已经推出,而IBM自己的Cell Blad根据之前的新闻稿是打算在9月份左右推出,PS3的全球上市时间是今年11月。

CELL第一版采用的是90nm工艺,3.2GHz 1PPE+8PPE全动作的时候耗电是50瓦。如果采用65nm的话,估计会降低到30瓦以内,这个工艺切换动作应该在07年就会进行。

Conroe 3GHz(E6800 2.93GHz?)耗电我目前没有什么资料,不过从Conreo 3.3GHz TDP是95瓦以及Woodcrest 3GHz TDP是80瓦来看,Conroe 3GHz的TDP是80瓦恐怕是跑不了了,你的65瓦资料是从何获得的呢?

Kentsfield 3GHz?你是如何确定出80watt的?Kentsfield就是Woodcrest MCM,依然是65nm,还能比Woodcrest低?

3、关于PC和游戏机同期的性能比较,在过去一直都是PC强于同期的游戏机,例如XBOX1是Pentium III 128KB+NV25 UMA 64MB,但是这并不能反映什么,买游戏机的依然大有人在。

SPE的DMA在初始化后是不需要PPE干预的,由MFC自主式进行的。

SPE支持整数操作,7个SPE@3.2GHz的整数性能是22.4BIPS,Conroe@3GHz是18BIPS,CELL有分支HINT指令以及256KB L1 cache来降低分支消耗的性能。

未来的处理器和GPGPU在很多方面都会有重合之处,Intel的发展路线就是如此,你在指责CELL是GPU导向设计的时候,其实也是在责备英特尔的Beyond 2008构想。

CELL和Netburst相比当然有它自己的考量,因为对于游戏开发人员来说,OOO的设计比较难以衡量指令的走向,而in-order+FGMA可以在一定程度上降低这方面的性能损失,以增加运算单元和ISSUE port的设计来增加IPC成本比多线程方式高得多,在做出这些权衡取舍后CELL可以拥有高得多的整数/浮点峰值性能,也是同期内索尼为PS3所能找到的最佳选择。
回复 支持 反对

使用道具 举报

11#
发表于 2006-5-22 15:21 | 只看该作者
Conroe XE   3.33GHz dual 4MB FSB1333MHz TDP 95W '06 Q4  $1199 (Athlon64 X2 4.16GHz相当)
Conroe E6900 3.20GHz dual 4MB FSB1066MHz  TDP 65W '06 Q4  $969 (Athlon64 X2 4.00GHz相当)
Conroe E6800 2.93GHz dual 4MB FSB1066MHz  TDP 65W '06 Q4  $749 (Athlon64 X2 3.66GHz相当)
Conroe E6700 2.67GHz dual 4MB FSB1066MHz  TDP 65W '06 Q3  $529  (Athlon64 X2 3.34GHz相当)
Conroe E6600 2.40GHz dual 4MB FSB1066MHz  TDP 65W '06 Q3  $309  (Athlon64 X2 3.00GHz相当)
Conroe E6500 2.40GHz dual 2MB FSB1066MHz  TDP 65W '06 Q4  $269  (Athlon64 X2 2.88GHz相当)
Conroe E6400 2.13GHz dual 2MB FSB1066MHz  TDP 65W '06 Q3  $239  (Athlon64 X2 2.56GHz相当)
Conroe E6300 1.86GHz dual 2MB FSB1066MHz  TDP 65W '06 Q3  $210  (Athlon64 X2 2.23GHz相当)
Conroe E6200 1.60GHz dual 2MB FSB1066MHz  TDP 65W '06 Q4  $179  (Athlon64 X2 1.92GHz相当)
Conroe E6100 1.33GHz dual 2MB FSB1066MHz  TDP 35W '07 Q1  $149  (Athlon64 X2 1.60GHz相当)


转贴
回复 支持 反对

使用道具 举报

12#
发表于 2006-5-22 16:54 | 只看该作者
原帖由 Edison 于 2006-5-22 15:06 发表
1、Linpack一开始出现的时候就有SGEFA和SGESL以及DGEFA和 DGESL,分别对应单双精度,出现这样的设计是因为当时的Cray系统full precision是单精度,而IBM的full precision是双精度,Linpack在当时要求只是full precision,因此你说的Linpack一开始就是把双精度作为默认的精度是不准确的,在现实中只选择双精度性能只是TOP500的要求,而对于针对游戏机平台的Cell来说,只考虑双精度的性能是违背设计初衷的。

Linpack的FAQ:
“What numerical precision is required to run and benchmark and gain an entry in the Linpack Benchmark report?
In order to have an entry included in the Linpack Benchmark report the results must be computed using full precision. By full precision we generally mean 64 bit floating point arithmetic or higher. Note that this is not an issue of single or double precision as some systems have 64-bit floating point arithmetic as single precision. It is a function of the arithmetic used.”

FAQ说得很明显啊,想要提交Linpack,通常需要64bit或者是80bit的成绩啊。你非要提交一个32bit的成绩又有什么意义?DP本就不是Cell的设计目标,拿用于衡量HPC性能的Linpack来衡量Cell本来就不合适。

2、MC的CELL Blade已经推出,而IBM自己的Cell Blad根据之前的新闻稿是打算在9月份左右推出,PS3的全球上市时间是今年11月。

CELL第一版采用的是90nm工艺,3.2GHz 1PPE+8PPE全动作的时候耗电是50瓦。如果采用65nm的话,估计会降低到30瓦以内,这个工艺切换动作应该在07年就会进行。

Conroe 3GHz(E6800 2.93GHz?)耗电我目前没有什么资料,不过从Conreo 3.3GHz TDP是95瓦以及Woodcrest 3GHz TDP是80瓦来看,Conroe 3GHz的TDP是80瓦恐怕是跑不了了,你的65瓦资料是从何获得的呢?

Kentsfield 3GHz?你是如何确定出80watt的?Kentsfield就是Woodcrest MCM,依然是65nm,还能比Woodcrest低?

Cell的blade?这是一个非常非常小的市场,我能想到一个合适的用处就是用在CT/核磁共振之类的地方。
至于Conroe/Woodcrest的数据,我当然不能说哪来的。

3、关于PC和游戏机同期的性能比较,在过去一直都是PC强于同期的游戏机,例如XBOX1是Pentium III 128KB+NV25 UMA 64MB,但是这并不能反映什么,买游戏机的依然大有人在。

SPE的DMA在初始化后是不需要PPE干预的,由MFC自主式进行的。

SPE支持整数操作,7个SPE@3.2GHz的整数性能是22.4BIPS,Conroe@3GHz是18BIPS,CELL有分支HINT指令以及256KB L1 cache来降低分支消耗的性能。

未来的处理器和GPGPU在很多方面都会有重合之处,Intel的发展路线就是如此,你在指责CELL是GPU导向设计的时候,其实也是在责备英特尔的Beyond 2008构想。

CELL和Netburst相比当然有它自己的考量,因为对于游戏开发人员来说,OOO的设计比较难以衡量指令的走向,而in-order+FGMA可以在一定程度上降低这方面的性能损失,以增加运算单元和ISSUE port的设计来增加IPC成本比多线程方式高得多,在做出这些权衡取舍后CELL可以拥有高得多的整数/浮点峰值性能,也是同期内索尼为PS3所能找到的最佳选择。

DMA本身就只需要处理器初始化,问题是每次DMA结束的时候都需要一次中断处理。而SPE和PPE之间的所有数据交互都需要DMA,中断次数之多可想而知。一个千兆以太网络的小包传输产生的中断就可以拖垮一个3GHz的P4处理器,以至于Linux内核在处理大网络流量的时候甚至会从中断模式切换到轮询模式,以提高性能。Cell会怎么样,我只能说不乐观。另外,如果打算用SPE来跑整数,那是不现实的。

Intel的发展思路是什么样的,这个很难说,Intel技术流派很多的,据说当年围绕Netburst的争论,说得严重点,差点要动手打起来。公开说的只是少数。个人认为CPU取代GPU是必然趋势,但是,Intel内部无论是谁都不会设计一个很弱的主核心带动很多个浮点小核心的处理器,必然会在保证一定数量的高性能通用核心的前提下,加入大量简单的附加核心。

至于程序员衡量什么指令走向,只能说你对开发不熟悉。程序员根本没有工夫去管指令的事情。Intel内部专门写IPP的工程师面对着流媒体处理程序都没工夫去一条指令一条指令的微调,更不要说普通程序员面对着逻辑处理的C++程序了。除非编译器不成熟,否则再厉害的程序员都不是编译器的对手,In-order的Itanium优化的一条准则就是:不要手工写汇编。Cell那点hint指令和EPIC指令比起来根本就提鞋都不配。线程级并行提高吞吐性能看起来当然是简单,就如同拉高频率提高单线程性能一样,但现实并不一定如此,Niagara跑最适合大规模线程并行的Web服务器还能接受,但是游戏,嘿嘿,反正高频高理论值的Netburst是有了教训。
其实MS的选择更为实际,主处理器本就不需要那么高的单精度浮点性能的。

[ 本帖最后由 Prescott 于 2006-5-22 17:00 编辑 ]
回复 支持 反对

使用道具 举报

头像被屏蔽
13#
发表于 2006-5-22 20:16 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

头像被屏蔽
14#
发表于 2006-5-22 20:33 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

sarahaaa 该用户已被删除
15#
发表于 2006-5-22 21:20 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

16#
发表于 2006-5-22 21:38 | 只看该作者
原帖由 Prescott 于 2006-5-22 16:54 发表

FAQ说得很明显啊,想要提交Linpack,通常需要64bit或者是80bit的成绩啊。你非要提交一个32bit的成绩又有什么意义?DP本就不是Cell的设计目标,拿用于衡量HPC性能的Linpack来衡量Cell本来就不合适。


Cell的 ...

你用软件处理那是当然,因为p4本身不是设计来处理大批量网络处理的

现在跑大流量网络应用有卸载卡,网卡中断的影响可以忽略不计算:thumbsup:
回复 支持 反对

使用道具 举报

17#
发表于 2006-5-22 21:41 | 只看该作者
cell spe之间通信用文件系统,可见数据量不是很大,而且用dma,我估计是一次中断批量处理的B)
回复 支持 反对

使用道具 举报

18#
发表于 2006-5-22 21:44 | 只看该作者
原帖由 GZboy 于 2006-5-22 20:33 发表
Kentsfield是Woodcrest MCM,80W TDP确实有点悬。

Theinq说低电压版Woodcrest 2.33G TDP是40W:
http://www.theinquirer.net/?article=31131
回复 支持 反对

使用道具 举报

19#
发表于 2006-5-22 21:46 | 只看该作者
原帖由 ximimi 于 2006-5-22 21:38 发表

你用软件处理那是当然,因为p4本身不是设计来处理大批量网络处理的

现在跑大流量网络应用有卸载卡,网卡中断的影响可以忽略不计算:thumbsup:


我只是举例说明中断对性能的影响,Offload也不是万能。
回复 支持 反对

使用道具 举报

20#
发表于 2006-5-22 22:02 | 只看该作者
原帖由 ximimi 于 2006-5-22 21:41 发表
cell spe之间通信用文件系统,可见数据量不是很大,而且用dma,我估计是一次中断批量处理的B)

除了文件系统,Linux下还有什么其他的好办法吗?
数据量不大怎么能喂饱8个SPE?那可是每个号称每秒钟24GFLOPS 单精度浮点的。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-2-13 06:06

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表