Linux下Cell 3.2G vs. PPC G5 1.6G对比测试出炉

FENG950 · 发表于 2006-11-23 14:23

原帖由 HardCoded 于 2006-11-23 14:19 发表

:lol: 呵呵,不排除CELL那种古怪架构在某方面大翻身的可能.

但就指令性能来讲,Conroe可以把他扔出地球.

那你也可以换个角度考虑下，在做PS3需要的事情时，Cell可以把Conroe扔出太阳系。

脱离了各自的应用环境来大谈CPU性能，有意义么？

Edison · 发表于 2006-11-23 14:23

原帖由 HardCoded 于 2006-11-23 14:19 发表
:lol: 呵呵,不排除CELL那种古怪架构在某方面大翻身的可能.
但就指令性能来讲,Conroe可以把他扔出地球.

在绝大部分游戏应用中，Conroe都不如Cell，例如物理、音频、视频、基于可视化分析的AI等。

lemon_z · 发表于 2006-11-23 14:24

是不是测试软件还没有针对cell优化？

Prescott · 发表于 2006-11-23 14:27

原帖由 Edison 于 2006-11-23 13:41 发表

谁告诉你EEMBC不能修改代码的，你当是SEPC CPU？
单个SPE@3.2GHz的telemark是770，你看看需要多少个Conroe凑一个晶体管数量相当的Cell吧。

怎么跑起TeleBench来了？你不是开玩笑吧，难道Cell打算退出游戏领域，转战信号处理了？随便找个DSP干这个也比Cell强的多。EMMBC都是嵌入式系统的Benchmark，代码和数据大小都以KB记。

即便是跑TeleBench，一个Conroe 3GHz至少可以相当于3-4个SPE，一个PPC970FX @ 2G都能跑到1058，770很厉害吗？

Edison · 发表于 2006-11-23 14:27

从一开始大家都知道SPE是不具备动态分支预测的吧，但是同时也都应该知道SPE是具备128个寄存器以及能够从分支目标开始预取32条指令的branch hint能力。

HardCoded · 发表于 2006-11-23 14:30

呵呵,作为一个正统的通用处理器,YY浮点是没什么意思的.

CPU架构的精华都在如何提高指令性能上,这才是体现一个CPU艺术性和先进性的地方.像Conroe这样近乎完美的指令性能,足以让同期任何一款CPU服到五体投地.

至于提高浮点性能,个人兴趣不大.简单叠加计算单元的东西,只要成本控制的住,想提高多少是多少.

呵呵,纯粹个人之见.

Edison · 发表于 2006-11-23 14:31

原帖由 Prescott 于 2006-11-23 14:27 发表
怎么跑起TeleBench来了？你不是开玩笑吧，难道Cell打算退出游戏领域，转战信号处理了？随便找个DSP干这个也比Cell强的多。EMMBC都是嵌入式系统的Benchmark，代码和数据大小都以KB记。
即便是跑TeleBench， ...

CELL跑游戏所处理大部分计算其实都是EEMBC针对的嵌入式应用，一个SPE是770，7个就是相当于5390，还没算上PPE。

jgzyinnv · 发表于 2006-11-23 14:34

我看不太懂大家的评论,我只想知道现在的PS3装的CELL性能能强过我的扣肉6300么?

Edison · 发表于 2006-11-23 14:37

原帖由 jgzyinnv 于 2006-11-23 14:34 发表
我看不太懂大家的评论,我只想知道现在的PS3装的CELL性能能强过我的扣肉6300么?

你需要6300 OC 3GHz + Dual PPU + AISeek Processor才能和CELL比。

Prescott · 发表于 2006-11-23 14:41

原帖由 HardCoded 于 2006-11-23 14:30 发表
呵呵,作为一个正统的通用处理器,YY浮点是没什么意思的.

CPU架构的精华都在如何提高指令性能上,这才是体现一个CPU艺术性和先进性的地方.像Conroe这样近乎完美的指令性能,足以让同期任何一款CPU服到五体投地.
...

非常正确，要纯浮点性能是最简单的事情，显卡和ClearSpeed就是典型的例子。如果需要，Conroe再加浮点单元就是，或者SIMD再作长点，搞个512bit的寄存器，这种事情又不是没人做过，有什么意思？

问题是这种浮点性能只能用在HPC领域，信号处理和多媒体中，而且绝大部分时候还不好用。Cell这种异构的东西，简直就是一个Cluster on Chip，想象一下为一个有8台计算机的集群写游戏，让他们并行运行吧。Mission impossible!

Edison · 发表于 2006-11-23 14:44

那就看整数性能好了：

Prescott · 发表于 2006-11-23 14:44

原帖由 Edison 于 2006-11-23 14:37 发表

你需要6300 OC 3GHz + Dual PPU + AISeek Processor才能和CELL比。

哈哈，国际玩笑。

E6600 + 7900GT绝对能在所有游戏中取得比PS3更好的游戏效果，不信等着瞧。:lol:

Edison · 发表于 2006-11-23 14:46

原帖由 Prescott 于 2006-11-23 14:41 发表
非常正确，要纯浮点性能是最简单的事情，显卡和ClearSpeed就是典型的例子。如果需要，Conroe再加浮点单元就是，或者SIMD再作长点，搞个512bit的寄存器，这种事情又不是没人做过，有什么意思？
问题是这种浮 ...

现在的PC上就有APU、AISeek这样的附加卡提供物理、AI加速，为什么就不能把SPE作为这类产品来写程序，难道你真得以为1个CPU就能跑游戏，什么叫mission impossible，你这样的想法就是了。

z1978 · 发表于 2006-11-23 14:47

prescott 和cho的对话真精彩，虽然我基本都看不懂。
请教一下cho，你觉得以ps3的性能，
装个LINUX当HTPC，播放HDTV等高清视频，
是否可行？

HardCoded · 发表于 2006-11-23 14:47

原帖由 Edison 于 2006-11-23 14:23 发表

在绝大部分游戏应用中，Conroe都不如Cell，例如物理、音频、视频、基于可视化分析的AI等。

:loveliness: 我没有这方面的编程经验,所以谈不上真正理解你所说的这些算法应用.

但至少CELL处理你所说的"可视化分析的AI"的性能,不会比Conroe采用传统的方法性能还高吧?

Prescott · 发表于 2006-11-23 14:48

原帖由 Edison 于 2006-11-23 14:44 发表
那就看整数性能好了：

同学，理论值没有意义的，PD 945 3.4G无论整数还是浮点理论值都是Athlon64 2G的将近4倍。你要不要跑个游戏看看哪个厉害？不服那就两个PD 945，怎么样？那就是快8倍的性能了，有用吗？跑信号处理，多媒体处理，还有你所谓的AI，物理处理APU，两个PD 945不知道要杀Athlon64 2G不知道多少个来回，但是现实的游戏呢？

不要忘记SMP共享内存的系统，写程序要比Cell这种异构系统，各自使用本地内存的诡异系统容易不知道多少倍，把游戏多线程化大家都觉得头疼，你以为给Cell那种诡异的系统写程序那么容易？是个程序员都要疯掉。

[ 本帖最后由 Prescott 于 2006-11-23 14:55 编辑 ]

HardCoded · 发表于 2006-11-23 14:53

原帖由 Edison 于 2006-11-23 14:44 发表
那就看整数性能好了：

:loveliness: 玩笑了玩笑了,你这里的整数性能应该是指纯数学运算加减乘除的性能吧?这个真的就没意义了.

FENG950 · 发表于 2006-11-23 14:54

原帖由 HardCoded 于 2006-11-23 14:30 发表
呵呵,作为一个正统的通用处理器,YY浮点是没什么意思的.

CPU架构的精华都在如何提高指令性能上,这才是体现一个CPU艺术性和先进性的地方.像Conroe这样近乎完美的指令性能,足以让同期任何一款CPU服到五体投地.
...

我个人的意见，任何东西的先进和艺术都体现在针对自身环境的适应性上，结果在多大程度上切合设计目标，是最重要的考量。CPU指令是复杂的好，还是简单的好，核心是有序的好还是无序的好，都没有一个定论。即使是RISC也会采用某些复杂功能的指令，按序的核心一样可以有强大的执行效能。CPU单个处理能力越强越好？Blue Gene却可以为了大量的并行采用尽可能的简化设计，你说浮点的叠加很简单，但是现在看来，做到轻松叠加的，却是采用最简单CPU的Blue Gene，其他采用强大而复杂CPU的，硬是叠不出来（有些东西看来是说得容易做的难啊）。任何东西做出来总是有目标的，完不成目标却空口说我什么什么地方先进，有用吗？先进用什么来衡量？

Illuminati · 发表于 2006-11-23 14:54

贴个 E6300 @ 2.8 得数据作对比吧

Geekbench 2006 (build 238).  Email geekbench@geekpatrol.ca with feedback.

System Information
  Geekbench Version:       Geekbench 2006 (build 238)
  Geekbench Platform:       Windows x86 (32-bit)
  Geekbench Compiler:       Visual C++ 2005
  OS:                      Microsoft Windows XP Professional
  Model:                   GBT___ GBTUACPI
  Motherboard:             Gigabyte Technology Co., Ltd. 965P-DS4
  Processor:                Intel(R) Core(TM)2 CPU       6300  @ 1.86GHz
  Processor ID:             GenuineIntel Family 6 Model 15 Stepping 6
  Logical Processor Count: 2
  Physical Processor Count:  2
  Processor Frequency:    2800 MHz
  Bus Frequency:          400 MHz
  Memory:                   2046 MB

Integer Performance
  Emulate 6502
single-threaded scalar 298.6 (rate: 1.0, result: 564.6 MHz)
multi-threaded scalar 592.0 (rate: 2.0, result: 1.1 GHz)
  Blowfish
single-threaded scalar 181.5 (rate: 1.0, result: 74.9 MB/sec)
multi-threaded scalar 361.7 (rate: 2.0, result: 149.2 MB/sec)
  bzip2 Compress
single-threaded scalar 333.7 (rate: 1.0, result: 52.0 MB/sec)
multi-threaded scalar 646.5 (rate: 1.9, result: 100.3 MB/sec)
  bzip2 Decompress
single-threaded scalar 337.1 (rate: 1.0, result: 125.4 MB/sec)
multi-threaded scalar 671.2 (rate: 1.9, result: 241.8 MB/sec)

Floating Point Performance
  Mandelbrot
single-threaded scalar 181.9 (rate: 1.0, result: 1.3 Gflops)
multi-threaded scalar 362.5 (rate: 2.0, result: 2.6 Gflops)
  Dot Product
single-threaded scalar 119.7 (rate: 1.0, result: 616.6 Mflops)
multi-threaded scalar 236.3 (rate: 2.0, result: 1.2 Gflops)
single-threaded vector 246.0 (rate: 5.6, result: 3.5 Gflops)
multi-threaded vector 487.6 (rate: 11.4, result: 7.0 Gflops)
  JPEG Compress
single-threaded scalar 218.5 (rate: 1.0, result: 20.3 Mpixels/sec)
multi-threaded scalar 436.4 (rate: 2.0, result: 40.4 Mpixels/sec)
  JPEG Decompress
single-threaded scalar 240.7 (rate: 1.0, result: 40.0 Mpixels/sec)
multi-threaded scalar 470.0 (rate: 1.9, result: 77.9 Mpixels/sec)

Memory Performance
  Read Sequential
single-threaded scalar 375.7 (rate: 1.0, result: 4.7 GB/sec)
multi-threaded scalar 112.1 (rate: 0.1, result: 697.0 MB/sec)
  Write Sequential
single-threaded scalar 291.3 (rate: 1.0, result: 2.2 GB/sec)
multi-threaded scalar 284.5 (rate: 0.5, result: 1.1 GB/sec)
  Stdlib Allocate
single-threaded scalar 148.9 (rate: 1.0, result: 5.3 Mallocs/sec)
multi-threaded scalar    86.1 (rate: 0.6, result: 3.1 Mallocs/sec)
  Stdlib Write
single-threaded scalar 562.5 (rate: 1.0, result: 14.3 GB/sec)
multi-threaded scalar 123.0 (rate: 0.2, result: 2.9 GB/sec)
  Stdlib Copy
single-threaded scalar 210.7 (rate: 1.0, result: 2.3 GB/sec)
multi-threaded scalar 166.7 (rate: 0.7, result: 1.7 GB/sec)

Stream Performance
  Stream Copy
single-threaded scalar 239.2 (rate: 1.0, result: 3.0 GB/sec)
multi-threaded scalar 256.2 (rate: 1.1, result: 3.2 GB/sec)
single-threaded vector 233.9 (rate: 1.1, result: 3.2 GB/sec)
multi-threaded vector 244.2 (rate: 1.1, result: 3.3 GB/sec)
  Stream Scale
single-threaded scalar 258.6 (rate: 1.0, result: 3.0 GB/sec)
multi-threaded scalar 269.6 (rate: 1.1, result: 3.2 GB/sec)
single-threaded vector 223.4 (rate: 1.0, result: 3.0 GB/sec)
multi-threaded vector 232.6 (rate: 1.1, result: 3.2 GB/sec)
  Stream Add
single-threaded scalar 278.6 (rate: 1.0, result: 3.6 GB/sec)
multi-threaded scalar 285.0 (rate: 1.1, result: 3.8 GB/sec)
single-threaded vector 271.7 (rate: 1.0, result: 3.8 GB/sec)
multi-threaded vector 270.1 (rate: 1.1, result: 3.9 GB/sec)
  Stream Triad
single-threaded scalar 277.5 (rate: 1.0, result: 3.6 GB/sec)
multi-threaded scalar 286.8 (rate: 1.1, result: 3.8 GB/sec)
single-threaded vector 214.5 (rate: 1.0, result: 3.7 GB/sec)
multi-threaded vector 215.8 (rate: 1.1, result: 3.8 GB/sec)

Overall Score: 291.8

Edison · 发表于 2006-11-23 14:57

这还不容易，拿类似3DMARK06那样的CPU test场景跑跑看就知道了，你可以去看看PD 945和K8 2GHz的3DMAR06 CPU Mark差距是多少。

使用SPE来做物理、AI、音频、加密/解密处理，要比分离的多片PPU、AISeek、声卡、DSP容易得多。

帐号		自动登录	找回密码
密码			注册

Linux下Cell 3.2G vs. PPC G5 1.6G对比测试出炉

浏览过的版块