POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
楼主: Prescott
打印 上一主题 下一主题

Linux下Cell 3.2G vs. PPC G5 1.6G对比测试出炉

[复制链接]
41#
发表于 2006-11-23 14:23 | 只看该作者
原帖由 HardCoded 于 2006-11-23 14:19 发表



:lol: 呵呵,不排除CELL那种古怪架构在某方面大翻身的可能.

但就指令性能来讲,Conroe可以把他扔出地球.

那你也可以换个角度考虑下,在做PS3需要的事情时,Cell可以把Conroe扔出太阳系。

脱离了各自的应用环境来大谈CPU性能,有意义么?
回复 支持 反对

使用道具 举报

42#
发表于 2006-11-23 14:23 | 只看该作者
原帖由 HardCoded 于 2006-11-23 14:19 发表
:lol: 呵呵,不排除CELL那种古怪架构在某方面大翻身的可能.
但就指令性能来讲,Conroe可以把他扔出地球.

在绝大部分游戏应用中,Conroe都不如Cell,例如物理、音频、视频、基于可视化分析的AI等。
回复 支持 反对

使用道具 举报

43#
发表于 2006-11-23 14:24 | 只看该作者
是不是测试软件还没有针对cell优化?
回复 支持 反对

使用道具 举报

44#
 楼主| 发表于 2006-11-23 14:27 | 只看该作者
原帖由 Edison 于 2006-11-23 13:41 发表


谁告诉你EEMBC不能修改代码的,你当是SEPC CPU?
单个SPE@3.2GHz的telemark是770,你看看需要多少个Conroe凑一个晶体管数量相当的Cell吧。

怎么跑起TeleBench来了?你不是开玩笑吧,难道Cell打算退出游戏领域,转战信号处理了?随便找个DSP干这个也比Cell强的多。EMMBC都是嵌入式系统的Benchmark,代码和数据大小都以KB记。

即便是跑TeleBench,一个Conroe 3GHz至少可以相当于3-4个SPE,一个PPC970FX @ 2G都能跑到1058,770很厉害吗?
回复 支持 反对

使用道具 举报

45#
发表于 2006-11-23 14:27 | 只看该作者
从一开始大家都知道SPE是不具备动态分支预测的吧,但是同时也都应该知道SPE是具备128个寄存器以及能够从分支目标开始预取32条指令的branch hint能力。
回复 支持 反对

使用道具 举报

46#
发表于 2006-11-23 14:30 | 只看该作者
呵呵,作为一个正统的通用处理器,YY浮点是没什么意思的.

CPU架构的精华都在如何提高指令性能上,这才是体现一个CPU艺术性和先进性的地方.像Conroe这样近乎完美的指令性能,足以让同期任何一款CPU服到五体投地.

至于提高浮点性能,个人兴趣不大.简单叠加计算单元的东西,只要成本控制的住,想提高多少是多少.

呵呵,纯粹个人之见.
回复 支持 反对

使用道具 举报

47#
发表于 2006-11-23 14:31 | 只看该作者
原帖由 Prescott 于 2006-11-23 14:27 发表
怎么跑起TeleBench来了?你不是开玩笑吧,难道Cell打算退出游戏领域,转战信号处理了?随便找个DSP干这个也比Cell强的多。EMMBC都是嵌入式系统的Benchmark,代码和数据大小都以KB记。
即便是跑TeleBench, ...

CELL跑游戏所处理大部分计算其实都是EEMBC针对的嵌入式应用,一个SPE是770,7个就是相当于5390,还没算上PPE。
回复 支持 反对

使用道具 举报

48#
发表于 2006-11-23 14:34 | 只看该作者
我看不太懂大家的评论,我只想知道现在的PS3装的CELL性能能强过我的扣肉6300么?
回复 支持 反对

使用道具 举报

49#
发表于 2006-11-23 14:37 | 只看该作者
原帖由 jgzyinnv 于 2006-11-23 14:34 发表
我看不太懂大家的评论,我只想知道现在的PS3装的CELL性能能强过我的扣肉6300么?

你需要6300 OC 3GHz + Dual PPU + AISeek Processor才能和CELL比。
回复 支持 反对

使用道具 举报

50#
 楼主| 发表于 2006-11-23 14:41 | 只看该作者
原帖由 HardCoded 于 2006-11-23 14:30 发表
呵呵,作为一个正统的通用处理器,YY浮点是没什么意思的.

CPU架构的精华都在如何提高指令性能上,这才是体现一个CPU艺术性和先进性的地方.像Conroe这样近乎完美的指令性能,足以让同期任何一款CPU服到五体投地.
...

非常正确,要纯浮点性能是最简单的事情,显卡和ClearSpeed就是典型的例子。如果需要,Conroe再加浮点单元就是,或者SIMD再作长点,搞个512bit的寄存器,这种事情又不是没人做过,有什么意思?

问题是这种浮点性能只能用在HPC领域,信号处理和多媒体中,而且绝大部分时候还不好用。Cell这种异构的东西,简直就是一个Cluster on Chip,想象一下为一个有8台计算机的集群写游戏,让他们并行运行吧。Mission impossible!
回复 支持 反对

使用道具 举报

51#
发表于 2006-11-23 14:44 | 只看该作者
那就看整数性能好了:

回复 支持 反对

使用道具 举报

52#
 楼主| 发表于 2006-11-23 14:44 | 只看该作者
原帖由 Edison 于 2006-11-23 14:37 发表

你需要6300 OC 3GHz + Dual PPU + AISeek Processor才能和CELL比。

哈哈,国际玩笑。

E6600 + 7900GT绝对能在所有游戏中取得比PS3更好的游戏效果,不信等着瞧。:lol:
回复 支持 反对

使用道具 举报

53#
发表于 2006-11-23 14:46 | 只看该作者
原帖由 Prescott 于 2006-11-23 14:41 发表
非常正确,要纯浮点性能是最简单的事情,显卡和ClearSpeed就是典型的例子。如果需要,Conroe再加浮点单元就是,或者SIMD再作长点,搞个512bit的寄存器,这种事情又不是没人做过,有什么意思?
问题是这种浮 ...

现在的PC上就有APU、AISeek这样的附加卡提供物理、AI加速,为什么就不能把SPE作为这类产品来写程序,难道你真得以为1个CPU就能跑游戏,什么叫mission impossible,你这样的想法就是了。
回复 支持 反对

使用道具 举报

54#
发表于 2006-11-23 14:47 | 只看该作者
prescott 和cho的对话真精彩,虽然我基本都看不懂。
请教一下cho,你觉得以ps3的性能,
装个LINUX当HTPC,播放HDTV等高清视频,
是否可行?
回复 支持 反对

使用道具 举报

55#
发表于 2006-11-23 14:47 | 只看该作者
原帖由 Edison 于 2006-11-23 14:23 发表

在绝大部分游戏应用中,Conroe都不如Cell,例如物理、音频、视频、基于可视化分析的AI等。



:loveliness: 我没有这方面的编程经验,所以谈不上真正理解你所说的这些算法应用.

但至少CELL处理你所说的"可视化分析的AI"的性能,不会比Conroe采用传统的方法性能还高吧?
回复 支持 反对

使用道具 举报

56#
 楼主| 发表于 2006-11-23 14:48 | 只看该作者
原帖由 Edison 于 2006-11-23 14:44 发表
那就看整数性能好了:


同学,理论值没有意义的,PD 945 3.4G无论整数还是浮点理论值都是Athlon64 2G的将近4倍。你要不要跑个游戏看看哪个厉害?不服那就两个PD 945,怎么样?那就是快8倍的性能了,有用吗?跑信号处理,多媒体处理,还有你所谓的AI,物理处理APU,两个PD 945不知道要杀Athlon64 2G不知道多少个来回,但是现实的游戏呢?

不要忘记SMP共享内存的系统,写程序要比Cell这种异构系统,各自使用本地内存的诡异系统容易不知道多少倍,把游戏多线程化大家都觉得头疼,你以为给Cell那种诡异的系统写程序那么容易?是个程序员都要疯掉。

[ 本帖最后由 Prescott 于 2006-11-23 14:55 编辑 ]
回复 支持 反对

使用道具 举报

57#
发表于 2006-11-23 14:53 | 只看该作者
原帖由 Edison 于 2006-11-23 14:44 发表
那就看整数性能好了:




:loveliness: 玩笑了玩笑了,你这里的整数性能应该是指纯数学运算加减乘除的性能吧?这个真的就没意义了.
回复 支持 反对

使用道具 举报

58#
发表于 2006-11-23 14:54 | 只看该作者
原帖由 HardCoded 于 2006-11-23 14:30 发表
呵呵,作为一个正统的通用处理器,YY浮点是没什么意思的.

CPU架构的精华都在如何提高指令性能上,这才是体现一个CPU艺术性和先进性的地方.像Conroe这样近乎完美的指令性能,足以让同期任何一款CPU服到五体投地.
...

我个人的意见,任何东西的先进和艺术都体现在针对自身环境的适应性上,结果在多大程度上切合设计目标,是最重要的考量。CPU指令是复杂的好,还是简单的好,核心是有序的好还是无序的好,都没有一个定论。即使是RISC也会采用某些复杂功能的指令,按序的核心一样可以有强大的执行效能。CPU单个处理能力越强越好?Blue Gene却可以为了大量的并行采用尽可能的简化设计,你说浮点的叠加很简单,但是现在看来,做到轻松叠加的,却是采用最简单CPU的Blue Gene,其他采用强大而复杂CPU的,硬是叠不出来(有些东西看来是说得容易做的难啊)。任何东西做出来总是有目标的,完不成目标却空口说我什么什么地方先进,有用吗?先进用什么来衡量?
回复 支持 反对

使用道具 举报

59#
发表于 2006-11-23 14:54 | 只看该作者
贴个 E6300 @ 2.8 得数据作对比吧


Geekbench 2006 (build 238).  Email geekbench@geekpatrol.ca with feedback.

System Information
  Geekbench Version:         Geekbench 2006 (build 238)
  Geekbench Platform:        Windows x86 (32-bit)
  Geekbench Compiler:        Visual C++ 2005
  OS:                        Microsoft Windows XP Professional
  Model:                     GBT___ GBTUACPI
  Motherboard:               Gigabyte Technology Co., Ltd. 965P-DS4
  Processor:                 Intel(R) Core(TM)2 CPU          6300  @ 1.86GHz
  Processor ID:              GenuineIntel Family 6 Model 15 Stepping 6
  Logical Processor Count:   2
  Physical Processor Count:  2
  Processor Frequency:       2800 MHz
  Bus Frequency:             400 MHz
  Memory:                    2046 MB

Integer Performance
  Emulate 6502
    single-threaded scalar   298.6 (rate: 1.0, result: 564.6 MHz)
    multi-threaded scalar    592.0 (rate: 2.0, result: 1.1 GHz)
  Blowfish
    single-threaded scalar   181.5 (rate: 1.0, result: 74.9 MB/sec)
    multi-threaded scalar    361.7 (rate: 2.0, result: 149.2 MB/sec)
  bzip2 Compress
    single-threaded scalar   333.7 (rate: 1.0, result: 52.0 MB/sec)
    multi-threaded scalar    646.5 (rate: 1.9, result: 100.3 MB/sec)
  bzip2 Decompress
    single-threaded scalar   337.1 (rate: 1.0, result: 125.4 MB/sec)
    multi-threaded scalar    671.2 (rate: 1.9, result: 241.8 MB/sec)

Floating Point Performance
  Mandelbrot
    single-threaded scalar   181.9 (rate: 1.0, result: 1.3 Gflops)
    multi-threaded scalar    362.5 (rate: 2.0, result: 2.6 Gflops)
  Dot Product
    single-threaded scalar   119.7 (rate: 1.0, result: 616.6 Mflops)
    multi-threaded scalar    236.3 (rate: 2.0, result: 1.2 Gflops)
    single-threaded vector   246.0 (rate: 5.6, result: 3.5 Gflops)
    multi-threaded vector    487.6 (rate: 11.4, result: 7.0 Gflops)
  JPEG Compress
    single-threaded scalar   218.5 (rate: 1.0, result: 20.3 Mpixels/sec)
    multi-threaded scalar    436.4 (rate: 2.0, result: 40.4 Mpixels/sec)
  JPEG Decompress
    single-threaded scalar   240.7 (rate: 1.0, result: 40.0 Mpixels/sec)
    multi-threaded scalar    470.0 (rate: 1.9, result: 77.9 Mpixels/sec)

Memory Performance
  Read Sequential
    single-threaded scalar   375.7 (rate: 1.0, result: 4.7 GB/sec)
    multi-threaded scalar    112.1 (rate: 0.1, result: 697.0 MB/sec)
  Write Sequential
    single-threaded scalar   291.3 (rate: 1.0, result: 2.2 GB/sec)
    multi-threaded scalar    284.5 (rate: 0.5, result: 1.1 GB/sec)
  Stdlib Allocate
    single-threaded scalar   148.9 (rate: 1.0, result: 5.3 Mallocs/sec)
    multi-threaded scalar     86.1 (rate: 0.6, result: 3.1 Mallocs/sec)
  Stdlib Write
    single-threaded scalar   562.5 (rate: 1.0, result: 14.3 GB/sec)
    multi-threaded scalar    123.0 (rate: 0.2, result: 2.9 GB/sec)
  Stdlib Copy
    single-threaded scalar   210.7 (rate: 1.0, result: 2.3 GB/sec)
    multi-threaded scalar    166.7 (rate: 0.7, result: 1.7 GB/sec)

Stream Performance
  Stream Copy
    single-threaded scalar   239.2 (rate: 1.0, result: 3.0 GB/sec)
    multi-threaded scalar    256.2 (rate: 1.1, result: 3.2 GB/sec)
    single-threaded vector   233.9 (rate: 1.1, result: 3.2 GB/sec)
    multi-threaded vector    244.2 (rate: 1.1, result: 3.3 GB/sec)
  Stream Scale
    single-threaded scalar   258.6 (rate: 1.0, result: 3.0 GB/sec)
    multi-threaded scalar    269.6 (rate: 1.1, result: 3.2 GB/sec)
    single-threaded vector   223.4 (rate: 1.0, result: 3.0 GB/sec)
    multi-threaded vector    232.6 (rate: 1.1, result: 3.2 GB/sec)
  Stream Add
    single-threaded scalar   278.6 (rate: 1.0, result: 3.6 GB/sec)
    multi-threaded scalar    285.0 (rate: 1.1, result: 3.8 GB/sec)
    single-threaded vector   271.7 (rate: 1.0, result: 3.8 GB/sec)
    multi-threaded vector    270.1 (rate: 1.1, result: 3.9 GB/sec)
  Stream Triad
    single-threaded scalar   277.5 (rate: 1.0, result: 3.6 GB/sec)
    multi-threaded scalar    286.8 (rate: 1.1, result: 3.8 GB/sec)
    single-threaded vector   214.5 (rate: 1.0, result: 3.7 GB/sec)
    multi-threaded vector    215.8 (rate: 1.1, result: 3.8 GB/sec)

Overall Score:   291.8
回复 支持 反对

使用道具 举报

60#
发表于 2006-11-23 14:57 | 只看该作者
这还不容易,拿类似3DMARK06那样的CPU test场景跑跑看就知道了,你可以去看看PD 945和K8 2GHz的3DMAR06 CPU Mark差距是多少。

使用SPE来做物理、AI、音频、加密/解密处理,要比分离的多片PPU、AISeek、声卡、DSP容易得多。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-4-17 03:42

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表