原帖由 xeon-pan 于 2006-11-23 12:31 发表
比p4还差?:huh: :huh:
原帖由 HardCoded 于 2006-11-23 12:39 发表
:lol: 请CELL先和K7比,然后才有资格和P4比。和Conroe比?那简直就是秒杀
原帖由 xeon-pan 于 2006-11-23 12:42 发表
你没弄明白我的意思吧....当初sony吹cell比高端p4块100000000000..........00000000000倍的。。。:lol:
原帖由 Edison 于 2006-11-23 13:00 发表
单独1个2 -issue in-order FGMT的PPE跑出来Dot Product就几乎把3-issue OOO SMT的P4踩在脚下了。
原帖由 Edison 于 2006-11-23 13:00 发表
单独1个2 -issue in-order FGMT的PPE跑出来Dot Product就几乎把3-issue OOO SMT的P4踩在脚下了。
原帖由 z1978 于 2006-11-23 13:09 发表
DOT PRODUCT是决定什么呢
原帖由 Prescott 于 2006-11-23 13:12 发表
让x87跑dot product,是不是有些残忍?
当SSE3不存在是不是?Vector之后Cell还不是一样被踩。(_(
原帖由 Edison 于 2006-11-23 13:16 发表
你要忽略VMX、PPE的话,为什么不把SSE也忽略掉呢?
原帖由 Edison 于 2006-11-23 13:23 发表
yellow dog出来也不代表什么,我认为要体现CELL的应用特点,必须用EEMBC的Telemark测试才有意义。
原帖由 Prescott 于 2006-11-23 13:33 发表
呵呵,EEMBC的telemark又怎么样,Cell照样垫底,不要忘了,EEMBC不许修改源代码的。SPE还是用不上。哈哈
原帖由 Edison 于 2006-11-23 13:37 发表
PPE 是 2-issue,FPU+VMX可以做到12 FLOPS per cycle,P4的两个SSE单元都挂在同一个issue port上,无论怎么撑都是有架构上的缺陷。
这个测试丝毫不能怎么你所谓的CELL整数性能极弱的观点,顶多只能说明CELL其 ...
原帖由 HardCoded 于 2006-11-23 13:57 发表
呵呵,说到底CELL就是个专用处理器嘛
原帖由 Edison 于 2006-11-23 13:46 发表
SPE本身就具备native的INT16/INT32整数指令执行能力,说SPE不具备整数指令并且把AI看作只能在PPE上跑本身就是错误的。
原帖由 hopetoknow2 于 2006-11-23 14:00 发表
SPE说不定连像样的动态分支预测都没有!
原帖由 FENG950 于 2006-11-23 14:00 发表
在娱乐平台上难道用通吃型的好吗?
原帖由 Edison 于 2006-11-23 13:37 发表
PPE 是 2-issue,FPU+VMX可以做到12 FLOPS per cycle
原帖由 HardCoded 于 2006-11-23 14:03 发表
呵呵,Conroe怎么样?效能比CELL好,价格比CELL便宜,货源充足.
原帖由 hopetoknow2 于 2006-11-23 14:04 发表
VMX是128bit寄存器, 一MAC指令充其量4个FLOPX2, 2-issue如何12 FLOPS的?
PPE的通用性能就是不行
原帖由 FENG950 于 2006-11-23 14:10 发表
你从哪方面可以认为Conroe比Cell好?比多媒体应用?或是多线程应用?
原帖由 Edison 于 2006-11-23 14:15 发表
PPE的FPU在执行单精度算法的时候,可以做到2D FMA,加上4D的VMX FMA,就是12 FLOPS。
原帖由 HardCoded 于 2006-11-23 14:19 发表
:lol: 呵呵,不排除CELL那种古怪架构在某方面大翻身的可能.
但就指令性能来讲,Conroe可以把他扔出地球.
原帖由 HardCoded 于 2006-11-23 14:19 发表
:lol: 呵呵,不排除CELL那种古怪架构在某方面大翻身的可能.
但就指令性能来讲,Conroe可以把他扔出地球.
原帖由 Edison 于 2006-11-23 13:41 发表
谁告诉你EEMBC不能修改代码的,你当是SEPC CPU?
单个SPE@3.2GHz的telemark是770,你看看需要多少个Conroe凑一个晶体管数量相当的Cell吧。
原帖由 Prescott 于 2006-11-23 14:27 发表
怎么跑起TeleBench来了?你不是开玩笑吧,难道Cell打算退出游戏领域,转战信号处理了?随便找个DSP干这个也比Cell强的多。EMMBC都是嵌入式系统的Benchmark,代码和数据大小都以KB记。
即便是跑TeleBench, ...
原帖由 jgzyinnv 于 2006-11-23 14:34 发表
我看不太懂大家的评论,我只想知道现在的PS3装的CELL性能能强过我的扣肉6300么?
原帖由 HardCoded 于 2006-11-23 14:30 发表
呵呵,作为一个正统的通用处理器,YY浮点是没什么意思的.
CPU架构的精华都在如何提高指令性能上,这才是体现一个CPU艺术性和先进性的地方.像Conroe这样近乎完美的指令性能,足以让同期任何一款CPU服到五体投地.
...

原帖由 Edison 于 2006-11-23 14:37 发表
你需要6300 OC 3GHz + Dual PPU + AISeek Processor才能和CELL比。
原帖由 Prescott 于 2006-11-23 14:41 发表
非常正确,要纯浮点性能是最简单的事情,显卡和ClearSpeed就是典型的例子。如果需要,Conroe再加浮点单元就是,或者SIMD再作长点,搞个512bit的寄存器,这种事情又不是没人做过,有什么意思?
问题是这种浮 ...
原帖由 Edison 于 2006-11-23 14:23 发表
在绝大部分游戏应用中,Conroe都不如Cell,例如物理、音频、视频、基于可视化分析的AI等。
原帖由 Edison 于 2006-11-23 14:44 发表
那就看整数性能好了:
原帖由 Edison 于 2006-11-23 14:44 发表
那就看整数性能好了:
![]()
原帖由 HardCoded 于 2006-11-23 14:30 发表
呵呵,作为一个正统的通用处理器,YY浮点是没什么意思的.
CPU架构的精华都在如何提高指令性能上,这才是体现一个CPU艺术性和先进性的地方.像Conroe这样近乎完美的指令性能,足以让同期任何一款CPU服到五体投地.
...
原帖由 HardCoded 于 2006-11-23 14:53 发表
:loveliness: 玩笑了玩笑了,你这里的整数性能应该是指纯数学运算加减乘除的性能吧?这个真的就没意义了.
原帖由 Edison 于 2006-11-23 15:00 发表
SPE的整数操作除了你说的算术指令外,还有字符串操作、分支操作等其他所有处理器都具备的整数指令能力。
原帖由 HardCoded 于 2006-11-23 15:03 发表
每个SPE单独算,然后乘8??
原帖由 HardCoded 于 2006-11-23 15:03 发表
每个SPE单独算,然后乘8??
原帖由 RacingPHT 于 2006-11-23 15:07 发表
Cell是在图像类应用中现在是没有对手的。
但是作为游戏机的主CPU, 我觉得Cho有些神化Cell了。PS3的内存分级太多, 异构处理器也太多, 想起来就很麻烦。
题外话, PC只需要一个Pentium3 + G80就可以获得数百G fl ...
原帖由 Prescott 于 2006-11-23 14:41 发表
非常正确,要纯浮点性能是最简单的事情,显卡和ClearSpeed就是典型的例子。如果需要,Conroe再加浮点单元就是,或者SIMD再作长点,搞个512bit的寄存器,这种事情又不是没人做过,有什么意思?
问题是这种浮 ...
原帖由 Edison 于 2006-11-23 14:57 发表
这还不容易,拿类似3DMARK06那样的CPU test场景跑跑看就知道了,你可以去看看PD 945和K8 2GHz的3DMAR06 CPU Mark差距是多少。
使用SPE来做物理、AI、音频、加密/解密处理,要比分离的多片PPU、AISeek、声卡、 ...
原帖由 Edison 于 2006-11-23 15:27 发表
80%的预测率所有CPU都可以死掉了,幸好CELL还有XDR,不知道Conroe会如何。
原帖由 potomac 于 2006-11-23 15:21 发表
说的很有道理。
麻烦解释下Xenon中PPU和CELL中PPE的差别。:huh:
原帖由 Edison 于 2006-11-23 14:27 发表
从一开始大家都知道SPE是不具备动态分支预测的吧,但是同时也都应该知道SPE是具备128个寄存器以及能够从分支目标开始预取32条指令的branch hint能力。
原帖由 Edison 于 2006-11-23 14:44 发表
那就看整数性能好了:
![]()
原帖由 Edison 于 2006-11-23 16:13 发表
图片没有完全显示,在图片中最右面图柱是int32。
不过SPE的整数乘法只有16 bit,做32bit乘法的时候需要三条16bit乘法+两条32bit加法。
SPE是由pipeline2执行load/store执行,延迟是7个周期,在不相依的情 ...
原帖由 Edison 于 2006-11-23 14:37 发表
你需要6300 OC 3GHz + Dual PPU + AISeek Processor才能和CELL比。
下面内容有争议:
而且Cell犯了和安腾一样的错,只不过没有鹌鹑那么深:把很多不该由编译器干的活交给了编译器。编译器毕竟是死板的东西啊
每个SPE单元都有本地缓存。
原帖由 hopetoknow2 于 2006-11-23 17:47 发表
EPIC和CELL是两回事情。一个是RISC演生, 一个VLIW演生。
LS所说的东西,他可能自己不知道, 全部可以看成是攻击VLIW。
LS对体系结构极为重大的一个流派VLIW,很不了解, 可以说成是有点不知天外有天了, ...
原帖由 hopetoknow2 于 2006-11-23 17:47 发表
http://we.pcinlife.com/thread-609496-1-1.html
原帖由 Tanknet 于 2006-11-23 18:18 发表
这里面没有讨论IA64或者VLIW的啊? 发错连接了?
原帖由 hopetoknow2 于 2006-11-23 16:51 发表
而且SPE, 好像连Load buffer/Store buffer也都没有。 Load指令和Store指令的实际执行效率, 恐怕经常Stall
原帖由 Edison 于 2006-11-23 19:19 发表
VLIW的代码尺寸成本很高,SPE那点内存可能塞不了几个VLIW包就爆掉了。
原帖由 Edison 于 2006-11-23 19:42 发表
LS离得这么近,你觉得MOB弄多大合适?
原帖由 Edison 于 2006-11-23 20:00 发表
SPE的流水线是in-order的设计,有128个4D SP寄存器,如果把MOB做成Conroe那样成本太高了,性能改善也不见得合理。
| 欢迎光临 POPPUR爱换 (https://we.poppur.com/) | Powered by Discuz! X3.4 |