POPPUR爱换

标题: 双路32核心：推土机性能大公开 [打印本页]

作者: gtx5 时间: 2011-3-23 12:27
标题: 双路32核心：推土机性能大公开
虽然迄今为止仍然没有任何评测媒体获得AMD推土机架构处理器的工程样品，但是合作厂商其实早已经暗中拿到了，评估测试也正在进行之中，就看谁能给泄露出来了。
在刚刚推出的开放式Linux基准性能测试平台OpenBenchmarking.org网站上，推土机就赫然现身了，某家独立的AMD服务器合作伙伴手动提交了它们的测试结果和系统细节。测试处理器被描述为“AMD Eng Sample ZS182045TGG43_28”，属于代号Interlagos的AMD Opteron 6200系列，主频为1.8GHz，Socket G34封装接口，16核心，双路配置就是32核心。

测试系统配置主要有SuperMicro HSDGU主板、AMD RD890+SB800/SB700芯片组、8×8GB内存、希捷ST32000644NS 2TB硬盘、Arch Linux/Ubuntu 10.04操作系统(内核版本2.6.37)等等。

测试结果不少，先来看看对多核心、多线程优化非常到位的C-Ray光线追踪性能。拥有32个核心/线程的推土机平台仅仅用了25.97秒钟就完成测试，相比之下两颗四核心Opteron 2384 2.7GHz(“上海”)耗时长达127.45秒钟，桌面四核心八线程Core i7-2500K 3.3GHz也用了61.65秒钟，六核心十二线程Core i7-970 3.2GHz则是61.74秒钟。

不过推土机还不是最快的，配备四颗Intel Xeon X7550 2.0GHz六核心十二线程处理器的一台戴尔PowerEdge处理器拥有24个核心、48个线程，仅用了13.47秒钟。

Himeno：使用点迭代法解决Poisson线性求解器。推土机平台虽然核心很多，但是因为1.8GHz的主频太低，结果只有88.63MFlops，也就是每秒8863万次浮点计算，甚至还不如第一代移动版Core i3。

Parallel BIZP2并行文件压缩测试：推土机平台表现很不错，只用了6.27秒钟。

SciMark 2科学计算测试：

Stream内存测试：

这就是目前能够确认属实的推土机性能表现了，稍后肯定还会有更多秘密浮现。虽然这里只是服务器端的数据，而且都是在Linux系统下完成的，但总算是第一份来自第三方的独立测试结果，权当管中窥豹吧。

作者: potomac 时间: 2011-3-23 12:37
提示: 作者被禁止或删除内容自动屏蔽

作者: OPPY 时间: 2011-3-23 12:40
本帖最后由 OPPY 于 2011-3-23 12:50 编辑

8模块16核心？这个是不是暂时不会出现在桌面平台？

作者: 043265 时间: 2011-3-23 12:48
Intel Xeon X7550 是8核16线程的 4颗也就是 32核心 64线程

作者: futchi 时间: 2011-3-23 12:49
驱动之家的翻译太差了。。xeon x7550是8核16线程四颗是32核64线程

作者: dennyq 时间: 2011-3-23 12:49
AMD结果是继续悲剧。。。。同频性能离I5，I7比较远。。。

作者: 娃娃脸雪糕 时间: 2011-3-23 12:58
这性能搞不定1156的i5，杯具

作者: Heitai 时间: 2011-3-23 13:32
提示: 作者被禁止或删除内容自动屏蔽

作者: snapstop 时间: 2011-3-23 13:39
杯具了，本来期望还比较大，看来AMD确实是比较适合低端市场

作者: 河蟹万岁 时间: 2011-3-23 13:51
有啥好分析的
32核又不是单核性能的32倍

作者: weee 时间: 2011-3-23 14:08
完全堆核心了，而且这个版本也不是针对桌面市场了

作者: snapstop 时间: 2011-3-23 14:17
哎，AMD也该挣挣气了，INTEL已经寂寞很久了

作者: 骨刺 时间: 2011-3-23 14:19
本帖最后由骨刺于 2011-3-23 14:19 编辑

农民企业将自己的气质展现无虞

作者: phac123 时间: 2011-3-23 14:21
不值得期待

作者: kunnsr 时间: 2011-3-23 14:23
WOW JX3 能支持这么多核心不

说不准 AMD塞点钱给软件商

哇撒推土机再上市真华丽

作者: Jason21 时间: 2011-3-23 15:17
如果成绩好，早就爆出来了

作者: ly7707 时间: 2011-3-23 15:44

Jason21 发表于 2011-3-23 15:17
如果成绩好，早就爆出来了

这句是实话

作者: inSeek 时间: 2011-3-23 15:48
烟雾弹？还是...真的悲剧？

作者: Sirlion 时间: 2011-3-23 16:05
直接引用驱家某评论
Intel Xeon X7550 2.4GHz 8核心 x 4 =32C
AMD Opteron 6200 1.8GHz 16核心 x 2=32C
AMD 25.97秒钟 / Intel 13.47秒钟= 1.928

Intel Xeon (i7) 性能 = 1.928 x [1.8GHz(AMD)/2.4GHz(Intel)]推土机性能
Intel Xeon (i7) 性能 1核心= AMD 1.45 核心推土机性能

Intel i7 (SNB) 核心性能 = 1.15 核心 Intel i7(old) 性能
Intel i7 (SNB) 核心性能 = 1.64 核心 AMD推土机性能

AMD 推土机 ALU性能:
AMD推土机4核心ALU性能 = 61％ Intel i7 SNB 4 核心性能 (100/1.64)
AMD推土机8核心ALU性能 = 122％ Intel i7 SNB 4核心性能 (100/0.82)

AMD 推土机 FPU性能:
AMD推土机4核心FPU性能 = 3x％ Intel i7 SNB 4 核心性能 (100/1.64)
AMD推土机8核心FPU性能 = 6x％ Intel i7 SNB 4核心性能 (100/0.82)

作者: acqwer 时间: 2011-3-23 16:12
推土机 25.97*16*1.8=748
SNB 61.65*4*3.3=814
推土机一个模块超过了SNB一个核心，性能挺不错。

作者: CC9K 时间: 2011-3-23 16:19
与之对比的Xeon是18M L3缓存的，桌面的SNB也没这个性能

而推土机桌面与服务器版缓存是一样的

作者: hoolay 时间: 2011-3-23 16:20
提示: 作者被禁止或删除内容自动屏蔽

作者: CC9K 时间: 2011-3-23 16:23
AMD才16个浮点核心啊

作者: 深谷白云 时间: 2011-3-23 17:22

hoolay 发表于 2011-3-23 16:20
32核心被24核心秒了。。。。。AMD你别这样啊。。。。

4颗Xeon X7550是32核心，这小编的水准……

作者: GTX980 时间: 2011-3-23 17:29

深谷白云发表于 2011-3-23 17:22
4颗Xeon X7550是32核心，这小编的水准……

小编的水准不高，有些人的眼睛也不咋地

作者: xreal 时间: 2011-3-23 18:05
amd估计没戏

作者: xmasjacky 时间: 2011-3-23 18:27
多核性能有所提升，不过仍然不是Intel的对手。单核性能、游戏性能则更加不乐观。

作者: potomac 时间: 2011-3-23 18:41
提示: 作者被禁止或删除内容自动屏蔽

作者: 3332243 时间: 2011-3-23 20:24
提示: 作者被禁止或删除内容自动屏蔽

作者: elisha 时间: 2011-3-23 20:48
32核对32核，速度慢一半啊

作者: gtx5 时间: 2011-3-23 20:49
本帖最后由 gtx5 于 2011-3-23 20:50 编辑

elisha 发表于 2011-3-23 20:48
32核对32核，速度慢一半啊

是32线程对64线程
还有频率都不一样

作者: tangyi1314 时间: 2011-3-23 20:54
提示: 作者被禁止或删除内容自动屏蔽

作者: leon.the.pro 时间: 2011-3-23 20:58
看起来一个模块还不错啊

作者: itany 时间: 2011-3-23 21:43
本帖最后由 itany 于 2011-3-23 22:05 编辑

acqwer 发表于 2011-3-23 16:12
推土机 25.97*16*1.8=748
SNB 61.65*4*3.3=814
推土机一个模块超过了SNB一个核心，性能挺不错。

我算了一下，1.0G单核的性能指数：
Bulldozer - 6.69e-4
Sandy 2500K - 12.29e-4
Sandy 2100 - 12.56e-4

实际上AMD一个模块和2500K的一个核心性能差不多，但是2500K是6M L3缓存，没超线程的。
如果有超线程和8M L3，应该就是打平吧。
那么，考虑两个问题，一个就是4模块已经是现在公布的最高端了，而Sandy Bridge-E将会是6核心和8核心的，在双路平台上边AMD肯定要吃灰的。搞不好还要常年的百分之一位数。
另外一个就是桌面。4模块和大得多的管芯面积和Intel拼频率显然不合时宜，成本也高得多。Intel的4核心对4模块多线程性能就算是打平，单线程性能还是好得多，桌面应用AMD并不讨用户喜欢。另一方面，如果Intel受到威胁，完全可以把IGP砍掉，再赛两个核心进去，彻底铲除Bulldozer完全没有悬念。

作者: ifu 时间: 2011-3-23 21:57
这多线程性能还行，相信AMD不会脑x到把一个模块真当双核卖

作者: 河蟹万岁 时间: 2011-3-23 22:26
本帖最后由河蟹万岁于 2011-3-24 06:07 编辑

............

作者: 冰灵鬼 时间: 2011-3-23 22:30
本帖最后由冰灵鬼于 2011-3-23 22:30 编辑

都没样片出来，这么多专家有多少明确了解推土机怎么执行“单线程”的？！

作者: 河蟹万岁 时间: 2011-3-23 22:36
一个模块
单线程，前端资源会有剩；双线程，整数运算单元资源会有剩。整体来讲，是资源利用度高的方法。
也许因为两个线程的关联性，放到一个模块内部执行，比放到同等资源的两个独立核心执行要快。

作者: itany 时间: 2011-3-23 22:40

河蟹万岁发表于 2011-3-23 22:26
很多人说推土机单线程相比K10性能不强，并非如此，把推土机每模块多出来的那个核当成“大号HT”就好理解了。 ...

一个Bulldozer执行单元就两个ALU，正好对应的救赎双发射的前端，和Bobcat一样，要四发射做什么？
请问？

你举的例子，本来车间的加工能力就是两个生产线，非要按照四个生产线的能力来配上进货设施，能提高生产力么？

什么叫做大号的HT？ HT情况下一个核心全部资源都能投放在一个线程上，而AMD的所谓“模组化”就是两个物理核心共享一个前端，本质上就是两个执行单元，各忙各的，一个线程的情况就会是一个整数核心忙着，另一个闲着。
请勿偷梁换纸好不

作者: itany 时间: 2011-3-23 22:41

冰灵鬼发表于 2011-3-23 22:30
都没样片出来，这么多专家有多少明确了解推土机怎么执行“单线程”的？！

样片没出来？呵呵……

作者: itany 时间: 2011-3-23 22:42

河蟹万岁发表于 2011-3-23 22:36
一个模块
单线程，前端资源会有剩；双线程，整数运算单元资源会有剩。整体来讲，是资源利用度高的方法。
...

直接说单线程和多线程效率都不高就对了。

作者: futchi 时间: 2011-3-23 22:46
本帖最后由 futchi 于 2011-3-23 22:53 编辑

看看stream内存测试成绩就会知道，这台双路8通道内存的服务器问题很大，内存带宽才这些

作者: 河蟹万岁 时间: 2011-3-23 22:46
笑看某楼酸溜溜
我又没跟INTEL比，跟K10比而已。
单线程只能用到前端一半资源，那就没必要绑成一个模块了。
这么做效率是低于单独两个核心的，因为要争抢前端资源。
所以重点是不要单独除以核心数算单线程性能。
算AMD忽视一模块效率低于单独两核心，算INTEL忽视HT效率高于单独一核心，再加上多路效果并不是线性的，怎么算都没法算的。

作者: gtx5 时间: 2011-3-23 22:48

itany 发表于 2011-3-23 21:43
我算了一下，1.0G单核的性能指数：
Bulldozer - 6.69e-4
Sandy 2500K - 12.29e-4

频率差了多少?

作者: itany 时间: 2011-3-23 22:51

gtx5 发表于 2011-3-23 22:48
频率差了多少?

已经除以频率换算成同频了，先看帖再回帖

作者: 河蟹万岁 时间: 2011-3-23 22:53
回复 itany 的帖子

两个ALU两个管线就满足了？
一条供货流水线就满足了一条加工流水线？
照你的理解，改成八核心，每核两发射好了，因为两条ALU只能用到两发射的前端资源。

作者: itany 时间: 2011-3-23 22:55

河蟹万岁发表于 2011-3-23 22:46
笑看某楼酸溜溜
我又没跟INTEL比，跟K10比而已。
单线程只能用到前端一半资源，那就没必要绑成一个模块了 ...

AMD的片上互联根本没法做到共享L3缓存下的8个独立核心，不共用L2怎么行。
既然共用了L2，干脆前端就共用了，可以节省管芯面积。
当年AMD的x6那么大的管芯面积，结果上来就被灭杀，你不得不卖白菜价，教训还不深刻么

作者: 河蟹万岁 时间: 2011-3-23 22:58
回复 itany 的帖子

“HT情况下一个核心全部资源都能投放在一个线程上”，那开了HT，两个线程比单核单线程多出性能是凭空出来的么？

作者: itany 时间: 2011-3-23 22:59

河蟹万岁发表于 2011-3-23 22:53
回复 itany 的帖子

两个ALU两个管线就满足了？

您先把什么是ALU，什么是“管线”搞清楚吧。
您说两个ALU应该对应多少宽度的前端呢？
Atom和Bobcat为啥两个ALU对应2宽度的前端呢？你非要安上4宽度的前端，只是费电而已。

Sandy Bridge3+1的前端对应三个ALU，这才是久经考验的组合

作者: CC9K 时间: 2011-3-23 23:00
本帖最后由 CC9K 于 2011-3-23 23:16 编辑

单线程下发射4条指令，2个对应2个ALU，剩下两个还能给FPU用吧？

作者: itany 时间: 2011-3-23 23:02

河蟹万岁发表于 2011-3-23 22:58
回复 itany 的帖子

“HT情况下一个核心全部资源都能投放在一个线程上”，那开了HT，两个线程比单核单线程多 ...

当然是凭空的，为什么不是凭空的呢？
你知不知道什么叫做相关性？知不知道什么叫做分支预测/内存预读失效引起的流水线阻断？
对于单线程，这些都不是资源不足造成的问题，对于第二个线程来说，这个就是凭空多出来的性能。

可惜的是，对于AMD系统而言，这个并不是“凭空”，而是实实在在的另一个整数单元，在单线程的时候就在哪里发傻，占用了管芯面积和电力。

作者: gtx5 时间: 2011-3-23 23:03
"This thing only measures \'floating point CPU performance\' and
nothing more, and it\'s good that nothing else affects the results.

A real rendering program/scene would be still CPU-limited meaning that
by far the major part of the time spent would be CPU time in the fpu,
but it would have more overhead for disk I/O, shader parsing, more
strain for the memory bandwidth, and various other things.

So it\'s a good approximation being a renderer itself, but it\'s
definitely not representative."

http://www.futuretech.blinkenlights.nl/c-ray.html

作者: 河蟹万岁 时间: 2011-3-23 23:09
回复 itany 的帖子

具体到按摩店为何非要绑成模块，我不清楚。
但所谓双ALU对应两发射不敢苟同，也许双ALU对应2.5个发射的资源，但不可能造出完美没有资源剩余的架构。
你看到的架构中都是多少ALU对应多少发射，也许那种情况是发射端资源紧缺造成的。
比如K10只能造出三发射，就要求ALU能充分利用完这三发射，也许2.5个ALU就够了，但配了3个ALU，资源是有多的，因为必须是整数个。

作者: itany 时间: 2011-3-23 23:16

河蟹万岁发表于 2011-3-23 23:09
回复 itany 的帖子

具体到按摩店为何非要绑成模块，我不清楚。

您真牛，2.5都出来了。
AMD当年为什么要3对3，占用管芯面积和增加绕线的复杂度，就因为AMD的CPU发射调度很傻，而Intel的P6调度很聪明。

作者: 河蟹万岁 时间: 2011-3-23 23:17
回复 itany 的帖子

额。。。HT凭空出资源真是洗脑了，HT以前宣传的都是利用闲置资源，一个线程不可能在每时每刻都把单核全部资源都占的死死的。可能这时对某一部分压力大，某一部分有细微的闲置。

作者: CC9K 时间: 2011-3-23 23:20
另外推土机是单个整数核心是独立4条管线（2个ALU+2个AGU），可以满足吃端口4条指令的情况，K10虽然是3个ALU，但也只有3条管线，每一个ALU和一个AGU绑定共享一条的

作者: 河蟹万岁 时间: 2011-3-23 23:24
回复 itany 的帖子

也许我理解上有误，你的意思是：
一个工厂，不论是生产流水线牛逼还是供货流水线牛逼，都是整合成一条流水线，上游供货，下游生产。
而不是供货的流水线都到一个分配中心，再分配各个生产流水线，以平衡供货和生产的不对等？

今晚洗洗睡了，明天来看。

作者: the_god_of_pig 时间: 2011-3-23 23:26
没准1模块平1核

作者: itany 时间: 2011-3-23 23:26

CC9K 发表于 2011-3-23 23:20
另外推土机是单个整数核心是独立4条管线（2个ALU+2个AGU），可以满足吃端口4条指令的情况，K10虽然是3个ALU ...

管线的宽度使用x86指令来算的，不是用微操作或者宏操作来计算的。
涉及内存操作的x86译码之后就变成两个宏操作分别给ALU和AGU么。
所谓4宽度的前端对应2 ALU+2 AGU的说法是不对的。

作者: hammerking 时间: 2011-3-23 23:30
提示: 作者被禁止或删除内容自动屏蔽

作者: CC9K 时间: 2011-3-24 00:25

itany 发表于 2011-3-23 23:26
管线的宽度使用x86指令来算的，不是用微操作或者宏操作来计算的。
涉及内存操作的x86译码之后就变成两个 ...

你说的是解码器的宽度吧

作者: 冰灵鬼 时间: 2011-3-24 01:12
回复 itany 的帖子

做出来没流出的就是废话了，做当然做出来了，你放块样片上来看看？哪怕样片的评测在哪？

作者: 河蟹万岁 时间: 2011-3-24 06:38
本帖最后由河蟹万岁于 2011-3-24 07:08 编辑

貌似在哪看到过，问会不会因为ALU减少，单核性能下降。
回答是，K10的六个单元本来就有多，五个就够了，为了不重新设计，才成对做了六个。推土机加强了外围，所以只有两对也不比以前差。

作为打酱油的，一ALU是否硬性对应一发射不了解。也许K10要是两个ALU，三发射资源有多；要是三个ALU，ALU资源有多。鉴于发射资源提升困难，K10选择了三ALU。放到推土机上，两ALU可能完成两个发射以上的资源。

如果AMD不推出八核心，每核心两ALU，是因为缓存导致多核协同不好。那干脆推出四核心，每核心四ALU，设计起来还无脑点。上代架构四核到顶，没花工夫优化，硬上六核效率下降，不代表AMD造不出多核协同好的架构。

作者: 河蟹万岁 时间: 2011-3-24 07:05
本帖最后由河蟹万岁于 2011-3-24 07:16 编辑

itany 发表于 2011-3-23 23:02
当然是凭空的，为什么不是凭空的呢？
你知不知道什么叫做相关性？知不知道什么叫做分支预测/内存预读失 ...

似乎你这个“流水线阻断”的时候，某个线程等待，相对就有闲置资源，这个闲置资源这个线程是无法用的，但另一个线程就可以补上？
单车道，原来的车子前后相接，凭空能加塞，车流量还高于一车道？怕是正常情况下有车抛锚了，出现空挡，其他车补上，充分利用车道资源。这是本身固有存在的资源，永动机才叫凭空。

作者: kinno 时间: 2011-3-24 09:29
amd破产吧

作者: cogitata 时间: 2011-3-24 10:15
提示: 作者被禁止或删除内容自动屏蔽

作者: Prescott 时间: 2011-3-24 11:02

cogitata 发表于 2011-3-24 10:15
这个关键点被很多人忽略了

内存测试成绩严重偏低我不否认，但是，动不动就1/20也太夸张了。这个系统STREAM测试都到1xGB/s了，Xeon系统什么时候STREAM能到200GB/s了？最多也就是3xGB/s

作者: ifu 时间: 2011-3-24 11:38

itany 发表于 2011-3-23 22:40
一个Bulldozer执行单元就两个ALU，正好对应的救赎双发射的前端，和Bobcat一样，要四发射做什么？
请问？ ...

很浅显的道理，宽指令发射窗口有助于提高指令执行的并行度。

作者: futchi 时间: 2011-3-24 12:18
本帖最后由 futchi 于 2011-3-24 12:30 编辑

Prescott 发表于 2011-3-24 11:02
内存测试成绩严重偏低我不否认，但是，动不动就1/20也太夸张了。这个系统STREAM测试都到1xGB/s了，Xeon系 ...

每个magny cours处理器都是4通道的，4路16通道ddr3-1333内存的内存带宽当然大得惊人。反观这个8通道ddr3的推土机服务器，内存带宽和普通的双通道台式机差不多。下面有双路magny cours的stream测试，接近50GB/s，四路100GB/s差不多。
http://www.anandtech.com/show/2978/amd-s-12-core-magny-cours-opteron-6174-vs-intel-s-6-core-xeon/5

作者: Prescott 时间: 2011-3-24 12:59
本帖最后由 Prescott 于 2011-3-24 13:00 编辑

futchi 发表于 2011-3-24 12:18
每个magny cours处理器都是4通道的，4路16通道ddr3-1333内存的内存带宽当然大得惊人。反观这个8通道ddr ...

扯蛋！magny cours也是四通道，两个CPU一共八通道，和这个被测试的推土机平台一模一样。magny cours也只跑出了50GB/s不到的带宽，这个是11.5GB/s。哪里有1/10，1/20了？谁告诉你这个是4路平台了！

再怎么找借口，也不能掩盖推土机是个悲剧这个事实。

作者: jk1526 时间: 2011-3-24 14:48
AU悲剧， SB I5还行

作者: futchi 时间: 2011-3-24 15:45

Prescott 发表于 2011-3-24 12:59
扯蛋！magny cours也是四通道，两个CPU一共八通道，和这个被测试的推土机平台一模一样。magny cours也只跑 ...

anandtech的那个是双路的，内存带宽约50GB/s。是双路推土机的4-5倍。

前面提到的那个1/10对比的是phoronix原文给出的四路magny cours opteron 6168平台的成绩，stream超过100GB/s了。

作者: itany 时间: 2011-3-24 17:11

ifu 发表于 2011-3-24 11:38
很浅显的道理，宽指令发射窗口有助于提高指令执行的并行度。

指令发射窗口的大小和译码器的宽度没有必然联系

作者: itany 时间: 2011-3-24 17:13

河蟹万岁发表于 2011-3-24 07:05
似乎你这个“流水线阻断”的时候，某个线程等待，相对就有闲置资源，这个闲置资源这个线程是无法用的， ...

流水线阻断是必然会发生的，“凭空”出来的资源也是必然的。
反观AMD，两个整数核心的资源可以互相利用么？

作者: itany 时间: 2011-3-24 17:14

河蟹万岁发表于 2011-3-24 06:38
貌似在哪看到过，问会不会因为ALU减少，单核性能下降。
回答是，K10的六个单元本来就有多，五个就够了，为 ...

会不会性能下降要看AMD其他方面的改进，比如分支和预读。
我说的是相对于Sandy Bridge的执行资源缺少的问题

作者: xmasjacky 时间: 2011-3-24 18:35

冰灵鬼发表于 2011-3-23 22:30
都没样片出来，这么多专家有多少明确了解推土机怎么执行“单线程”的？！

从测试数据看起来，AMD一个模块的性能和Intel一个不带HT的单核性能接近。
“单线程”一个模块的利用率就算和多线程一样到也仅仅是接近I5的同频性能
AMD工艺落后核心面积大频率大概落后个10%，单线程就算他有一个模块的80%速度，
那么“单线程”性能是I5 2500K的72%左右。

作者: 睡睡平安 时间: 2011-3-24 21:18
看来推土机还不够强不过应该比肥龙的差距小吧

作者: 3332243 时间: 2011-3-24 21:36
提示: 作者被禁止或删除内容自动屏蔽

作者: hammerking 时间: 2011-3-24 22:18
提示: 作者被禁止或删除内容自动屏蔽

作者: PRAM 时间: 2011-3-24 22:40

hammerking 发表于 2011-3-24 22:18
事实？看着严重偏低的内存子系统性能得出推土机悲剧的结论，不是事实，是偏见~

是的，每次都相信AMD比INTEL领先20%的信息的不是事实，是偏见

作者: PRAM 时间: 2011-3-24 22:43

hammerking 发表于 2011-3-24 22:18
事实？看着严重偏低的内存子系统性能得出推土机悲剧的结论，不是事实，是偏见~

AMD以前YY-----------AMD將會在美國時間5/14中午12:01公佈四核心Opteron「Barcelona」，毫無意外的，AMD預定公佈的效能測試，就是之前說過的「SPEC CPU 2006的整數浮點輸出率個別領先21%和50%」，比較基準是兩顆時脈2.6GHz的Opteron 2272SE和兩顆2.66GHz的Xeon DP x5355。

根據AMD的說法，x5355的數據來自4/16登錄在SPEC網站的資料（啊，繼去年在IDF被公開斬首示眾的Sun，這次換Fujitsu倒楣了）：

CINT2006 Rates

Barcelona 2.6GHz（2272SE）x2：104
Clovertown 2.66GHz（x5355）x2：82.2

CFP2006 Rates

Barcelona 2.6GHz（2272SE）x2：92
Clovertown 2.66GHz（x5355）x2：60.6

作者: futchi 时间: 2011-3-24 22:49
本帖最后由 futchi 于 2011-3-24 22:57 编辑

PRAM 发表于 2011-3-24 22:40
是的，每次都相信AMD比INTEL领先20%的信息的不是事实，是偏见

现在推土机性能唯一可信的结果不是这个，而是之前那个四路64核跑蛋白质折叠的那个，找得到运行者，找得到明确出处。

作者: Prescott 时间: 2011-3-24 23:26

hammerking 发表于 2011-3-24 22:18
事实？看着严重偏低的内存子系统性能得出推土机悲剧的结论，不是事实，是偏见~

得出推土机杯具的结论还需要看这个测试？
一个模块能打得过Romley-R平台一个core就算是AMD成功。

作者: hammerking 时间: 2011-3-24 23:32
提示: 作者被禁止或删除内容自动屏蔽

作者: hammerking 时间: 2011-3-24 23:37
提示: 作者被禁止或删除内容自动屏蔽

作者: naze 时间: 2011-3-25 00:07

hammerking 发表于 2011-3-24 23:37
那就mark一下了，8模块interlgos对8核snb-e~

其实你不用mark amd的推土机真能搞过现在市面上的snb
intel早就改变计划第三季度推出8核了而不用慢慢吞吞的丢到四季度才推出
记得锤子王以前x2 vs core2时期留下不少"自我mark被挖的坟消失一段时间来着"的

作者: futchi 时间: 2011-3-25 09:31
本帖最后由 futchi 于 2011-3-25 09:36 编辑

hammerking 发表于 2011-3-24 23:37
那就mark一下了，8模块interlgos对8核snb-e~

貌似intel都不准备出桌面版8核sb-e了。
至于xeon sb-ex 8核，intel并不会把它作为最高端，32nm最高端xeon是10核westmere-ex，这个东西第二季度就要出了，看型号最高端的10核Xeon E7-8870，2.4GHz，高端16核interlagos超过它问题不大。

最后估计是：
interlagos 16核@ 2.xGHz>westmere-ex 10核 xeon E7-8870@2.4GHz > sandy bridge-ex xeon 8核@2.xGHz

作者: Jason21 时间: 2011-3-25 10:09
新一轮YY运动又开始了

作者: PRAM 时间: 2011-3-25 10:10

hammerking 发表于 2011-3-24 23:32
哈哈，你也真够无聊，也真够敬业的~！懒得跟你这样的折腾了~

敬业的是你吧

作者: PRAM 时间: 2011-3-25 10:12

futchi 发表于 2011-3-25 09:31
貌似intel都不准备出桌面版8核sb-e了。
至于xeon sb-ex 8核，intel并不会把它作为最高端，32nm最高端x ...

留下原话，到时候看

作者: potomac 时间: 2011-3-25 12:24
提示: 作者被禁止或删除内容自动屏蔽

作者: futchi 时间: 2011-3-25 15:00
本帖最后由 futchi 于 2011-3-25 15:01 编辑

potomac 发表于 2011-3-25 12:24
A能超过intel的10C么?

k10.5单核同频性能是westmere的70%左右，12核magny cours@ 2.3GHz相比于10核westmere @ 2.4GHz：
70%x(2.3/2.4)x(12/10)=0.8
12核magny cours约为westemere 10核性能的80%。

按amd自己的说法，16核interlagos是12核magny cours的1.5倍，那么16核interlagos是westmere 10核性能的120%

作者: Prescott 时间: 2011-3-25 15:49

futchi 发表于 2011-3-25 15:00
k10.5单核同频性能是westmere的70%左右，12核magny cours@ 2.3GHz相比于10核westmere @ 2.4GHz：
70%x ...

YY请自便。

作者: 河蟹万岁 时间: 2011-3-25 15:51
既然以此数据算出来AMD一个模块等于INTEL一个核
正常结果啊，这里测的是浮点，AMD一个模块里有两个整数单元一个浮点单元。
有啥好激动的

作者: yoyofuture88 时间: 2011-3-25 17:02
AMD 要赶上单核心性能，谈何容易？？？

作者: the_god_of_pig 时间: 2011-3-25 17:37

Prescott 发表于 2011-3-24 23:26
得出推土机杯具的结论还需要看这个测试？
一个模块能打得过Romley-R平台一个core就算是AMD成功。

感觉1模块能平1核对AMD来说就足够了，就是桌面游戏性能什么的悲剧点

作者: acqwer 时间: 2011-3-25 22:16

futchi 发表于 2011-3-25 15:00
k10.5单核同频性能是westmere的70%左右，12核magny cours@ 2.3GHz相比于10核westmere @ 2.4GHz：
70%x ...

up to 50%和50%是2个概念，如果算up to的话，Core2 Nahelem SNB的提升幅度都可以写up to 100%

作者: 花泥 时间: 2011-3-25 23:09
amd取名叫推土机什么意思?推土机就是速度慢力量大啊,又没错

作者: 深谷白云 时间: 2011-3-25 23:35

acqwer 发表于 2011-3-25 22:16
up to 50%和50%是2个概念，如果算up to的话，Core2 Nahelem SNB的提升幅度都可以写up to 100%

John Fruehe August 5, 2010
A 50% increase on top of the 80–120% that we just delivered with Magny Cours

作者: hammerking 时间: 2011-3-25 23:51
提示: 作者被禁止或删除内容自动屏蔽

欢迎光临 POPPUR爱换 (https://we.poppur.com/)