POPPUR爱换

标题: 45nm双路至强specfp_rate成绩大幅提高30% [打印本页]

作者: Prescott 时间: 2007-11-12 17:25
标题: 45nm双路至强specfp_rate成绩大幅提高30%
Harpertown specfp_rate_2006成绩相比Clovertown大幅提高30%，击败2.5GHz的Barcelona。
AMD还有什么？最后一个可YY的阵地也没有了。Power6，你也要小心了，嘿嘿。

[ 本帖最后由 Prescott 于 2007-11-12 17:37 编辑 ]

作者: Prescott 时间: 2007-11-12 17:29

General Purpose Server - Integer Throughput Performance

General Purpose Server - Integer Speed Performance

Technical Computing Server - Floating Point Speed Performance

eCommerce Application Performance

Database Server Performance

Enterprise Resource Planning Performance

作者: Kayv 时间: 2007-11-12 17:48
E5472是DUAL还是QUAD？如果是DUAL的话，那也太恐怖鸟。

QUAD的话，那命名规则就搞不懂了。

作者: acqwer 时间: 2007-11-12 17:52
AMD明明还有四路的fp_rate可以yy，而且可以比比同频性能什么的。

作者: Edison 时间: 2007-11-12 17:59
AMD可以憋一个3.GHz的K10出来挡一下。

作者: the_god_of_pig 时间: 2007-11-12 18:06
实在不行还可以YY一下内存带宽:p

作者: 鲁爾 时间: 2007-11-12 18:22
进来看看……:shifty:

作者: potomac 时间: 2007-11-12 18:43
提示: 作者被禁止或删除内容自动屏蔽

作者: itany 时间: 2007-11-12 19:36
额外增加的缓存终于发威了……
呵呵

作者: ITANIUM2 时间: 2007-11-12 19:58
:lol: 好强啊, Nehalem 啥时候出来?

作者: elisha 时间: 2007-11-12 20:17
Snoop filter的作用？

作者: boris_lee 时间: 2007-11-13 01:37

原帖由 Kayv 于 2007-11-12 17:48 发表
E5472是DUAL还是QUAD？如果是DUAL的话，那也太恐怖鸟。

QUAD的话，那命名规则就搞不懂了。

QUAD,看CACHE就知道了 2X6MB
貌似核心数是看第二位的。

作者: bessel 时间: 2007-11-13 18:56
这个是好消息阿。

原帖由 Prescott 于 2007-11-12 17:25 发表
Harpertown specfp_rate_2006成绩相比Clovertown大幅提高30%，击败2.5GHz的Barcelona。
AMD还有什么？最后一个可YY的阵地也没有了。Power6，你也要小心了，嘿嘿。

http://www.intel.com/performance/server/i/xe ...

作者: Prescott 时间: 2007-11-13 19:36

原帖由 itany 于 2007-11-12 19:36 发表
额外增加的缓存终于发威了……
呵呵

主要是1600FSB，缓存派不上太大的用处。

作者: 来不及思考 时间: 2007-11-13 19:51
提示: 作者被禁止或删除内容自动屏蔽

作者: acqwer 时间: 2007-11-13 20:00

原帖由 Prescott 于 2007-11-13 19:36 发表

主要是1600FSB，缓存派不上太大的用处。

5472已经是1600FSB了吗，四路的也快跟上吧。

作者: Prescott 时间: 2007-11-13 20:32

原帖由 acqwer 于 2007-11-13 20:00 发表

5472已经是1600FSB了吗，四路的也快跟上吧。

是的。
四路一向比双路慢半年。而且永远不会有1600的四路的。

作者: Edison 时间: 2007-11-14 02:09

原帖由 来不及思考 于 2007-11-13 19:51 发表
这下内存带宽也没得YY了
继续YY 4路吧
明年CSI出来被抄家 :whistling:

CSI的一致性解决方案似乎不如Hypertransport来得好。

作者: itany 时间: 2007-11-14 10:27

原帖由 Prescott 于 2007-11-13 19:36 发表

主要是1600FSB，缓存派不上太大的用处。

不好意思，忘了FSB 1600 :sweatingbullets:

作者: itany 时间: 2007-11-14 10:31

原帖由 Edison 于 2007-11-14 02:09 发表

CSI的一致性解决方案似乎不如Hypertransport来得好。

毕竟HTT在前，QPI在后，Intel没有采用类似AMD的MEOSI协议应该也是经过仔细考虑和分析的，就像Intel没有采用SOI一样

作者: ITANIUM2 时间: 2007-11-14 10:31
RWT 对CSI 评价很高啊

作者: HardCoded 时间: 2007-11-14 10:35

原帖由 来不及思考 于 2007-11-13 19:51 发表
这下内存带宽也没得YY了

继续YY 4路吧

明年CSI出来被抄家 :whistling:

:lol: 都在等CSI，AMD确实太不济了。

作者: samhrc 时间: 2007-11-14 10:49
Crime Scene Investigation 这名字太有才了 :w00t):

俺在等CSI第七季。

作者: Prescott 时间: 2007-11-14 11:09

原帖由 Edison 于 2007-11-14 02:09 发表

CSI的一致性解决方案似乎不如Hypertransport来得好。

这个你就彻底弄错了，Nehalem的可扩展性比Barcelona要强得多。如果实现没有问题，绝对不会出现象是Opteron平台那样4路效率大幅下降的问题。

不要忘记CSI是要给Itanium用的，而Itanium是要有512 socket甚至更大系统的。

作者: Prescott 时间: 2007-11-14 11:12

原帖由 samhrc 于 2007-11-14 10:49 发表
Crime Scene Investigation 这名字太有才了 :w00t):

俺在等CSI第七季。

第七集高清版都看完了，现在都第八季了

http://www.verycd.com/groups/@g19053/74508.topic

[ 本帖最后由 Prescott 于 2007-11-14 11:20 编辑 ]

作者: itany 时间: 2007-11-14 13:09

原帖由 Prescott 于 2007-11-14 11:09 发表

这个你就彻底弄错了，Nehalem的可扩展性比Barcelona要强得多。如果实现没有问题，绝对不会出现象是Opteron平台那样4路效率大幅下降的问题。

不要忘记CSI是要给Itanium用的，而Itanium是要有512 socket甚至更大系 ...

貌似4路的Op现在只能做成环型的连接，而不能每两点之间都能直接连接吧
这样HT 3.0实现每两点之间的连接之后能能会有所改善吧

作者: shike_cuke 时间: 2007-11-14 14:07
是INTEL越来越厉害,还是AMD越来越差劲???????

作者: samhrc 时间: 2007-11-14 14:14

原帖由 Prescott 于 2007-11-14 11:12 发表

第七集高清版都看完了，现在都第八季了

http://www.verycd.com/groups/@g19053/74508.topic

俺是买盘的，不下电驴。11家合用一个ADSL，没法下啊。:p

作者: Prescott 时间: 2007-11-14 15:42

原帖由 itany 于 2007-11-14 13:09 发表

貌似4路的Op现在只能做成环型的连接，而不能每两点之间都能直接连接吧
这样HT 3.0实现每两点之间的连接之后能能会有所改善吧

HT3.0会点对点直连？那样的改动很大啊。而且要改处理器设计，很麻烦的哦。

作者: 罗菜鸟 时间: 2007-11-14 22:42
不看好CSI或者HT，松耦合的，至少4~16个核心共享一个内存控制器，我们实验室现在在做这个方面的验证哈，用的并行总线。
超过16个核心可以采用松耦合

作者: Prescott 时间: 2007-11-14 22:51

原帖由 罗菜鸟 于 2007-11-14 22:42 发表
不看好CSI或者HT，松耦合的，至少4~16个核心共享一个内存控制器，我们实验室现在在做这个方面的验证哈，用的并行总线。
超过16个核心可以采用松耦合

:funk:
这年头。。。。。。你看好什么啊？

作者: bessel 时间: 2007-11-15 00:03
哇塞

:thumbsup:

原帖由 罗菜鸟 于 2007-11-14 22:42 发表
不看好CSI或者HT，松耦合的，至少4~16个核心共享一个内存控制器，我们实验室现在在做这个方面的验证哈，用的并行总线。
超过16个核心可以采用松耦合

作者: 罗菜鸟 时间: 2007-11-15 11:52

原帖由 Prescott 于 2007-11-14 22:51 发表

:funk:
这年头。。。。。。你看好什么啊？

多核封装到一起，利用高速并行总线直接访问共用的内存地址

作者: Prescott 时间: 2007-11-15 12:10

原帖由 罗菜鸟 于 2007-11-15 11:52 发表

多核封装到一起，利用高速并行总线直接访问共用的内存地址

你知道自己在说什么吗？

作者: 罗菜鸟 时间: 2007-11-15 12:43

原帖由 Prescott 于 2007-11-15 12:10 发表

你知道自己在说什么吗？

什么说什么？

作者: AMD11 时间: 2007-11-15 13:05

原帖由 罗菜鸟 于 2007-11-14 22:42 发表
不看好CSI或者HT，松耦合的，至少4~16个核心共享一个内存控制器，我们实验室现在在做这个方面的验证哈，用的并行总线。
超过16个核心可以采用松耦合

又遇上超强人:thumbsup:

作者: itany 时间: 2007-11-15 13:09

原帖由 罗菜鸟 于 2007-11-15 11:52 发表

多核封装到一起，利用高速并行总线直接访问共用的内存地址

如此“密耦合”，真是太有才了！

作者: potomac 时间: 2007-11-15 13:19
提示: 作者被禁止或删除内容自动屏蔽

作者: Prescott 时间: 2007-11-15 13:35

原帖由 罗菜鸟 于 2007-11-15 12:43 发表

什么说什么？

Pentium D就是你说的这样做的，只不过只是封了两个core而已。

[ 本帖最后由 Prescott 于 2007-11-15 13:36 编辑 ]

作者: 罗菜鸟 时间: 2007-11-15 14:15

原帖由 Prescott 于 2007-11-15 13:35 发表

Pentium D就是你说的这样做的，只不过只是封了两个core而已。

我是说还有L3缓存，内存控制器全部封在一起，象SLOTE封装那种，内存控制器与每个核心都有至少256bit与CPU同主频的频率运行。你没有编过程序吗？

作者: itany 时间: 2007-11-15 14:24

原帖由 罗菜鸟 于 2007-11-15 14:15 发表

我是说还有L3缓存，内存控制器全部封在一起，象SLOTE封装那种，内存控制器与每个核心都有至少256bit与CPU同主频的频率运行。你没有编过程序吗？

为什么不把内存直接封装了?

作者: Prescott 时间: 2007-11-15 14:27

原帖由 罗菜鸟 于 2007-11-15 14:15 发表

我是说还有L3缓存，内存控制器全部封在一起，象SLOTE封装那种，内存控制器与每个核心都有至少256bit与CPU同主频的频率运行。你没有编过程序吗？

我没有编过程序。:funk:
我怀疑你是不是适合学习理工科。

你这样无非就是加个板载的L3，然后把主板做小点，芯片焊死在主板上。

[ 本帖最后由 Prescott 于 2007-11-15 14:33 编辑 ]

作者: bessel 时间: 2007-11-15 16:03
你被娱乐了，哈哈。

原帖由 Prescott 于 2007-11-15 14:27 发表

我没有编过程序。:funk:
我怀疑你是不是适合学习理工科。

你这样无非就是加个板载的L3，然后把主板做小点，芯片焊死在主板上。

作者: 罗菜鸟 时间: 2007-11-15 18:19

原帖由 Prescott 于 2007-11-15 14:27 发表

我没有编过程序。:funk:
我怀疑你是不是适合学习理工科。

你这样无非就是加个板载的L3，然后把主板做小点，芯片焊死在主板上。

不是板载L3，而是把L3和多个核心封装在一起，可以将通讯频率做得很高。
你既然编过程序，应该知道指令与数据在内存中是有连续性的，内存操作基本上是对数组的操作。
内存控制器和L3集成到一起，L3足够大，以CPU每个指令周期寻址寻址16bit（只考虑偏移地址，不考虑段地址的），也就是64KB为一个单位，L3可以做1K个单位的容量。内存控制器将处理器段地址请求的起使地址中的数据映射到L3中，L3中每个64K的单位映射主内存中相应的内存地址。对于CPU来说只能访问L3，而L3中的协处理器才能访问主内存。

作者: 罗菜鸟 时间: 2007-11-15 18:20

原帖由 itany 于 2007-11-15 14:24 发表

为什么不把内存直接封装了?

SRAM和DRAM的成本问题

作者: Prescott 时间: 2007-11-15 18:35

原帖由 罗菜鸟 于 2007-11-15 18:19 发表

不是板载L3，而是把L3和多个核心封装在一起，可以将通讯频率做得很高。
你既然编过程序，应该知道指令与数据在内存中是有连续性的，内存操作基本上是对数组的操作。
内存控制器和L3集成到一起，L3足够大，以CPU每 ...

在你空想之前，请先学习基础知识，千万不要以为自己比这个世界上成千上万的教授博士硕士体系架构师资深工程师更有创意。

知道的越多，越会觉得自己无知。反之亦然。

作者: wodaoo 时间: 2007-11-15 18:52
“知道的越多，越会觉得自己无知。反之亦然”
顶这句，深有同感:thumbsup:

现在很好奇C2D后下一代会是什么样子有什么特点

作者: 罗菜鸟 时间: 2007-11-15 18:54
你就牛逼？你就知道的多？你不就一个在intel打工的，真正的核心技术估计你也接触不到

作者: Prescott 时间: 2007-11-15 18:57

原帖由 罗菜鸟 于 2007-11-15 18:54 发表
你就牛逼？你就知道的多？你不就一个在intel打工的，真正的核心技术估计你也接触不到

但起码我知道自己很无知。

作者: potomac 时间: 2007-11-15 18:59
提示: 作者被禁止或删除内容自动屏蔽

作者: 罗菜鸟 时间: 2007-11-15 19:05

原帖由 Prescott 于 2007-11-15 18:35 发表

在你空想之前，请先学习基础知识，千万不要以为自己比这个世界上成千上万的教授博士硕士体系架构师资深工程师更有创意。

知道的越多，越会觉得自己无知。反之亦然。

至少我仿真过，技术上没有问题。
2个ARM7的核，2个NIOS2，都能仿真，操作系统ucOS

[ 本帖最后由罗菜鸟于 2007-11-15 19:06 编辑 ]

作者: Prescott 时间: 2007-11-15 19:19

原帖由 罗菜鸟 于 2007-11-15 19:05 发表

至少我仿真过，技术上没有问题。
2个ARM7的核，2个NIOS2，都能仿真，操作系统ucOS

我有说过不可行吗？
你去看看Core, Barcelona各个处理核心之间如何互联的吧，基本原理一样，但是要考虑的问题却要多得多，复杂的多得多。
你的言论就如同自己做了个模型飞机，然后就开始不看好B-2的设计。

作者: 4X4 时间: 2007-11-15 19:21
:lol: 老P的确牛B。

作者: Prescott 时间: 2007-11-15 19:23

原帖由 wodaoo 于 2007-11-15 18:52 发表
“知道的越多，越会觉得自己无知。反之亦然”
顶这句，深有同感:thumbsup:

现在很好奇C2D后下一代会是什么样子有什么特点

Nehalem？把互联做到尽量完美。

[ 本帖最后由 Prescott 于 2007-11-15 19:24 编辑 ]

作者: 罗菜鸟 时间: 2007-11-15 19:23

原帖由 Prescott 于 2007-11-15 19:19 发表

我有说过不可行吗？
你去看看Core, Barcelona各个处理核心之间如何互联的吧，基本原理一样，但是要考虑的问题却要多得多，复杂的多得多。
你的言论就如同自己做了个模型飞机，然后就开始不看好B-2的设计。

任何系统设计都是在性能和成本之间权衡的

作者: Prescott 时间: 2007-11-15 19:32

原帖由 罗菜鸟 于 2007-11-15 19:23 发表

任何系统设计都是在性能和成本之间权衡的

呵呵，你的所谓的带L3的内存控制器如何实现的？

是不是这个L3提供两组接口？分别连接两个ARM7？ARM7过来的地址到L3中查？命中了就直接把数据传过去？

作者: complexmind 时间: 2007-11-15 20:01

原帖由 Prescott 于 2007-11-15 06:35 PM 发表

在你空想之前，请先学习基础知识，千万不要以为自己比这个世界上成千上万的教授博士硕士体系架构师资深工程师更有创意。

知道的越多，越会觉得自己无知。反之亦然。

顶这一句，，，，，，，:) :)

作者: 罗菜鸟 时间: 2007-11-15 22:47

原帖由 Prescott 于 2007-11-15 19:32 发表

呵呵，你的所谓的带L3的内存控制器如何实现的？

是不是这个L3提供两组接口？分别连接两个ARM7？ARM7过来的地址到L3中查？命中了就直接把数据传过去？

2片16K的SRAM，两片ARM7，一片Altera cyclone，一条64MB的SDRAM

作者: 排骨饭 时间: 2007-11-15 23:41
为何罗教授不去INTEL或者AMD任职？如果去龙芯，估计可以称霸全球~:thumbsup:

作者: Prescott 时间: 2007-11-15 23:42

原帖由 罗菜鸟 于 2007-11-15 22:47 发表

2片16K的SRAM，两片ARM7，一片Altera cyclone，一条64MB的SDRAM

一个简单问题：ARM7内部是有8K的数据缓存的（如果我没记错的话）。如果ARM7(0)缓存了地址A上的数据，ARM(1)要更新地址A上的数据（也就是写），你是如何通知ARM(0)地址A上的数据被其他处理器改动了的？或者直白一点：缓存一致性你是如何实现的。
貌似ARM7的cache是write-through的，倒是省了你不少事。

[ 本帖最后由 Prescott 于 2007-11-15 23:46 编辑 ]

作者: itany 时间: 2007-11-15 23:51

原帖由 罗菜鸟 于 2007-11-15 22:47 发表

2片16K的SRAM，两片ARM7，一片Altera cyclone，一条64MB的SDRAM

两片ARM7+64M的 SDRAM阿
和CS考试时考如何用ALU来软件实现FPU貌似没有什么本质的区别阿

作者: 罗菜鸟 时间: 2007-11-16 11:48

原帖由 Prescott 于 2007-11-15 23:42 发表

一个简单问题：ARM7内部是有8K的数据缓存的（如果我没记错的话）。如果ARM7(0)缓存了地址A上的数据，ARM(1)要更新地址A上的数据（也就是写），你是如何通知ARM(0)地址A上的数据被其他处理器改动了的？或者直白一点 ...

缓存一致控制是做在FPGA上面的，我老师做的FPGA上面的控制算法，我只是打下手的。

作者: Prescott 时间: 2007-11-16 12:34

原帖由 罗菜鸟 于 2007-11-16 11:48 发表

缓存一致控制是做在FPGA上面的，我老师做的FPGA上面的控制算法，我只是打下手的。

ARM7的总线定义哪里有？我找不到。如果总线中根本没有定义保证缓存一致性协议的信号，你在FPGA上也没法做任何事情。

你所谓的这个东西，只不过是一个最基本的共享三级缓存原型而已，任何一个实际的实现都比这个复杂不知道多少倍。你连别人怎么实现的都不知道，就敢随便BS。先去看看Power4/5/6，Conroe的二级缓存，Barcelona的三级缓存，甚至任何一个共享缓存的实现再来BS他们。或者更基本点，先去看懂已经有几十年历史的FSB吧。

[ 本帖最后由 Prescott 于 2007-11-16 12:49 编辑 ]

作者: kisazhu 时间: 2007-11-16 12:55
技术贴啊......:loveliness:

作者: wl00560 时间: 2007-11-16 19:28
好深奥，看不懂啊:funk:

作者: dreamz3 时间: 2008-12-20 01:17
看不懂{wink:]

作者: Xcivic 时间: 2008-12-20 03:47
我靠...一年前的帖子都被LS挖出来了...
等Nehalem EP发布吧...AMD就该输光了

作者: bobtom_wu 时间: 2008-12-20 11:56

原帖由 itany 于 2007-11-14 10:31 发表

毕竟HTT在前，QPI在后，Intel没有采用类似AMD的MEOSI协议应该也是经过仔细考虑和分析的，就像Intel没有采用SOI一样

应该是你“经过仔细考虑和分析的”吧，如果你能代表intel，你这么说也没什么不可以。

欢迎光临 POPPUR爱换 (https://we.poppur.com/)