RWT: Nehalem详解

GZboy · 发表于 2008-4-4 23:24

提示: 作者被禁止或删除内容自动屏蔽

larrabee · 发表于 2008-4-4 23:36

提示: 作者被禁止或删除内容自动屏蔽

Katmai · 发表于 2008-4-4 23:36

看来桌面平台提升不会很大，有点失望:ermm:

GZboy · 发表于 2008-4-4 23:50

提示: 作者被禁止或删除内容自动屏蔽

itany · 发表于 2008-4-5 00:13

原帖由 larrabee 于 2008-4-4 23:36 发表
很多并行程序是fork-join型spmd，也就是说各个处理器上的线程并非毫无关系，而是有父子、兄弟关系，指令有很大重复。结果是所有核心的L2中都充满了相同的内容，L2越大浪费越大，而核心有可能仍然饥渴。所以还不如象n ...

的确可能是相同的指令创建几个线程到不同的核心上执行，但是别忘了这些线程的数据集并不相同。L2跟L1不一样，除了缓存指令还要缓存数据的

itany · 发表于 2008-4-5 00:15

原帖由 GZboy 于 2008-4-4 23:50 发表

如果是这样直接取消L3，SHARE L2不是会更好吗？

四个物理核心，八个逻辑核心，如狼似虎，如果就共享256bit的L2总线位宽，那是憋的相当难受啊

lacri · 发表于 2008-4-5 13:28

L2真的好小。另外，不知是否已经出样了？

itany · 发表于 2008-4-5 13:56

原帖由 lacri 于 2008-4-5 13:28 发表
L2真的好小。另外，不知是否已经出样了？

http://we.pcinlife.com/thread-911350-1-3.html

bessel · 发表于 2008-4-5 14:06

原帖由 lacri 于 2008-4-5 13:28 发表
L2真的好小。另外，不知是否已经出样了？

bessel · 发表于 2008-4-5 14:07

啧啧。
:lol:

原帖由 larrabee 于 2008-4-4 23:36 发表
很多并行程序是fork-join型spmd，也就是说各个处理器上的线程并非毫无关系，而是有父子、兄弟关系，指令有很大重复。结果是所有核心的L2中都充满了相同的内容，L2越大浪费越大，而核心有可能仍然饥渴。所以还不如象nehalem这样4*256k+8M的方式，这是比较适合高性能计算的设计。相反如果8个线程毫无关系，那么大L2设计的penryn及其胶水4核更有利些。也许intel认为桌面计算双核心就足够了，而且，很有可能，nehalem对penryn的桌面性能提高也就仅仅是来自集成内存控制器的贡献，类似于从k7到k8。

bessel · 发表于 2008-4-5 14:09

L1延迟增加了可以飙频率嘛，呵呵。

原帖由 itany 于 2008-4-4 17:39 发表
呵呵，P大没有说L1延迟增加了1周期…… 并不是都是好事啊
还有Nehalem把循环检测缓冲从译码器前边移到了后边，Tracing Cache又复活了……
本来预期Nehalem能拓宽取指宽度的，现在也没有变化，看来是白YY了

现 ...

bessel · 发表于 2008-4-5 14:12

smt对于fp rate能有多少贡献啊，老P给泄点嘛。

原帖由 Prescott 于 2008-4-4 20:46 发表
单线程性能绝大多数要高过现在的Penry，当然也会有例外。
很多HPC程序的性能真的是很吓人。

ITANIUM2 · 发表于 2008-4-5 22:16

期待版上出现测试成绩 :lol:

larrabee · 发表于 2008-4-5 22:36

提示: 作者被禁止或删除内容自动屏蔽

itany · 发表于 2008-4-5 22:57

原帖由 larrabee 于 2008-4-5 22:36 发表
安照RWT的分析，引入三通道是因为SMT带来的对带宽的需求，那么三通道就应付不了原生8核心16线程：双通道都满足不了4核心，三通道怎么能满足8核心呢。intel何不引入xdr2呢？那才是完美的处理器。

上边说Nehalem-EX八核心是Xeon MP，搭配四通道FB-DIMM DDR3的
另外，个人觉得说为了SMT才配备的三通道完全是胡说
Dunnington 6核心，四插座加起来才四通道FB-DIMM 667，带宽才21GB/s，每个插座才5GB/s；Nehalem单个插座就已经32GB/s；Nehalem-EX每个插座43GB/s。Nehalem-EX平均每个核心是Dunnington带宽的6倍！
显然并不仅仅是给超线程准备的
个人觉得是给Sandy Bridge这样下一代怪兽预留的带宽，这一代未必能充分利用，毕竟一个插座要用好几年的，向DDR4过渡还为时尚早

bessel · 发表于 2008-4-5 23:57

矢量机达到这个带宽是1996年,nec sx-4。
sigh.

原帖由 itany 于 2008-4-5 22:57 发表
上边说Nehalem-EX八核心是Xeon MP，搭配四通道FB-DIMM DDR3的
另外，个人觉得说为了SMT才配备的三通道完全是胡说
Dunnington 6核心，四插座加起来才四通道FB-DIMM 667，带宽才21GB/s，每个插座才5GB/s；Nehale ...

只看该作者 · 发表于 2008-4-6 00:02

提示: 作者被禁止或删除内容自动屏蔽

agooday · 发表于 2008-4-6 01:00

和AMD的结构有点像，不约而同？

larrabee · 发表于 2008-4-6 01:13

提示: 作者被禁止或删除内容自动屏蔽

itany · 发表于 2008-4-6 01:21

原帖由 larrabee 于 2008-4-6 01:13 发表
呵呵，虽然说永远总是下一个更好，但有些东西很经典，nehalem天生就注定了是经典。

优化课程中，注意simd操作数的内存对齐是标准内容，但现在也不必了。刚刚看到，nehalem对非对齐的sse擦作数的延迟与对齐的一样， ...

想想Sandy Bridge的256位AVX指令集，就心潮澎湃啊
而且万一Intel心血来潮，把Larrabee也插到Xeon的洞洞里呢？ :lol:

Nehalem的最大历史贡献，应该就是为了未来若干年奠定了系统结构上的坚实基础ba

[ 本帖最后由 itany 于 2008-4-6 01:22 编辑 ]

帐号		自动登录	找回密码
密码			注册

GZboy GZboy 当前离线积分 19 IP卡狗仔卡头像被屏蔽	21^# 发表于 2008-4-4 23:24 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
GZboy GZboy 当前离线积分 19 IP卡狗仔卡头像被屏蔽
	回复支持反对使用道具举报显身卡

larrabee larrabee 当前离线积分 2 IP卡狗仔卡头像被屏蔽	22^# 发表于 2008-4-4 23:36 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
larrabee larrabee 当前离线积分 2 IP卡狗仔卡头像被屏蔽
	回复支持反对使用道具举报显身卡

GZboy GZboy 当前离线积分 19 IP卡狗仔卡头像被屏蔽	24^# 发表于 2008-4-4 23:50 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
GZboy GZboy 当前离线积分 19 IP卡狗仔卡头像被屏蔽
	回复支持反对使用道具举报显身卡

larrabee larrabee 当前离线积分 2 IP卡狗仔卡头像被屏蔽	34^# 发表于 2008-4-5 22:36 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
larrabee larrabee 当前离线积分 2 IP卡狗仔卡头像被屏蔽
	回复支持反对使用道具举报显身卡

贵族蓝翼该用户已被删除	37^# 发表于 2008-4-6 00:02 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
贵族蓝翼该用户已被删除
	回复支持反对使用道具举报显身卡

larrabee larrabee 当前离线积分 2 IP卡狗仔卡头像被屏蔽	39^# 发表于 2008-4-6 01:13 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
larrabee larrabee 当前离线积分 2 IP卡狗仔卡头像被屏蔽
	回复支持反对使用道具举报显身卡

RWT: Nehalem详解

浏览过的版块