POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
楼主: Prescott
打印 上一主题 下一主题

RWT: Nehalem详解

[复制链接]
头像被屏蔽
21#
发表于 2008-4-4 23:24 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

头像被屏蔽
22#
发表于 2008-4-4 23:36 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

23#
发表于 2008-4-4 23:36 | 只看该作者
看来桌面平台提升不会很大,有点失望:ermm:
回复 支持 反对

使用道具 举报

头像被屏蔽
24#
发表于 2008-4-4 23:50 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

25#
发表于 2008-4-5 00:13 | 只看该作者
原帖由 larrabee 于 2008-4-4 23:36 发表
很多并行程序是fork-join型spmd,也就是说各个处理器上的线程并非毫无关系,而是有父子、兄弟关系,指令有很大重复。结果是所有核心的L2中都充满了相同的内容,L2越大浪费越大,而核心有可能仍然饥渴。所以还不如象n ...


的确可能是相同的指令创建几个线程到不同的核心上执行,但是别忘了这些线程的数据集并不相同。L2跟L1不一样,除了缓存指令还要缓存数据的
回复 支持 反对

使用道具 举报

26#
发表于 2008-4-5 00:15 | 只看该作者
原帖由 GZboy 于 2008-4-4 23:50 发表


如果是这样直接取消L3,SHARE L2不是会更好吗?


四个物理核心,八个逻辑核心,如狼似虎,如果就共享256bit的L2总线位宽,那是憋的相当难受啊
回复 支持 反对

使用道具 举报

27#
发表于 2008-4-5 13:28 | 只看该作者
L2真的好小。另外,不知是否已经出样了?
回复 支持 反对

使用道具 举报

28#
发表于 2008-4-5 13:56 | 只看该作者
原帖由 lacri 于 2008-4-5 13:28 发表
L2真的好小。另外,不知是否已经出样了?


http://we.pcinlife.com/thread-911350-1-3.html
回复 支持 反对

使用道具 举报

29#
发表于 2008-4-5 14:06 | 只看该作者



原帖由 lacri 于 2008-4-5 13:28 发表
L2真的好小。另外,不知是否已经出样了?
回复 支持 反对

使用道具 举报

30#
发表于 2008-4-5 14:07 | 只看该作者
啧啧。
:lol:

原帖由 larrabee 于 2008-4-4 23:36 发表
很多并行程序是fork-join型spmd,也就是说各个处理器上的线程并非毫无关系,而是有父子、兄弟关系,指令有很大重复。结果是所有核心的L2中都充满了相同的内容,L2越大浪费越大,而核心有可能仍然饥渴。所以还不如象nehalem这样4*256k+8M的方式,这是比较适合高性能计算的设计。相反如果8个线程毫无关系,那么大L2设计的penryn及其胶水4核更有利些。也许intel认为桌面计算双核心就足够了,而且,很有可能,nehalem对penryn的桌面性能提高也就仅仅是来自集成内存控制器的贡献,类似于从k7到k8。
回复 支持 反对

使用道具 举报

31#
发表于 2008-4-5 14:09 | 只看该作者
L1延迟增加了可以飙频率嘛,呵呵。

原帖由 itany 于 2008-4-4 17:39 发表
呵呵,P大没有说L1延迟增加了1周期…… 并不是都是好事啊
还有Nehalem把循环检测缓冲从译码器前边移到了后边,Tracing Cache又复活了……
本来预期Nehalem能拓宽取指宽度的,现在也没有变化,看来是白YY了

现 ...
回复 支持 反对

使用道具 举报

32#
发表于 2008-4-5 14:12 | 只看该作者
smt对于fp  rate能有多少贡献啊,老P给泄点嘛。

原帖由 Prescott 于 2008-4-4 20:46 发表
单线程性能绝大多数要高过现在的Penry,当然也会有例外。
很多HPC程序的性能真的是很吓人。
回复 支持 反对

使用道具 举报

33#
发表于 2008-4-5 22:16 | 只看该作者
期待版上出现测试成绩 :lol:
回复 支持 反对

使用道具 举报

头像被屏蔽
34#
发表于 2008-4-5 22:36 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

35#
发表于 2008-4-5 22:57 | 只看该作者
原帖由 larrabee 于 2008-4-5 22:36 发表
安照RWT的分析,引入三通道是因为SMT带来的对带宽的需求,那么三通道就应付不了原生8核心16线程:双通道都满足不了4核心,三通道怎么能满足8核心呢。intel何不引入xdr2呢?那才是完美的处理器。


上边说Nehalem-EX八核心是Xeon MP,搭配四通道FB-DIMM DDR3的
另外,个人觉得说为了SMT才配备的三通道完全是胡说
Dunnington 6核心,四插座加起来才四通道FB-DIMM 667,带宽才21GB/s,每个插座才5GB/s;Nehalem单个插座就已经32GB/s;Nehalem-EX每个插座43GB/s。Nehalem-EX平均每个核心是Dunnington带宽的6倍!
显然并不仅仅是给超线程准备的
个人觉得是给Sandy Bridge这样下一代怪兽预留的带宽,这一代未必能充分利用,毕竟一个插座要用好几年的,向DDR4过渡还为时尚早
回复 支持 反对

使用道具 举报

36#
发表于 2008-4-5 23:57 | 只看该作者
矢量机达到这个带宽是1996年,nec sx-4。
sigh.


原帖由 itany 于 2008-4-5 22:57 发表
上边说Nehalem-EX八核心是Xeon MP,搭配四通道FB-DIMM DDR3的
另外,个人觉得说为了SMT才配备的三通道完全是胡说
Dunnington 6核心,四插座加起来才四通道FB-DIMM 667,带宽才21GB/s,每个插座才5GB/s;Nehale ...
回复 支持 反对

使用道具 举报

贵族蓝翼 该用户已被删除
37#
发表于 2008-4-6 00:02 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

38#
发表于 2008-4-6 01:00 | 只看该作者
和AMD的结构有点像,不约而同?
回复 支持 反对

使用道具 举报

头像被屏蔽
39#
发表于 2008-4-6 01:13 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

40#
发表于 2008-4-6 01:21 | 只看该作者
原帖由 larrabee 于 2008-4-6 01:13 发表
呵呵,虽然说永远总是下一个更好,但有些东西很经典,nehalem天生就注定了是经典。

优化课程中,注意simd操作数的内存对齐是标准内容,但现在也不必了。刚刚看到,nehalem对非对齐的sse擦作数的延迟与对齐的一样, ...


想想Sandy Bridge的256位AVX指令集,就心潮澎湃啊
而且万一Intel心血来潮,把Larrabee也插到Xeon的洞洞里呢? :lol:

Nehalem的最大历史贡献,应该就是为了未来若干年奠定了系统结构上的坚实基础ba

[ 本帖最后由 itany 于 2008-4-6 01:22 编辑 ]
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2024-11-7 17:56

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表