原帖由 itany 于 2008-4-4 19:40 发表
Nehalem应该不会不如Core2的,废材的地方就是缓存容量变小了么,不过延迟也变小了啊,L3的延迟其实也不大了,Prescott的L2延迟也就是这个水平啊
原帖由 GZboy 于 2008-4-4 20:19 发表
这个要看缓存的命中和延迟
如果拼命追求低延迟而把 L2 做的太小就会导至大量数据都要从L3里获取,这样效率不一定拼得过 大L2+较高的延迟的组合
现在的CORE2是 14C
原帖由 larrabee 于 2008-4-4 23:36 发表
很多并行程序是fork-join型spmd,也就是说各个处理器上的线程并非毫无关系,而是有父子、兄弟关系,指令有很大重复。结果是所有核心的L2中都充满了相同的内容,L2越大浪费越大,而核心有可能仍然饥渴。所以还不如象n ...
原帖由 larrabee 于 2008-4-4 23:36 发表
很多并行程序是fork-join型spmd,也就是说各个处理器上的线程并非毫无关系,而是有父子、兄弟关系,指令有很大重复。结果是所有核心的L2中都充满了相同的内容,L2越大浪费越大,而核心有可能仍然饥渴。所以还不如象nehalem这样4*256k+8M的方式,这是比较适合高性能计算的设计。相反如果8个线程毫无关系,那么大L2设计的penryn及其胶水4核更有利些。也许intel认为桌面计算双核心就足够了,而且,很有可能,nehalem对penryn的桌面性能提高也就仅仅是来自集成内存控制器的贡献,类似于从k7到k8。
原帖由 itany 于 2008-4-4 17:39 发表
呵呵,P大没有说L1延迟增加了1周期…… 并不是都是好事啊
还有Nehalem把循环检测缓冲从译码器前边移到了后边,Tracing Cache又复活了……
本来预期Nehalem能拓宽取指宽度的,现在也没有变化,看来是白YY了
现 ...
原帖由 larrabee 于 2008-4-5 22:36 发表
安照RWT的分析,引入三通道是因为SMT带来的对带宽的需求,那么三通道就应付不了原生8核心16线程:双通道都满足不了4核心,三通道怎么能满足8核心呢。intel何不引入xdr2呢?那才是完美的处理器。
原帖由 itany 于 2008-4-5 22:57 发表
上边说Nehalem-EX八核心是Xeon MP,搭配四通道FB-DIMM DDR3的
另外,个人觉得说为了SMT才配备的三通道完全是胡说
Dunnington 6核心,四插座加起来才四通道FB-DIMM 667,带宽才21GB/s,每个插座才5GB/s;Nehale ...
原帖由 larrabee 于 2008-4-6 01:13 发表
呵呵,虽然说永远总是下一个更好,但有些东西很经典,nehalem天生就注定了是经典。
优化课程中,注意simd操作数的内存对齐是标准内容,但现在也不必了。刚刚看到,nehalem对非对齐的sse擦作数的延迟与对齐的一样, ...
欢迎光临 POPPUR爱换 (https://we.poppur.com/) | Powered by Discuz! X3.4 |