POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
查看: 5411|回复: 50
打印 上一主题 下一主题

Nehalem看来确实并不是为了游戏设计的

[复制链接]
跳转到指定楼层
1#
发表于 2008-8-19 22:47 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式


What Nehalem is really about
Date: August 19th, 2008
Author: Johan De Gelas

As IDF has started, the first benchmarks of Nehalem will probably pop up. It is without a doubt an impressive architecture that gets a much better platform to run on, but this CPU is not about giving you better frames per second in your favorite game than the Penryn family. Let me make that more clear: even when the GPU is not the bottleneck, it is likely that most games will not significantly faster than on Penryn. We, the people behind it.anandtech.com will probably have the most fun with it, more than your favorite review crew at Anandtech.com :-). And no, I have not seen any tests before I type this. Nehalem is about improving HPC, Database and virtualization performance, much less about gaming performance. Maybe this will change once games get some heavy physics threads, but not right away.

Why? Most Games are about fast caches and super integer performance. After all, most of the Floating point action is already happening on the GPU. All Core 2 CPUs were a huge step forward in integer performance (not in the least because of memory disambiguation) compared to the CPUs of that time (P4 and K8). Nehalem is only a small step forward in integer performance. And the gains due to slightly increased integer performance are mostly negated by the new cache system. In a previous post I told you that most games really like the huge L2 of the Core family. With Nehalem they are getting a 32 KB L1 with a 4 cycle latency, next a very small (compared to the older Intel CPUs) 256 KB L2 cache with 12 cycle latency and after that a pretty slow 40 cycle 8 MB L3.  When running on Penryn, they used to get a 3 cycle L1 and a 14 cycle 6144 KB L2. That is a 24 times larger L2 than Nehalem!


The percentage of L2 caches misses of most games running on a Penryn CPU is extremely low. Now that is going to change. The integrated memory controller of Nehalem can't help much, as the fact remains that the L3 is slow and the L2 is small.


But that doesn't mean Intel made a bad choice. Intel made a superbly good choice by improving the performance where Core (Merom/Penryn) was mediocre to good. Penryn was already a magnificent gaming CPU,  but it could not beat the AMD competitor in HPC benchmarks. And AMD gave good resistance in the database performance benchmarks. That is all going to change.


Most Database code can not use the wide architecture of Penryn very well. The number of instructions per cycle get lower than 0.5 and waiting for the memory is the most probably cause. SMT or Hyperthreading can do wonders here: while one thread waits for a memory stall, the other thread continues working and vice versa.


Secondly, quad (and eight) socket performance is going to improve  a lot as four Nehalems only have to keep four L3 in sync, while a similar Tigerton system has to keep 8 L2 caches in sync. That is why the cache system is perfect for server performance, but a little less interesting for gaming performance.


The massive bandwidth that the integrated tri-channel memory controller delivers will do wonders for HPC code. And the new TLB architecture with EPT will make Nehalem shine compared to it's older Core brothers.


No, Nehalem was made to please the IT and HPC people. Bring it to it.anandtech.com, it is not that interesting for you gamers ;-)
2#
发表于 2008-8-19 22:54 | 只看该作者
游戏差点不是BUG吗?按理说集成MC在游戏方面的性能应该快不少才是,有K7->K8的例子
回复 支持 反对

使用道具 举报

3#
 楼主| 发表于 2008-8-19 23:05 | 只看该作者
文中指出,Nehalem更多的是关心高性能计算、虚拟化、数据库的应用。游戏的性能和处理器的整数性能密切相关。在处理器核心架构上,Nehalem相对于Penryn的改进并不多,而在这方面Penryn做的非常好,这不仅仅是内存消歧技术的引进,在分支、执行宽度等方面都相对于上一代处理器有着质的飞跃。在缓存结构上,Penryn巨大的L2缓存使得命中率非常的高,整个内存访问体系是非常有效的。Nehalem的L1缓存延迟从3增加到4,L2缓存大幅度减少到256KB,较大的L3缓存延迟达到40周期,对于整数执行,都是很大的退步,即使是集成了内存控制器也没有办法找回。在核心上的改进所带来的整数性能增益很大程度的都被缓存所抵消了。

但是对于数据库的访问来说,很多时候每周期执行的指令只有0.5条,Penryn的高执行宽度没法发挥,就是在等内存的数据。这个时候集成内存控制器会发挥明显的作用,而且超线程在一个线程由于内存访问阻塞的时候还能执行另一个线程,使得CPU能够充分被利用。在多CPU的时候,Nehalem的缓存同步也有了革命性的进步。在高性能计算上,三通道的DDR3内存和新的TLB结构都将带来性能的大幅度提升。

所以,Nehalem是取悦HPC用户和商业用户的,并不是为了游戏玩家服务的
回复 支持 反对

使用道具 举报

4#
 楼主| 发表于 2008-8-19 23:07 | 只看该作者
原帖由 china17 于 2008-8-19 22:54 发表
游戏差点不是BUG吗?按理说集成MC在游戏方面的性能应该快不少才是,有K7->K8的例子


相对于K7,K8的L2没有缩水,反而在带宽上增强了
这个只能说是Core 2的L2太强大了! 属于“空前绝后”的
回复 支持 反对

使用道具 举报

5#
发表于 2008-8-19 23:09 | 只看该作者
从那个测试结果看绝对有bug{blush:]

anandtech也会逗你玩{lol:] {lol:] {lol:]
回复 支持 反对

使用道具 举报

6#
发表于 2008-8-19 23:10 | 只看该作者
原帖由 itany 于 2008-8-19 23:07 发表


相对于K7,K8的L2没有缩水,反而在带宽上增强了
这个只能说是Core 2的L2太强大了! 属于“空前绝后”的

不过才256K的L2是不是太强了点,功耗控制出了问题?
回复 支持 反对

使用道具 举报

7#
发表于 2008-8-19 23:11 | 只看该作者
于是不用换板了,真好:wub:
回复 支持 反对

使用道具 举报

8#
 楼主| 发表于 2008-8-19 23:11 | 只看该作者
现在要看Intel怎么处理普通消费级的Lynnfield和Havendale了
  是把现在的Nehalem的缓存结构照搬过去;
  还是做成类似于Core2的形式,砍掉L3,还做成大L2;
  抑或是和明年中期开始过渡到32nm相结合,直接上512KB L2的版本
回复 支持 反对

使用道具 举报

9#
 楼主| 发表于 2008-8-19 23:13 | 只看该作者
原帖由 the_god_of_pig 于 2008-8-19 23:09 发表
从那个测试结果看绝对有bug{blush:]

anandtech也会逗你玩{lol:] {lol:] {lol:]


我也认为BUG存在,但是现在想想,已经不指望性能明显提升了
回复 支持 反对

使用道具 举报

头像被屏蔽
10#
发表于 2008-8-19 23:14 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

11#
 楼主| 发表于 2008-8-19 23:14 | 只看该作者
原帖由 china17 于 2008-8-19 23:10 发表

不过才256K的L2是不是太强了点,功耗控制出了问题?


我认为不是功耗的问题,Intel的L2功耗控制是相当出色的,想想Core Duo的缓存电源优化……
我认为还是核心面积的限制,和不想拖了频率的后退

别忘了Intel的缓存架构是蕴含型的,L2的东西都在L3里边,这样L3的容量要和L2有个合适的比例,就像L1和L2一样
如果L2增加了,L3也是要增加,这样加起来就没边了,面积会大的可怕,频率也上不去了

[ 本帖最后由 itany 于 2008-8-19 23:16 编辑 ]
回复 支持 反对

使用道具 举报

12#
发表于 2008-8-19 23:17 | 只看该作者
原帖由 itany 于 2008-8-19 23:05 发表
文中指出,Nehalem更多的是关心高性能计算、虚拟化、数据库的应用。游戏的性能和处理器的整数性能密切相关。在处理器核心架构上,Nehalem相对于Penryn的改进并不多,而在这方面Penryn做的非常好,这不仅仅是内存消歧 ...


当时看见这文章时就觉得是作者瞎侃{lol:]

IMC的提升在游戏里应该很明显{victory:]

一次Cache击失就损失N多周期,内存延迟绝对是U跑游戏的大瓶颈{wink:]
回复 支持 反对

使用道具 举报

13#
 楼主| 发表于 2008-8-19 23:26 | 只看该作者
原帖由 the_god_of_pig 于 2008-8-19 23:17 发表


当时看见这文章时就觉得是作者瞎侃{lol:]
IMC的提升在游戏里应该很明显{victory:]
一次Cache击失就损失N多周期,内存延迟绝对是U跑游戏的大瓶颈{wink:]


但是原来Cache命中率非常高
Penryn访问L2就可以命中,只要16(?记不清了)周期,而Nehalem要不时访问L3,要40周期,这是一个损失;而且L1命中的时候Nehalem还要多损失1周期,这个可能会起到很大的作用。

就像Tom's 说的,如果Nehalem不是为了冲高频,把L1延迟设成4,是很愚蠢的,应该马上改回来……
回复 支持 反对

使用道具 举报

14#
发表于 2008-8-19 23:31 | 只看该作者
775的周期可以适当延长了?{wink:]
回复 支持 反对

使用道具 举报

15#
发表于 2008-8-19 23:35 | 只看该作者
原帖由 itany 于 2008-8-19 23:26 发表


但是原来Cache命中率非常高
Penryn访问L2就可以命中,只要16(?记不清了)周期,而Nehalem要不时访问L3,要40周期,这是一个损失;而且L1命中的时候Nehalem还要多损失1周期,这个可能会起到很大的作用。

就 ...
你只要知道,最好的architecture,不在Tom,而在Intel
回复 支持 反对

使用道具 举报

16#
 楼主| 发表于 2008-8-19 23:36 | 只看该作者
原帖由 烦着呢 于 2008-8-19 23:31 发表
775的周期可以适当延长了?{wink:]


已经比最早的路线图延长了一个季度以上了……
回复 支持 反对

使用道具 举报

17#
发表于 2008-8-19 23:36 | 只看该作者
拜读了Anand的Johan De Gelas的观点, 该小编向来很客观,例如,K10强大论. 尤其是HPC与数据库,K10无敌论.

结论是nehalem为了避免继续落后于K10而设计的.

而游戏性能就差多了,仅仅是与penryn几乎相同.

另外,他忘了说,SMT还会导致本来应该在2个不同核心上执行的游戏程序,运行在单核的SMT上, 还可能来带性能倒退. 游戏测试需要关闭SMT.
回复 支持 反对

使用道具 举报

18#
 楼主| 发表于 2008-8-19 23:42 | 只看该作者
原帖由 gaiban 于 2008-8-19 23:36 发表
拜读了Anand的Johan De Gelas的观点, 该小编向来很客观,例如,K10强大论. 尤其是HPC与数据库,K10无敌论.

结论是nehalem为了避免继续落后于K10而设计的.
而游戏性能就差多了,仅仅是与penryn几乎相同.
另 ...


在某些HPC和多数数据库应用上,K10确实有优势……
至于无敌,怎么可能?

不过,貌似Win XP和Vista可以区分SMT和物理内核,并将任务优先分配给物理内核上,而不是先分配给同物理内核的逻辑内核
超线程影响游戏性能这一点完全站不住脚
回复 支持 反对

使用道具 举报

19#
发表于 2008-8-19 23:45 | 只看该作者
原帖由 itany 于 2008-8-19 23:26 发表


但是原来Cache命中率非常高
Penryn访问L2就可以命中,只要16(?记不清了)周期,而Nehalem要不时访问L3,要40周期,这是一个损失;而且L1命中的时候Nehalem还要多损失1周期,这个可能会起到很大的作用。

就 ...


其实这些改动的影响都是要靠对指令架构XX年的分析积累才能得出的,所以很难判定到底是什么情况(intel当然能搞定啦{lol:] )

个人印象中无论cache咋样内存延迟都是最致命的{lol:]
回复 支持 反对

使用道具 举报

20#
发表于 2008-8-19 23:49 | 只看该作者
要注意的是,那个测试是B0 步进的


原帖由 itany 于 2008-8-19 23:13 发表


我也认为BUG存在,但是现在想想,已经不指望性能明显提升了
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-8-19 02:48

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表