POPPUR爱换

标题: Nehalem看来确实并不是为了游戏设计的 [打印本页]

作者: itany    时间: 2008-8-19 22:47
标题: Nehalem看来确实并不是为了游戏设计的


What Nehalem is really about
Date: August 19th, 2008
Author: Johan De Gelas

As IDF has started, the first benchmarks of Nehalem will probably pop up. It is without a doubt an impressive architecture that gets a much better platform to run on, but this CPU is not about giving you better frames per second in your favorite game than the Penryn family. Let me make that more clear: even when the GPU is not the bottleneck, it is likely that most games will not significantly faster than on Penryn. We, the people behind it.anandtech.com will probably have the most fun with it, more than your favorite review crew at Anandtech.com :-). And no, I have not seen any tests before I type this. Nehalem is about improving HPC, Database and virtualization performance, much less about gaming performance. Maybe this will change once games get some heavy physics threads, but not right away.

Why? Most Games are about fast caches and super integer performance. After all, most of the Floating point action is already happening on the GPU. All Core 2 CPUs were a huge step forward in integer performance (not in the least because of memory disambiguation) compared to the CPUs of that time (P4 and K8). Nehalem is only a small step forward in integer performance. And the gains due to slightly increased integer performance are mostly negated by the new cache system. In a previous post I told you that most games really like the huge L2 of the Core family. With Nehalem they are getting a 32 KB L1 with a 4 cycle latency, next a very small (compared to the older Intel CPUs) 256 KB L2 cache with 12 cycle latency and after that a pretty slow 40 cycle 8 MB L3.  When running on Penryn, they used to get a 3 cycle L1 and a 14 cycle 6144 KB L2. That is a 24 times larger L2 than Nehalem!


The percentage of L2 caches misses of most games running on a Penryn CPU is extremely low. Now that is going to change. The integrated memory controller of Nehalem can't help much, as the fact remains that the L3 is slow and the L2 is small.


But that doesn't mean Intel made a bad choice. Intel made a superbly good choice by improving the performance where Core (Merom/Penryn) was mediocre to good. Penryn was already a magnificent gaming CPU,  but it could not beat the AMD competitor in HPC benchmarks. And AMD gave good resistance in the database performance benchmarks. That is all going to change.


Most Database code can not use the wide architecture of Penryn very well. The number of instructions per cycle get lower than 0.5 and waiting for the memory is the most probably cause. SMT or Hyperthreading can do wonders here: while one thread waits for a memory stall, the other thread continues working and vice versa.


Secondly, quad (and eight) socket performance is going to improve  a lot as four Nehalems only have to keep four L3 in sync, while a similar Tigerton system has to keep 8 L2 caches in sync. That is why the cache system is perfect for server performance, but a little less interesting for gaming performance.


The massive bandwidth that the integrated tri-channel memory controller delivers will do wonders for HPC code. And the new TLB architecture with EPT will make Nehalem shine compared to it's older Core brothers.


No, Nehalem was made to please the IT and HPC people. Bring it to it.anandtech.com, it is not that interesting for you gamers ;-)
作者: china17    时间: 2008-8-19 22:54
游戏差点不是BUG吗?按理说集成MC在游戏方面的性能应该快不少才是,有K7->K8的例子
作者: itany    时间: 2008-8-19 23:05
文中指出,Nehalem更多的是关心高性能计算、虚拟化、数据库的应用。游戏的性能和处理器的整数性能密切相关。在处理器核心架构上,Nehalem相对于Penryn的改进并不多,而在这方面Penryn做的非常好,这不仅仅是内存消歧技术的引进,在分支、执行宽度等方面都相对于上一代处理器有着质的飞跃。在缓存结构上,Penryn巨大的L2缓存使得命中率非常的高,整个内存访问体系是非常有效的。Nehalem的L1缓存延迟从3增加到4,L2缓存大幅度减少到256KB,较大的L3缓存延迟达到40周期,对于整数执行,都是很大的退步,即使是集成了内存控制器也没有办法找回。在核心上的改进所带来的整数性能增益很大程度的都被缓存所抵消了。

但是对于数据库的访问来说,很多时候每周期执行的指令只有0.5条,Penryn的高执行宽度没法发挥,就是在等内存的数据。这个时候集成内存控制器会发挥明显的作用,而且超线程在一个线程由于内存访问阻塞的时候还能执行另一个线程,使得CPU能够充分被利用。在多CPU的时候,Nehalem的缓存同步也有了革命性的进步。在高性能计算上,三通道的DDR3内存和新的TLB结构都将带来性能的大幅度提升。

所以,Nehalem是取悦HPC用户和商业用户的,并不是为了游戏玩家服务的
作者: itany    时间: 2008-8-19 23:07
原帖由 china17 于 2008-8-19 22:54 发表
游戏差点不是BUG吗?按理说集成MC在游戏方面的性能应该快不少才是,有K7->K8的例子


相对于K7,K8的L2没有缩水,反而在带宽上增强了
这个只能说是Core 2的L2太强大了! 属于“空前绝后”的
作者: the_god_of_pig    时间: 2008-8-19 23:09
从那个测试结果看绝对有bug{blush:]

anandtech也会逗你玩{lol:] {lol:] {lol:]
作者: china17    时间: 2008-8-19 23:10
原帖由 itany 于 2008-8-19 23:07 发表


相对于K7,K8的L2没有缩水,反而在带宽上增强了
这个只能说是Core 2的L2太强大了! 属于“空前绝后”的

不过才256K的L2是不是太强了点,功耗控制出了问题?
作者: Rssc    时间: 2008-8-19 23:11
于是不用换板了,真好:wub:
作者: itany    时间: 2008-8-19 23:11
现在要看Intel怎么处理普通消费级的Lynnfield和Havendale了
  是把现在的Nehalem的缓存结构照搬过去;
  还是做成类似于Core2的形式,砍掉L3,还做成大L2;
  抑或是和明年中期开始过渡到32nm相结合,直接上512KB L2的版本
作者: itany    时间: 2008-8-19 23:13
原帖由 the_god_of_pig 于 2008-8-19 23:09 发表
从那个测试结果看绝对有bug{blush:]

anandtech也会逗你玩{lol:] {lol:] {lol:]


我也认为BUG存在,但是现在想想,已经不指望性能明显提升了
作者: 1empress    时间: 2008-8-19 23:14
提示: 作者被禁止或删除 内容自动屏蔽
作者: itany    时间: 2008-8-19 23:14
原帖由 china17 于 2008-8-19 23:10 发表

不过才256K的L2是不是太强了点,功耗控制出了问题?


我认为不是功耗的问题,Intel的L2功耗控制是相当出色的,想想Core Duo的缓存电源优化……
我认为还是核心面积的限制,和不想拖了频率的后退

别忘了Intel的缓存架构是蕴含型的,L2的东西都在L3里边,这样L3的容量要和L2有个合适的比例,就像L1和L2一样
如果L2增加了,L3也是要增加,这样加起来就没边了,面积会大的可怕,频率也上不去了

[ 本帖最后由 itany 于 2008-8-19 23:16 编辑 ]
作者: the_god_of_pig    时间: 2008-8-19 23:17
原帖由 itany 于 2008-8-19 23:05 发表
文中指出,Nehalem更多的是关心高性能计算、虚拟化、数据库的应用。游戏的性能和处理器的整数性能密切相关。在处理器核心架构上,Nehalem相对于Penryn的改进并不多,而在这方面Penryn做的非常好,这不仅仅是内存消歧 ...


当时看见这文章时就觉得是作者瞎侃{lol:]

IMC的提升在游戏里应该很明显{victory:]

一次Cache击失就损失N多周期,内存延迟绝对是U跑游戏的大瓶颈{wink:]
作者: itany    时间: 2008-8-19 23:26
原帖由 the_god_of_pig 于 2008-8-19 23:17 发表


当时看见这文章时就觉得是作者瞎侃{lol:]
IMC的提升在游戏里应该很明显{victory:]
一次Cache击失就损失N多周期,内存延迟绝对是U跑游戏的大瓶颈{wink:]


但是原来Cache命中率非常高
Penryn访问L2就可以命中,只要16(?记不清了)周期,而Nehalem要不时访问L3,要40周期,这是一个损失;而且L1命中的时候Nehalem还要多损失1周期,这个可能会起到很大的作用。

就像Tom's 说的,如果Nehalem不是为了冲高频,把L1延迟设成4,是很愚蠢的,应该马上改回来……
作者: 烦着呢    时间: 2008-8-19 23:31
775的周期可以适当延长了?{wink:]
作者: elisha    时间: 2008-8-19 23:35
原帖由 itany 于 2008-8-19 23:26 发表


但是原来Cache命中率非常高
Penryn访问L2就可以命中,只要16(?记不清了)周期,而Nehalem要不时访问L3,要40周期,这是一个损失;而且L1命中的时候Nehalem还要多损失1周期,这个可能会起到很大的作用。

就 ...
你只要知道,最好的architecture,不在Tom,而在Intel
作者: itany    时间: 2008-8-19 23:36
原帖由 烦着呢 于 2008-8-19 23:31 发表
775的周期可以适当延长了?{wink:]


已经比最早的路线图延长了一个季度以上了……
作者: gaiban    时间: 2008-8-19 23:36
拜读了Anand的Johan De Gelas的观点, 该小编向来很客观,例如,K10强大论. 尤其是HPC与数据库,K10无敌论.

结论是nehalem为了避免继续落后于K10而设计的.

而游戏性能就差多了,仅仅是与penryn几乎相同.

另外,他忘了说,SMT还会导致本来应该在2个不同核心上执行的游戏程序,运行在单核的SMT上, 还可能来带性能倒退. 游戏测试需要关闭SMT.
作者: itany    时间: 2008-8-19 23:42
原帖由 gaiban 于 2008-8-19 23:36 发表
拜读了Anand的Johan De Gelas的观点, 该小编向来很客观,例如,K10强大论. 尤其是HPC与数据库,K10无敌论.

结论是nehalem为了避免继续落后于K10而设计的.
而游戏性能就差多了,仅仅是与penryn几乎相同.
另 ...


在某些HPC和多数数据库应用上,K10确实有优势……
至于无敌,怎么可能?

不过,貌似Win XP和Vista可以区分SMT和物理内核,并将任务优先分配给物理内核上,而不是先分配给同物理内核的逻辑内核
超线程影响游戏性能这一点完全站不住脚
作者: the_god_of_pig    时间: 2008-8-19 23:45
原帖由 itany 于 2008-8-19 23:26 发表


但是原来Cache命中率非常高
Penryn访问L2就可以命中,只要16(?记不清了)周期,而Nehalem要不时访问L3,要40周期,这是一个损失;而且L1命中的时候Nehalem还要多损失1周期,这个可能会起到很大的作用。

就 ...


其实这些改动的影响都是要靠对指令架构XX年的分析积累才能得出的,所以很难判定到底是什么情况(intel当然能搞定啦{lol:] )

个人印象中无论cache咋样内存延迟都是最致命的{lol:]
作者: ITANIUM2    时间: 2008-8-19 23:49
要注意的是,那个测试是B0 步进的


原帖由 itany 于 2008-8-19 23:13 发表


我也认为BUG存在,但是现在想想,已经不指望性能明显提升了

作者: Prescott    时间: 2008-8-19 23:50
原帖由 itany 于 2008-8-19 23:26 发表


但是原来Cache命中率非常高
Penryn访问L2就可以命中,只要16(?记不清了)周期,而Nehalem要不时访问L3,要40周期,这是一个损失;而且L1命中的时候Nehalem还要多损失1周期,这个可能会起到很大的作用。

就 ...

那你根本没法解释为什么Nehalem的superpi比Penry快
作者: 1empress    时间: 2008-8-20 00:28
提示: 作者被禁止或删除 内容自动屏蔽
作者: zaknafein    时间: 2008-8-20 00:30
我希望havendale能沿用用penryn的缓存设计, lynnfield还是老样子吧...
作者: itany    时间: 2008-8-20 00:30
原帖由 Prescott 于 2008-8-19 23:50 发表

那你根本没法解释为什么Nehalem的superpi比Penry快


要解释还是能解释的,我可以说PI在Nehalem的二级分支预测和Tracing Cache中的获益相当大,以至于抵消了缓存的影响,还有一定的盈余
但是游戏没有获得这么多提升,以至于性能没什么提高
就像Yonah到Conroe,整数性能提升PI比游戏更明显一样。毕竟游戏程序的规模更大,PI的规模比较小啊

但是我知道这样事后解释一点意思都没有 :unsure:

既然您来了,何不一锤定音,游戏性能到底有多大的提升呢?
说了我们就放心了,也省的瞎猜了,猜错了还可能惨遭挖坟
我原来就是预期Nehalem游戏性能会有大幅度提升的……

[ 本帖最后由 itany 于 2008-8-20 00:32 编辑 ]
作者: gaiban    时间: 2008-8-20 01:01
 p4e跑superpi就比p4c快. 而游戏却要慢于p4c.
作者: gaiban    时间: 2008-8-20 01:02
原帖由 itany 于 2008-8-19 23:42 发表


在某些HPC和多数数据库应用上,K10确实有优势……
至于无敌,怎么可能?

不过,貌似Win XP和Vista可以区分SMT和物理内核,并将任务优先分配给物理内核上,而不是先分配给同物理内核的逻辑内核
超线程影响游 ...

  它们已经如此先进了? 看来需要刮目相看了.
作者: 铁道虫    时间: 2008-8-20 01:06
我是进来学习的。。。大家好强!!!小弟鞠拜之~!{cry:]
作者: gaiban    时间: 2008-8-20 01:07
Anand的观点,一定要Anand Lal Shimpi亲自出马才能定音.  Johan De Gelas喜欢猜啊猜的.
而游戏性能提升幅度肯定比压片要低, 基本可以定调.
作者: gaiban    时间: 2008-8-20 01:17
原帖由 itany 于 2008-8-20 00:30 发表


要解释还是能解释的,我可以说PI在Nehalem的二级分支预测和Tracing Cache中的获益相当大,以至于抵消了缓存的影响,还有一定的盈余
但是游戏没有获得这么多提升,以至于性能没什么提高
就像Yonah到Conroe,整数 ...

请问Tracing Cache是P4吧? nehalem哪有Tracing Cache?   
  游戏性能差很可能是因为流水线变长的原因. 还有你说的L1延迟4,L2又太小.
  还有nehalem有8MB的cache,而penryn双核cache是6MB, 所以superpi会快一些.
  而penryn要开始热销了, nehalem的游戏性能哪有penryn更强.  要是还限制了中低端超频能力,就哭去吧.
作者: zuiniubi    时间: 2008-8-20 02:24
其实这帮人就知道些皮毛
真正进入到核心实质的问题全傻
作者: Prescott    时间: 2008-8-20 09:07
原帖由 1empress 于 2008-8-20 00:28 发表


请问Prescott兄上次show固态硬盘的帖子地址   我搜索不到

http://we.pcinlife.com/thread-978831-1-3.html
作者: itany    时间: 2008-8-20 09:18
原帖由 gaiban 于 2008-8-20 01:17 发表

请问Tracing Cache是P4吧? nehalem哪有Tracing Cache?   
  游戏性能差很可能是因为流水线变长的原因. 还有你说的L1延迟4,L2又太小.
  还有nehalem有8MB的cache,而penryn双核cache是6MB, 所以superpi会快一些.
  而penryn要开始热销了, nehalem的游戏性能哪有penryn更强.  要是还限制了中低端超频能力,就哭去吧

. ...


Nehalem在指令译码器之后有一个缓存放微操作代码的,和P4的追踪缓存的作用是一样的;这样在小循环的时候前端的译码器就可以歇着了

至于游戏性能,还是坐观其变
作者: gaiban    时间: 2008-8-20 10:31
Anand又说游戏性能提升50%!! 看来提升幅度和压片较接近.
Anand Lal Shimpi:
Also, Lost Planet performance of Nehalem is around 50% faster than Yorkfield at the same
clock speed (a big hunk of this is due to Hyper Threading):

http://www.anandtech.com/cpuchipsets/intel/showdoc.aspx?i=3377

Havendale motherboard主板很有意思, 芯片组的钱就没有了, 要亏本了.  平均而言, 本来一台电脑,可以收入CPU与芯片组两份的钱,合计120$.  而Havendale就惨了, 就仅有CPU的钱了, CPU要是平均100$,收入大降, 要亏血本了.

作者: gaiban    时间: 2008-8-20 10:33
原帖由 itany 于 2008-8-20 09:18 发表


Nehalem在指令译码器之后有一个缓存放微操作代码的,和P4的追踪缓存的作用是一样的;这样在小循环的时候前端的译码器就可以歇着了

至于游戏性能,还是坐观其变

那才多大一点? 28个指令?  软件没有重新优化的话, 很难用上吧?
作者: Asuka    时间: 2008-8-20 10:52
原帖由 Prescott 于 2008-8-19 23:50 发表

那你根本没法解释为什么Nehalem的superpi比Penry快


+1

等正式出来再说吧

我认为现在游戏性能受影响很有可能是CPU以外的因素导致的 {lol:]
作者: ITANIUM2    时间: 2008-8-20 11:32
原帖由 itany 于 2008-8-20 00:30 发表


要解释还是能解释的,我可以说PI在Nehalem的二级分支预测和Tracing Cache中的获益相当大,以至于抵消了缓存的影响,还有一定的盈余
但是游戏没有获得这么多提升,以至于性能没什么提高
就像Yonah到Conroe,整数 ...



c2d没有Tracing Cache,呵呵
作者: ITANIUM2    时间: 2008-8-20 11:36
呵呵,这下ok了。看来Nehalem确实强大啊,全面超越C2D,K10


原帖由 gaiban 于 2008-8-20 10:31 发表
Anand又说游戏性能提升50%!! 看来提升幅度和压片较接近.
Anand Lal Shimpi:
Also, Lost Planet performance of Nehalem is around 50% faster than Yorkfield at the same
clock speed (a big hunk of this is d ...

作者: NONO    时间: 2008-8-20 11:37
原帖由 Prescott 于 2008-8-19 23:50 发表

那你根本没法解释为什么Nehalem的superpi比Penry快


Nehalem的superpi只能用傻快來形容.....
頻率若拉上去,世界紀錄肯定又被翻了一翻
作者: 1empress    时间: 2008-8-20 12:01
提示: 作者被禁止或删除 内容自动屏蔽
作者: elisha    时间: 2008-8-20 12:24
原帖由 gaiban 于 2008-8-20 10:31 发表
Anand又说游戏性能提升50%!! 看来提升幅度和压片较接近.
Anand Lal Shimpi:
Also, Lost Planet performance of Nehalem is around 50% faster than Yorkfield at the same
clock speed (a big hunk of this is d ...

Anand老大亲自说的?
那肯定没问题了{victory:]
作者: zdhjing    时间: 2008-8-20 12:31
很有可能是主板的原因  呵呵  貌似intel  但是说过nehalem  游戏很强的~!
作者: niujiajun    时间: 2008-8-20 16:09
看不懂以上的技术帖,谁能告诉我,现在哪块U(3000元以内)玩游戏最快?
作者: itany    时间: 2008-8-20 19:47
原帖由 niujiajun 于 2008-8-20 16:09 发表
看不懂以上的技术帖,谁能告诉我,现在哪块U(3000元以内)玩游戏最快?


不算Nehalem的话,是E8600最快了
作者: itany    时间: 2008-8-20 19:50
原帖由 gaiban 于 2008-8-20 10:33 发表

那才多大一点? 28个指令?  软件没有重新优化的话, 很难用上吧?


这个也是能发挥一定的作用的,比如很多情况下循环的循环体并不大,不是么?
作者: teddytao    时间: 2008-8-20 21:53
一切只能试目以待。相信amd和intel.
作者: xywarii    时间: 2008-8-20 21:59
提示: 作者被禁止或删除 内容自动屏蔽
作者: niujiajun    时间: 2008-8-21 01:20
原帖由 xywarii 于 2008-8-20 21:59 发表


555,我买了8500的第二天intel宣布出8600同时老e系列大降价。。。。{cry:]{cry:]{cry:]

兄弟,对你严重同情......
作者: spinup    时间: 2008-8-21 01:37
原帖由 itany 于 2008-8-19 23:05 发表
文中指出,Nehalem更多的是关心高性能计算、虚拟化、数据库的应用。游戏的性能和处理器的整数性能密切相关。在处理器核心架构上,Nehalem相对于Penryn的改进并不多,而在这方面Penryn做的非常好,这不仅仅是内存消歧 ...


三级缓存,L2略小点没关系的。

nehalem确实针对hpc等方面做了很大改进,但是游戏等也能获益。

现在问题是游戏软件问题多,对多核支持不够。4核相对2核加速很微弱,8核相对4核反加速都有可能。
作者: acqwer    时间: 2008-8-21 11:25
显卡的成绩差尤其是高分辨率下差距更大,没人怀疑是集成的PCI-E控制器的问题吗?
作者: Prescott    时间: 2008-8-21 13:34
原帖由 acqwer 于 2008-8-21 11:25 发表
显卡的成绩差尤其是高分辨率下差距更大,没人怀疑是集成的PCI-E控制器的问题吗?

Bloomfield的PCI-E在北桥中
作者: itany    时间: 2008-8-21 13:36
原帖由 acqwer 于 2008-8-21 11:25 发表
显卡的成绩差尤其是高分辨率下差距更大,没人怀疑是集成的PCI-E控制器的问题吗?


我在回帖里边也怀疑过啊




欢迎光临 POPPUR爱换 (https://we.poppur.com/) Powered by Discuz! X3.4