[独家中文] Nehalem 微架构改进与互联方式官方揭露！(多方资料更新）

itany · 发表于 2008-3-18 11:23

来自：http://www.anandtech.com/cpuchipsets/intel/showdoc.aspx?i=3264&p=2
Intel在IDF之前放出了Nehalem的微架构改进与互联架构的说明

Nehalem的概览
2核心-8核心，4指令执行宽度下的微架构改进，集成内存控制器，QPI总线互联，共享的蕴含式（inlusive） L3缓存，动态功率管理，SSE 4.2指令集，2008 Q4上市

Nehalem的高度模块化，可以搭配不同的核心数量，缓存大小，内存控制器，QPI总线接口数量。不仅核心可以从2-8，还可以集成GPU
8核心的Nehalem有可能仍然是原生设计的，并共享L3缓存

Nehalem在Core2的基础上进行了微架构的改进，突出性能和功耗的优化：

1  Nehalem的重排序缓冲（Re-order Buf）从Penryn的96项增加到128项，执行单元可以看到更多的微指令，大大提升指令的并行度。
2  提升了非对齐缓冲访问的速度。在Penryn中，SSE指令和缓存边界对齐的话，执行的更快；在Nehalem中，是不是对齐，都可以执行的很快。视频编码将从中受益良多。
3  2级分支预测。像L1缓存和L2缓存的关系一样，L1分支存储的执行历史数据比较少，能够更快的做出判断，但是精度稍差；L2分支存储的历史数据较多，对于分支的判断更加精确，但是速度较慢。这样，一般情况下L1分支预测工作，保证核心取指通畅进行，在L1分支拿不准的情况下，L2分支进行判断，这样可以有效避免分支预测失败引起的性能下降。
4  重命名返回栈。在Core2中，在执行中发生调用时，会将返回地址压入返回栈中，这样在调用过程结束之后线程可以尽快返回执行，但是在分支预测失败的情况下，错误的地址将被压入返回栈。Nehalem解决了这个问题，返回栈中的地址总是正确的。
5  在Penryn集成的SSE4.1的基础上扩展为SSE 4.2，增加了7条新的指令，主要着眼于在处理文本时的性能，对于提高搜索引擎的工作效率，在处理XML时候的性能，都是很有好处的
6  提升了线程同步原语的执行效能。这个改进在Penryn上边就已经开始了，而Nehalem仍将继续，这样对于多线程应用程序在进行内存访问的时候所消耗的处理器时间会进一步缩短，大大提升如Java虚拟机等应用上的效能。

Nehalem支持超线程，而且由于更短的管线和更多的执行资源，性能非Netburst可以同日而语。

Nehalem的缓存结构：

L1I 32KB；L1D 32KB；L2 256KB；L3 8MB
个人认为，之前看到的截图基本准确，然而L1D是16KB的，有可能是超线程导致软件的误判，将L1D平分给了两个逻辑核心
L2容量减小，但是延迟也大大降低
Nehalem增加了二级旁视缓存（TLB），这样在进行段页地址转换的时候，首先在L1 TLB里边检索，如果不命中，再到L2 TLB里边检索，再不命中，从缓存中读取页表，和缓存的工作方式类似。这样提高了段页地址转换的效率，对服务器很有帮助。

Nehalem的系统互联：

双路服务器和桌面高端结构比较一致，都含有三通道的DDR3 内存控制器，每通道支持3 DIMM，这样应该是每核心支持36GB内存，双路支持72GB。内存最高支持到DDR3 1333 。CPU和北桥通过QPI总线连接。这样，Tylersburg就身无旁骛，堆PCIe控制器好了……

Nehalem的内存控制器，强调了低延迟：

[ 本帖最后由 itany 于 2008-3-28 00:28 编辑 ]

itany · 发表于 2008-3-18 12:23

多谢站长了！不然很快又沉了~

itany · 发表于 2008-3-18 13:33

原帖由 acqwer 于 2008-3-18 12:48 发表
主流桌面版没有集成MC，想来也不会有那么大的L3，极限频率估计也比不上现在的45nm肉，intel现在不出高频CPU莫非就是这个原因？

谁说主流桌面没有集成MC和8M L3了啊？

itany · 发表于 2008-3-18 16:33

原帖由 siemens_wolf 于 2008-3-18 16:19 发表
Itanium 2呢? 谁贴个?

现在已经统一叫做安腾了，不分代了
Tukwila就是四个现在的安腾核心+L3缓存+Nehalem的互联……
没啥新鲜的

itany · 发表于 2008-3-18 18:15

原帖由 1empress 于 2008-3-18 17:34 发表
台湾人拿到的那颗2.16G难道是A0么

当年Wolfdale的ES也只有2.33，现在还不是4G基本盘？
现在的阶段，ES是拿来做主板用的，不是给别人跑Benchmark用的

itany · 发表于 2008-3-18 18:17

原帖由 adfun 于 2008-3-18 15:31 发表
:blink: 哈哈里面有TLB一说。。。

哈哈，K10让广大人民知道了CPU里边有个叫TLB的东西啊

itany · 发表于 2008-3-19 09:14

AMD回应Intel产品规划

驱动之家[原创] 作者：Rookie 编辑：Rookie　2008-03-19 08:54:07 300 人阅读 [投递]

在Intel宣布了包括下一代处理器架构Nehalem、独立图形芯片Larrabee、六核心Xeon处理器Dunnington等多个产品简报规划后，AMD迅速对此作出了回应。

在接受Inquirer的访问中，AMD服务器和工作站集团的高官RANDY ALLEN, 表示Intel上述产品AMD均有更好的产品对应:

"通过 Nehalem,Intel正在逐渐追赶我们的步伐。我们已经有了Barcelona，它正在向我们有史以来最多的OEM厂商交付。我们有三级Cache，从2003年我们就有了集成内存控制器，2006年就有了高速串行链路。我不认为Intel的产品有什么新鲜东西。"

至于Dunnington,Allen说AMD未来的45nm处理器shanghai足以应付:"在2009年我们将有HT3 Hypertransport增强性总线，DDR3技术，8个甚至更多内核。我们在年底将有四核心版本，预计在2009年将有八核心版本。"

对于Intel的Larrabee多内核图形芯片。Allen评论说:"据说它包括一个高性能SIMD矢量处理单元，支持一系列包括浮点算术，矢量内存操作和条件指令。但实际上Intel离制造Larrabee产品还远的很。而且，无论如何，它不是x86架构。这将导致很多软件问题。这是一个完全不同的软件模型，存在巨大的问题。"

itany · 发表于 2008-3-19 22:45

原帖由 ITANIUM2 于 2008-3-19 17:31 发表

拜发言人, 太极拳高手啊:thumbsup:

太极拳可是国粹啊，请留情…… :ph34r:

itany · 发表于 2008-3-20 00:25

原帖由 少年包青天 于 2008-3-19 23:28 发表

也有道理。这种架构对程序员是新事物，没人知道该怎么编程。虽然larrabee的硬件性能很恐怖，但有可能看得见却得不到。

程序员给x86编程总比给GPU编程容易吧？

itany · 发表于 2008-3-20 14:55

原帖由 sxs112 于 2008-3-20 14:31 发表

就是還啟動不了...

QPI启动不了怎么点亮系统啊？

itany · 发表于 2008-3-23 00:48

原帖由 hopetoknow 于 2008-3-22 20:49 发表
 http://www.intel.com/pressroom/archive/reference/whitepaper_Nehalem.pdf
你们亲自去看吧.

白皮书看了
我觉得上边有一点大家都没有提及，那就是上边说“Nehalem将在管芯上集成MC（双核心的Nehalem会在封装上集成）”
个人认为，这是在暗示四核心和双核心采用完全不同的设计，甚至双核心采用和Penryn相同的共享L2缓存设计，而且将会是北桥和CPU分为两个管芯封装在一起的，很有可能是 CPU Core<->MCH (GPU?)<-> Mem的形式，至于CPU<->MCH之间可能是QPI，也可能是传统的FSB。也许Intel会有兼容既有775插座的Nahelem的后背方案，只是正常情况下永远不会出现在市场上罢了……

itany · 发表于 2008-3-23 00:52

原帖由 hopetoknow 于 2008-3-22 20:55 发表
按道理, 应该等IDF说的, 却都说了? 可能是那些股东逼的吧?

也许在IDF上会现场跑分呢？ :lol:

就像我们没有指望去年秋季就有Nehalem的现场展示……

itany · 发表于 2008-3-23 00:57

原帖由 hopetoknow 于 2008-3-22 20:47 发表
今天比较高兴
谈一下近期英特尔披露的信息里，可提取一些比较受关心的话题：
1.nehalem的效能与功耗效率相对上代的提升幅度有多大？英特尔承诺是提升可观，具体幅度约相当于CORE2对比Dothan(90nm Pentium-M)的提 ...

谢谢您的分析！

另外，原文中提到了一点：增强了线程之间同步原语的执行能力，是和内存访问的锁定什么的有关系吧？
有的外国论坛上说对于现在多线程并行的软件这个很重要，尤其是什么Java虚拟机之类的，可以大幅度提升性能。但是又同时提到，现在这种处理模式本身就是先天不足的，Nehalem会做得更好，但是相对于完善还有很长的路
请“比较高兴”的老大们给我们科普科普？谢谢！

itany · 发表于 2008-3-28 00:13

itany · 发表于 2008-3-28 00:22

itany · 发表于 2008-3-28 10:34

原帖由 ITANIUM2 于 2008-3-28 10:03 发表

这个强，莫非以后上4路的都是八核了？

Nehalem上8核心，最大的问题就是成本和功耗啊，既然是多路了，对频率不是很敏感，对价钱也不是很敏感，这样堆8核心没问题的

itany · 发表于 2008-3-31 21:45

原帖由 snake_1037 于 2008-3-28 18:35 发表
我的Q66能挺到Q4

那便是年底明年出了娃哈哈

貌似不少人都是这样打算的……

itany · 发表于 2008-4-3 12:50

原帖由 Edison 于 2008-4-3 02:06 发表

几乎全中了:sweatingbullets:

哎，今天转了各大网站，都没有nehalem的新消息放出来，Edison站长是准备要出Nehalem的Preview么？
如果不出，何不多爆点料出来？ :lol:

itany · 发表于 2008-4-3 14:29

原帖由 Edison 于 2008-4-3 14:06 发表
我现在不写没测试的preview了，要写就等拿到实际的东西。

更多一点的就是：

Nehalem supports macrofusion in both 32-bit and 64-bit modes

改进的Loop Stream Detector（Nehalem 28 uops vs Merom 18 i ...

多谢站长，现在又知道更多一点了

itany · 发表于 2008-4-3 18:44

原帖由 ITANIUM2 于 2008-4-3 17:58 发表
:w00t)::w00t)::w00t):
请问这个pdf那里下载呢？ intel 网站没找到

https://intel.wingateweb.com/SHchina/scheduler/controller/catalog

到这里下载

帐号		自动登录	找回密码
密码			注册

[独家中文] Nehalem 微架构改进与互联方式官方揭露！(多方资料更新）

本帖子中包含更多资源

对于Nehalem缓存延迟的推定

Intel爱上了六核心……