|
来自:http://www.anandtech.com/cpuchipsets/intel/showdoc.aspx?i=3264&p=2
Intel在IDF之前放出了Nehalem的微架构改进与互联架构的说明
Nehalem的概览
2核心-8核心,4指令执行宽度下的微架构改进,集成内存控制器,QPI总线互联,共享的蕴含式(inlusive) L3缓存,动态功率管理,SSE 4.2指令集,2008 Q4上市
Nehalem的高度模块化,可以搭配不同的核心数量,缓存大小,内存控制器,QPI总线接口数量。不仅核心可以从2-8,还可以集成GPU
8核心的Nehalem有可能仍然是原生设计的,并共享L3缓存
Nehalem在Core2的基础上进行了微架构的改进,突出性能和功耗的优化:
1 Nehalem的重排序缓冲(Re-order Buf)从Penryn的96项增加到128项,执行单元可以看到更多的微指令,大大提升指令的并行度。
2 提升了非对齐缓冲访问的速度。在Penryn中,SSE指令和缓存边界对齐的话,执行的更快;在Nehalem中,是不是对齐,都可以执行的很快。视频编码将从中受益良多。
3 2级分支预测。像L1缓存和L2缓存的关系一样,L1分支存储的执行历史数据比较少,能够更快的做出判断,但是精度稍差;L2分支存储的历史数据较多,对于分支的判断更加精确,但是速度较慢。这样,一般情况下L1分支预测工作,保证核心取指通畅进行,在L1分支拿不准的情况下,L2分支进行判断,这样可以有效避免分支预测失败引起的性能下降。
4 重命名返回栈。在Core2中,在执行中发生调用时,会将返回地址压入返回栈中,这样在调用过程结束之后线程可以尽快返回执行,但是在分支预测失败的情况下,错误的地址将被压入返回栈。Nehalem解决了这个问题,返回栈中的地址总是正确的。
5 在Penryn集成的SSE4.1的基础上扩展为SSE 4.2,增加了7条新的指令,主要着眼于在处理文本时的性能,对于提高搜索引擎的工作效率,在处理XML时候的性能,都是很有好处的
6 提升了线程同步原语的执行效能。这个改进在Penryn上边就已经开始了,而Nehalem仍将继续,这样对于多线程应用程序在进行内存访问的时候所消耗的处理器时间会进一步缩短,大大提升如Java虚拟机等应用上的效能。
Nehalem支持超线程,而且由于更短的管线和更多的执行资源,性能非Netburst可以同日而语。
Nehalem的缓存结构:
L1I 32KB;L1D 32KB;L2 256KB;L3 8MB
个人认为,之前看到的截图基本准确,然而L1D是16KB的,有可能是超线程导致软件的误判,将L1D平分给了两个逻辑核心
L2容量减小,但是延迟也大大降低
Nehalem增加了二级旁视缓存(TLB),这样在进行段页地址转换的时候,首先在L1 TLB里边检索,如果不命中,再到L2 TLB里边检索,再不命中,从缓存中读取页表,和缓存的工作方式类似。这样提高了段页地址转换的效率,对服务器很有帮助。
Nehalem的系统互联:
双路服务器和桌面高端结构比较一致,都含有三通道的DDR3 内存控制器,每通道支持3 DIMM,这样应该是每核心支持36GB内存,双路支持72GB。内存最高支持到DDR3 1333 。CPU和北桥通过QPI总线连接。这样,Tylersburg就身无旁骛,堆PCIe控制器好了……
Nehalem的内存控制器,强调了低延迟:
[ 本帖最后由 itany 于 2008-3-28 00:28 编辑 ] |
本帖子中包含更多资源
您需要 登录 才可以下载或查看,没有帐号?注册
x
|