[已更新]多线程性能的向前一大步：Haswell CPU微架构变化

AMD11 · 发表于 2012-9-14 20:04

我们现在看到的是前端的变化，按理说，前段发生了如此大的变化，中间的处理过程应该会发生较大的变化，不知道Intel会不会将整个架构勾勒出来。有点期待。

eGenius · 发表于 2012-9-14 15:14

ARM还是赶紧去亲吻AMD吧——维系联盟的是恐惧，而不是友爱

raini · 发表于 2012-9-14 13:23

期待T神来这里科普ARM怎么个先进法

gudi0401 · 发表于 2012-9-14 02:25

楼主辛苦，介绍得非常好。原来对core和haswell CPU架构根本不了解，现在知道一些。这个架构很有趣，感觉和ti c6000系列dsp很相似。那些个RS上挂的port(0~7)，类似于dsp里的执行单元（比如L、S、D等），也是可以同时执行不同的指令，当然前提是这些指令没有相关性。

嗯，和dsp相似的地方实在太多。Haswell非常值得期待，Intel在CPU架构提升上还大有可为。

花泥 · 发表于 2012-9-13 23:56

gpu的画质如果还是很烂的话不管啥性能依然不爱用啊

muya1987 · 发表于 2012-9-13 22:50

技术贴啊。看完了。希望以后对多线程能有更多优化

the_god_of_pig · 发表于 2012-9-13 21:34

文盲路过

图坦卡蒙 · 发表于 2012-9-13 21:10

价格决定一切，其他都是白扯

itany · 发表于 2012-9-13 20:54

fish2fish 发表于 2012-9-13 19:41
下代顶级是IVB-E，那么haswell的提升会很有限

只是Xeon慢一些罢了。并不说明任何问题。

itany · 发表于 2012-9-13 20:33

daniel_k 发表于 2012-9-13 19:21
难怪这么彪悍，想想汇编里面到处都是mov jump之类的，一旦内存非相干了效率会提升多少哇[mellow>

即使是 ...

有这个必要

其实您想想，一个AVX指令就相当for循环跑四次罢了。这就是循环展开的奥秘。
我觉得早晚SIMD指令会继续发展到512位，也就是8个DP操作数。和Xeon Phy平台统一。
如果快的话，Broadwell就能有些痕迹。下一代，也就四2017年就可以实现了。

fish2fish · 发表于 2012-9-13 19:41

下代顶级是IVB-E，那么haswell的提升会很有限

daniel_k · 发表于 2012-9-13 19:21

难怪这么彪悍，想想汇编里面到处都是mov jump之类的，一旦内存非相干了效率会提升多少哇

即使是今天，想想core的6发射，仍然感觉异常暴力；不过256bit的AVX是否有足够的必要？个人感觉这种数据实在是太长了，有没有资源浪费的可能？如果有实际的代码例子就最好了

itany · 发表于 2012-9-13 18:26

本帖最后由 itany 于 2012-9-15 15:12 编辑

从上述分析可以看出，Haswell增加了前端取指解码的能力，提高了后端微操作发射执行的能力。然而受制于应用程序的指令并行度的影响，对于单线程的作用较小，而对于超线程，影响较大。可能在单线程应用中提升一般在10%以内，但是超线程的加速比有可能提升20%，甚至更高。

支持AVX的应用程序将会有较大的性能提升。特别是适合加乘合并的程序，通过使用AVX2指令集，有望得到50%甚至接近100%的性能提升。

多线程应用，特别是渲染等多媒体应用，得益于超线程的加速比提升，和AVX，性能提升有望最高达到100%；而很多服务器应用及HPC应用，受益于超线程、AVX、交易内存，性能提升也会非常明显。当然，前提是程序需要进行相应优化。

所以，我认为，Haswell的CPU微架构改进更倾向于服务器应用，也就是Xeon主导的改进。现在Sandy Bridge Xeon最高8核心，Ivy Bridge可能会有10核心，而Haswell恐怕会最高12核心。当年Nehalem Xeon双路战四路Opteron还能赢的场景，还历历在目，恐怕这次按摩店的Opteron又要吃瘪了。

对于桌面用户来说，可能一般的应用下，CPU性能差别并不明显，haswell更主要的是在功耗控制下发挥最大的计算性能。通过改进制造工艺和电路设计，能够实现更好的电压-频率特性（相同频率更低电压；相同电压更高频率），并继续空闲的功能单元通过电源开关（Power Gate）进行关闭。此外，Haswell将系统的频率和供电区域进行了细分。原来环形总线和L3缓存是和核心耦合的，现在将核心与L3缓存、环形总线进行分离。另外通过控制单元，将能耗额度进行动态分配，根据负载的特性向关键单元进行倾斜，实现最大的性能。

而对于笔记本等用户，主要是要实现更好的节能，能够有利于更好的热设计，延长电池使用时间。CPU增加了一个新状态C7，是迄今为止最深入的休眠状态，CPU的时钟完全停止，主要单元停止供电。而在不同的能源状态下切换的速度提高了25%，改善了体验。同样的，Haswell增加了一个新的电源状态S0ix，系统认为处理器是活动状态的时候进入休眠，从而降低系统功耗。而控制单元能根据软件需求、定时器时间、延迟要求、历史、设备触发等条件综合进行控制。

此外，Haswell集成了电压调节器能对自身的各个电压区域进行更精确的控制。同时，Haswell更重视整个系统的功耗控制。包括屏幕的自动刷新，使得在屏幕点亮的情况下CPU也能进入低功耗状态。在南桥提供了I2C、SDIO、I2S、UART等低功耗的接口。对于连接CPU和南桥的DMI总线，以及PCI-e、SATA、USB等高速外部接口也增加了新的电源状态。

Intel宣称，Haswell相对于2011年的Sandy Bridge，能够将待机功耗降低到1/20. 而将双核Haswell装上平板，使用被动散热，并维持一个很长的电池使用时间，也不在困难。值得相信，Haswell不仅能推动超基本向前一大步，而且，也将开创高性能平板电脑的新时代。

只看该作者 · 发表于 2012-9-13 18:18

提示: 作者被禁止或删除内容自动屏蔽

itany · 发表于 2012-9-13 18:02

本帖最后由 itany 于 2012-9-16 23:51 编辑

众所周知，应用程序的执行调度基本单位是线程，一个线程某个时刻只能在一个CPU核心上执行。不管系统有几个核心，如果程序的工作线程只有一个，那么就只能利用到一个核心。要利用到多个核心，常用的做法就是创建多个线程，分别在不同的核心上运行，这些线程属于一个进程，有共同的内存空间，数据是共享的。

然而这样又有一个问题，共享内存的情况下会导致不同线程在对相同内存地址进行读-写和写-写操作的时候发生竞争问题。Intel举了一个比较生动的例子：

在表中存了一个A 100刀的数据。Alice要从里边拿50，Bob要拿走60，如果要同时操作的话（实际上A稍微早一点的话），那么最后表里边的数据就变成40. 显然，如果Alice和Bob都拿了的话，那么A应该变成-10. 这时候就应该引入锁操作，避免问题的发生。Alice想要从A拿50，这样Alice锁定了这个表，从A里边拿了50之后A就剩下50，然后释放这个表。Bob想要在A里边拿60，但是表锁定了，没法访问，就等着，一直到锁定释放。表释放时候，Bob再锁定这个表，这时A剩下50，已经不够了，余额不足就失败了。显然，这样是合理的。

锁定操作有不同的粒度。比如，粗粒度锁定整个表，而细粒度锁定单个的表项。在表中有A 100刀，B 200刀。当Alice要从A拿20刀的话，如果锁定了整个表，那么Bob再想从B拿30刀，就不得不等到A操作完毕释放锁定。如果只是锁定表项的话，那么，Alice要拿钱的时候只是锁定了A项，Bob在拿钱的时候就锁定B项就好了，完全可以同时操作。

然而，细粒度的锁定将会有很大的问题。比如说，Alice需要从A转20到B，其操作是锁定A项和B项。但是如果Alice和Bob都要转款，Alice要从A转到B，而Bob要从B转到A，就可能发生Alice锁定了A，要去锁定B；同时，Bob锁定了B，要去锁定A。这时候就形成了死锁，彼此都在等待，程序就出问题了。为了避免类似的问题出现，需要对数百万行程序进行查错调试，需要大量的工作，也可能会遗留错误。

Intel希望通过硬件上的功能加强，来实现，对于开发者只要粗粒度的锁定，而在实际执行中，相当于细粒度，Alice和Bob不需要相互等待，按照串行执行，而是可以并行执行，通过硬件来检测实际上是否出现了冲突。换言之，通过将线程并行化，提高执行效率。

Intel通过事务同步（TSX）方式来简化锁定操作。可以在程序里边定义一段代码，这个代码属于一个“事务”，CPU会追踪这个事务中读过和写过的所有寄存器和内存地址，并将所有回写的数据放在临时缓存中，而不是实际的寄存器和内存中。这样，在执行事务的时候，系统的状态并没有发生变化。若事务的执行过程所读的寄存器和内存地址没有其他线程写入，并且所写的寄存器和内存地址没有其他线程读写，则事务执行成功，CPU将事务执行的结果统一更新到寄存器和内存；若相反，则放弃这段事务，丢掉已经执行的结果，系统状态不发生改变。换言之，之前的内存锁是禁止访问，避免冲突；现在的事务同步是先访问着，出了冲突再作废。

显然，这种处理方式是投机执行中的一种。分值预测是一种投机执行，内存消岐也是投机执行（从Conroe开始可以将读操作提前到写操作之前），事务同步也是一种投机执行。自然，投机在失败时候会损失性能，但是，通过程序的优化，投机成功率会非常大，带来的性能提升也是可观的。

xbjarodd · 发表于 2012-9-13 17:40

我觉得还是不要用那么多专业术语

itany · 发表于 2012-9-13 14:49

本帖最后由 itany 于 2012-9-15 12:02 编辑

在矢量方面，看Haswell的执行资源，可以知道，在0、5发射口上可以执行（浮点）矢量指令。这个从Conroe开始就是如此了。相对于通过增加ALU提高整数性能，在浮点方面，Intel选择增加SIMD指令的操作数数量来提高浮点预算的吞吐量。在Sandy Bridge，Intel引进了AVX指令，操作数256位，可以包含4个双精度浮点数（DP flops），加上每周期两条指令，形成每周期8DP的运算能力。在Haswell，通过引进加乘（FMA）操作，使得每个指令能运行一次加法和一次乘法，运算能力再次加倍到16DP。

这个是理论性能。从实际来看，从SSE到AVX，增加的是操作数数量，既然能通过循环展开等优化到2个操作数的SIMD，当然也很容易优化到4个操作数乃至Xeon PHY的8个操作数指令。然而加乘操作需要对加法和乘法进行配平和合并。在算法加法比乘法多得多，或者乘法比加法多得多的情况下，是难以大量使用加乘的；同样的，在加法和乘法无法集中交叉进行的算法里边，也是难以实现的。因而，实际的性能提升，会比引入AVX小。

随着矢量单元宽度的扩展，对于数据吞吐量也提出了新的要求。Nehalem有的L1缓存有一个16字节的读取口和一个16字节的会写口；在Sandy Bridge增加为两个16字节的读取口和一个16字节的回写口。和两个AGU相匹配，在执行AVX的内存读写的时候，可以将两个读取口拼成一个32字节的口，这样每周期能完成该一个读取，两个周期完成一个回写。显然这个带宽，对于需要密集内存访问的情况是一个瓶颈。在Haswell里边，将带宽加倍，做成两个32字节的读取口和一个32字节的回写口，这样一个周期可以完成两个AVX读取和一个回写操作。值得注意的是，由于Sandy Bridge是加了一个口，所以对于算术指令也增加了每周期一个读取；而对于Haswell来说，加宽带宽对算术指令没有影响。

同时增大的还有L2缓存的贷带宽，从32字节增加到64字节。

Haswell还消除了L1缓存的缓存组（bank，翻译成“组”不知道是不是靠谱）冲突。缓存是划分成组的，每组有专门的读写电路。在单个线程访问的时候不存在问题，但是当两个线程或者更多同时访问一个组的时候，由于无法同时提供服务，就会出现阻塞。按照我个人的理解：在GPU里边出现类似的问题要通过编程作者和编译器来解决，但是在CPU里边，缓存是硬件控制的，完全可能会把不同线程访问的内存地址映射到一个组里边，还是需要硬件来解决。Haswell的缓存算法应该进行了相应的改进。对超线程会有一定的帮助。

缓存的访问和更替的基本单位都是行。随着AVX指令的操作数拉长，跨越缓存行的情况可能会增加。显然，在未优化的情况下，会需要两倍的操作，会影响性能。Haswell对此进行了优化。

为了支撑CPU核心的吞吐量增长，不属于CPU核心，而属于整个CPU的L3缓存性能也有一定的提高。在Haswell中，数据访问和其他访问进行了分离，采用不同的流水线进行处理。对于不同核心共享的系统资源，如系统代理（System Agent，就是原来的北桥），改善了信用管理机制，使得系统代理的负载能够在不同的核心之间更好的分配。提高了系统内存写入的吞吐量，增加了内存写入队列的深度，可以更好的进行调度。

总体而言，从吞吐量而言，Haswell的核心相对于Sandy Bridge增加了一倍，而CPU整体的存储带宽也有所增加。而从延迟来看，AVX乘法的延迟是5个周期，加法是3个周期，而FMA的延迟是5个周期。意味着使用FMA能将延迟降低40%，对提高性能也有好处。

682736199 · 发表于 2012-9-13 14:03

那就是说，以前的多线程都很废咯？

要等到下一代才有真正改进？

acqwer · 发表于 2012-9-13 14:03

本帖最后由 acqwer 于 2012-9-13 14:03 编辑

Haswell的Cache带宽是SNB的2倍

kinno · 发表于 2012-9-13 13:56

技术文，马克待学习

帐号		自动登录	找回密码
密码			注册

potomac 该用户已被删除	8^# 发表于 2012-9-13 18:18 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
potomac 该用户已被删除
	回复支持反对使用道具举报显身卡

[已更新]多线程性能的向前一大步：Haswell CPU微架构变化

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

浏览过的版块