POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
12
返回列表 发新帖
楼主: amuly
打印 上一主题 下一主题

Phenom II液氦超频6.4GHz MyDrivers

[复制链接]
21#
发表于 2009-1-13 23:46 | 只看该作者
本帖最后由 itany 于 2009-1-13 23:49 编辑

高频率不等于高性能(AMD技术稿)

【业界动态】阅读 [url=].[/url] 人次
2001年10月15日18:55
【文章简介】
高频率是不是性能就好呢?让我们分析一下... (3999 字)
今年是个人电脑诞生的第20周年。PC 诞生的20 年为IT产业的发展,乃至整个现代工业的腾飞构筑了一条坚实的跑道。而在PC行业中,最为人津津乐道的莫过于中央处理器日新月异的变化了。著名的摩尔定律便是20年PC处理器技术革命的生动写照。本文试图通过对当今处理器行业两大巨头AMD以及Intel公司各自最新处理器产品的分析,帮助读者把握微处理器和个人电脑的发展方向。

  高频率不再意味着高性能!!!

  近年来,AMD公司凭借Athlon处理器的出色设计,一举突破多年以来Intel对处理器行业的垄断,相继在处理器技术、频率、性能、市场占有率…各方面取得突破,大有赶超之势。但是,自2000年底Intel推出全新设计的P4处理器后,市场出现了微妙的变化。近一段时间以来,细心的读者相信都已经留意到一个不寻常的现象:Intel不断推出工作频率更高的处理器,在性能表现上却仍然低于频率相对较低的AMD Athlon处理器。多年以来,我们习惯于用处理器的工作频率描述电脑性能的高低,但现在,1.3GHz的P4性能却还不如1GHz的Athlon,甚至不如1GHz的PIII。这种现象不仅让人产生困惑:为什么?

  PC处理器发展到今天,已经是第七代设计了。在486之前,AMD主要是在克隆Intel的处理器,而处理器的设计也以简单的标量设计为主,因此,性能的高低主要取决于工作频率的高低:频率越高的处理器,在单位时间内可以完成更多的工作,自然性能更高。到了奔腾、NX586、和AMD-K5的586时代,处理器的设计开始出现显著的变化,RISC内核的引入、分支预测、乱序执行、寄存器更名、超标量计算单元等,众多新技术的出现,使得相同工作频率下的处理器性能出现分化。当时市场上的Intel 奔腾100MHz处理器、AMD K5-PR100 和NX586-100处理器的性能相当,但工作频率却不同:奔腾是100MHz而Nx586-100却只有83MHz。时至今日的786架构,工作频率的高低更是无法正确的衡量处理器真实性能的高低。

  


Intel P4与AMD Athlon


在AMD与Intel公司各自的产品介绍中,我们可以见到两个公司各自对产品的宣传:

AMD 称自己的Athlon是全球第一个786架构处理器,而Intel干脆为P4取了个让人联想到互联网的代号:NetBurst架构。下面,就让我们深入到这些诱人的表述背后去分析比较以下两个产品的设计特点。我们将从:整数计算、浮点和多媒体计算、管线设计、缓存设计等几方面进行比较。  



一、整数执行单元

  整数处理能力是CPU运算速度最重要的体现。Athlon的整数设计是我们在P4之前所见到的最强大的整数单元设计,包括6个整数执行单元,3个IEU、3个AGU,是一个真正的多通道整数设计。相比之下,P4的整数执行单元虽然只有5个,但其中有4个执行单元采用了创新的双倍计算技术。经过结构上的重整,Pentium 4 的ALU能以时钟的2倍速运行,例如:1.4GHz的P4 2xALU可以运行在2.8GHz。P4整数单元包括2xALU和2xAGU各两组,以及一个单倍速的低速ALU。其中前面的两组2倍速ALU主要用来高效地处理简单指令,而一旦遇到较为复杂的指令,CPU将会把它交给后面的低速ALU来处理,此时的性能自然会有大幅度的下降。这就是它在处理实际的整数数据时,性能并不能完全到达2倍于以前架构的处理器原因之一。

    由以上的分析可见,整数性能应该是Pentium 4的强项。然而,由于P4缓存设计在每时钟周期仅能发出3条指令,限制了Pentium 4每时钟周期仅能支撑3条整数指令; 同时,超长流水线带来的更多周期的预测失败惩罚也损害了P4的高速ALU应有的高性能。结果在运行整数测试的CPUmark时,P4表现之差令人吃惊。由此可见,更先进的设计并不是总可以带来更高的性能。

  二、浮点与多媒体运算单元

    浮点运算能力是关系到CPU的多媒体,3D图形处理的一个重要指标。AMD的Athlon系列CPU没有采用传统的X87浮点处理单元而使用了自己研发的新型浮点处理机制。从处理器核心框图中可以看到,AMD 为Athlon设计了3个并行的浮点、多媒体执行单元。P4处理器的浮点单元设计应该是整个处理器设计中最薄弱,也是目前最受争议的部分。P4中只有2个浮点执行单元,而其中一个单元要同时处理:FADD, FMUL, MMX, SSE, 和SSE2。

    从上面的介绍可见,Intel在P4的浮点设计中不是走加强x87浮点处理单元FPU的道路,而是希望利用SIMD的多媒体扩展提高浮点运算性能。为此,Intel特别配合P4发表了提高双精度运算的SSE2指令集,SSE2是Intel 在SSE之后对SIMD指令的又一次完善。SSE指令集主要用来处理器单精度浮点计算,而带有144条新指令的SSE2主要用来处理64位双精度浮点计算。但相对而言,P4中的x87 FPU功能较弱,理由如下:

  1. FXCH指令(用于交换堆栈模式的数据)在Pentium 4中比Pentium 3中受到更多限制,每个周期只能发出一条指令到FXCH执行流水线。比如,在FXCH指令发射后紧跟着一条FMUL指令,则必须等到FXCH指令执行结束,FMUL指令才能进入流水执行单元,由此造成实际的物理时延。

  2. FMUL不是全流水线单元,并且,FADD和FMUL单元的延时均大于Pentium 3中的时延,分别是5周期和至少6周期(Pentium 3中为3周期和5周期),影响了浮点处理速度。

  3. P4中有两个FPU单元,一个是FADD和FMUL,另一个是FSTORE和FLOAD,理论上每个周期只能执行一个浮点加或是一个浮点乘,而Athlon中是三个FPU单元,每个周期可同时执行一个浮点加和一个浮点乘。

  这样,P4要实现优异的FPU性能,必须对浮点密集应用进行SSE1和SSE2优化,否则只能提供较低的浮点性能,正如众多的浮点性能测试结果所示。FPUmark 测试结果显示1.6GHz的Pentinum 4才略胜Athlon 1.1GHz一点,这印证了我们的看法,Intel聚焦于SSE2而不是提供更好的x87 FPU性能。但是,MMX, SSE发展的经验让我们相信,软件的优化是一个漫长的过程,也许要等到2-3年之后,我们才能开始在市场上看到SSE2浮点计算开始普及。同时,我们也有理由怀疑SSE2能否真正取代x87,毕竟传统的x87有80位精度的浮点计算,而不是SSE2的64位浮点。

  三,流水线设计  相对于奔腾III的10段流水线设计和AMD Athlon的11段流水线,P4的流水线达到了20段;这样做所带来的显而易见的好处就是,有利于在采用相同的制造工艺条件下大幅度地提高处理器的工作主频。但负面作用同样明显,就是指令在管线内的延迟时间会变长, 或者换言之,在相同的频率下,P4能够完成的工作要比PIII和Athlon更少。

  另外深流水线执行管线所带来的另一个负面效应,就是分支预测性能的下降,造成Pentium 4性能平平的主要原因是也正是其 20级的管道。Pentium 4 的管道比Pentium Ⅲ和Athlon长一倍,因此数据传输的步骤就会增多,而且一旦出现了错误,处理器改正的过程也会更加复杂。简单地说Pentium 4处理器在运行中如果分支预测准确,运行速度会很快,如果预测错误,那么Pentium 4处理器将比Athlon受到更多周期的惩罚。

  分支误预测仍是Intel最弱的一环。分支预测发生在流水线的第一段,如果处理器误预测了一个分支,它必须从流水线中冲掉在错误分支方向上执行的全部指令,然后在正确的程序分支方向上重新启动指令执行和处理。流水线越长分支误预测造成的性能损失越大,20段的超流水线不仅是19个周期的分支误预测惩罚,尽管理论上Athlon的分支预测器逊于Pentium 4,但“相对短”的11段整数流水线,使Athlon全面超越Pentium 4。  管线的加长可以使得Pentium 4能达到更高的时钟频率,但是也使Pentium 4在每个时钟周期中的处理的命令数目比Athlon少,这就是为什么现在相同的速度下,Pentium 4的性能表现不如PIII和Athlon的原因。  




四,缓存技术的比较:  L1和L2高速Cache是决定CPU速度的另一个重要因素。在这项关键技术上,P4和Athlon都有其各自的独到之处。

    P4的L1 Cache采用了一种全新的设计。不同于传统的x86指令缓存,P4将指令缓存设置在x86-uOP译码器之后,缓存中存储的不再是x86指令,而是类RISC的Uop。Intel为这种结构取了个名字叫做:Execution Trace Cache。Trace Cache 容量为12KB,P4的L1数据缓存为8KB,所以其缓存总量为20KB:小于PIII的32KB,更远远小于Athlon 的128KB。在L2缓存方面P4与Athlon都是256KB。

①L2 Cache的关联并发二级缓存架构设计。雷鸟采用了16路相联Cache,它使得系统可以通过减少数据冲突来提高命中率。作为比对,P4仅则提供了8路 关联的L2 cache。

②非复用式Cache设计。复用式Cache结构被广泛使用在Intel的x86处理器中(包括PⅢ和现在的P4),该结构要求L2 Cache必须复制L1 Cache中的所有数据。因此,在Inclusive结构中,假设L1Cache的大小为32kB,L2Cache为256kB,那么其实际有效的Cache容量就只有256kB。 相比之下, AMD采用非复用设计,缓存数据不复用,缓存使用效率更高。

③为提高Cache的命中率,P4为L2 Cache设计了256位的带宽,但由于雷鸟的L1Cache容量高达128k,是P4的6倍,也能够保持Cache有足够高的命中率。相比之下,再扩充L2总线的带宽对Cache性能的提高意义并不很大,这也就是雷鸟处理器的L2Cache总线宽度为64位的原因。  从理论上说,P4的全新缓存结构可以有效的降低缓存的延迟,但测试的结果显示不论在8KB-384KB的缓存范围还是在内存范围,Athlon都表现出更短的延迟,也许P4的设计理论还有待完善。  



结论:

  综合前面的分析,我们可以看到,Athlon具有目前最强大的浮点单元设计和优秀的整数计算单元;在P4处理器中Intel尝试使用了一系列的新技术,但由于很多因素之间的相互制约,理论上的出色设计并没有带来相应的性能表现。超长的流水线设计使P4可以迅速地在处理器频率上将竞争对手甩开,但Athlon 仍然而且将继续保持性能上的领先优势。广泛的测试显示,P4需要多付出300-400MHz的工作频率才可以获得与Athlon 相当的性能。对于普通的电脑使用者来说,现在已经不能简单的用处理器的频率来衡量电脑性能的高低了,我们已经习惯的用主频衡量电脑性能高低的观念需要改变了!
回复 支持 反对

使用道具 举报

22#
发表于 2009-1-14 00:48 | 只看该作者
汗,现在轮到AMD高频低能了

不过AMD如果早有钱搞工艺,应该不至于败那么惨
回复 支持 反对

使用道具 举报

23#
发表于 2009-1-14 02:06 | 只看该作者
太牛逼 360外频
回复 支持 反对

使用道具 举报

24#
发表于 2009-1-14 09:13 | 只看该作者
I7 不会傻眼,因为它是没眼的。

I饭也不会傻眼,总有一天I7会到达7G甚至超过7G的
Seraphlich 发表于 2009-1-13 23:33
不要对I抱任何幻想了{titter:]
回复 支持 反对

使用道具 举报

25#
发表于 2009-1-14 10:41 | 只看该作者
非常不错的说哦!
回复 支持 反对

使用道具 举报

26#
发表于 2009-1-14 10:51 | 只看该作者
液氦果然比液氮冷却性好!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-8-22 22:32

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表