POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
查看: 1202|回复: 0
打印 上一主题 下一主题

[CPU] AMD Opteron 6376 6272 6212推土机系列

[复制链接]
跳转到指定楼层
1#
发表于 2013-12-19 11:45 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
简介
AMD“推土机是代号Bulldozer(推土机)的全新架构,“推土机架构最早是在2007年年中提出的,当时计划采用45nm工艺,2009年上半年发布,竞争Intel Nehalem,不过可能是因为45nm K10 Phenom系列进展不顺,新架构被推迟了。在AMD的发展规划中在2009-2010年间都是45nm Phenom打天下,32nm工艺产品要到2011年才会发布,也就是推土机架构。推土机AMD彻底重新设计的核心,将成为AMD下一代高性能处理器技术,用于客户端和服务器领域,相比于Opteron 6100系列会增加33%的核心、大约50%的性能。作为崭新一代的处理器构架,AMD“推土机将采用32nm SOI工艺,这让推土机相比“Magny-Cours”皓龙处理器可以在不增加功耗的前提下增加33%的核心数量、增加50%的吞吐量。AMD之前所有处理器都有所不同的是,推土机采用了模块化的设计,每个模块包含两个处理器核心,这有些像一个启用了SMT的单核处理器。每个核心具有各自的整数调度器和四个专有的管线,两个核心共享一个浮点调度器和两个128FMAC乘法累加器。
性能介绍
 一、CMPSMT   首先有必要来回顾一下CMPSMT的优劣势: CMPCMP的方式非常直接,简单种理想的状况下,一个双线程SMT核心几乎可以等同于一个双核处理器,并且能耗上还要低的多。 SMT的效率根据负载不同会有很大差异,AMD认为在真实的应用情况中,一个双线程SMT核心仅仅等同于1.3个常规核心的效能,因为很多时候线程都在执行资源而不是等待主内存响应,换句话说,如果主内存不再是瓶颈,SMT的执行单元就过剩了,而一个SMT核心也就不再比一个单纯的核心更高效,毕竟SMT核心需要增加一些电路设计,比一个单纯的核心成本要高一些。   二、推土机架构分析    AMD“推土机将采用32nmSOI工艺,这让推土机相比马尼库尔皓龙处理器可以在不增加功耗的前提下增加33%的核心数量、增加50%的吞吐量。与AMD之前所有处理器都有所不同的是,推土机采用了模块化的设计,每个模块包含两个处理器核心,这有些像一个启用了SMT的单核处理器。每个核心具有各自的整数调度器和四个专有的管线,两个核心共享一个浮点调度器和两个128FMAC乘法累加器。所不同的,在K10架构中,ALUAGU共享三个管线(平均1.5个),推土机中每个核心整数单元管线的数量增加为4个,2AGU专有、2ALU专有。L1缓存也有所不同,在K10架构中,每个核心具有64KB L1指令缓存和64KB L1数据缓存;而推土机每个核心具有16KBL1数据缓存、每个模块具有64KB双向L1指令缓存,至于减小的L1缓存是否会影响性能还有待观察。两个核心共享L2缓存,模块之间共享L3缓存及北桥。 AMD“推土机模块模块核心,这让我们不免会产生混淆,实际对于用户们来说,没必要去刻意的关注模块的概念,这只不过是AMD在设计上的称谓,而当产品投放市场的时候,依旧会以核心数量为标识,比如我们说采用推土机架构的“Interlagos”服务器处理器具有16个核心,而不会说是8个模块。对于为何采用这种模块设计的主要原因,AMD表示是为了减少CPU的冗余电路如果采用CMP的方式,随着核心数量的增加,CPU的核心面积也会越来越大,重复的电路也会越来越多,功耗也会随之增加——因为CMP是采用复制核心的方式。而采用模块设计可以大大减少冗余电路,这对核心的大量增加很有意义。比如推土机,两个核心共享浮点部分,对于大部分服务器应用来说,整数运算的部分要远远高于浮点运算(高性能计算除外),所以将浮点执行单元共享并不会影响大多数应用中的性能。而整数部分则不是共享的,否则会造成瓶颈。 上文我们回顾过CMPSMT设计的特点,我们可以把AMD“推土机架构看做是介于这两种之间的一种设计:两个线程(核心)共享浮点执行单元,但是各自具有独立的整数执行资源。这看上去像是SMT的另一种形式,或者说是经过AMD改良的一种“AMD式的第三种方式。但与传统的SMT设计不同,SMT仅仅复制的是核心的存储部分,一个线程一个存储模块(registerfile),而AMD“推土机架构中,每个线程复制的是完整的整数执行单元硬件,一个线程具有一个存储模块(registerfile)和一组完整的整数执行单元。 AMD“推土机核心架构的一些特性每个线程具有独立的整数执行单元是AMD“推土机和双线程SMT设计的主要区别。不过从推土机的设计来看,这并不像真正意义上的“CMP双核,毕竟两个核心还要共享浮点执行单元,或者可以称之为“1.5。这样设计的好处就是能够大大节省晶体管的数量、降低核心面积和功耗,同时降低成本。即使不是真正的双核,但不难想象这样的设计要比SMT更加高效,相比之下,传统的SMT设计可以称之为是一种“1.2的设计。 AMD表示平均计算下,一个单独的推土机核心执行两个线程可以达到1.8CMP的效率,但是,这样的数字也是要依赖于负载情况。虽然推土机的模块设计要比传统的SMT设计在执行效率上更高,但是增加的整数执行单元也提高了成本和能耗。另外,没有意外的话,AMD“推土机应该具备很好的浮点计算性能。AMD表示虽然FPU是被两个线程共享的一个部分,如果给予足够的内存带宽,芯片将具有很高的
北京思腾创新科技发展有限公司联系人:张瑜手机:18210075131qq:352983686  旺旺:奇宝大世界 支持淘宝交易

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2024-5-4 05:43

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表