POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
查看: 4725|回复: 44
打印 上一主题 下一主题

====A社威武,推土机碾平某桥[多图杀猫]====

[复制链接]
跳转到指定楼层
1#
发表于 2010-8-24 18:28 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
美国加州帕洛阿尔托市举行的第22届Hot Chips高性能芯片大会上,AMD如约公布了“推土机”(Bulldozer)、“山猫”(Bobcat)两款全新处理器架构的更多技术细节。AMD院士兼推土机总设计师Mike ButlerAMD院士兼山猫总设计师Brad Burgess均出席会议并分别发表了相关演讲。


推土机架构主攻性能和扩展性,面向主流客户端和服务器领域,山猫架构的重点则是灵活性、低功耗和小尺寸,将用于低功耗设备、小型设备、云客户端。


推土机将采用新的模块化设计,每个模块拥有两个四管线核心,彼此共享一个浮点调度器和两个128位乘法累加单元(FMAC)。两个核心都拥有自己的整数调度器、一级数据缓存,并预取、解码单元和二级缓存。 新架构还将有全新的x86指令集支持,包括SSE4.1、SSE4.2、AVX、XOP


推土机微架构示意图


K10 Phenom II微架构示意图


因为除了高性能计算领域之外浮点运算量并不多,这种浮点调度器共享设计能大大节省晶体管、核心面积、功耗,降低成本两个FMAC单元既可以被每个核心单独使用,也可以合并组成一个256位FMAC单元,当然这需要程序代码做相应改变。为了获得最大程度的性能功耗比,推土机架构还会在共享、专用单元之间动态切换


AMD宣称,这种共享模块化设计的多线程执行效率要大大优于同步多线程(SMT)和芯片多处理(CMP)。SMT最典型的实例就是Intel的超线程技术,它强制两个线程进入一个核心,线程之间会争夺资源,影响效率;CMP则是一个线程对应多个专用核心,浪费资源。




推土机的模块可以通过HyperTransport高速点对点总线多个累加在一起,组成更多核心产品,比如代号英特拉格斯的Opteron 6200系列服务器处理器就有6-8个模块、12-16个核心,代号巴伦西亚的Opteron 4200系列则有3-4个模块、6-8个核心,它们会分别取代现有的8-12核心Opteron 6100系列、4-6核心的Opteron 4100系列,均采用GlobalFoundries 32nm SOI工艺制造。
AMD表示,模块化设计能够加速芯片开发、提高产品灵活性,同时对硬件、操作系统、应用软件来说都是透明的。


此外推土机还是一个非常强调效能的架构,支持更先进的电源管理技术。因为浮点单元上的共享,每个模块内第二个整数核心所需要的电路只占总核心面积的12%,从芯片级别上讲这只会给整个内核增加5%的电路。更多的核心、更少的空间,这显然有利于提高单位功耗、单位成本的性能。


简单地说,推土机是AMD彻底重新设计的核心,将成为AMD下一代高性能处理器技术,用于客户端和服务器领域,相比于Opteron 6100系列会增加33%的核心、大约50%的性能


再来看山猫,这是一种小尺寸、高效能、低功耗的x86核心,同时具有出色的性能,可在不同设计、制造工艺上轻松移植。


山猫核心使用的是乱序执行引擎(Atom是顺序执行),集成两个x86解码器、高级分支预测期、完整乱序指令执行、完整乱序载入与存储引擎、高性能浮点单元、32KB一级缓存、512KB二级缓存,完整支持ISA、SSE1/2/3、SSSE3指令集和虚拟化技术,单个核心功耗可降至1W以下,估计能以不到一半的核心面积达到当今主流性能的90%。



山猫微架构示意图
Atom微架构示意图
山猫架构管线
Atom架构管线山猫架构的首款产品是即将于今年底明年初发布、面向轻薄本和上网本的第一款Fusion APU加速处理器“安大略湖”(Ontario),确切地说是其中的CPU部分。Ontario APU之内除了山猫CPU引擎之外,还有SIMD引擎阵列(GPU图形核心)、UVD解码单元、高性能总线和内存控制器、系统接口,将采用台积电40nm工艺制造。

2#
发表于 2010-8-24 18:31 | 只看该作者
这么多类似的信息……
回复 支持 反对

使用道具 举报

头像被屏蔽
3#
发表于 2010-8-24 18:49 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

hammerking 该用户已被删除
4#
发表于 2010-8-24 18:51 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

5#
发表于 2010-8-24 18:55 | 只看该作者
估计能以不到一半的核心面积达到当今主流性能的90%。 -------------------是那种CPU的90%?
回复 支持 反对

使用道具 举报

6#
发表于 2010-8-24 18:58 | 只看该作者
回复 支持 反对

使用道具 举报

7#
发表于 2010-8-24 19:11 | 只看该作者
那bd和phenom 2的架构图是胡扯,phenom2哪来的2*128bit fmac,bd也没有64k L1D
hammerking 发表于 2010-8-24 18:51




是么
回复 支持 反对

使用道具 举报

8#
发表于 2010-8-24 19:12 | 只看该作者
BTW:还是这贴的标题犀利
回复 支持 反对

使用道具 举报

9#
发表于 2010-8-24 20:05 | 只看该作者
估计能以不到一半的核心面积达到当今主流性能的90%。 -------------------是那种CPU的90%?
PRAM 发表于 2010-8-24 18:55



    atom
回复 支持 反对

使用道具 举报

10#
发表于 2010-8-24 20:27 | 只看该作者
何时上市?
回复 支持 反对

使用道具 举报

11#
发表于 2010-8-24 20:45 | 只看该作者
atom
binbin 发表于 2010-8-24 20:05


原来atom是主流cpu
回复 支持 反对

使用道具 举报

12#
发表于 2010-8-24 21:14 | 只看该作者
推土机很怪异,解码指令宽度从3发射变为了4发射,按理说吞吐率加强了,但是从图上看单个整数模块的执行单元数目相比K10又缩水了...如果一个线程只能在一个模块上跑,那未免也太口大肚皮小.
回复 支持 反对

使用道具 举报

13#
发表于 2010-8-24 21:30 | 只看该作者
回复 支持 反对

使用道具 举报

14#
发表于 2010-8-24 21:52 | 只看该作者
推土机很怪异,解码指令宽度从3发射变为了4发射,按理说吞吐率加强了,但是从图上看单个整数模块的执行单元 ...
ifu 发表于 2010-8-24 21:14


这倒不用担心,晶体管总是被精打细算的
回复 支持 反对

使用道具 举报

15#
发表于 2010-8-24 21:57 | 只看该作者
这倒不用担心,晶体管总是被精打细算的
the_god_of_pig 发表于 2010-8-24 21:52

精打细算更应该合理匹配才是,不过这图貌似不是AMD官方放出来的,一切还难说
回复 支持 反对

使用道具 举报

16#
发表于 2010-8-24 22:06 | 只看该作者
看了一半就回帖了。
回复 支持 反对

使用道具 举报

受到警告 17#
发表于 2010-8-24 22:06 | 只看该作者
看了一半就回帖了。
回复 支持 反对

使用道具 举报

westlee 该用户已被删除
18#
发表于 2010-8-24 22:44 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

19#
发表于 2010-8-24 23:55 | 只看该作者
因为除了高性能计算领域之外浮点运算量并不多,这种浮点调度器共享设计能大大节省晶体管、核心面积、功耗, ...
westlee 发表于 2010-8-24 22:44


浮点单元和整数SSE/AVX都是放在一起的
除了ALU运算,剩下可都是SSE了。
貌似NV和AMD自己的显卡驱动里头都有很多SSE指令
回复 支持 反对

使用道具 举报

20#
发表于 2010-8-25 12:02 | 只看该作者
how

碾平他妹
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-8-26 15:59

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表