POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
楼主: AMD11
打印 上一主题 下一主题

一年前预言的AMD 推土机性能,竟然如此准确,得瑟一下。

  [复制链接]
hammerking 该用户已被删除
121#
发表于 2010-8-26 16:30 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

hammerking 该用户已被删除
122#
发表于 2010-8-26 16:33 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

123#
发表于 2010-8-26 18:34 | 只看该作者
也可以等于肯定会有吗,至少路线图上都看不到。我认为32nm下,intel不会推出8核以上的sb,至于频率,你 ...
hammerking 发表于 2010-8-26 16:33


据说会有10核sandybridge-ex。

频率嘛,比一下nehalem-ex和magny cours可以看出个大概。
回复 支持 反对

使用道具 举报

124#
发表于 2010-8-26 18:51 | 只看该作者
bd一个core是2×128bit load  and 1×128 store per cycle  比k10强得多.
bd和bobcat单核都是2alu和2ag ...
hammerking 发表于 2010-8-26 16:30


我跟您说ALU,您和我说L/S有什么关系
要支持AVX,L/S肯定要加宽,Sandy Bridge也是一样的。

没说两个ALU+AGU都是一样的性能,但是ALU和AGU本身的性能就是一定的
说Bulldozer是4发射,平均还不是2发射。
这个没必要否认吧
回复 支持 反对

使用道具 举报

125#
发表于 2010-8-26 18:54 | 只看该作者
K10每一对ALU和AGU共享一条管线,BD的2ALU+2AGU是设计成独立的四管线,独占4发射的时候应该还是有用处的
回复 支持 反对

使用道具 举报

hammerking 该用户已被删除
126#
发表于 2010-8-26 19:03 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

127#
发表于 2010-8-26 19:11 | 只看该作者
出来了就知道

现在仅凭规格是说不清的
回复 支持 反对

使用道具 举报

128#
发表于 2010-8-26 19:11 | 只看该作者
本帖最后由 itany 于 2010-8-26 19:14 编辑
2alu 2agu性能是一定的不假,换言之3alu 3agu也是,从理论上是有能给个界限,但是实际做得到吗?况且k10的 ...
hammerking 发表于 2010-8-26 19:03


独占的4发射也没有用,因为前端过剩了
显然,Bulldozer是针对多线程情况下每核心2发射的情况,而不是单线程要达到4发射的情况
回复 支持 反对

使用道具 举报

129#
发表于 2010-8-26 19:18 | 只看该作者
看了整个帖子, 不能说某些人说的全对.

首先, 我认为SandyBridge表面上支持256bits AVX处理, 但是经过我查证SB和Nehalem的核心照片, 发觉两者的运算单元在布阵上差不多, 只不过是pack得密一些, 和重新摆放位置, 这只是为了减低指令延迟的手段, 因此我认为, SandyBridge事实上很大可能只是具备128bits的AVX单元. 只不过可能SB把256bits指令拆分为两条128b. 此外, 我看过SandyBridge的核心照片, 我怀疑SB的缓冲池部分有所扩张. 既然SB本身只是具备128b的运算单元, 如此推断, 在AVX效能上, 也很难和推土机有很大的差距. Intel不扩张运算单元有几个可能因素, 1, 扩张运算单元, 由于P6架构采用统一缓冲池和调度器的关系, Intel需要重新设计整数单元, 浮点单元, 寄存器, 解码器等等部分, 风险很大; 2.如果扩大寄存器的宽度, 意味着增加晶体管浪费, 增加能耗, 增加成本.

其2, 推土机的单线程性能应该有所增长, 只是幅度不大. 推土机的整数管线和Yonah (Core第一代)差不多, 但是Yonah的效能比K8, K10.5还高. 原则上, 推土机的4管线, 只需要3个解码器便能充满流水线. 但是AMD设计为4个解码器, 很大的原因, 是因为AMD需要执行管线有多余的操作, 如此解码器才有空闲, 可以为另一个整数核心解码. 推土机的解码器, 只是不断地切换线程来为不同核心解码.

其3, 管线不能作为缓存, 尤其是当执行转移指令, 和清空流水线的情况. 乱序架构也和程序的顺序无关. 乱序架构, 反而需要软件不是顺序编写的.

其4, 虽然Bobcat也是2ALU+2AGU, 但是要注意, AGU不能和ALU同时运作, 因此推土机的整数效能是会高出野猫许多, 甚至K10.5.
回复 支持 反对

使用道具 举报

hammerking 该用户已被删除
130#
发表于 2010-8-26 19:23 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

hammerking 该用户已被删除
131#
发表于 2010-8-26 19:26 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

132#
发表于 2010-8-26 19:26 | 只看该作者
4发射有什么用呢,两个128bit执行单元最多每周期发射2条指令
itany 发表于 2010-8-26 12:54

这就不对了, 如果BD的浮点单元FMAC只有两发射的话, 这样岂不浮点性能还会倒退. 我觉得, 一是BD的解码单元可以融合乘加指令, 这之前AMD人员也有类似的说法; 二是BD的FMAC单元具备两个端口, 可以分别执行加法和乘法指令. 你可以看看AMD的PPT, BD的浮点性能比12核MagnyCours更高, 这就不可能只是两发射了.
回复 支持 反对

使用道具 举报

133#
发表于 2010-8-26 19:32 | 只看该作者
你还是局限于 alu agu的配置,如果总能理想状况,当然是alu agu越多越好。但是你看spec测试,有没有平均i ...
hammerking 发表于 2010-8-26 19:23

AMD不推出5发射的BD, 只是推出4发射的BD, AMD当然知道单线程不能赢过SB, 甚至Nehalem, AMD这样做, 是为了减少能耗, 如果单线程性能提升得非常高, 自然能耗也会很高, 这在伺服器领域是不划算的. AMD更注重能耗比. 共享, 能减少能耗, 但同时可以在相同的耗电下, 频率提升得比对手更高. 这是AMD注重减少能耗的原因而设计BD.
回复 支持 反对

使用道具 举报

134#
发表于 2010-8-26 19:39 | 只看该作者
你还是局限于 alu agu的配置,如果总能理想状况,当然是alu agu越多越好。但是你看spec测试,有没有平均i ...
hammerking 发表于 2010-8-26 19:23

更大的分支处理和预取, 是为了应付深度流水线, 减少分支转移错误带来的性能损失. 运算单元的利用率, 更加视乎解码器能力, 和乱序执行机制等等.
回复 支持 反对

使用道具 举报

135#
发表于 2010-8-26 19:42 | 只看该作者
看了整个帖子, 不能说某些人说的全对.

首先, 我认为SandyBridge表面上支持256bits AVX处理, 但是经过我查 ...
StreamUnit 发表于 2010-8-26 19:18


我不得不说,阁下的说法是错误的:

1 Sandy Bridge的AVX单元在执行宽度是256位的,每周期可以发射2条AVX,在Load也可以执行某些和Load相关的运算。
这个已经是Intel官方证实的。
虽然是统一的RS和ROB,但是寄存器完全是分离的,ALU和SSE/AVX单元并不是共用的。
Intel需要对译码器进行设计(不管怎样都需要),但是ALU和相关的东西不需要进行修改。

2 确实Bulldozer的管线和Yonah是类似的,但是Shanghai并不比Yonah性能差,甚至整数性能还要好一点。
Bulldozer相对于Shanghai ALU缩水也是客观存在的

3 管线是不能作为缓存,缓存不命中就会形成流水线气泡,性能损失是注定存在的。
P4的缓存是由于地址计算时间的问题,并不是管线可以掩盖缓存延迟,而是没办法的事情

4 Bobcat的ALU和AGU就是两个调度器,怎么可能不能同时发射呢?
您老自己看看官方大图

回复 支持 反对

使用道具 举报

136#
发表于 2010-8-26 19:58 | 只看该作者
我不得不说,阁下的说法是错误的:

1 Sandy Bridge的AVX单元在执行宽度是256位的,每周期可以发射2条 ...
itany 发表于 2010-8-26 19:42


我不得不说,阁下的说法是错误的:

1 Sandy Bridge的AVX单元在执行宽度是256位的,每周期可以发射2条AVX,在Load也可以执行某些和Load相关的运算。
这个已经是Intel官方证实的。
虽然是统一的RS和ROB,但是寄存器完全是分离的,ALU和SSE/AVX单元并不是共用的。
Intel需要对译码器进行设计(不管怎样都需要),但是ALU和相关的东西不需要进行修改。
------------------------------------------------------------------------
虽然SB能发射两条AVX, 但是SB可以使用两个周期来完成一条AVX指令. 此外, 根据前面搂主给出的图片, SB和WM的核心面积差不多, 就更不可能是256b单元了. 此外, 如果Intel的SB具备256b的寄存器, 他的ROB也要重新设计, 而编译器也要修改, 至于整数单元, 我是指整数单元的寄存器等要修改, 因为ROB要修改的关系.

2 确实Bulldozer的管线和Yonah是类似的,但是Shanghai并不比Yonah性能差,甚至整数性能还要好一点。
Bulldozer相对于Shanghai ALU缩水也是客观存在的
-----------------------------------------------------------------------
Yonah的整数性能是比shanghai还高的, 你可以查查一些测试. 例如SuperPi等.

3 管线是不能作为缓存,缓存不命中就会形成流水线气泡,性能损失是注定存在的。
P4的缓存是由于地址计算时间的问题,并不是管线可以掩盖缓存延迟,而是没办法的事情
-------------------------------------------------------------------------
对, 管线不能作为缓存.

4 Bobcat的ALU和AGU就是两个调度器,怎么可能不能同时发射呢?
您老自己看看官方大图
---------------------------------------------------------------------
看图片, 不能确认为4发射, 因为事实上, 只有一个调度器, 只不过图片为了清晰易明, 画得取巧一些.
回复 支持 反对

使用道具 举报

137#
发表于 2010-8-26 20:39 | 只看该作者
去年就已经澄清了的:

1) The chart is wrong, we will fix it. Sandy Bridge has true 256-bit FP execution units (mul, add, shuffle). They are on exactly the same execution ports as the 128-bit versions. You can get a 256-bit multiply (on port 0) and a 256-bit add (on port 1) and a 256-bit shuffle (port 5) every cycle. 256-bit FP add and multiply bandwidth is therefore 2X higher flops than 128. See IACA for the ports on an instruction-by-instruction basis.

我不得不说,阁下的说法是错误的:
1 Sandy Bridge的AVX单元在执行宽度是256位的,每周期可以发射2条 ...
StreamUnit 发表于 2010-8-26 19:58
回复 支持 反对

使用道具 举报

138#
发表于 2010-8-26 20:56 | 只看该作者
我不得不说,阁下的说法是错误的:

1 Sandy Bridge的AVX单元在执行宽度是256位的,每周期可以发射2条 ...
StreamUnit 发表于 2010-8-26 19:58


您就YY吧
另外,SuperPI不等于整数性能
回复 支持 反对

使用道具 举报

139#
 楼主| 发表于 2010-8-26 21:08 | 只看该作者
我不得不说,阁下的说法是错误的:

1 Sandy Bridge的AVX单元在执行宽度是256位的,每周期可以发射2条AVX,在Load也可以执行某些和Load相关的运算。
这个已经是Intel官方证实的。
虽然是统一的RS和ROB,但是寄存器完全是分离的,ALU和SSE/AVX单元并不是共用的。
Intel需要对译码器进行设计(不管怎样都需要),但是ALU和相关的东西不需要进行修改。
------------------------------------------------------------------------
虽然SB能发射两条AVX, 但是SB可以使用两个周期来完成一条AVX指令. 此外, 根据前面搂主给出的图片, SB和WM的核心面积差不多, 就更不可能是256b单元了. 此外, 如果Intel的SB具备256b的寄存器, 他的ROB也要重新设计, 而编译器也要修改, 至于整数单元, 我是指整数单元的寄存器等要修改, 因为ROB要修改的关系.

2 确实Bulldozer的管线和Yonah是类似的,但是Shanghai并不比Yonah性能差,甚至整数性能还要好一点。
Bulldozer相对于Shanghai ALU缩水也是客观存在的
-----------------------------------------------------------------------
Yonah的整数性能是比shanghai还高的, 你可以查查一些测试. 例如SuperPi等.

3 管线是不能作为缓存,缓存不命中就会形成流水线气泡,性能损失是注定存在的。
P4的缓存是由于地址计算时间的问题,并不是管线可以掩盖缓存延迟,而是没办法的事情
-------------------------------------------------------------------------
对, 管线不能作为缓存.

4 Bobcat的ALU和AGU就是两个调度器,怎么可能不能同时发射呢?
您老自己看看官方大图
---------------------------------------------------------------------
看图片, 不能确认为4发射, 因为事实上, 只有一个调度器, 只不过图片为了清晰易明, 画得取巧一些.
StreamUnit 发表于 2010-8-26 19:58

报告各位大侠,我不得不澄清两个问题:

1、我没有在这贴里放过Sandybridge的图。

2、管线做缓存的事情纯属我个人一句玩笑话,主要是看Bulldozer极端缩减L1D和平均发射宽度,却增加整数管线时的一句玩笑话。
回复 支持 反对

使用道具 举报

140#
 楼主| 发表于 2010-8-26 21:15 | 只看该作者
至于Sandybridge改变多少,只要看看AVX指令集的要求,Intel要实现256bit的全速AVX指令,就可以看到其变化多大了。

    目前AMD给出Bulldozer图和描述想要实现AVX的部分指令(也只能是部分,不是全部),需要拆分AVX到两个FPU上,可想其AVX效能的低下。当然,AMD可能认为AVX刚刚出来,没有2年以上是无法得到普遍使用的,那时候再出一个U再来变成256bit的AVX FPU即可。(不过,我比较存疑,因为按照目前AMD的财力和U上的实力,两年可以出一个新构架的CPU么?我觉得悬。)
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-7-29 04:49

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表