一年前预言的AMD 推土机性能，竟然如此准确，得瑟一下。

只看该作者 · 发表于 2010-8-26 16:30

提示: 作者被禁止或删除内容自动屏蔽

只看该作者 · 发表于 2010-8-26 16:33

提示: 作者被禁止或删除内容自动屏蔽

spinup · 发表于 2010-8-26 18:34

也可以等于肯定会有吗，至少路线图上都看不到。我认为32nm下，intel不会推出8核以上的sb，至于频率，你 ...
hammerking 发表于 2010-8-26 16:33

据说会有10核sandybridge-ex。

频率嘛，比一下nehalem-ex和magny cours可以看出个大概。

itany · 发表于 2010-8-26 18:51

bd一个core是2×128bit load and 1×128 store per cycle 比k10强得多.
bd和bobcat单核都是2alu和2ag ...
hammerking 发表于 2010-8-26 16:30

我跟您说ALU，您和我说L/S有什么关系
要支持AVX，L/S肯定要加宽，Sandy Bridge也是一样的。

没说两个ALU+AGU都是一样的性能，但是ALU和AGU本身的性能就是一定的
说Bulldozer是4发射，平均还不是2发射。
这个没必要否认吧

CC9K · 发表于 2010-8-26 18:54

K10每一对ALU和AGU共享一条管线，BD的2ALU+2AGU是设计成独立的四管线，独占4发射的时候应该还是有用处的

只看该作者 · 发表于 2010-8-26 19:03

提示: 作者被禁止或删除内容自动屏蔽

the_god_of_pig · 发表于 2010-8-26 19:11

出来了就知道

现在仅凭规格是说不清的

itany · 发表于 2010-8-26 19:11

本帖最后由 itany 于 2010-8-26 19:14 编辑

2alu 2agu性能是一定的不假，换言之3alu 3agu也是，从理论上是有能给个界限，但是实际做得到吗？况且k10的 ...
hammerking 发表于 2010-8-26 19:03

独占的4发射也没有用，因为前端过剩了
显然，Bulldozer是针对多线程情况下每核心2发射的情况，而不是单线程要达到4发射的情况

StreamUnit · 发表于 2010-8-26 19:18

看了整个帖子, 不能说某些人说的全对.

首先, 我认为SandyBridge表面上支持256bits AVX处理, 但是经过我查证SB和Nehalem的核心照片, 发觉两者的运算单元在布阵上差不多, 只不过是pack得密一些, 和重新摆放位置, 这只是为了减低指令延迟的手段, 因此我认为, SandyBridge事实上很大可能只是具备128bits的AVX单元. 只不过可能SB把256bits指令拆分为两条128b. 此外, 我看过SandyBridge的核心照片, 我怀疑SB的缓冲池部分有所扩张. 既然SB本身只是具备128b的运算单元, 如此推断, 在AVX效能上, 也很难和推土机有很大的差距. Intel不扩张运算单元有几个可能因素, 1, 扩张运算单元, 由于P6架构采用统一缓冲池和调度器的关系, Intel需要重新设计整数单元, 浮点单元, 寄存器, 解码器等等部分, 风险很大; 2.如果扩大寄存器的宽度, 意味着增加晶体管浪费, 增加能耗, 增加成本.

其2, 推土机的单线程性能应该有所增长, 只是幅度不大. 推土机的整数管线和Yonah (Core第一代)差不多, 但是Yonah的效能比K8, K10.5还高. 原则上, 推土机的4管线, 只需要3个解码器便能充满流水线. 但是AMD设计为4个解码器, 很大的原因, 是因为AMD需要执行管线有多余的操作, 如此解码器才有空闲, 可以为另一个整数核心解码. 推土机的解码器, 只是不断地切换线程来为不同核心解码.

其3, 管线不能作为缓存, 尤其是当执行转移指令, 和清空流水线的情况. 乱序架构也和程序的顺序无关. 乱序架构, 反而需要软件不是顺序编写的.

其4, 虽然Bobcat也是2ALU+2AGU, 但是要注意, AGU不能和ALU同时运作, 因此推土机的整数效能是会高出野猫许多, 甚至K10.5.

只看该作者 · 发表于 2010-8-26 19:23

提示: 作者被禁止或删除内容自动屏蔽

只看该作者 · 发表于 2010-8-26 19:26

提示: 作者被禁止或删除内容自动屏蔽

StreamUnit · 发表于 2010-8-26 19:26

4发射有什么用呢，两个128bit执行单元最多每周期发射2条指令
itany 发表于 2010-8-26 12:54

这就不对了, 如果BD的浮点单元FMAC只有两发射的话, 这样岂不浮点性能还会倒退. 我觉得, 一是BD的解码单元可以融合乘加指令, 这之前AMD人员也有类似的说法; 二是BD的FMAC单元具备两个端口, 可以分别执行加法和乘法指令. 你可以看看AMD的PPT, BD的浮点性能比12核MagnyCours更高, 这就不可能只是两发射了.

StreamUnit · 发表于 2010-8-26 19:32

你还是局限于 alu agu的配置，如果总能理想状况，当然是alu agu越多越好。但是你看spec测试，有没有平均i ...
hammerking 发表于 2010-8-26 19:23

AMD不推出5发射的BD, 只是推出4发射的BD, AMD当然知道单线程不能赢过SB, 甚至Nehalem, AMD这样做, 是为了减少能耗, 如果单线程性能提升得非常高, 自然能耗也会很高, 这在伺服器领域是不划算的. AMD更注重能耗比. 共享, 能减少能耗, 但同时可以在相同的耗电下, 频率提升得比对手更高. 这是AMD注重减少能耗的原因而设计BD.

StreamUnit · 发表于 2010-8-26 19:39

你还是局限于 alu agu的配置，如果总能理想状况，当然是alu agu越多越好。但是你看spec测试，有没有平均i ...
hammerking 发表于 2010-8-26 19:23

更大的分支处理和预取, 是为了应付深度流水线, 减少分支转移错误带来的性能损失. 运算单元的利用率, 更加视乎解码器能力, 和乱序执行机制等等.

itany · 发表于 2010-8-26 19:42

看了整个帖子, 不能说某些人说的全对.

首先, 我认为SandyBridge表面上支持256bits AVX处理, 但是经过我查 ...
StreamUnit 发表于 2010-8-26 19:18

我不得不说，阁下的说法是错误的：

1 Sandy Bridge的AVX单元在执行宽度是256位的，每周期可以发射2条AVX，在Load也可以执行某些和Load相关的运算。
这个已经是Intel官方证实的。
虽然是统一的RS和ROB，但是寄存器完全是分离的，ALU和SSE/AVX单元并不是共用的。
Intel需要对译码器进行设计（不管怎样都需要），但是ALU和相关的东西不需要进行修改。

2 确实Bulldozer的管线和Yonah是类似的，但是Shanghai并不比Yonah性能差，甚至整数性能还要好一点。
Bulldozer相对于Shanghai ALU缩水也是客观存在的

3 管线是不能作为缓存，缓存不命中就会形成流水线气泡，性能损失是注定存在的。
P4的缓存是由于地址计算时间的问题，并不是管线可以掩盖缓存延迟，而是没办法的事情

4 Bobcat的ALU和AGU就是两个调度器，怎么可能不能同时发射呢？
您老自己看看官方大图

StreamUnit · 发表于 2010-8-26 19:58

我不得不说，阁下的说法是错误的：

1 Sandy Bridge的AVX单元在执行宽度是256位的，每周期可以发射2条 ...
itany 发表于 2010-8-26 19:42

我不得不说，阁下的说法是错误的：

1 Sandy Bridge的AVX单元在执行宽度是256位的，每周期可以发射2条AVX，在Load也可以执行某些和Load相关的运算。
这个已经是Intel官方证实的。
虽然是统一的RS和ROB，但是寄存器完全是分离的，ALU和SSE/AVX单元并不是共用的。
Intel需要对译码器进行设计（不管怎样都需要），但是ALU和相关的东西不需要进行修改。
------------------------------------------------------------------------
虽然SB能发射两条AVX, 但是SB可以使用两个周期来完成一条AVX指令. 此外, 根据前面搂主给出的图片, SB和WM的核心面积差不多, 就更不可能是256b单元了. 此外, 如果Intel的SB具备256b的寄存器, 他的ROB也要重新设计, 而编译器也要修改, 至于整数单元, 我是指整数单元的寄存器等要修改, 因为ROB要修改的关系.

2 确实Bulldozer的管线和Yonah是类似的，但是Shanghai并不比Yonah性能差，甚至整数性能还要好一点。
Bulldozer相对于Shanghai ALU缩水也是客观存在的
-----------------------------------------------------------------------
Yonah的整数性能是比shanghai还高的, 你可以查查一些测试. 例如SuperPi等.

3 管线是不能作为缓存，缓存不命中就会形成流水线气泡，性能损失是注定存在的。
P4的缓存是由于地址计算时间的问题，并不是管线可以掩盖缓存延迟，而是没办法的事情
-------------------------------------------------------------------------
对, 管线不能作为缓存.

4 Bobcat的ALU和AGU就是两个调度器，怎么可能不能同时发射呢？
您老自己看看官方大图
---------------------------------------------------------------------
看图片, 不能确认为4发射, 因为事实上, 只有一个调度器, 只不过图片为了清晰易明, 画得取巧一些.

bessel · 发表于 2010-8-26 20:39

去年就已经澄清了的：

1) The chart is wrong, we will fix it. Sandy Bridge has true 256-bit FP execution units (mul, add, shuffle). They are on exactly the same execution ports as the 128-bit versions. You can get a 256-bit multiply (on port 0) and a 256-bit add (on port 1) and a 256-bit shuffle (port 5) every cycle. 256-bit FP add and multiply bandwidth is therefore 2X higher flops than 128. See IACA for the ports on an instruction-by-instruction basis.

我不得不说，阁下的说法是错误的：
1 Sandy Bridge的AVX单元在执行宽度是256位的，每周期可以发射2条 ...
StreamUnit 发表于 2010-8-26 19:58

itany · 发表于 2010-8-26 20:56

我不得不说，阁下的说法是错误的：

1 Sandy Bridge的AVX单元在执行宽度是256位的，每周期可以发射2条 ...
StreamUnit 发表于 2010-8-26 19:58

您就YY吧
另外，SuperPI不等于整数性能

AMD11 · 发表于 2010-8-26 21:08

我不得不说，阁下的说法是错误的：

1 Sandy Bridge的AVX单元在执行宽度是256位的，每周期可以发射2条AVX，在Load也可以执行某些和Load相关的运算。
这个已经是Intel官方证实的。
虽然是统一的RS和ROB，但是寄存器完全是分离的，ALU和SSE/AVX单元并不是共用的。
Intel需要对译码器进行设计（不管怎样都需要），但是ALU和相关的东西不需要进行修改。
------------------------------------------------------------------------
虽然SB能发射两条AVX, 但是SB可以使用两个周期来完成一条AVX指令. 此外, 根据前面搂主给出的图片, SB和WM的核心面积差不多, 就更不可能是256b单元了. 此外, 如果Intel的SB具备256b的寄存器, 他的ROB也要重新设计, 而编译器也要修改, 至于整数单元, 我是指整数单元的寄存器等要修改, 因为ROB要修改的关系.

2 确实Bulldozer的管线和Yonah是类似的，但是Shanghai并不比Yonah性能差，甚至整数性能还要好一点。
Bulldozer相对于Shanghai ALU缩水也是客观存在的
-----------------------------------------------------------------------
Yonah的整数性能是比shanghai还高的, 你可以查查一些测试. 例如SuperPi等.

3 管线是不能作为缓存，缓存不命中就会形成流水线气泡，性能损失是注定存在的。
P4的缓存是由于地址计算时间的问题，并不是管线可以掩盖缓存延迟，而是没办法的事情
-------------------------------------------------------------------------
对, 管线不能作为缓存.

4 Bobcat的ALU和AGU就是两个调度器，怎么可能不能同时发射呢？
您老自己看看官方大图
---------------------------------------------------------------------
看图片, 不能确认为4发射, 因为事实上, 只有一个调度器, 只不过图片为了清晰易明, 画得取巧一些.
StreamUnit 发表于 2010-8-26 19:58

报告各位大侠，我不得不澄清两个问题：

1、我没有在这贴里放过Sandybridge的图。

2、管线做缓存的事情纯属我个人一句玩笑话，主要是看Bulldozer极端缩减L1D和平均发射宽度，却增加整数管线时的一句玩笑话。

AMD11 · 发表于 2010-8-26 21:15

至于Sandybridge改变多少，只要看看AVX指令集的要求，Intel要实现256bit的全速AVX指令，就可以看到其变化多大了。

目前AMD给出Bulldozer图和描述想要实现AVX的部分指令（也只能是部分，不是全部），需要拆分AVX到两个FPU上，可想其AVX效能的低下。当然，AMD可能认为AVX刚刚出来，没有2年以上是无法得到普遍使用的，那时候再出一个U再来变成256bit的AVX FPU即可。（不过，我比较存疑，因为按照目前AMD的财力和U上的实力，两年可以出一个新构架的CPU么？我觉得悬。）

帐号		自动登录	找回密码
密码			注册

hammerking 该用户已被删除	121^# 发表于 2010-8-26 16:30 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
hammerking 该用户已被删除
	回复支持反对使用道具举报显身卡

hammerking 该用户已被删除	122^# 发表于 2010-8-26 16:33 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
hammerking 该用户已被删除
	回复支持反对使用道具举报显身卡

hammerking 该用户已被删除	126^# 发表于 2010-8-26 19:03 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
hammerking 该用户已被删除
	回复支持反对使用道具举报显身卡

hammerking 该用户已被删除	130^# 发表于 2010-8-26 19:23 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
hammerking 该用户已被删除
	回复支持反对使用道具举报显身卡

hammerking 该用户已被删除	131^# 发表于 2010-8-26 19:26 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
hammerking 该用户已被删除
	回复支持反对使用道具举报显身卡

一年前预言的AMD 推土机性能，竟然如此准确，得瑟一下。

浏览过的版块