一年前预言的AMD 推土机性能，竟然如此准确，得瑟一下。

只看该作者 · 发表于 2010-8-25 11:30

提示: 作者被禁止或删除内容自动屏蔽

xmasjacky · 发表于 2010-8-25 11:41

一个核心差不多就是10平方毫米到20的样子，差不了多少。
对于180到280平方毫米的处理器，差20平方并不 ...
itany 发表于 2010-8-25 01:49

把L2也同步缩小呢

xmasjacky · 发表于 2010-8-25 11:46

、分支和预读的算法，当然现在不会具体公布，但是这篇文章给出了大体机制，完全翻新：

2alu 与 2agu并 ...
hammerking 发表于 2010-8-25 11:29

这样看起来到还像点样，至少从目前状况看AMD很得意于其对晶体管的拿捏程度

itany · 发表于 2010-8-25 12:00

、分支和预读的算法，当然现在不会具体公布，但是这篇文章给出了大体机制，完全翻新：

2alu 与 2agu并 ...
hammerking 发表于 2010-8-25 11:29

这个我之前就看过了，无非就是L2分支预测罢了，Nehalem吃剩的
K8、K10的AGU是和ALU放在一个发射口上边的，只不过Bulldozer独立了

所以说Bulldozer更像是Intel的处理器

只看该作者 · 发表于 2010-8-25 12:10

提示: 作者被禁止或删除内容自动屏蔽

4479237 · 发表于 2010-8-25 12:14

看不懂，各位能从这些架构图看出性能来？

只看该作者 · 发表于 2010-8-25 12:16

提示: 作者被禁止或删除内容自动屏蔽

spinup · 发表于 2010-8-25 12:25

5平方毫米对于整个芯片来说影响并不大，Intel通过L3密度就可以找回来的
Llano的10-面积是不包含L2缓存 ...
itany 发表于 2010-8-25 11:11

westmere的L2占面积相当小，从照片上看不到整个核心的1/9。也就是说除去L2，westmere将是15平方毫米左右，sandybridge还会略大些。

桌面上4模块bd面对的应该是4核sandybridge，amd并没有双通道内存以上的超高端桌面的打算。只有服务器端6-8模块的bd才会对抗6核以上的sandybridge。双内存通道的4模块bd要是能和3内存通道的6核甚至8核sb对抗，谁会哭谁会笑就不用说了。

fpu一直都有自己的load/store单元，---k7开始就是3个浮点单元，两个运算，一个misc(其实就是ld/st)。因为fpu的数据读写与整型部分差别非常大而对延迟很不敏感。注意netburst，所有型号的fpu数据都是只通过L2的，bd也这么做完全顺理成章。

acqwer · 发表于 2010-8-25 13:33

LS看好的HPC，BD是没戏了吧。

spinup · 发表于 2010-8-25 14:23

8模组的浮点资源与k10.5 16核相当了，所以用在hpc上还是会略有进步的。只是没有k8x2到k10那样夸张了。

the_god_of_pig · 发表于 2010-8-25 14:30

8模组的浮点资源与k10.5 16核相当了，所以用在hpc上还是会略有进步的。只是没有k8x2到k10那样夸张了。
spinup 发表于 2010-8-25 14:23

8模组的浮点资源能与k10.5 16核相当??????

x2到k10好看的也就是Linpack

CC9K · 发表于 2010-8-25 14:49

一个推土机模块大致相当于两个K10的浮点单元

4479237 · 发表于 2010-8-25 14:55

8模组的浮点资源与k10.5 16核相当了，所以用在hpc上还是会略有进步的。只是没有k8x2到k10那样夸张了。
spinup 发表于 2010-8-25 14:23

k8x2到k10那样夸张？？？
没理解

spinup · 发表于 2010-8-25 15:05

k8x2到k10那样夸张？？？
没理解
4479237 发表于 2010-8-25 14:55

K8的fpu是一个64位乘一个64位加。
K10对于sse来说是一个128位乘一个128位加。（不过对于x87仍然是一乘一加。）
所以K10相对于k8用sse指令的话浮点是加倍的。再加上核心也从2核提高到4核----虽然barcelona在pc玩家中被叫做废龙，但是用在hpc上却可以抢top10里的5个位置

4479237 · 发表于 2010-8-25 15:12

K8的fpu是一个64位乘一个64位加。
K10对于sse来说是一个128位乘一个128位加。（不过对于x87仍然是一乘 ...
spinup 发表于 2010-8-25 15:05

我知道我的X2 245 EVEREST里跑分比6000+好看，但是对于个人使用没什么提高吧

如果推土机提升还不如这些，不知有什么必要升级

ifu · 发表于 2010-8-25 15:23

8模组的浮点资源与k10.5 16核相当了，所以用在hpc上还是会略有进步的。只是没有k8x2到k10那样夸张了。
spinup 发表于 2010-8-25 14:23

浮点长期看来AMD会让GPU来干部分活

acqwer · 发表于 2010-8-25 15:40

K8的fpu是一个64位乘一个64位加。
K10对于sse来说是一个128位乘一个128位加。（不过对于x87仍然是一乘 ...
spinup 发表于 2010-8-25 15:05

2个128位加乘能比一个128位乘一个128位加强多少？

spinup · 发表于 2010-8-25 16:28

2个128位加乘能比一个128位乘一个128位加强多少？
acqwer 发表于 2010-8-25 15:40

理论值是加倍。

其实应该比较的是一个128位加乘融合和一个128位乘并一个128位加。
理论上有折扣---加乘单元可能只提供一个端口，换句话说不能同时跑分立的一个加一个乘。
不过也有加成---融合的加乘运算实际比1乘后再1加要快不少。

不过折扣的情况其实挺罕见，但是软件编得好的话加成的情况倒是普遍的。所以现在普遍使用FMAC

AMD11 · 发表于 2010-8-25 17:48

westmere的L2占面积相当小，从照片上看不到整个核心的1/9。也就是说除去L2，westmere将是15平方毫米左右 ...
fpu一直都有自己的load/store单元，---k7开始就是3个浮点单元，两个运算，一个misc(其实就是ld/st)。因为fpu的数据读写与整型部分差别非常大而对延迟很不敏感。注意netburst，所有型号的fpu数据都是只通过L2的，bd也这么做完全顺理成章。
spinup 发表于 2010-8-25 12:25

Bulldozer的缓存架构还是比较正常的架构，netburst的则是采用跟踪缓存架构，因此这个类比不是很合适吧。

AMD11 · 发表于 2010-8-25 18:00

理论值是加倍。

其实应该比较的是一个128位加乘融合和一个128位乘并一个128位加。
理论上有折扣---加乘单元可能只提供一个端口，换句话说不能同时跑分立的一个加一个乘。
不过也有加成---融合的加乘运算实际比1乘后再1加要快不少。

不过折扣的情况其实挺罕见，但是软件编得好的话加成的情况倒是普遍的。所以现在普遍使用FMACspinup 发表于 2010-8-25 16:28

理论值的确加倍，但是那是理想情况，运行linkpack肯定很好看。但是发射宽度极度缩小，一个模块（两个核心）对应四发射，而整数管线却加大，有点小水管进大池子，然后又用缩小水管（相比K10.5）出水，这真是一个很变形的东西，相当于两头小，中间大的梭形结构，难道AMD真的想用管线做缓存？（^_^），或说AMD真的相信服务器计算领域的程序都是顺序性的比较多，能够时刻充满管线？我认为除非AMD的影响力要大于Intel，而且能够提供比Intel更优秀的编译器。

还有一个推测，Intel的Many core架构走的是顺序结构，Intel要推广这个玩意，自然在编译器上需要大力优化。AMD就看中这个，要搭这个便车？如果真是这样，那些能够在Many core上优化很好的东西，Bulldozer可能会运行得很好，实现“增加33%晶体管得到50%的提升”。

帐号		自动登录	找回密码
密码			注册

hammerking 该用户已被删除	41^# 发表于 2010-8-25 11:30 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
hammerking 该用户已被删除
	回复支持反对使用道具举报显身卡

hammerking 该用户已被删除	45^# 发表于 2010-8-25 12:10 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
hammerking 该用户已被删除
	回复支持反对使用道具举报显身卡

hammerking 该用户已被删除	47^# 发表于 2010-8-25 12:16 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
hammerking 该用户已被删除
	回复支持反对使用道具举报显身卡

一年前预言的AMD 推土机性能，竟然如此准确，得瑟一下。

浏览过的版块