一年前预言的AMD 推土机性能，竟然如此准确，得瑟一下。

CC9K · 发表于 2010-8-25 18:19

本帖最后由 CC9K 于 2010-8-25 18:28 编辑

理论值的确加倍，但是那是理想情况，运行linkpack肯定很好看。但是发射宽度极度缩小，一个模块（两 ...
AMD11 发表于 2010-8-25 18:00

我倒觉得推土机对程序的需求只是从指令级并行向线程级并行转变，单核的乱序性能还是在强化的

AMD11 · 发表于 2010-8-25 19:15

我倒觉得推土机对程序的需求只是从指令级并行向线程级并行转变，单核的乱序性能还是在强化的
CC9K 发表于 2010-8-25 18:19

我认为你的提法欠妥或相矛盾，乱序是指令级，如果乱序加强，指令并行要加强。线程并行更注重顺序结构，用线程去并行处理“小的顺序事务”收益最大，尤其是将分支事务变成两个甚至多个线程去处理时，这样的收益巨大。

tmz · 发表于 2010-8-25 19:22

人家是一个模块算成一个核心，lz非要将其拆成一半再和intel 比，那别玩了，那你想怎么比就怎么比。

AMD11 · 发表于 2010-8-25 19:22

我认为你的提法欠妥或相矛盾，乱序是指令级，如果乱序加强，指令并行要加强。线程并行更注重顺序结构，用线程去并行处理“小的顺序事务”收益最大，尤其是将分支事务变成两个甚至多个线程去处理时，这样的收益巨大。
AMD11 发表于 2010-8-25 19:15

由于AMD在编译器上的积累（或说在代码上的积累）落后Intel甚多，能够将分支事务通过编译的方式去变成多个线程并行处理的可能性不大（Intel本身也无法做到很好，EPIC的编译器还是非常难做，远远低于之前的预想）。因此，我感觉AMD这次真的更加想往HPC发展，希望跟上Intel的many core，而不是普通的Server，桌面就更悲剧。

但愿我推测全错，这样我深感荣幸。竞争带来的好处就是能够推动技术更快发展，这是我期望的。

bessel · 发表于 2010-8-25 19:23

你把这段话说明白点。

fpu一直都有自己的load/store单元，---k7开始就是3个浮点单元，两个运算，一个misc(其实就是ld/st)。因为fpu的数据读写与整型部分差别非常大而对延迟很不敏感。注意netburst，所有型号的fpu数据都是只通过L2的，bd也这么做完全顺理成章。
spinup 发表于 2010-8-25 12:25

AMD11 · 发表于 2010-8-25 19:24

人家是一个模块算成一个核心，lz非要将其拆成一半再和intel 比，那别玩了，那你想怎么比就怎么比。
tmz 发表于 2010-8-25 19:22

我觉得这就有气话了，至少没有AMD的文档宣称过一个模块为一个核心吧，或许我孤陋寡闻了。

只看该作者 · 发表于 2010-8-25 19:28

提示: 作者被禁止或删除内容自动屏蔽

tanlwowo · 发表于 2010-8-25 19:35

楼主的预测技术AMD拍马难追，不去做CPU而跑去产奶，真可惜了。

elisha · 发表于 2010-8-25 19:38

4模块 bd是与4核 sb比的，很明了嘛。在服务器端，8核sb有8模块16核 interlagos对上。
hammerking 发表于 2010-8-25 19:28

8核对4核嘛，跟现在情况也差不多

AMD11 · 发表于 2010-8-25 19:42

楼主的预测技术AMD拍马难追，不去做CPU而跑去产奶，真可惜了。
tanlwowo 发表于 2010-8-25 19:35

莫非讨论AMD的Bulldozer是动了阁下的奶头？还是Q哥的光头？摸不得么？有事说事就这么难？

只看该作者 · 发表于 2010-8-25 19:42

提示: 作者被禁止或删除内容自动屏蔽

只看该作者 · 发表于 2010-8-25 19:45

提示: 作者被禁止或删除内容自动屏蔽

ifu · 发表于 2010-8-25 19:50

理论值的确加倍，但是那是理想情况，运行linkpack肯定很好看。但是发射宽度极度缩小，一个模块（两 ...
AMD11 发表于 2010-8-25 18:00

x86的指令发射宽度还是变大了的 3->4。在跑单线程任务时时怎么看也算是大水管进。
AMD应该是把宝押在以后应用程序大都是多线程并行化，大方向还是没错的。目前处理器单线程性能的提高到了怠涨期，即便对intel来说也是如此。

AMD11 · 发表于 2010-8-25 19:52

认为bd核心的整数性能比k10低，那有2个前提，一是bd的整数单元就是在k10的基础上消去1/3，二是k10的3个alu利用率很高。
而实际上bd的2alu和2agu是独立的，各自拥有完整管线，利用率更高，再结合改进相当大的预取，分支预测、宏融合以及需要重新设计的译码单元，bd核心的整数ipc肯定比k10要高。amd在总结里把单线程性能作为显著提升的要点之一提出来，应当是ipc提高与更先进的turbo模式共同作用的结果。
hammerking 发表于 2010-8-25 19:42

1、K10.5的ALU管线不完整么？

2、按照AMD的图，预取的改进相当大，但是效率问题不提（分支预测的效率更不提），AMD的宏融合情况也没有很明晰的答案，至少K10.5的效率不明显。Bulldozer能不能做到很好的改善？如果从编译器这个AMD心结看，我的观点是不理想。重新设计的译码单元也是以观后效。因此，我个人认为BD核心的整数IPC不比K10强，相反会倒退。

3、我一直坚持这个观点，Bulldozer的收益在于顺序结构的多线程程序。

AMD11 · 发表于 2010-8-25 19:56

x86的指令发射宽度还是变大了的 3->4。在跑单线程任务时时怎么看也算是大水管进。
AMD应该是把宝押在以后应用程序大都是多线程并行化，大方向还是没错的。目前处理器单线程性能的提高到了怠涨期，即便对intel来说也是如此。
ifu 发表于 2010-8-25 19:50

我说的是core，不是modul，平均下来，一个core的发射宽度只有2，却有4个管线。呵呵，真可以将管线做缓存，保证比L1快，不用任何预取和预测了，直接使用就是了。^_^

只看该作者 · 发表于 2010-8-25 20:02

提示: 作者被禁止或删除内容自动屏蔽

只看该作者 · 发表于 2010-8-25 20:04

提示: 作者被禁止或删除内容自动屏蔽

AFXIF · 发表于 2010-8-25 20:06

CINT2006的冠军……Power7实际上也只有2ALU。

ifu · 发表于 2010-8-25 20:13

我说的是core，不是modul，平均下来，一个core的发射宽度只有2，却有4个管线。呵呵，真可以将管线做缓存 ...
AMD11 发表于 2010-8-25 19:56

跑单线程程序时这当然不能按平均来算，它可以独占这实实在在的4发射x86。

AMD11 · 发表于 2010-8-25 21:04

做单线程时，四发射肯定是为一个core服务，同样2*128fmac也可以被一个core占用。
以你的这个思路，你还是以bd的一个core对比sb的一个core，但假若4模块8核心bd真的能匹敌8核心sb，那intel要哭死了。
hammerking 发表于 2010-8-25 20:04

唉，太理想了，现在的操作系统还能做到如此纯粹吗？同一时刻只有一个进程/线程运行？这个要求太高了。呵呵。

帐号		自动登录	找回密码
密码			注册

hammerking 该用户已被删除	67^# 发表于 2010-8-25 19:28 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
hammerking 该用户已被删除
	回复支持反对使用道具举报显身卡

hammerking 该用户已被删除	71^# 发表于 2010-8-25 19:42 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
hammerking 该用户已被删除
	回复支持反对使用道具举报显身卡

hammerking 该用户已被删除	72^# 发表于 2010-8-25 19:45 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
hammerking 该用户已被删除
	回复支持反对使用道具举报显身卡

hammerking 该用户已被删除	76^# 发表于 2010-8-25 20:02 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
hammerking 该用户已被删除
	回复支持反对使用道具举报显身卡

hammerking 该用户已被删除	77^# 发表于 2010-8-25 20:04 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
hammerking 该用户已被删除
	回复支持反对使用道具举报显身卡

一年前预言的AMD 推土机性能，竟然如此准确，得瑟一下。

浏览过的版块