POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
楼主: AMD11
打印 上一主题 下一主题

一年前预言的AMD 推土机性能,竟然如此准确,得瑟一下。

  [复制链接]
westlee 该用户已被删除
21#
发表于 2010-8-24 22:49 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

22#
发表于 2010-8-24 23:35 | 只看该作者
浮点应该有提高,以一个模块比以前一个核心的话,毕竟4发射了
回复 支持 反对

使用道具 举报

23#
发表于 2010-8-25 00:18 | 只看该作者
现在太好玩了,Nehalem出来后,AMD的U对Intel出现了“插座门”惨剧,这次在桌面上除了“插座门”外,可能还 ...
AMD11 发表于 2010-8-24 18:07



AMD插座门是什么东西????

我只听过INTEL的插座门    真没听过AMD的
回复 支持 反对

使用道具 举报

24#
发表于 2010-8-25 00:23 | 只看该作者
AMD插座门是什么东西????

我只听过INTEL的插座门    真没听过AMD的
scowl 发表于 2010-8-25 00:18


同样是4核对4核,Intel双路灭AMD四路,让一半插座的事件
回复 支持 反对

使用道具 举报

25#
发表于 2010-8-25 00:48 | 只看该作者
关于推土机,可以不可以这么理解:单核性能小幅下降但是晶体管数大幅减少,准备和Intel玩“人海战术”靠数量取胜。
回复 支持 反对

使用道具 举报

26#
发表于 2010-8-25 01:49 | 只看该作者
关于推土机,可以不可以这么理解:单核性能小幅下降但是晶体管数大幅减少,准备和Intel玩“人海战术”靠数量 ...
xmasjacky 发表于 2010-8-25 00:48


一个核心差不多就是10平方毫米到20的样子,差不了多少。
对于180到280平方毫米的处理器,差20平方并不是要命的。
回复 支持 反对

使用道具 举报

27#
发表于 2010-8-25 02:22 | 只看该作者
你看的是小core,
但一个模块有2独立core共享1FP+2*128fmac,这样一个模块过去叫一个“核心”。
回复 支持 反对

使用道具 举报

28#
发表于 2010-8-25 06:59 | 只看该作者
我只想知道:
1,在晶体管数量大致相当的情况下,同频下推土机能推平沙桥么?在推土机 1模块 vs p2 1核心的 ...
westlee 发表于 2010-8-24 22:49

看推土机的设计取向,在多线程应用的情况下有望推平沙桥,不过还得是浮点不密集型应用。相比P2 晶体管/性能应有提高。
浮点这块估计AMD打算用GPU来强化。
回复 支持 反对

使用道具 举报

29#
 楼主| 发表于 2010-8-25 07:52 | 只看该作者
你看的是小core,
但一个模块有2独立core共享1FP+2*128fmac,这样一个模块过去叫一个“核心”。
take 发表于 2010-8-25 02:22

如果这样看的话,就不是小core了,而是一个超级大的core,AMD的预测分支和调度技术相对Intel而言相当糟糕(相关资料显示~90%-93%对~96%-98%),本来K10.5的执行资源相对过剩,如今用模块的理念更加过剩,而且里面还增加了一个很好玩的调度(嘿嘿,太好玩了)。

如果用小“core”的观点看,发射宽度极度缩小,执行资源虽然也缩水了,可整数资源还是过剩,但是L1的缩小就变得不可理喻,一下子变到了16KBD/core,相比K10.5的64KBD/core而言差了4倍。难道AMD自信自己的L2上能与Intel比吗?Intel的L2可达到6~7周期,而且是独享的,并且L1D可是32KB。

根据这个图,可以预测,针对Bulldozer优化程序主要是那些具有良好顺序执行的非浮点密集的程序,这样才能最大地发挥Bulldozer的能力。可惜,服务器上面向事务的程序并不是很符合这个要求,除非优化再优化。但是AMD自身连编译器都做不了,在业界的能力和影响很小。因此,不难推测,Bulldozer的综合能力提高有限,同频下,以模块对K10.5核心,4对4,多线程也就15%~25%的提升,单线程就算了,不说也罢。

神啊,但愿我说错了。我可想让Intel的IVY bridge早点出来。
回复 支持 反对

使用道具 举报

30#
 楼主| 发表于 2010-8-25 07:53 | 只看该作者
你看的是小core,
但一个模块有2独立core共享1FP+2*128fmac,这样一个模块过去叫一个“核心”。
take 发表于 2010-8-25 02:22


如果这样看的话,就不是小core了,而是一个超级大的core,AMD的预测分支和调度技术相对Intel而言相当糟糕(相关资料显示~90%-93%对~96%-98%),本来K10.5的执行资源相对过剩,如今用模块的理念更加过剩,而且里面还增加了一个很好玩的调度(嘿嘿,太好玩了)。

如果用小“core”的观点看,发射宽度极度缩小,执行资源虽然也缩水了,可整数资源还是过剩,但是L1的缩小就变得不可理喻,一下子变到了16KBD/core,相比K10.5的64KBD/core而言差了4倍。难道AMD自信自己的L2上能与Intel比吗?Intel的L2可达到6~7周期,而且是独享的,并且L1D可是32KB。

根据这个图,可以预测,针对Bulldozer优化程序主要是那些具有良好顺序执行的非浮点密集的程序,这样才能最大地发挥Bulldozer的能力。可惜,服务器上面向事务的程序并不是很符合这个要求,除非优化再优化。但是AMD自身连编译器都做不了,在业界的能力和影响很小。因此,不难推测,Bulldozer的综合能力提高有限,同频下,以模块对K10.5核心,4对4,多线程也就15%~25%的提升,单线程就算了,不说也罢。

神啊,但愿我说错了。我可想让Intel的IVY bridge早点出来。
回复 支持 反对

使用道具 举报

31#
 楼主| 发表于 2010-8-25 08:29 | 只看该作者
本帖最后由 AMD11 于 2010-8-25 08:31 编辑
你看的是小core,
但一个模块有2独立core共享1FP+2*128fmac,这样一个模块过去叫一个“核心”。
take 发表于 2010-8-25 02:22

     如果这样看的话,就不是小core了,而是一个超级大的core,AMD的预测分支和调度技术相对Intel而言相当糟糕(相关资料显示~90%-93%对~96%-98%),本来K10.5的执行资源相对过剩,如今用模块的理念更加过剩,而且里面还增加了一个很好玩的调度(嘿嘿,太好玩了)。

      如果用小“core”的观点看,发射宽度极度缩小,执行资源虽然也缩水了,可整数资源还是过剩,但是L1的缩小就变得不可理喻,一下子变到了16KBD/core,相比K10.5的64KBD/core而言差了4倍。难道AMD自信自己的L2上能与Intel比吗?Intel的L2可达到6~7周期,而且是独享的,并且L1D可是32KB。

      根据这个图,可以预测,针对Bulldozer优化程序主要是那些具有良好顺序执行的非浮点密集的程序,这样才能最大地发挥Bulldozer的能力。可惜,服务器上面向事务的程序并不是很符合这个要求,除非优化再优化。但是AMD自身连编译器都做不了,在业界的能力和影响很小。因此,不难推测,Bulldozer的综合能力提高有限,同频下,以模块对K10.5核心,4对4,多线程也就15%~25%的提升,单线程就算了,不说也罢。

      神啊,但愿我说错了。我可想让Intel的IVY bridge早点出来。
回复 支持 反对

使用道具 举报

32#
发表于 2010-8-25 09:40 | 只看该作者
I don't see AMD "bulldozing" Intel; even if the performance of these new chips surpasses Intel's best, it's not likely to be by a large margin as when the Athlon 64 was up against the Pentium 4 architecture, and Intel has plenty of resources to fight back. What it might mean (assuming that AMD's chips deliver on their promise) is that AMD will have Pro-Aduct line that can face Intel on equal terms throughout the performance spectrum, instead of being limited to the low end (and low margin) part of the business. That will improve their profitability, and thus their prospects for long-term survival.
回复 支持 反对

使用道具 举报

33#
发表于 2010-8-25 09:43 | 只看该作者
要出来才知道
回复 支持 反对

使用道具 举报

34#
发表于 2010-8-25 10:12 | 只看该作者
如果这样看的话,就不是小core了,而是一个超级大的core,AMD的预测分支和调度技术相对Intel而言相当 ...
AMD11 发表于 2010-8-25 08:29

45nmk10.5大约15平方毫米,对比nehalem大约25平方毫米。
已公布的llano中k10.5面积是不到10平方毫米,weatmere大约17平方毫米。

bd具体面积这次也未必会公布,传言说大约15平方毫米。amd称第二个簇仅占12%面积,假如移除第二个簇的话一个核心将在12-13平方毫米。考虑到加倍的浮点,一个核心大约与k10.5相当。

关于L1D,其大小并不是问题。因为L1D仅仅是供整型簇使用的,真正占容量的浮点和多媒体数据都应该直接从L2里读。P4就是如此,其L1D仅8K到12K。

以bd一模块对k10.5一核,实际浮点是加倍的。整型如何暂且不说,浮点其实提升会很大。
回复 支持 反对

使用道具 举报

hammerking 该用户已被删除
35#
发表于 2010-8-25 10:36 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

36#
发表于 2010-8-25 11:11 | 只看该作者
45nmk10.5大约15平方毫米,对比nehalem大约25平方毫米。
已公布的llano中k10.5面积是不到10平方毫米,we ...
spinup 发表于 2010-8-25 10:12


5平方毫米对于整个芯片来说影响并不大,Intel通过L3密度就可以找回来的
Llano的10-面积是不包含L2缓存的,算上的话是18-,其他的应该是算上L2的面积

如果算是一模块对一核心,矢量单元确实是加倍的,然而AMD并不是这样计算的。桌面上4模块的产品面临的是6-8核心的Sandy Bridge,所以至少在桌面上矢量没有任何胜算。
回复 支持 反对

使用道具 举报

头像被屏蔽
37#
发表于 2010-8-25 11:14 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

38#
发表于 2010-8-25 11:14 | 只看该作者
预取与分支预测完全重做,相当激进。。
hammerking 发表于 2010-8-25 10:36


怎么可能重做呢?
分支和预读不在于公布的,而在于没公布的具体算法。

另外我之前就说一个Bulldozer核心里边是2 ALU+2 AGU(Load+Store),您老还不信。
回复 支持 反对

使用道具 举报

39#
发表于 2010-8-25 11:24 | 只看该作者
45nmk10.5大约15平方毫米,对比nehalem大约25平方毫米。
已公布的llano中k10.5面积是不到10平方毫米,we ...
spinup 发表于 2010-8-25 10:12


另外,貌似矢量数据也是从L1D读取的,原因如下:
1 本来L2延迟就大,AMD的共享L2延迟就更大,不从L1D读取,L2的延迟直接暴露怎么得了
2 L2带宽不足,现在算是3个核心互相争夺,不用L1D掩盖更不可能。
3 浮点单元没有自己的AGU,也没有L/S单元,这样还是通过整数核心代劳之后转过去的。如果不是从L1D读取,整个体系就乱掉了。
回复 支持 反对

使用道具 举报

hammerking 该用户已被删除
40#
发表于 2010-8-25 11:29 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-8-1 21:55

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表