POPPUR爱换

标题: 一年前预言的AMD 推土机性能,竟然如此准确,得瑟一下。 [打印本页]

作者: AMD11    时间: 2010-8-24 17:52
标题: 一年前预言的AMD 推土机性能,竟然如此准确,得瑟一下。
本帖最后由 AMD11 于 2011-10-12 21:33 编辑

[attach]1363893[/attach][attach]1363892[/attach]

推土机--缩水的核心,同频单线程甚至不如K10.5。

如果这个图不是AMD忽悠的话,按核心而论,L1缩水,AGU、ALU缩水,本人**一次,单线程基本没什么提高,甚至不如K10.5,浮点彻底废掉。看来以前的预测还是有效地,AMD想将浮点放在异构上。
另外,按照Bulldozer的架构方式,可能会衍生出一个顺序架构的东西。
以上仅是个人理解,有错误实属难免,不过个人很有信心,等待实物实测证实。
作者: AMD11    时间: 2010-8-24 18:01
回复 1# AMD11

我倒是希望我的预测是错的,大错特错。这样才能让Intel加紧将藏着掖着的好东西拿出来。
作者: AMD11    时间: 2010-8-24 18:07
现在太好玩了,Nehalem出来后,AMD的U对Intel出现了“插座门”惨剧,这次在桌面上除了“插座门”外,可能还要加上“模块门”事件。

AMD,你为什么就不能争气一点?
作者: 直流电    时间: 2010-8-24 18:26
提示: 作者被禁止或删除 内容自动屏蔽
作者: itany    时间: 2010-8-24 18:33
还没推出的东西 你测试过了?
直流电 发表于 2010-8-24 18:26


如果分支、预读、宏融合没办法挽回的话,Bulldozer单线程性能衰退是肯定的
作者: itany    时间: 2010-8-24 18:35
AMD吹的很好,什么用L2缓存去掩盖L1缓存变小造成的性能损失,但是从独立的L2缓存,变成两个整数核心共享的L2缓存,按照之前AMD做缓存的经验来说,性能衰退是必然的
作者: lanyan3232    时间: 2010-8-24 18:40
提示: 作者被禁止或删除 内容自动屏蔽
作者: hammerking    时间: 2010-8-24 18:54
提示: 作者被禁止或删除 内容自动屏蔽
作者: hammerking    时间: 2010-8-24 18:59
提示: 作者被禁止或删除 内容自动屏蔽
作者: spinup    时间: 2010-8-24 19:06
这2幅架构图太扯淡了,phenom 2哪来的2*128 fmac,bd也不是64k L1D。
hammerking 发表于 2010-8-24 18:54


两个128位fmac......k10啥时候这么牛了
作者: hammerking    时间: 2010-8-24 19:07
提示: 作者被禁止或删除 内容自动屏蔽
作者: itany    时间: 2010-8-24 19:14
两个128位fmac......k10啥时候这么牛了
spinup 发表于 2010-8-24 19:06


可能就是笔误呗
应该是两个128bit SSE么
作者: itany    时间: 2010-8-24 19:15
这2幅架构图太扯淡了,phenom 2哪来的2*128 fmac,bd也不是64k L1D。
hammerking 发表于 2010-8-24 18:54


哪来的64K L1D,图上是两个16K的L1D
作者: itany    时间: 2010-8-24 19:16
这个执行资源,后藤早就披露了……
作者: the_god_of_pig    时间: 2010-8-24 19:16
估计要放弃桌面性能类市场
作者: aidianzi    时间: 2010-8-24 19:18
提示: 作者被禁止或删除 内容自动屏蔽
作者: hammerking    时间: 2010-8-24 19:19
提示: 作者被禁止或删除 内容自动屏蔽
作者: itany    时间: 2010-8-24 19:23
论坛里面的高人真多,不去研发处理器太可惜了。
aidianzi 发表于 2010-8-24 19:18


牛奶厂也可以这么说:别对我加了什么指手画脚,不爽自己产牛奶去
作者: namucuo    时间: 2010-8-24 22:24
ls 经典     .exe
作者: potomac    时间: 2010-8-24 22:37
提示: 作者被禁止或删除 内容自动屏蔽
作者: westlee    时间: 2010-8-24 22:49
提示: 作者被禁止或删除 内容自动屏蔽
作者: elisha    时间: 2010-8-24 23:35
浮点应该有提高,以一个模块比以前一个核心的话,毕竟4发射了
作者: scowl    时间: 2010-8-25 00:18
现在太好玩了,Nehalem出来后,AMD的U对Intel出现了“插座门”惨剧,这次在桌面上除了“插座门”外,可能还 ...
AMD11 发表于 2010-8-24 18:07



AMD插座门是什么东西????

我只听过INTEL的插座门    真没听过AMD的
作者: itany    时间: 2010-8-25 00:23
AMD插座门是什么东西????

我只听过INTEL的插座门    真没听过AMD的
scowl 发表于 2010-8-25 00:18


同样是4核对4核,Intel双路灭AMD四路,让一半插座的事件
作者: xmasjacky    时间: 2010-8-25 00:48
关于推土机,可以不可以这么理解:单核性能小幅下降但是晶体管数大幅减少,准备和Intel玩“人海战术”靠数量取胜。
作者: itany    时间: 2010-8-25 01:49
关于推土机,可以不可以这么理解:单核性能小幅下降但是晶体管数大幅减少,准备和Intel玩“人海战术”靠数量 ...
xmasjacky 发表于 2010-8-25 00:48


一个核心差不多就是10平方毫米到20的样子,差不了多少。
对于180到280平方毫米的处理器,差20平方并不是要命的。
作者: take    时间: 2010-8-25 02:22
你看的是小core,
但一个模块有2独立core共享1FP+2*128fmac,这样一个模块过去叫一个“核心”。
作者: ifu    时间: 2010-8-25 06:59
我只想知道:
1,在晶体管数量大致相当的情况下,同频下推土机能推平沙桥么?在推土机 1模块 vs p2 1核心的 ...
westlee 发表于 2010-8-24 22:49

看推土机的设计取向,在多线程应用的情况下有望推平沙桥,不过还得是浮点不密集型应用。相比P2 晶体管/性能应有提高。
浮点这块估计AMD打算用GPU来强化。
作者: AMD11    时间: 2010-8-25 07:52
你看的是小core,
但一个模块有2独立core共享1FP+2*128fmac,这样一个模块过去叫一个“核心”。
take 发表于 2010-8-25 02:22

如果这样看的话,就不是小core了,而是一个超级大的core,AMD的预测分支和调度技术相对Intel而言相当糟糕(相关资料显示~90%-93%对~96%-98%),本来K10.5的执行资源相对过剩,如今用模块的理念更加过剩,而且里面还增加了一个很好玩的调度(嘿嘿,太好玩了)。

如果用小“core”的观点看,发射宽度极度缩小,执行资源虽然也缩水了,可整数资源还是过剩,但是L1的缩小就变得不可理喻,一下子变到了16KBD/core,相比K10.5的64KBD/core而言差了4倍。难道AMD自信自己的L2上能与Intel比吗?Intel的L2可达到6~7周期,而且是独享的,并且L1D可是32KB。

根据这个图,可以预测,针对Bulldozer优化程序主要是那些具有良好顺序执行的非浮点密集的程序,这样才能最大地发挥Bulldozer的能力。可惜,服务器上面向事务的程序并不是很符合这个要求,除非优化再优化。但是AMD自身连编译器都做不了,在业界的能力和影响很小。因此,不难推测,Bulldozer的综合能力提高有限,同频下,以模块对K10.5核心,4对4,多线程也就15%~25%的提升,单线程就算了,不说也罢。

神啊,但愿我说错了。我可想让Intel的IVY bridge早点出来。
作者: AMD11    时间: 2010-8-25 07:53
你看的是小core,
但一个模块有2独立core共享1FP+2*128fmac,这样一个模块过去叫一个“核心”。
take 发表于 2010-8-25 02:22


如果这样看的话,就不是小core了,而是一个超级大的core,AMD的预测分支和调度技术相对Intel而言相当糟糕(相关资料显示~90%-93%对~96%-98%),本来K10.5的执行资源相对过剩,如今用模块的理念更加过剩,而且里面还增加了一个很好玩的调度(嘿嘿,太好玩了)。

如果用小“core”的观点看,发射宽度极度缩小,执行资源虽然也缩水了,可整数资源还是过剩,但是L1的缩小就变得不可理喻,一下子变到了16KBD/core,相比K10.5的64KBD/core而言差了4倍。难道AMD自信自己的L2上能与Intel比吗?Intel的L2可达到6~7周期,而且是独享的,并且L1D可是32KB。

根据这个图,可以预测,针对Bulldozer优化程序主要是那些具有良好顺序执行的非浮点密集的程序,这样才能最大地发挥Bulldozer的能力。可惜,服务器上面向事务的程序并不是很符合这个要求,除非优化再优化。但是AMD自身连编译器都做不了,在业界的能力和影响很小。因此,不难推测,Bulldozer的综合能力提高有限,同频下,以模块对K10.5核心,4对4,多线程也就15%~25%的提升,单线程就算了,不说也罢。

神啊,但愿我说错了。我可想让Intel的IVY bridge早点出来。
作者: AMD11    时间: 2010-8-25 08:29
本帖最后由 AMD11 于 2010-8-25 08:31 编辑
你看的是小core,
但一个模块有2独立core共享1FP+2*128fmac,这样一个模块过去叫一个“核心”。
take 发表于 2010-8-25 02:22

     如果这样看的话,就不是小core了,而是一个超级大的core,AMD的预测分支和调度技术相对Intel而言相当糟糕(相关资料显示~90%-93%对~96%-98%),本来K10.5的执行资源相对过剩,如今用模块的理念更加过剩,而且里面还增加了一个很好玩的调度(嘿嘿,太好玩了)。

      如果用小“core”的观点看,发射宽度极度缩小,执行资源虽然也缩水了,可整数资源还是过剩,但是L1的缩小就变得不可理喻,一下子变到了16KBD/core,相比K10.5的64KBD/core而言差了4倍。难道AMD自信自己的L2上能与Intel比吗?Intel的L2可达到6~7周期,而且是独享的,并且L1D可是32KB。

      根据这个图,可以预测,针对Bulldozer优化程序主要是那些具有良好顺序执行的非浮点密集的程序,这样才能最大地发挥Bulldozer的能力。可惜,服务器上面向事务的程序并不是很符合这个要求,除非优化再优化。但是AMD自身连编译器都做不了,在业界的能力和影响很小。因此,不难推测,Bulldozer的综合能力提高有限,同频下,以模块对K10.5核心,4对4,多线程也就15%~25%的提升,单线程就算了,不说也罢。

      神啊,但愿我说错了。我可想让Intel的IVY bridge早点出来。
作者: PRAM    时间: 2010-8-25 09:40
I don't see AMD "bulldozing" Intel; even if the performance of these new chips surpasses Intel's best, it's not likely to be by a large margin as when the Athlon 64 was up against the Pentium 4 architecture, and Intel has plenty of resources to fight back. What it might mean (assuming that AMD's chips deliver on their promise) is that AMD will have Pro-Aduct line that can face Intel on equal terms throughout the performance spectrum, instead of being limited to the low end (and low margin) part of the business. That will improve their profitability, and thus their prospects for long-term survival.
作者: chenxiang    时间: 2010-8-25 09:43
要出来才知道
作者: spinup    时间: 2010-8-25 10:12
如果这样看的话,就不是小core了,而是一个超级大的core,AMD的预测分支和调度技术相对Intel而言相当 ...
AMD11 发表于 2010-8-25 08:29

45nmk10.5大约15平方毫米,对比nehalem大约25平方毫米。
已公布的llano中k10.5面积是不到10平方毫米,weatmere大约17平方毫米。

bd具体面积这次也未必会公布,传言说大约15平方毫米。amd称第二个簇仅占12%面积,假如移除第二个簇的话一个核心将在12-13平方毫米。考虑到加倍的浮点,一个核心大约与k10.5相当。

关于L1D,其大小并不是问题。因为L1D仅仅是供整型簇使用的,真正占容量的浮点和多媒体数据都应该直接从L2里读。P4就是如此,其L1D仅8K到12K。

以bd一模块对k10.5一核,实际浮点是加倍的。整型如何暂且不说,浮点其实提升会很大。
作者: hammerking    时间: 2010-8-25 10:36
提示: 作者被禁止或删除 内容自动屏蔽
作者: itany    时间: 2010-8-25 11:11
45nmk10.5大约15平方毫米,对比nehalem大约25平方毫米。
已公布的llano中k10.5面积是不到10平方毫米,we ...
spinup 发表于 2010-8-25 10:12


5平方毫米对于整个芯片来说影响并不大,Intel通过L3密度就可以找回来的
Llano的10-面积是不包含L2缓存的,算上的话是18-,其他的应该是算上L2的面积

如果算是一模块对一核心,矢量单元确实是加倍的,然而AMD并不是这样计算的。桌面上4模块的产品面临的是6-8核心的Sandy Bridge,所以至少在桌面上矢量没有任何胜算。
作者: wqaiwy    时间: 2010-8-25 11:14
提示: 作者被禁止或删除 内容自动屏蔽
作者: itany    时间: 2010-8-25 11:14
预取与分支预测完全重做,相当激进。。
hammerking 发表于 2010-8-25 10:36


怎么可能重做呢?
分支和预读不在于公布的,而在于没公布的具体算法。

另外我之前就说一个Bulldozer核心里边是2 ALU+2 AGU(Load+Store),您老还不信。
作者: itany    时间: 2010-8-25 11:24
45nmk10.5大约15平方毫米,对比nehalem大约25平方毫米。
已公布的llano中k10.5面积是不到10平方毫米,we ...
spinup 发表于 2010-8-25 10:12


另外,貌似矢量数据也是从L1D读取的,原因如下:
1 本来L2延迟就大,AMD的共享L2延迟就更大,不从L1D读取,L2的延迟直接暴露怎么得了
2 L2带宽不足,现在算是3个核心互相争夺,不用L1D掩盖更不可能。
3 浮点单元没有自己的AGU,也没有L/S单元,这样还是通过整数核心代劳之后转过去的。如果不是从L1D读取,整个体系就乱掉了。
作者: hammerking    时间: 2010-8-25 11:29
提示: 作者被禁止或删除 内容自动屏蔽
作者: hammerking    时间: 2010-8-25 11:30
提示: 作者被禁止或删除 内容自动屏蔽
作者: xmasjacky    时间: 2010-8-25 11:41
一个核心差不多就是10平方毫米到20的样子,差不了多少。
对于180到280平方毫米的处理器,差20平方并不 ...
itany 发表于 2010-8-25 01:49



    把L2也同步缩小呢
作者: xmasjacky    时间: 2010-8-25 11:46
、分支和预读的算法,当然现在不会具体公布,但是这篇文章给出了大体机制,完全翻新:

2alu 与 2agu并 ...
hammerking 发表于 2010-8-25 11:29



    这样看起来到还像点样,至少从目前状况看AMD很得意于其对晶体管的拿捏程度
作者: itany    时间: 2010-8-25 12:00
、分支和预读的算法,当然现在不会具体公布,但是这篇文章给出了大体机制,完全翻新:

2alu 与 2agu并 ...
hammerking 发表于 2010-8-25 11:29


这个我之前就看过了,无非就是L2分支预测罢了,Nehalem吃剩的
K8、K10的AGU是和ALU放在一个发射口上边的,只不过Bulldozer独立了

所以说Bulldozer更像是Intel的处理器
作者: hammerking    时间: 2010-8-25 12:10
提示: 作者被禁止或删除 内容自动屏蔽
作者: 4479237    时间: 2010-8-25 12:14
看不懂,各位能从这些架构图看出性能来?
作者: hammerking    时间: 2010-8-25 12:16
提示: 作者被禁止或删除 内容自动屏蔽
作者: spinup    时间: 2010-8-25 12:25
5平方毫米对于整个芯片来说影响并不大,Intel通过L3密度就可以找回来的
Llano的10-面积是不包含L2缓存 ...
itany 发表于 2010-8-25 11:11


westmere的L2占面积相当小,从照片上看不到整个核心的1/9。也就是说除去L2,westmere将是15平方毫米左右,sandybridge还会略大些。

桌面上4模块bd面对的应该是4核sandybridge,amd并没有双通道内存以上的超高端桌面的打算。只有服务器端6-8模块的bd才会对抗6核以上的sandybridge。 双内存通道的4模块bd要是能和3内存通道的6核甚至8核sb对抗,谁会哭谁会笑就不用说了。

fpu一直都有自己的load/store单元,---k7开始就是3个浮点单元,两个运算,一个misc(其实就是ld/st)。因为fpu的数据读写与整型部分差别非常大而对延迟很不敏感。注意netburst,所有型号的fpu数据都是只通过L2的,bd也这么做完全顺理成章。
作者: acqwer    时间: 2010-8-25 13:33
LS看好的HPC,BD是没戏了吧。
作者: spinup    时间: 2010-8-25 14:23
8模组的浮点资源与k10.5 16核相当了,所以用在hpc上还是会略有进步的。只是没有k8x2到k10那样夸张了。
作者: the_god_of_pig    时间: 2010-8-25 14:30
8模组的浮点资源与k10.5 16核相当了,所以用在hpc上还是会略有进步的。只是没有k8x2到k10那样夸张了。
spinup 发表于 2010-8-25 14:23


8模组的浮点资源能与k10.5 16核相当??????

x2到k10好看的也就是Linpack
作者: CC9K    时间: 2010-8-25 14:49
一个推土机模块大致相当于两个K10的浮点单元
作者: 4479237    时间: 2010-8-25 14:55
8模组的浮点资源与k10.5 16核相当了,所以用在hpc上还是会略有进步的。只是没有k8x2到k10那样夸张了。
spinup 发表于 2010-8-25 14:23



    k8x2到k10那样夸张???
没理解
作者: spinup    时间: 2010-8-25 15:05
k8x2到k10那样夸张???
没理解
4479237 发表于 2010-8-25 14:55


K8的fpu是一个64位乘一个64位加。
K10对于sse来说是一个128位乘一个128位加。(不过对于x87仍然是一乘一加。)
所以K10相对于k8用sse指令的话浮点是加倍的。再加上核心也从2核提高到4核----虽然barcelona在pc玩家中被叫做废龙,但是用在hpc上却可以抢top10里的5个位置
作者: 4479237    时间: 2010-8-25 15:12
K8的fpu是一个64位乘一个64位加。
K10对于sse来说是一个128位乘一个128位加。(不过对于x87仍然是一乘 ...
spinup 发表于 2010-8-25 15:05



    我知道我的X2 245 EVEREST里跑分比6000+好看,但是对于个人使用没什么提高吧

如果推土机提升还不如这些,不知有什么必要升级
作者: ifu    时间: 2010-8-25 15:23
8模组的浮点资源与k10.5 16核相当了,所以用在hpc上还是会略有进步的。只是没有k8x2到k10那样夸张了。
spinup 发表于 2010-8-25 14:23

浮点长期看来AMD会让GPU来干部分活
作者: acqwer    时间: 2010-8-25 15:40
K8的fpu是一个64位乘一个64位加。
K10对于sse来说是一个128位乘一个128位加。(不过对于x87仍然是一乘 ...
spinup 发表于 2010-8-25 15:05



    2个128位加乘能比一个128位乘一个128位加强多少?
作者: spinup    时间: 2010-8-25 16:28
2个128位加乘能比一个128位乘一个128位加强多少?
acqwer 发表于 2010-8-25 15:40


理论值是加倍。

其实应该比较的是一个128位加乘融合和一个128位乘并一个128位加。
理论上有折扣---加乘单元可能只提供一个端口,换句话说不能同时跑分立的一个加一个乘。
不过也有加成---融合的加乘运算实际比1乘后再1加要快不少。

不过折扣的情况其实挺罕见,但是软件编得好的话加成的情况倒是普遍的。 所以现在普遍使用FMAC
作者: AMD11    时间: 2010-8-25 17:48
westmere的L2占面积相当小,从照片上看不到整个核心的1/9。也就是说除去L2,westmere将是15平方毫米左右 ...
fpu一直都有自己的load/store单元,---k7开始就是3个浮点单元,两个运算,一个misc(其实就是ld/st)。因为fpu的数据读写与整型部分差别非常大而对延迟很不敏感。注意netburst,所有型号的fpu数据都是只通过L2的,bd也这么做完全顺理成章。
spinup 发表于 2010-8-25 12:25

Bulldozer的缓存架构还是比较正常的架构,netburst的则是采用跟踪缓存架构,因此这个类比不是很合适吧。
作者: AMD11    时间: 2010-8-25 18:00
理论值是加倍。

其实应该比较的是一个128位加乘融合和一个128位乘并一个128位加。
理论上有折扣---加乘单元可能只提供一个端口,换句话说不能同时跑分立的一个加一个乘。
不过也有加成---融合的加乘运算实际比1乘后再1加要快不少。

不过折扣的情况其实挺罕见,但是软件编得好的话加成的情况倒是普遍的。 所以现在普遍使用FMACspinup 发表于 2010-8-25 16:28

      理论值的确加倍,但是那是理想情况,运行linkpack肯定很好看。但是发射宽度极度缩小,一个模块(两个核心)对应四发射,而整数管线却加大,有点小水管进大池子,然后又用缩小水管(相比K10.5)出水,这真是一个很变形的东西,相当于两头小,中间大的梭形结构,难道AMD真的想用管线做缓存?(^_^),或说AMD真的相信服务器计算领域的程序都是顺序性的比较多,能够时刻充满管线?我认为除非AMD的影响力要大于Intel,而且能够提供比Intel更优秀的编译器。

     还有一个推测,Intel的Many core架构走的是顺序结构,Intel要推广这个玩意,自然在编译器上需要大力优化。AMD就看中这个,要搭这个便车?如果真是这样,那些能够在Many core上优化很好的东西,Bulldozer可能会运行得很好,实现“增加33%晶体管得到50%的提升”。
作者: CC9K    时间: 2010-8-25 18:19
本帖最后由 CC9K 于 2010-8-25 18:28 编辑
理论值的确加倍,但是那是理想情况,运行linkpack肯定很好看。但是发射宽度极度缩小,一个模块(两 ...
AMD11 发表于 2010-8-25 18:00


我倒觉得推土机对程序的需求只是从指令级并行向线程级并行转变,单核的乱序性能还是在强化的
作者: AMD11    时间: 2010-8-25 19:15
我倒觉得推土机对程序的需求只是从指令级并行向线程级并行转变,单核的乱序性能还是在强化的
CC9K 发表于 2010-8-25 18:19

我认为你的提法欠妥或相矛盾,乱序是指令级,如果乱序加强,指令并行要加强。线程并行更注重顺序结构,用线程去并行处理“小的顺序事务”收益最大,尤其是将分支事务变成两个甚至多个线程去处理时,这样的收益巨大。
作者: tmz    时间: 2010-8-25 19:22
人家是一个模块算成一个核心,lz非要将其拆成一半再和intel 比,那别玩了,那你想怎么比就怎么比。
作者: AMD11    时间: 2010-8-25 19:22
我认为你的提法欠妥或相矛盾,乱序是指令级,如果乱序加强,指令并行要加强。线程并行更注重顺序结构,用线程去并行处理“小的顺序事务”收益最大,尤其是将分支事务变成两个甚至多个线程去处理时,这样的收益巨大。
AMD11 发表于 2010-8-25 19:15


      由于AMD在编译器上的积累(或说在代码上的积累)落后Intel甚多,能够将分支事务通过编译的方式去变成多个线程并行处理的可能性不大(Intel本身也无法做到很好,EPIC的编译器还是非常难做,远远低于之前的预想)。因此,我感觉AMD这次真的更加想往HPC发展,希望跟上Intel的many core,而不是普通的Server,桌面就更悲剧。

   但愿我推测全错,这样我深感荣幸。竞争带来的好处就是能够推动技术更快发展,这是我期望的。
作者: bessel    时间: 2010-8-25 19:23
你把这段话说明白点。


fpu一直都有自己的load/store单元,---k7开始就是3个浮点单元,两个运算,一个misc(其实就是ld/st)。因为fpu的数据读写与整型部分差别非常大而对延迟很不敏感。注意netburst,所有型号的fpu数据都是只通过L2的,bd也这么做完全顺理成章。
spinup 发表于 2010-8-25 12:25

作者: AMD11    时间: 2010-8-25 19:24
人家是一个模块算成一个核心,lz非要将其拆成一半再和intel 比,那别玩了,那你想怎么比就怎么比。
tmz 发表于 2010-8-25 19:22


我觉得这就有气话了,至少没有AMD的文档宣称过一个模块为一个核心吧,或许我孤陋寡闻了。
作者: hammerking    时间: 2010-8-25 19:28
提示: 作者被禁止或删除 内容自动屏蔽
作者: tanlwowo    时间: 2010-8-25 19:35
楼主的预测技术AMD拍马难追,不去做CPU而跑去产奶,真可惜了。
作者: elisha    时间: 2010-8-25 19:38
4模块 bd是与4核 sb比的,很明了嘛。在服务器端,8核sb有8模块16核 interlagos对上。
hammerking 发表于 2010-8-25 19:28


8核对4核嘛,跟现在情况也差不多
作者: AMD11    时间: 2010-8-25 19:42
楼主的预测技术AMD拍马难追,不去做CPU而跑去产奶,真可惜了。
tanlwowo 发表于 2010-8-25 19:35

莫非讨论AMD的Bulldozer是动了阁下的奶头?还是Q哥的光头?摸不得么?有事说事就这么难?
作者: hammerking    时间: 2010-8-25 19:42
提示: 作者被禁止或删除 内容自动屏蔽
作者: hammerking    时间: 2010-8-25 19:45
提示: 作者被禁止或删除 内容自动屏蔽
作者: ifu    时间: 2010-8-25 19:50
理论值的确加倍,但是那是理想情况,运行linkpack肯定很好看。但是发射宽度极度缩小,一个模块(两 ...
AMD11 发表于 2010-8-25 18:00

x86的指令发射宽度还是变大了的 3->4。在跑单线程任务时时怎么看也算是大水管进。
AMD应该是把宝押在以后应用程序大都是多线程并行化,大方向还是没错的。目前处理器单线程性能的提高到了怠涨期,即便对intel来说也是如此。
作者: AMD11    时间: 2010-8-25 19:52
认为bd核心的整数性能比k10低,那有2个前提,一是bd的整数单元就是在k10的基础上消去1/3,二是k10的3个alu利用率很高。
而实际上bd的2alu和2agu是独立的,各自拥有完整管线,利用率更高,再结合改进相当大的预取,分支预测、宏融合以及需要重新设计的译码单元,bd核心的整数ipc肯定比k10要高。amd在总结里把单线程性能作为显著提升的要点之一提出来,应当是ipc提高与更先进的turbo模式共同作用的结果。
hammerking 发表于 2010-8-25 19:42

      1、K10.5的ALU管线不完整么?

    2、按照AMD的图,预取的改进相当大,但是效率问题不提(分支预测的效率更不提),AMD的宏融合情况也没有很明晰的答案,至少K10.5的效率不明显。Bulldozer能不能做到很好的改善?如果从编译器这个AMD心结看,我的观点是不理想。重新设计的译码单元也是以观后效。因此,我个人认为BD核心的整数IPC不比K10强,相反会倒退。

    3、我一直坚持这个观点,Bulldozer的收益在于顺序结构的多线程程序。
作者: AMD11    时间: 2010-8-25 19:56
x86的指令发射宽度还是变大了的 3->4。在跑单线程任务时时怎么看也算是大水管进。
AMD应该是把宝押在以后应用程序大都是多线程并行化,大方向还是没错的。目前处理器单线程性能的提高到了怠涨期,即便对intel来说也是如此。
ifu 发表于 2010-8-25 19:50


我说的是core,不是modul,平均下来,一个core的发射宽度只有2,却有4个管线。呵呵,真可以将管线做缓存,保证比L1快,不用任何预取和预测了,直接使用就是了。^_^
作者: hammerking    时间: 2010-8-25 20:02
提示: 作者被禁止或删除 内容自动屏蔽
作者: hammerking    时间: 2010-8-25 20:04
提示: 作者被禁止或删除 内容自动屏蔽
作者: AFXIF    时间: 2010-8-25 20:06
CINT2006的冠军……Power7实际上也只有2ALU。
作者: ifu    时间: 2010-8-25 20:13
我说的是core,不是modul,平均下来,一个core的发射宽度只有2,却有4个管线。呵呵,真可以将管线做缓存 ...
AMD11 发表于 2010-8-25 19:56

跑单线程程序时这当然不能按平均来算,它可以独占这实实在在的4发射x86。
作者: AMD11    时间: 2010-8-25 21:04
做单线程时,四发射肯定是为一个core服务,同样2*128fmac也可以被一个core占用。
以你的这个思路,你还是以bd的一个core对比sb的一个core,但假若4模块8核心bd真的能匹敌8核心sb,那intel要哭死了。
hammerking 发表于 2010-8-25 20:04


唉,太理想了,现在的操作系统还能做到如此纯粹吗?同一时刻只有一个进程/线程运行?这个要求太高了。呵呵。
作者: AMD11    时间: 2010-8-25 21:06
跑单线程程序时这当然不能按平均来算,它可以独占这实实在在的4发射x86。
ifu 发表于 2010-8-25 20:13


唉,太理想了,现在的操作系统还能做到如此纯粹吗?同一时刻只有一个进程/线程运行?我怎么看得像是没有操作系统的时代,编程人员要面对机器码控制整个CPU似的。这个要求太高了。呵呵。
作者: tanlwowo    时间: 2010-8-25 21:10
回复 70# AMD11


莫非上帝拉出了楼主,让你有了非人的预测能力,靠文字图片就是预测?

你娃有水平就去做CPU啦,光说不做是棒槌,只会臆测就不允许其他说咯嘛?
作者: ifu    时间: 2010-8-25 21:14
唉,太理想了,现在的操作系统还能做到如此纯粹吗?同一时刻只有一个进程/线程运行?我怎么看得像是没有 ...
AMD11 发表于 2010-8-25 21:06

你不是标题抱怨的单线程性能么?又改担忧多线程了?呵呵
作者: AMD11    时间: 2010-8-25 21:14
回复  AMD11


莫非上帝拉出了楼主,让你有了非人的预测能力,靠文字图片就是预测?

你娃有水平就去做CPU啦,光说不做是棒槌,只会臆测就不允许其他说咯嘛?
tanlwowo 发表于 2010-8-25 21:10

怎么还有脸跳了?搞人身攻击很光彩吗?就事论事是做人的基本要求。明白了吗?我有没有这个能力还轮不到某人评。
作者: AMD11    时间: 2010-8-25 21:22
本帖最后由 AMD11 于 2010-8-25 21:25 编辑
你不是标题抱怨的单线程性能么?又改担忧多线程了?呵呵
ifu 发表于 2010-8-25 21:14

呵呵,是这样的:在现在的操作系统下,任何普及的桌面系统或比较可见的server(比如4路及以下),都不可能某个时刻只有一个进程或线程,bulldozer面对一个客户的单线程程序时,实际它要面向多个其他程序,因此CPU的资源并不是客户的程序独占,因此一个模块单独为一个单线程服务的机会不大。

走极端状态,就好玩了。因此,我给出的是综合性能吧。还是一句话,希望我完全错了。
作者: zjx647    时间: 2010-8-25 22:01
AMD感觉在cpu里加了点ATI的技术  看这个共享fmac的样子依稀有了VLIW的基础  想通过这个来提高操作数?提高执行效率?想到收购ATI以后在GPU上AMD的改进 看这个个推土机 我就想到了 5D的VLIW……
cpu东西我不是很懂的 说的不对见笑了……
作者: hammerking    时间: 2010-8-25 22:03
提示: 作者被禁止或删除 内容自动屏蔽
作者: hammerking    时间: 2010-8-25 22:05
提示: 作者被禁止或删除 内容自动屏蔽
作者: ifu    时间: 2010-8-25 22:06
呵呵,是这样的:在现在的操作系统下,任何普及的桌面系统或比较可见的server(比如4路及以下),都不可能 ...
AMD11 发表于 2010-8-25 21:22

操作系统里一个时刻只有一个进程或者线程很常见,操作系统是按时间片来分配处理器资源的不是你想并行就并行。即便是多核处理器也时常会有一个核心忙得焦头烂额另外一个核心闲得蛋痛。举极端的例子有的应用UP比SMP跑的快
作者: ifu    时间: 2010-8-25 22:18
按照AMD自己的说法其实4发射x86对两线程是够用了,应该是在多线程性能和晶体管开销中取的一个较好平衡点。
参考一下山猫,这只是一个2发射的x86,而且执行单元应该会弱于推土机。但是AMD都声称可以达到主流处理器90%的性能。那也就是说推土机再不济一个模块双线程也能达到180%的提高,而且仅需要付出12%的晶体管开销。

作者: operacom    时间: 2010-8-25 22:22
领教了  ~~~
作者: AlcatrazX    时间: 2010-8-25 23:33
提示: 作者被禁止或删除 内容自动屏蔽
作者: bessel    时间: 2010-8-25 23:39
同频率的假设没太大意义。
但是如果按照JF的说法,30%的核心提高50%的性能的话,每个核心还是增加的。
另外spec rate是个多个副本同时运行的测试,scale不会是100%,这样算下来单个核心要提高
比那个13%多不少才行。

不过天知道amd那个50%是怎么算出来的,如果spec int rate增加只有3x%的话,还是和对手
有差距。

如果这个图不是AMD忽悠的话,按核心而论,L1缩水,AGU、ALU缩水,本人**一次,单线程基本没什么提高,甚至不如K10.5,浮点彻底废掉。看来以前的预测还是有效地,AMD想将浮点放在异构上。
另外,按照Bulldozer的架构方式,可能会衍生出一个顺序架构的东西。
以上仅是个人理解,有错误实属难免,不过个人很有信心,等待实物实测证实。, ...
AMD11 发表于 2010-8-24 17:52

作者: bessel    时间: 2010-8-25 23:42
amd现在在服务器市场占据6.5%的份额。
在top500贡献不到10%的计算能力。

不要老拿cray来说事,ppc还一度占据前几名呢。

K8的fpu是一个64位乘一个64位加。
K10对于sse来说是一个128位乘一个128位加。(不过对于x87仍然是一乘 ...
spinup 发表于 2010-8-25 15:05

作者: 飞鸟真    时间: 2010-8-25 23:44
又不是只有一个模块,多个模块的话单线程还是有机会独占一个核的
AlcatrazX 发表于 2010-8-25 23:33


关键是独占了性能能提升多少。
作者: bessel    时间: 2010-8-25 23:52
intel的L1都到了3个周期了,L2要8个左右。
amd做小的L1就是要提高频率,有什么不可理喻的,L2未知,不会太大。

amd卖cpu是整个的卖,不是一个一个模块的卖,同样的价钱和插座,bd额外提供50%的核心数目
也不错啊。


如果用小“core”的观点看,发射宽度极度缩小,执行资源虽然也缩水了,可整数资源还是过剩,但是L1的缩小就变得不可理喻,一下子变到了 16KBD/core,相比K10.5的64KBD/core而言差了4倍。难道AMD自信自己的L2上能与Intel比吗?Intel的L2可达到 6~7周期,而且是独享的,并且L1D可是32KB。

      根据这个图,可以预测,针对Bulldozer优化程序主要是那些具有良好顺序执行的非浮点密集的程序,这样才能最大地发挥Bulldozer的能力。可惜,服务器上面向事务的程序并不是很符合这个要求,除非优化再优化。但是AMD自身连编译器都做不了,在业界的能力和影响很小。因此,不难推测,Bulldozer的综合能力提高有限,同频下,以模块对K10.5核心,4对4,多线程也就15%~25%的提升,单线程就算了,不说也罢。
AMD11 发表于 2010-8-25 08:29

作者: amosleo    时间: 2010-8-26 00:21
等实物评测吧
作者: xzghrb    时间: 2010-8-26 00:29
估计单核心性能不强,就是玩多核心
作者: tanlwowo    时间: 2010-8-26 09:40
回复 84# AMD11


    有你这种首先骂人的东西,不骂你简直对不起你老母。

就事论事,你娃做得来能卖的CPU吗? 你做不了只会臆测
作者: gdgztzx    时间: 2010-8-26 09:43
要是推土机不行 看来也要转投I了




欢迎光临 POPPUR爱换 (https://we.poppur.com/) Powered by Discuz! X3.4