POPPUR爱换

标题: JF-AMD最新发言,关于推土机的ipc [打印本页]

作者: amuly    时间: 2011-10-15 23:07
标题: JF-AMD最新发言,关于推土机的ipc
The original design goal was higher IPC. Back before we had taped out the first processors the discussion came up. I am not allowed to say anything in public that hasn't been vetted past engineering. I specifically asked the engineering team about IPC and they replied that they expected higher IPC and I was cleared on that statement.

    最初的设计目标(推土机)就是更高的IPC。在我们进行了新处理器的第一次流片之后,我们开始讨论。我被禁止发表任何未经工程团队审核的言论。不过我明确问过工程团队推土机的IPC,他们说他们预期有更高的IPC。

    以上可以看出:1,JF-AMD在推卸责任;2,JF-AMD说假话了----工程团队是“预期”有更高的ipc,到了JF-AMD嘴里没了“预期”。

    从2007年到现在5年时间,Barcelona/Shanghai受制于单线程性能大幅度落后于对手,开始强调多线程能力。但是今天桌面环境一个高IPC的4核心远远好过一个低IPC的8核心。K10已经败光了K8打下的大好江山,然后:

   推土机是这么一个玩意,只相当于SnB i7 50%出头的单线程的性能,相对Snb 200%的晶体管数量,150%的核心面积,大幅超出的满载功----AMD是指望这么一个玩意顶住下一个五年吗?指望打桩机和压路机能大幅度提高IPC吗?提高ipc就要增加晶体管,增加面积增加功耗。世上本来就没有两全其美,CMT不可能让推土机保持IPC的同时花最少的晶体管实现最高的多线程性能

作者: readma    时间: 2011-10-16 07:59
如果相当于SNBI750%出头的性能,那8核也比4核强了吧?
作者: philonb    时间: 2011-10-16 08:10
readma 发表于 2011-10-16 07:59
如果相当于SNBI750%出头的性能,那8核也比4核强了吧?

问题是由于模块化设计,从4线程到8线程,性能只增加了50%左右
作者: readma    时间: 2011-10-16 08:21
philonb 发表于 2011-10-16 08:10
问题是由于模块化设计,从4线程到8线程,性能只增加了50%左右

那怪不得比i7便宜呢
作者: Songhaipeng    时间: 2011-10-16 08:24
intel的平台价格也太贵了点。
作者: cybrans    时间: 2011-10-16 08:34
本帖最后由 cybrans 于 2011-10-16 08:35 编辑

cmt架构如果砍掉大缓存,降功耗降面积降成本,说不定还适应多线程的服务器。

现在是两边不讨好。
作者: philonb    时间: 2011-10-16 08:37
readma 发表于 2011-10-16 08:21
那怪不得比i7便宜呢

多线程性能都只有i5 2500的水平
单线程连自家的1100t都比不上
作者: dalao123    时间: 2011-10-16 10:39
AMD这个架构确实有问题
作者: potomac    时间: 2011-10-16 11:16
提示: 作者被禁止或删除 内容自动屏蔽
作者: CC9K    时间: 2011-10-16 11:33
本帖最后由 CC9K 于 2011-10-16 11:33 编辑
potomac 发表于 2011-10-16 11:16
如果能以60%的面积,获取80%的性能,那么CMT的设计是成功的。
这是俺几年前的原话。
现在这个结果,中间必 ...

只考虑多线程性能的话,推土机是成功的

推土机的单个整数核心也很小,增加一个核心只消耗了一点点晶体管

问题软件不会只考虑多线程性能
作者: potomac    时间: 2011-10-16 12:40
提示: 作者被禁止或删除 内容自动屏蔽
作者: CC9K    时间: 2011-10-16 12:59
potomac 发表于 2011-10-16 12:40
成功个P,现在是多一倍的面积,实现P2 6C的性能。

面积是其他方面增加的,并不是用在CMT上增加的
作者: G70    时间: 2011-10-16 13:08
提示: 作者被禁止或删除 内容自动屏蔽
作者: CC9K    时间: 2011-10-16 13:24
本帖最后由 CC9K 于 2011-10-16 13:29 编辑
每个模块内第二个整数核心所需要的电路只占总核心面积的12%,从芯片级别上讲这只会给整个内核增加5%的电路。


作者: potomac    时间: 2011-10-16 14:48
提示: 作者被禁止或删除 内容自动屏蔽
作者: CC9K    时间: 2011-10-16 15:29
本帖最后由 CC9K 于 2011-10-16 15:34 编辑
potomac 发表于 2011-10-16 14:48
只要功能上是连续的,
就不能割裂开来看。
面积成本必须分摊到每一个核心。

但是这样算的话

比如使用更多的缓存,把缓存面积算进去,也许增加30%面积,换来5%的性能

把这部分折算到"CMT设计“里,它的面积/性能比就要大幅减少了

服务器上还有更多数十M巨大 L3缓存的CPU

越是使用大缓存的高端CPU型号,面积性能比越差,但不能因此说明它的设计不佳




作者: G70    时间: 2011-10-16 15:46
提示: 作者被禁止或删除 内容自动屏蔽
作者: aibo    时间: 2011-10-16 16:25
G70 发表于 2011-10-16 15:46
为何snb缓存那么少就可以把推土机摁在地上艹?

看看推土机那悲剧的缓存速度吧,L3比内存还慢
作者: potomac    时间: 2011-10-16 16:38
提示: 作者被禁止或删除 内容自动屏蔽
作者: CC9K    时间: 2011-10-16 16:48
potomac 发表于 2011-10-16 16:38
那些有着巨大缓存的处理器,面积性能比不是一般的强。
因为需要它们处理的任务,如果放到一般缓存较小的 ...

CPU根本不存在爆缓存的问题,缓存在设计上就不是代替内存去载入所有数据的

巨大缓存的处理器,面积性能比都是非常低

像POWER7,安腾,大缓存在基准测试里并不会体现和所占面积相当的巨大优势
作者: potomac    时间: 2011-10-16 17:06
提示: 作者被禁止或删除 内容自动屏蔽
作者: G70    时间: 2011-10-16 17:22
提示: 作者被禁止或删除 内容自动屏蔽
作者: Windyson    时间: 2011-10-16 19:04
AMD搞CMT只是笑话,Intel弄SMT才是王道
作者: 傻空    时间: 2011-10-16 19:14
推土机单线程性能非常失败~~~不是一般的失败~~~为什么~~~这个只有amd知道,外人无从猜测。
作者: fshx    时间: 2011-10-16 21:07
AMD继续堆核,迟早堆成新一代的P4——多核低能
作者: vicen    时间: 2011-10-17 05:19
多核低能
作者: woodpecker4977    时间: 2011-10-17 07:55
多核低能的推土机,注定是一代悲剧,就像当年的高频低能P4一样。推土机先把自己推进了垃圾堆。
作者: itany    时间: 2011-10-20 22:22
Songhaipeng 发表于 2011-10-16 08:24
intel的平台价格也太贵了点。

H61不贵,只是不能超而已
作者: itany    时间: 2011-10-20 22:24
G70 发表于 2011-10-16 15:46
为何snb缓存那么少就可以把推土机摁在地上艹?

缓存不是做的越大越好,而是要控制缓存的访问时间。
现在Sandy Brige的L3缓存和Bulldozer的L2缓存延迟都差不多了,AMD堆的这些缓存除了浪费面积,恐怕就是增加能耗了
作者: itany    时间: 2011-10-20 22:26
CC9K 发表于 2011-10-16 11:33
只考虑多线程性能的话,推土机是成功的

推土机的单个整数核心也很小,增加一个核心只消耗了一点点晶体 ...

Sandy Bridge的一个核心的面积也不大啊,差不多就是不到15平方毫米吧,还算上L2缓存的面积。
你多大面积是大呢?

更糟糕的是,CMT大大增加了热量!
作者: G70    时间: 2011-10-20 22:52
提示: 作者被禁止或删除 内容自动屏蔽
作者: chentaizong    时间: 2011-10-20 22:54
CC9K 发表于 2011-10-16 15:29
但是这样算的话

比如使用更多的缓存,把缓存面积算进去,也许增加30%面积,换来5%的性能

只能这样算,"增加30%面积,得到5%"说明是个很失败的设计。
服务器领域,如Power5开始的128M Cache设计,是可以为性能不计成本的,IBM和客户都愿意为5%的性能提升接受多30%的功耗、晶体管数量和价格。
但是这个推土机的主要市场是桌面PC!
推土机服务器版本可以用8ML2+8ML3,很明显桌面版本应该取消L3,只保留4ML2。
而且一模块2核心只有1个FPU的设计需要GPU实现通用计算,这个太超前了,很可能等推土机几年后退出市场也未必能实现。
好比03年的Athron64发布,它的X64指令真正得到较大规模应用,差不多是win7 64位发布一年后的现在(托内存白菜价的福),这时Athron64早就不知道到哪里去了,其实直到现在用32位windows的人还是大大于用Win7 64位的。




欢迎光临 POPPUR爱换 (https://we.poppur.com/) Powered by Discuz! X3.4