POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
楼主: gtx5
打印 上一主题 下一主题

双路32核心:推土机性能大公开

[复制链接]
61#
发表于 2011-3-24 00:25 | 只看该作者
itany 发表于 2011-3-23 23:26
管线的宽度使用x86指令来算的,不是用微操作或者宏操作来计算的。
涉及内存操作的x86译码之后就变成两个 ...

你说的是解码器的宽度吧


回复 支持 反对

使用道具 举报

62#
发表于 2011-3-24 01:12 | 只看该作者
回复 itany 的帖子

做出来没流出的就是废话了,做当然做出来了,你放块样片上来看看?哪怕样片的评测在哪?
回复 支持 反对

使用道具 举报

63#
发表于 2011-3-24 06:38 | 只看该作者
本帖最后由 河蟹万岁 于 2011-3-24 07:08 编辑

貌似在哪看到过,问会不会因为ALU减少,单核性能下降。
回答是,K10的六个单元本来就有多,五个就够了,为了不重新设计,才成对做了六个。推土机加强了外围,所以只有两对也不比以前差。

作为打酱油的,一ALU是否硬性对应一发射不了解。也许K10要是两个ALU,三发射资源有多;要是三个ALU,ALU资源有多。鉴于发射资源提升困难,K10选择了三ALU。放到推土机上,两ALU可能完成两个发射以上的资源。

如果AMD不推出八核心,每核心两ALU,是因为缓存导致多核协同不好。那干脆推出四核心,每核心四ALU,设计起来还无脑点。上代架构四核到顶,没花工夫优化,硬上六核效率下降,不代表AMD造不出多核协同好的架构。
回复 支持 反对

使用道具 举报

64#
发表于 2011-3-24 07:05 | 只看该作者
本帖最后由 河蟹万岁 于 2011-3-24 07:16 编辑
itany 发表于 2011-3-23 23:02
当然是凭空的,为什么不是凭空的呢?
你知不知道什么叫做相关性? 知不知道什么叫做分支预测/内存预读失 ...


似乎你这个“流水线阻断”的时候,某个线程等待,相对就有闲置资源,这个闲置资源这个线程是无法用的,但另一个线程就可以补上?
单车道,原来的车子前后相接,凭空能加塞,车流量还高于一车道?怕是正常情况下有车抛锚了,出现空挡,其他车补上,充分利用车道资源。这是本身固有存在的资源,永动机才叫凭空。
回复 支持 反对

使用道具 举报

65#
发表于 2011-3-24 09:29 | 只看该作者
amd破产吧
回复 支持 反对

使用道具 举报

cogitata 该用户已被删除
66#
发表于 2011-3-24 10:15 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

67#
发表于 2011-3-24 11:02 | 只看该作者
cogitata 发表于 2011-3-24 10:15
这个关键点被很多人忽略了

内存测试成绩严重偏低我不否认,但是,动不动就1/20也太夸张了。这个系统STREAM测试都到1xGB/s了,Xeon系统什么时候STREAM能到200GB/s了?最多也就是3xGB/s
回复 支持 反对

使用道具 举报

68#
发表于 2011-3-24 11:38 | 只看该作者
itany 发表于 2011-3-23 22:40
一个Bulldozer执行单元就两个ALU,正好对应的救赎双发射的前端,和Bobcat一样,要四发射做什么?
请问? ...

很浅显的道理,宽指令发射窗口有助于提高指令执行的并行度。
回复 支持 反对

使用道具 举报

69#
发表于 2011-3-24 12:18 | 只看该作者
本帖最后由 futchi 于 2011-3-24 12:30 编辑
Prescott 发表于 2011-3-24 11:02
内存测试成绩严重偏低我不否认,但是,动不动就1/20也太夸张了。这个系统STREAM测试都到1xGB/s了,Xeon系 ...


每个magny cours处理器都是4通道的,4路16通道ddr3-1333内存的内存带宽当然大得惊人。反观这个8通道ddr3的推土机服务器,内存带宽和普通的双通道台式机差不多。下面有双路magny cours的stream测试,接近50GB/s,四路100GB/s差不多。
http://www.anandtech.com/show/2978/amd-s-12-core-magny-cours-opteron-6174-vs-intel-s-6-core-xeon/5
回复 支持 反对

使用道具 举报

70#
发表于 2011-3-24 12:59 | 只看该作者
本帖最后由 Prescott 于 2011-3-24 13:00 编辑
futchi 发表于 2011-3-24 12:18
每个magny cours处理器都是4通道的,4路16通道ddr3-1333内存的内存带宽当然大得惊人。反观这个8通道ddr ...

扯蛋!magny cours也是四通道,两个CPU一共八通道,和这个被测试的推土机平台一模一样。magny cours也只跑出了50GB/s不到的带宽,这个是11.5GB/s。哪里有1/10,1/20了?谁告诉你这个是4路平台了!


再怎么找借口,也不能掩盖推土机是个悲剧这个事实。
回复 支持 反对

使用道具 举报

71#
发表于 2011-3-24 14:48 | 只看该作者
AU悲剧, SB I5还行
回复 支持 反对

使用道具 举报

72#
发表于 2011-3-24 15:45 | 只看该作者
Prescott 发表于 2011-3-24 12:59
扯蛋!magny cours也是四通道,两个CPU一共八通道,和这个被测试的推土机平台一模一样。magny cours也只跑 ...

anandtech的那个是双路的,内存带宽约50GB/s。是双路推土机的4-5倍。

前面提到的那个1/10对比的是phoronix原文给出的四路magny cours opteron 6168平台的成绩,stream超过100GB/s了。
回复 支持 反对

使用道具 举报

73#
发表于 2011-3-24 17:11 | 只看该作者
ifu 发表于 2011-3-24 11:38
很浅显的道理,宽指令发射窗口有助于提高指令执行的并行度。

指令发射窗口的大小和译码器的宽度没有必然联系
回复 支持 反对

使用道具 举报

74#
发表于 2011-3-24 17:13 | 只看该作者
河蟹万岁 发表于 2011-3-24 07:05
似乎你这个“流水线阻断”的时候,某个线程等待,相对就有闲置资源,这个闲置资源这个线程是无法用的, ...

流水线阻断是必然会发生的,“凭空”出来的资源也是必然的。
反观AMD,两个整数核心的资源可以互相利用么?
回复 支持 反对

使用道具 举报

75#
发表于 2011-3-24 17:14 | 只看该作者
河蟹万岁 发表于 2011-3-24 06:38
貌似在哪看到过,问会不会因为ALU减少,单核性能下降。
回答是,K10的六个单元本来就有多,五个就够了,为 ...

会不会性能下降要看AMD其他方面的改进,比如分支和预读。
我说的是相对于Sandy Bridge的执行资源缺少的问题
回复 支持 反对

使用道具 举报

76#
发表于 2011-3-24 18:35 | 只看该作者
冰灵鬼 发表于 2011-3-23 22:30
都没样片出来,这么多专家有多少明确了解推土机怎么执行“单线程”的?!

从测试数据看起来,AMD一个模块的性能和Intel一个不带HT的单核性能接近。
“单线程”一个模块的利用率就算和多线程一样到也仅仅是接近I5的同频性能
AMD工艺落后核心面积大频率大概落后个10%,单线程就算他有一个模块的80%速度,
那么“单线程”性能是I5 2500K的72%左右。
回复 支持 反对

使用道具 举报

77#
发表于 2011-3-24 21:18 | 只看该作者
看来推土机还不够强 不过应该比肥龙的差距小吧
回复 支持 反对

使用道具 举报

3332243 该用户已被删除
78#
发表于 2011-3-24 21:36 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

hammerking 该用户已被删除
79#
发表于 2011-3-24 22:18 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

80#
发表于 2011-3-24 22:40 | 只看该作者
hammerking 发表于 2011-3-24 22:18
事实?看着严重偏低的内存子系统性能得出推土机悲剧的结论,不是事实,是偏见~

是的,每次都相信AMD比INTEL领先20%的信息的不是事实,是偏见
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-9-29 06:39

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表