POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
楼主: gtx5
打印 上一主题 下一主题

双路32核心:推土机性能大公开

[复制链接]
41#
发表于 2011-3-23 22:42 | 只看该作者
河蟹万岁 发表于 2011-3-23 22:36
一个模块
单线程,前端资源会有剩;双线程,整数运算单元资源会有剩。整体来讲,是资源利用度高的方法。
...

直接说单线程和多线程效率都不高就对了。
回复 支持 反对

使用道具 举报

42#
发表于 2011-3-23 22:46 | 只看该作者
本帖最后由 futchi 于 2011-3-23 22:53 编辑

看看stream内存测试成绩就会知道,这台双路8通道内存的服务器问题很大,内存带宽才这些
回复 支持 反对

使用道具 举报

43#
发表于 2011-3-23 22:46 | 只看该作者
笑看某楼酸溜溜
我又没跟INTEL比,跟K10比而已。
单线程只能用到前端一半资源,那就没必要绑成一个模块了。
这么做效率是低于单独两个核心的,因为要争抢前端资源。
所以重点是不要单独除以核心数算单线程性能。
算AMD忽视一模块效率低于单独两核心,算INTEL忽视HT效率高于单独一核心,再加上多路效果并不是线性的,怎么算都没法算的。
回复 支持 反对

使用道具 举报

44#
 楼主| 发表于 2011-3-23 22:48 | 只看该作者
itany 发表于 2011-3-23 21:43
我算了一下,1.0G单核的性能指数:
Bulldozer         - 6.69e-4
Sandy 2500K - 12.29e-4

频率差了多少?
回复 支持 反对

使用道具 举报

45#
发表于 2011-3-23 22:51 | 只看该作者
gtx5 发表于 2011-3-23 22:48
频率差了多少?

已经除以频率换算成同频了,先看帖再回帖
回复 支持 反对

使用道具 举报

46#
发表于 2011-3-23 22:53 | 只看该作者
回复 itany 的帖子

两个ALU两个管线就满足了?
一条供货流水线就满足了一条加工流水线?
照你的理解,改成八核心,每核两发射好了,因为两条ALU只能用到两发射的前端资源。
回复 支持 反对

使用道具 举报

47#
发表于 2011-3-23 22:55 | 只看该作者
河蟹万岁 发表于 2011-3-23 22:46
笑看某楼酸溜溜
我又没跟INTEL比,跟K10比而已。
单线程只能用到前端一半资源,那就没必要绑成一个模块了 ...

AMD的片上互联根本没法做到共享L3缓存下的8个独立核心,不共用L2怎么行。
既然共用了L2,干脆前端就共用了,可以节省管芯面积。
当年AMD的x6那么大的管芯面积,结果上来就被灭杀,你不得不卖白菜价,教训还不深刻么
回复 支持 反对

使用道具 举报

48#
发表于 2011-3-23 22:58 | 只看该作者
回复 itany 的帖子

“HT情况下一个核心全部资源都能投放在一个线程上”,那开了HT,两个线程比单核单线程多出性能是凭空出来的么?
回复 支持 反对

使用道具 举报

49#
发表于 2011-3-23 22:59 | 只看该作者
河蟹万岁 发表于 2011-3-23 22:53
回复 itany 的帖子

两个ALU两个管线就满足了?

您先把什么是ALU,什么是“管线”搞清楚吧。
您说两个ALU应该对应多少宽度的前端呢?
Atom和Bobcat为啥两个ALU对应2宽度的前端呢? 你非要安上4宽度的前端,只是费电而已。

Sandy Bridge3+1的前端对应三个ALU,这才是久经考验的组合
回复 支持 反对

使用道具 举报

50#
发表于 2011-3-23 23:00 | 只看该作者
本帖最后由 CC9K 于 2011-3-23 23:16 编辑

单线程下发射4条指令,2个对应2个ALU,剩下两个还能给FPU用吧?
回复 支持 反对

使用道具 举报

51#
发表于 2011-3-23 23:02 | 只看该作者
河蟹万岁 发表于 2011-3-23 22:58
回复 itany 的帖子

“HT情况下一个核心全部资源都能投放在一个线程上”,那开了HT,两个线程比单核单线程多 ...

当然是凭空的,为什么不是凭空的呢?
你知不知道什么叫做相关性? 知不知道什么叫做分支预测/内存预读失效引起的流水线阻断?
对于单线程,这些都不是资源不足造成的问题,对于第二个线程来说,这个就是凭空多出来的性能。

可惜的是,对于AMD系统而言,这个并不是“凭空”,而是实实在在的另一个整数单元,在单线程的时候就在哪里发傻,占用了管芯面积和电力。
回复 支持 反对

使用道具 举报

52#
 楼主| 发表于 2011-3-23 23:03 | 只看该作者
"This thing only measures \'floating point CPU performance\' and
nothing more, and it\'s good that nothing else affects the results.

A real rendering program/scene would be still CPU-limited meaning that
by far the major part of the time spent would be CPU time in the fpu,
but it would have more overhead for disk I/O, shader parsing, more
strain for the memory bandwidth, and various other things.

So it\'s a good approximation being a renderer itself, but it\'s
definitely not representative."

http://www.futuretech.blinkenlights.nl/c-ray.html
回复 支持 反对

使用道具 举报

53#
发表于 2011-3-23 23:09 | 只看该作者
回复 itany 的帖子

具体到按摩店为何非要绑成模块,我不清楚。
但所谓双ALU对应两发射不敢苟同,也许双ALU对应2.5个发射的资源,但不可能造出完美没有资源剩余的架构。
你看到的架构中都是多少ALU对应多少发射,也许那种情况是发射端资源紧缺造成的。
比如K10只能造出三发射,就要求ALU能充分利用完这三发射,也许2.5个ALU就够了,但配了3个ALU,资源是有多的,因为必须是整数个。
回复 支持 反对

使用道具 举报

54#
发表于 2011-3-23 23:16 | 只看该作者
河蟹万岁 发表于 2011-3-23 23:09
回复 itany 的帖子

具体到按摩店为何非要绑成模块,我不清楚。

您真牛,2.5都出来了。
AMD当年为什么要3对3,占用管芯面积和增加绕线的复杂度,就因为AMD的CPU发射调度很傻,而Intel的P6调度很聪明。
回复 支持 反对

使用道具 举报

55#
发表于 2011-3-23 23:17 | 只看该作者
回复 itany 的帖子

额。。。HT凭空出资源真是洗脑了,HT以前宣传的都是利用闲置资源,一个线程不可能在每时每刻都把单核全部资源都占的死死的。可能这时对某一部分压力大,某一部分有细微的闲置。
回复 支持 反对

使用道具 举报

56#
发表于 2011-3-23 23:20 | 只看该作者
另外推土机是单个整数核心是独立4条管线(2个ALU+2个AGU),可以满足吃端口4条指令的情况,K10虽然是3个ALU,但也只有3条管线,每一个ALU和一个AGU绑定共享一条的
回复 支持 反对

使用道具 举报

57#
发表于 2011-3-23 23:24 | 只看该作者
回复 itany 的帖子

也许我理解上有误,你的意思是:
一个工厂,不论是生产流水线牛逼还是供货流水线牛逼,都是整合成一条流水线,上游供货,下游生产。
而不是供货的流水线都到一个分配中心,再分配各个生产流水线,以平衡供货和生产的不对等?

今晚洗洗睡了,明天来看。
回复 支持 反对

使用道具 举报

58#
发表于 2011-3-23 23:26 | 只看该作者
没准1模块平1核
回复 支持 反对

使用道具 举报

59#
发表于 2011-3-23 23:26 | 只看该作者
CC9K 发表于 2011-3-23 23:20
另外推土机是单个整数核心是独立4条管线(2个ALU+2个AGU),可以满足吃端口4条指令的情况,K10虽然是3个ALU ...

管线的宽度使用x86指令来算的,不是用微操作或者宏操作来计算的。
涉及内存操作的x86译码之后就变成两个宏操作分别给ALU和AGU么。
所谓4宽度的前端对应2 ALU+2 AGU的说法是不对的。
回复 支持 反对

使用道具 举报

hammerking 该用户已被删除
60#
发表于 2011-3-23 23:30 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-8-26 19:16

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表