POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
楼主: hopetoknow2
打印 上一主题 下一主题

AMD处理器的体系架构技术方面不行

[复制链接]
50#
发表于 2006-8-30 11:07 | 只看该作者
讨论下为什么Celeron的性能比Pentium 4 差那么多吧。
回复 支持 反对

使用道具 举报

49#
发表于 2006-8-30 00:31 | 只看该作者
太高深了,基本,不,应该是完全看不懂
回复 支持 反对

使用道具 举报

48#
 楼主| 发表于 2006-8-29 23:24 | 只看该作者
A64和P3 都是必须等到所有老操作的地址都计算出来ready了,做地址比较后,然后确定是否存在相关性。 如果有老操作的地址还没有出来, 那只能干等了。

core2要激进了, 不干等, 只要预测为无相关性直接就先执行了。 (因为有预测器预测着呢)

POWER5不搞预测的, 就是和那些已经地址ready的老操作,做地址对比,如果有的老操作的地址还没有出来, 那不管,就当不相关了。 若没有发现相关, 就先执行再说了。

Alpha有简单的预测机制, 成为Store waiting Table。一开始一律都当成不相关了, 先执行再说了。如果实际是相关的,那么Store waiting Table会记录, 下次再执行这条指令时,都当成有相关性。这个"黑"记录要16K个cycle后才解除。

[ 本帖最后由 hopetoknow2 于 2006-8-29 23:46 编辑 ]
回复 支持 反对

使用道具 举报

47#
 楼主| 发表于 2006-8-29 23:21 | 只看该作者
原帖由 RacingPHT 于 2006-8-29 23:12 发表


P4的运算资源本来就比A64多, 如果A64在这种测试中赢了, 我就奇怪了。我自己就写过P4比同频K8还快的程序.

问题是P4和GPU比怎样呢? 在这种测试中赢了, 我不觉得有什么意义. 因为有些事情本来就是应该由CPU做 ...

呵呵,你现在谈的Load/Store相关性, 和前面说的多处理器正确同步,就不是同一回事啦。
这in fly的Load/Store指令相关性的处理,是属于核心区了。

A64,P3,Core2,Alpha21264还有POWER5他们是怎么处理的?
回复 支持 反对

使用道具 举报

RacingPHT 该用户已被删除
46#
发表于 2006-8-29 23:12 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

45#
 楼主| 发表于 2006-8-29 23:00 | 只看该作者
原帖由 RacingPHT 于 2006-8-29 22:46 发表


你说得没有错. 也没有指出我的错误.
我认为单个处理核心的主要问题是受制于内存(包括reg)的相依性而不能象GPU那样轻松伸缩运算单元
多个处理核心的问题则主要在于软件的任务分解. 至于我关心mb, 只是因为 ...

呵呵,是吗?
你也许不知道, 3DMark中的,软件模式测试, 就是CPU做了GPU的活, 结果是P4直杀的A64,无处藏身。
回复 支持 反对

使用道具 举报

RacingPHT 该用户已被删除
44#
发表于 2006-8-29 22:46 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

43#
 楼主| 发表于 2006-8-29 22:34 | 只看该作者
原帖由 RacingPHT 于 2006-8-29 22:24 发表
x86不同实现没有太大区别也不奇怪。

前面原来提及Alpha, PPC这样的系统, 我还是希望讨论有所收获。很多问题我要了解还很困难。
实话说, 只是试探一下.

说到头, 为今后十年着想, 如果需要高性能软件, 已经不 ...

你根本就没和当前微体系架构中的关键性能部分,搭上钩。

现在SMP双核本质性能问题是什么? 并不是多处理器之间的正确同步,而是各个核是否足够强。
回复 支持 反对

使用道具 举报

RacingPHT 该用户已被删除
42#
发表于 2006-8-29 22:24 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

41#
 楼主| 发表于 2006-8-29 22:08 | 只看该作者
原帖由 RacingPHT 于 2006-8-29 21:52 发表


动作很快嘛.
mfencelfencesfence是一个指令, 作用和内存屏障完全是两回事. 这个指令大致是在乱序指令流中强制flush一下而已.

内存屏障在我的辞典中是memory barrier.

话说回来, 如果你写一篇详细的体 ...

测试已经不少了, 几种双核的加速比,并没有质的区别。 cinebench是有效支持双核的测试, PD和X2以及yonah还有core2,双核加速比都在1.8x左右。

你似乎真的, 走偏了路。 看些 和性能之间的关系,属于末位的东西。

我就怕你说不来, 哪个应用可以显示出,明显的双核加速比区别来。

[ 本帖最后由 hopetoknow2 于 2006-8-29 22:26 编辑 ]
回复 支持 反对

使用道具 举报

RacingPHT 该用户已被删除
40#
发表于 2006-8-29 21:52 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

39#
 楼主| 发表于 2006-8-29 21:38 | 只看该作者
原帖由 RacingPHT 于 2006-8-29 20:53 发表


你说话比较武断, 我不知道你是否熟悉P3之后新增加的Fence类指令, 已经CMPXCHG8b这样的东西的用法. 我不想扯到Fans的讨论中去.

看来,以后交流,一定要加英语。
mfencelfencesfence这是你内存屏障

我是说内存屏障memory wall
回复 支持 反对

使用道具 举报

38#
 楼主| 发表于 2006-8-29 21:06 | 只看该作者
原帖由 RacingPHT 于 2006-8-29 19:52 发表


如果你鄙视memory的内容, 那我觉得你可能对处理器的流水线熟读于心, 但是没有看到制约性能的本质问题.
memory只是一个泛指, 就单核来说, 最大的挑战问题就是去除指令序列各项操作的相关性(主要来自于寄存器的 ...

我认为你不了解现在本质性能是在于单核心时的性能。单核足够强, 才是双核胜出的根本原因。

你要是想讨论处理器微体系架构的问题, 也应该向外是以L2缓存为界限。 外围RAM是最后谈的。一般是集成MC或预取处理。
更应该优先讨论核心(带L1), 也许你不知道,核心也是包括memory操作内容, 尤其是Load和Store的相关性,是核心内的重要内容。
回复 支持 反对

使用道具 举报

RacingPHT 该用户已被删除
37#
发表于 2006-8-29 20:53 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

36#
 楼主| 发表于 2006-8-29 20:20 | 只看该作者
原帖由 Edison 于 2006-8-29 20:13 发表
Conroe的store throughtput是1 cycle,P4是4个cycle。

P4C好像是1.7个cycle.
回复 支持 反对

使用道具 举报

35#
 楼主| 发表于 2006-8-29 20:19 | 只看该作者
原帖由 RacingPHT 于 2006-8-29 19:52 发表


如果你鄙视memory的内容, 那我觉得你可能对处理器的流水线熟读于心, 但是没有看到制约性能的本质问题.
memory只是一个泛指, 就单核来说, 最大的挑战问题就是去除指令序列各项操作的相关性(主要来自于寄存器的 ...

我认为你有 概念性错误.
我极为失望,因为你不清楚性能是如何来的。

首先memory coherent的概念, 你不清楚。 对多处理器/核心而言,memory coherent的主要内容为多个核心在共享存储区上的数据一致性。
现在I/A都是SMP,单核能大胜,双核也就胜。 你去看看Cinbench测试中,不同处理器的双核的加速比你就有数了。 你根本就提的都不是首要关键问题。

对于单核单处理器系统而言, 不太特指memory coherent的概念,要么就是说缓存系统。

至于谈Load/store相关性, 那是围绕MOB、LS为核心进行讨论的。

放着核心,你不谈。 谈memory wall更是虚的很,不就是要先从AMD谈起吗? 不这么谈你当然要失望了,呵呵。
回复 支持 反对

使用道具 举报

34#
发表于 2006-8-29 20:13 | 只看该作者
Conroe的store throughtput是1 cycle,P4是4个cycle。
回复 支持 反对

使用道具 举报

RacingPHT 该用户已被删除
33#
发表于 2006-8-29 19:52 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

32#
 楼主| 发表于 2006-8-29 19:37 | 只看该作者
原帖由 Edison 于 2006-8-29 18:27 发表
如果能再补充个2001年和2004年的,这个流水线工位贴就更齐全了,虽然04年的不少stage大都是driver。

那还做不到, 这要看Intel了。 也许Intel永远不会说。
回复 支持 反对

使用道具 举报

31#
 楼主| 发表于 2006-8-29 19:36 | 只看该作者
原帖由 RacingPHT 于 2006-8-29 18:40 发表


如果不是各memory操作的相依性, 现在何止4路乱序并行.

对于单核而言, Load/sotre操作的相关性, 根本和memory coherent、memory wall不是指同一个东西。  那Load/sotre操作的相关性这些内容, 主要是MOB和L/S单元之类。

如果你是要谈处理器核心里的MOB和L/S单元, 那很好。 我看PCI真还没有几个比我更清楚的。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2024-5-22 12:45

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表