只需一步,快速开始
手机号码,快捷登录
使用道具 举报
原帖由 RacingPHT 于 2006-8-29 23:12 发表 P4的运算资源本来就比A64多, 如果A64在这种测试中赢了, 我就奇怪了。我自己就写过P4比同频K8还快的程序. 问题是P4和GPU比怎样呢? 在这种测试中赢了, 我不觉得有什么意义. 因为有些事情本来就是应该由CPU做 ...
原帖由 RacingPHT 于 2006-8-29 22:46 发表 你说得没有错. 也没有指出我的错误. 我认为单个处理核心的主要问题是受制于内存(包括reg)的相依性而不能象GPU那样轻松伸缩运算单元 多个处理核心的问题则主要在于软件的任务分解. 至于我关心mb, 只是因为 ...
原帖由 RacingPHT 于 2006-8-29 22:24 发表 x86不同实现没有太大区别也不奇怪。 前面原来提及Alpha, PPC这样的系统, 我还是希望讨论有所收获。很多问题我要了解还很困难。 实话说, 只是试探一下. 说到头, 为今后十年着想, 如果需要高性能软件, 已经不 ...
原帖由 RacingPHT 于 2006-8-29 21:52 发表 动作很快嘛. mfencelfencesfence是一个指令, 作用和内存屏障完全是两回事. 这个指令大致是在乱序指令流中强制flush一下而已. 内存屏障在我的辞典中是memory barrier. 话说回来, 如果你写一篇详细的体 ...
原帖由 RacingPHT 于 2006-8-29 20:53 发表 你说话比较武断, 我不知道你是否熟悉P3之后新增加的Fence类指令, 已经CMPXCHG8b这样的东西的用法. 我不想扯到Fans的讨论中去.
原帖由 RacingPHT 于 2006-8-29 19:52 发表 如果你鄙视memory的内容, 那我觉得你可能对处理器的流水线熟读于心, 但是没有看到制约性能的本质问题. memory只是一个泛指, 就单核来说, 最大的挑战问题就是去除指令序列各项操作的相关性(主要来自于寄存器的 ...
原帖由 Edison 于 2006-8-29 20:13 发表 Conroe的store throughtput是1 cycle,P4是4个cycle。
原帖由 Edison 于 2006-8-29 18:27 发表 如果能再补充个2001年和2004年的,这个流水线工位贴就更齐全了,虽然04年的不少stage大都是driver。
原帖由 RacingPHT 于 2006-8-29 18:40 发表 如果不是各memory操作的相依性, 现在何止4路乱序并行.
本版积分规则 发表回复
广告投放或合作|网站地图|处罚通告|
GMT+8, 2024-5-22 12:45
Powered by Discuz! X3.4
© 2001-2017 POPPUR.