POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
楼主: Edison
打印 上一主题 下一主题

AMD 45纳米/65纳米四核处理器裸片对比

[复制链接]
21#
发表于 2008-3-6 12:55 | 只看该作者
原帖由 itany 于 2008-3-6 12:45 发表


个人认为,仅凭藉缓存和内存访问结构上的改进就会有效的拉升性能了。缓存从较大的共享L2变为独立的L2+共享L3,每个核心的L2带宽更好,延迟更低,而整个L3更大,命中率也更高。而减小的内存延迟,对于Core2这种理 ...


调低期望仅仅是我个人的意见而已,如果上次讨论的说Nehalem的L2只有512K的话,L2变得太小了,即使L2延迟减少了,如果需要到L3上获取数据,无疑整体延迟更高。权衡利弊吧,这也算是工程上妥协。
Nehalem的内核对Core2的构架自然是有非常大的变动。
回复 支持 反对

使用道具 举报

22#
发表于 2008-3-6 13:01 | 只看该作者
原帖由 AMD11 于 2008-3-6 12:50 发表

比较抱歉,我未能理解这句话:funk:

某些游戏中,K8能领先同频K7 40%以上。
回复 支持 反对

使用道具 举报

23#
发表于 2008-3-6 13:03 | 只看该作者
原帖由 itany 于 2008-3-6 12:45 发表


个人认为,仅凭藉缓存和内存访问结构上的改进就会有效的拉升性能了。缓存从较大的共享L2变为独立的L2+共享L3,每个核心的L2带宽更好,延迟更低,而整个L3更大,命中率也更高。而减小的内存延迟,对于Core2这种理 ...

还有一点,如果说第一代Nehalem的L3为8MB,并不比Penryn的Qx系列大,当然,集成了内存控制器能够抵消这部分劣势。最后结果如何,超越penryn多少,看测试才知道。还是很期待的.:p
回复 支持 反对

使用道具 举报

24#
发表于 2008-3-6 13:05 | 只看该作者
原帖由 acqwer 于 2008-3-6 13:01 发表

某些游戏中,K8能领先同频K7 40%以上。

谢谢,不过我没有理解“内存的路径延迟”这个,到底说说内存延迟,还是数据在内存中输运时的延迟?
回复 支持 反对

使用道具 举报

25#
发表于 2008-3-6 13:08 | 只看该作者
AMD的单个核心效率也急需加强。
抛开其他,Intel Core2单个核心效率高就占了很大便宜。
回复 支持 反对

使用道具 举报

26#
发表于 2008-3-6 13:12 | 只看该作者
原帖由 AMD11 于 2008-3-6 13:05 发表

谢谢,不过我没有理解“内存的路径延迟”这个,到底说说内存延迟,还是数据在内存中输运时的延迟?

应该是后者,因为内存本身的延迟和CPU无关。
回复 支持 反对

使用道具 举报

sugn0309 该用户已被删除
27#
发表于 2008-3-6 13:18 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

28#
发表于 2008-3-6 13:18 | 只看该作者
原帖由 acqwer 于 2008-3-6 13:12 发表

应该是后者,因为内存本身的延迟和CPU无关。

呵呵,那就非常感谢acqwer了。
如果是后者,我更看不懂了,游戏数据和普通数据在内存中的输运过程应该是没有分别的。不知道能不能得到原话的作者来解释一下,既盼望,又感谢。:loveliness:
回复 支持 反对

使用道具 举报

29#
发表于 2008-3-6 13:45 | 只看该作者
原帖由 AMD11 于 2008-3-6 13:05 发表

谢谢,不过我没有理解“内存的路径延迟”这个,到底说说内存延迟,还是数据在内存中输运时的延迟?


都不是,而是内存控制器<->CPU核心的延迟
回复 支持 反对

使用道具 举报

30#
发表于 2008-3-6 14:03 | 只看该作者
原帖由 AMD11 于 2008-3-6 12:55 发表

调低期望仅仅是我个人的意见而已,如果上次讨论的说Nehalem的L2只有512K的话,L2变得太小了,即使L2延迟减少了,如果需要到L3上获取数据,无疑整体延迟更高。权衡利弊吧,这也算是工程上妥协。
Nehalem的内核对 ...


根据泄露的截图,Nehalem的L2只有256KB……
不要忘记了,即使是256KB,L2命中的概率还是远大于丢失的概率,假如延迟可以从16周期缩小到8周期,访问L3是24周期,这样每次命中都可以节约一半的时间,而没有命中将浪费一倍的时间,总的算下来还是很合适的
回复 支持 反对

使用道具 举报

31#
发表于 2008-3-6 14:11 | 只看该作者
原帖由 itany 于 2008-3-6 13:45 发表


都不是,而是内存控制器CPU核心的延迟

谢,如果是这个说法,倒也比较能理解。
回复 支持 反对

使用道具 举报

32#
发表于 2008-3-6 14:15 | 只看该作者
原帖由 itany 于 2008-3-6 14:03 发表


根据泄露的截图,Nehalem的L2只有256KB……
不要忘记了,即使是256KB,L2命中的概率还是远大于丢失的概率,假如延迟可以从16周期缩小到8周期,访问L3是24周期,这样每次命中都可以节约一半的时间,而没有命中将 ...

256KB/核心或整个L2为256KB?你说的可是沧者极限上的CPU-Z的截图?能否再贴一次,谢谢。:o
回复 支持 反对

使用道具 举报

33#
发表于 2008-3-6 14:20 | 只看该作者
原帖由 itany 于 2008-3-6 14:03 发表


根据泄露的截图,Nehalem的L2只有256KB……
不要忘记了,即使是256KB,L2命中的概率还是远大于丢失的概率,假如延迟可以从16周期缩小到8周期,访问L3是24周期,这样每次命中都可以节约一半的时间,而没有命中将 ...

l另外,你的算法是非常理想化的情况,实际上数据的调度与轮换,尤其是批量的数据调度与轮换几乎不可能在理论(或物理)延迟周期内完成。
回复 支持 反对

使用道具 举报

34#
发表于 2008-3-6 14:21 | 只看该作者
原帖由 AMD11 于 2008-3-6 08:43 发表

在多路上,45nm的K10遇上了Dunnington和Nehalem,压力更大,比如4路以上,被Nehalem压着,4路及以下,又被Dunnington压着,到了双路或以下,更是艰难。可以看到,在未来2~3内将举步维艰(前提是不被别人收购)。:s ...

Dunnington是MP。Nehalem首先会出现在DP上。
回复 支持 反对

使用道具 举报

35#
发表于 2008-3-6 14:41 | 只看该作者
感谢Prescott的指正。
即使Nehalem先在DP上,Dunnington在MP上,AMD也很难受。通过Dunnington的两两核心共享L2,6核心共享L3,性能也相当变态了,65nm的K10在四路或8路(MP的服务器也大多就是这个级别,再上去就是比较大型系统了,数量也急剧减少,当然利润倒是不少)上很难占上风。至于DP,就不用说。
回复 支持 反对

使用道具 举报

36#
 楼主| 发表于 2008-3-6 15:15 | 只看该作者
比例不是非常精确,我在缩放的时候,用工具衡量可能有5%的差别。
回复 支持 反对

使用道具 举报

37#
发表于 2008-3-6 15:51 | 只看该作者
K10 低价上市   K10 65nm
回复 支持 反对

使用道具 举报

38#
 楼主| 发表于 2008-3-6 18:27 | 只看该作者
:rolleyes: 核心部分大图

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回复 支持 反对

使用道具 举报

39#
发表于 2008-3-6 21:01 | 只看该作者
原帖由 AMD11 于 2008-3-6 14:15 发表

256KB/核心或整个L2为256KB?你说的可是沧者极限上的CPU-Z的截图?能否再贴一次,谢谢。:o


放狗一搜,到处都是

回复 支持 反对

使用道具 举报

40#
发表于 2008-3-6 21:09 | 只看该作者
原帖由 AMD11 于 2008-3-6 14:20 发表

l另外,你的算法是非常理想化的情况,实际上数据的调度与轮换,尤其是批量的数据调度与轮换几乎不可能在理论(或物理)延迟周期内完成。


我所举的数据,16周期的延迟和Penryn基本相当,而8周期比Dothan的10周期略小,都是完全可以实现的,而且Intel在早先的幻灯片中也表示在Larrabee中会使用很低延迟的L2缓存。
Intel是Include型的缓存,不存在什么调度和轮换的问题;而且上述延迟就是实测得,是处理器的真实表现
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2024-5-18 10:01

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表