AMD 45纳米/65纳米四核处理器裸片对比

AMD11 · 发表于 2008-3-6 12:55

原帖由 itany 于 2008-3-6 12:45 发表

个人认为，仅凭藉缓存和内存访问结构上的改进就会有效的拉升性能了。缓存从较大的共享L2变为独立的L2+共享L3，每个核心的L2带宽更好，延迟更低，而整个L3更大，命中率也更高。而减小的内存延迟，对于Core2这种理 ...

调低期望仅仅是我个人的意见而已，如果上次讨论的说Nehalem的L2只有512K的话，L2变得太小了，即使L2延迟减少了，如果需要到L3上获取数据，无疑整体延迟更高。权衡利弊吧，这也算是工程上妥协。
Nehalem的内核对Core2的构架自然是有非常大的变动。

acqwer · 发表于 2008-3-6 13:01

原帖由 AMD11 于 2008-3-6 12:50 发表

比较抱歉，我未能理解这句话:funk:

某些游戏中，K8能领先同频K7 40%以上。

AMD11 · 发表于 2008-3-6 13:03

原帖由 itany 于 2008-3-6 12:45 发表

个人认为，仅凭藉缓存和内存访问结构上的改进就会有效的拉升性能了。缓存从较大的共享L2变为独立的L2+共享L3，每个核心的L2带宽更好，延迟更低，而整个L3更大，命中率也更高。而减小的内存延迟，对于Core2这种理 ...

还有一点，如果说第一代Nehalem的L3为8MB，并不比Penryn的Qx系列大，当然，集成了内存控制器能够抵消这部分劣势。最后结果如何，超越penryn多少，看测试才知道。还是很期待的.:p

AMD11 · 发表于 2008-3-6 13:05

原帖由 acqwer 于 2008-3-6 13:01 发表

某些游戏中，K8能领先同频K7 40%以上。

谢谢，不过我没有理解“内存的路径延迟”这个，到底说说内存延迟，还是数据在内存中输运时的延迟？

gz_easy · 发表于 2008-3-6 13:08

AMD的单个核心效率也急需加强。
抛开其他，Intel Core2单个核心效率高就占了很大便宜。

acqwer · 发表于 2008-3-6 13:12

原帖由 AMD11 于 2008-3-6 13:05 发表

谢谢，不过我没有理解“内存的路径延迟”这个，到底说说内存延迟，还是数据在内存中输运时的延迟？

应该是后者，因为内存本身的延迟和CPU无关。

只看该作者 · 发表于 2008-3-6 13:18

提示: 作者被禁止或删除内容自动屏蔽

AMD11 · 发表于 2008-3-6 13:18

原帖由 acqwer 于 2008-3-6 13:12 发表

应该是后者，因为内存本身的延迟和CPU无关。

呵呵，那就非常感谢acqwer了。
如果是后者，我更看不懂了，游戏数据和普通数据在内存中的输运过程应该是没有分别的。不知道能不能得到原话的作者来解释一下，既盼望，又感谢。:loveliness:

itany · 发表于 2008-3-6 13:45

原帖由 AMD11 于 2008-3-6 13:05 发表

谢谢，不过我没有理解“内存的路径延迟”这个，到底说说内存延迟，还是数据在内存中输运时的延迟？

都不是，而是内存控制器<->CPU核心的延迟

itany · 发表于 2008-3-6 14:03

原帖由 AMD11 于 2008-3-6 12:55 发表

调低期望仅仅是我个人的意见而已，如果上次讨论的说Nehalem的L2只有512K的话，L2变得太小了，即使L2延迟减少了，如果需要到L3上获取数据，无疑整体延迟更高。权衡利弊吧，这也算是工程上妥协。
Nehalem的内核对 ...

根据泄露的截图，Nehalem的L2只有256KB……
不要忘记了，即使是256KB，L2命中的概率还是远大于丢失的概率，假如延迟可以从16周期缩小到8周期，访问L3是24周期，这样每次命中都可以节约一半的时间，而没有命中将浪费一倍的时间，总的算下来还是很合适的

AMD11 · 发表于 2008-3-6 14:11

原帖由 itany 于 2008-3-6 13:45 发表

都不是，而是内存控制器CPU核心的延迟

谢，如果是这个说法，倒也比较能理解。

AMD11 · 发表于 2008-3-6 14:15

原帖由 itany 于 2008-3-6 14:03 发表

根据泄露的截图，Nehalem的L2只有256KB……
不要忘记了，即使是256KB，L2命中的概率还是远大于丢失的概率，假如延迟可以从16周期缩小到8周期，访问L3是24周期，这样每次命中都可以节约一半的时间，而没有命中将 ...

256KB/核心或整个L2为256KB？你说的可是沧者极限上的CPU-Z的截图？能否再贴一次，谢谢。:o

AMD11 · 发表于 2008-3-6 14:20

原帖由 itany 于 2008-3-6 14:03 发表

根据泄露的截图，Nehalem的L2只有256KB……
不要忘记了，即使是256KB，L2命中的概率还是远大于丢失的概率，假如延迟可以从16周期缩小到8周期，访问L3是24周期，这样每次命中都可以节约一半的时间，而没有命中将 ...

l另外，你的算法是非常理想化的情况，实际上数据的调度与轮换，尤其是批量的数据调度与轮换几乎不可能在理论（或物理）延迟周期内完成。

Prescott · 发表于 2008-3-6 14:21

原帖由 AMD11 于 2008-3-6 08:43 发表

在多路上，45nm的K10遇上了Dunnington和Nehalem，压力更大，比如4路以上，被Nehalem压着，4路及以下，又被Dunnington压着，到了双路或以下，更是艰难。可以看到，在未来2~3内将举步维艰（前提是不被别人收购）。:s ...

Dunnington是MP。Nehalem首先会出现在DP上。

AMD11 · 发表于 2008-3-6 14:41

感谢Prescott的指正。
即使Nehalem先在DP上，Dunnington在MP上，AMD也很难受。通过Dunnington的两两核心共享L2，6核心共享L3，性能也相当变态了，65nm的K10在四路或8路（MP的服务器也大多就是这个级别，再上去就是比较大型系统了，数量也急剧减少，当然利润倒是不少）上很难占上风。至于DP，就不用说。

Edison · 发表于 2008-3-6 15:15

比例不是非常精确，我在缩放的时候，用工具衡量可能有5%的差别。

jk1526 · 发表于 2008-3-6 15:51

K10 低价上市 K10 65nm

Edison · 发表于 2008-3-6 18:27

:rolleyes: 核心部分大图

itany · 发表于 2008-3-6 21:01

原帖由 AMD11 于 2008-3-6 14:15 发表

256KB/核心或整个L2为256KB？你说的可是沧者极限上的CPU-Z的截图？能否再贴一次，谢谢。:o

放狗一搜，到处都是

itany · 发表于 2008-3-6 21:09

原帖由 AMD11 于 2008-3-6 14:20 发表

l另外，你的算法是非常理想化的情况，实际上数据的调度与轮换，尤其是批量的数据调度与轮换几乎不可能在理论（或物理）延迟周期内完成。

我所举的数据，16周期的延迟和Penryn基本相当，而8周期比Dothan的10周期略小，都是完全可以实现的，而且Intel在早先的幻灯片中也表示在Larrabee中会使用很低延迟的L2缓存。
Intel是Include型的缓存，不存在什么调度和轮换的问题；而且上述延迟就是实测得，是处理器的真实表现

帐号		自动登录	找回密码
密码			注册

sugn0309 该用户已被删除	27^# 发表于 2008-3-6 13:18 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
sugn0309 该用户已被删除
	回复支持反对使用道具举报显身卡

AMD 45纳米/65纳米四核处理器裸片对比

本帖子中包含更多资源