AMD 45纳米/65纳米四核处理器裸片对比

AMD11 · 发表于 2008-3-6 08:37

原帖由 Eji 于 2008-3-6 01:25 发表
K10很缺L3....這幫助並不小。

个人认为对桌面帮助不大，对服务器，尤其是非常密集的运算有一定帮助，前提是AMD能够做好多核心共享高速缓存的调度算法，否则一个加解锁机制引发的等待就够它受的。

AMD11 · 发表于 2008-3-6 08:43

原帖由 xreal 于 2008-3-6 00:08 发表
:sleeping: 6m l3 的k10 还能抢点服务器买卖

在多路上，45nm的K10遇上了Dunnington和Nehalem，压力更大，比如4路以上，被Nehalem压着，4路及以下，又被Dunnington压着，到了双路或以下，更是艰难。可以看到，在未来2~3内将举步维艰（前提是不被别人收购）。:sleeping:

AMD11 · 发表于 2008-3-6 10:41

原帖由 acqwer 于 2008-3-6 09:48 发表

Intel都集成三通道了，AMD有什么理由不跟上，最起码可以在一些内存密集型应用中不输Nehalem。

要是能证实上一次暴露的Nehalem的成绩的真实性，以及该Nehalem的频率就好了。不过现在我个人调低了对Nehalem的期望，甚至某些日常应用上（尤其是游戏上），可能与penryn相当。:loveliness:
但是在数据库或其它大流量的内存密集性的计算，我个人还是非常期待的。:w00t):

[ 本帖最后由 AMD11 于 2008-3-6 10:42 编辑 ]

AMD11 · 发表于 2008-3-6 12:50

原帖由 Asuka 于 2008-3-6 11:01 发表

游戏对内存的路径延迟非常敏感

比较抱歉，我未能理解这句话:funk:

AMD11 · 发表于 2008-3-6 12:55

原帖由 itany 于 2008-3-6 12:45 发表

个人认为，仅凭藉缓存和内存访问结构上的改进就会有效的拉升性能了。缓存从较大的共享L2变为独立的L2+共享L3，每个核心的L2带宽更好，延迟更低，而整个L3更大，命中率也更高。而减小的内存延迟，对于Core2这种理 ...

调低期望仅仅是我个人的意见而已，如果上次讨论的说Nehalem的L2只有512K的话，L2变得太小了，即使L2延迟减少了，如果需要到L3上获取数据，无疑整体延迟更高。权衡利弊吧，这也算是工程上妥协。
Nehalem的内核对Core2的构架自然是有非常大的变动。

AMD11 · 发表于 2008-3-6 13:03

原帖由 itany 于 2008-3-6 12:45 发表

个人认为，仅凭藉缓存和内存访问结构上的改进就会有效的拉升性能了。缓存从较大的共享L2变为独立的L2+共享L3，每个核心的L2带宽更好，延迟更低，而整个L3更大，命中率也更高。而减小的内存延迟，对于Core2这种理 ...

还有一点，如果说第一代Nehalem的L3为8MB，并不比Penryn的Qx系列大，当然，集成了内存控制器能够抵消这部分劣势。最后结果如何，超越penryn多少，看测试才知道。还是很期待的.:p

AMD11 · 发表于 2008-3-6 13:05

原帖由 acqwer 于 2008-3-6 13:01 发表

某些游戏中，K8能领先同频K7 40%以上。

谢谢，不过我没有理解“内存的路径延迟”这个，到底说说内存延迟，还是数据在内存中输运时的延迟？

AMD11 · 发表于 2008-3-6 13:18

原帖由 acqwer 于 2008-3-6 13:12 发表

应该是后者，因为内存本身的延迟和CPU无关。

呵呵，那就非常感谢acqwer了。
如果是后者，我更看不懂了，游戏数据和普通数据在内存中的输运过程应该是没有分别的。不知道能不能得到原话的作者来解释一下，既盼望，又感谢。:loveliness:

AMD11 · 发表于 2008-3-6 14:11

原帖由 itany 于 2008-3-6 13:45 发表

都不是，而是内存控制器CPU核心的延迟

谢，如果是这个说法，倒也比较能理解。

AMD11 · 发表于 2008-3-6 14:15

原帖由 itany 于 2008-3-6 14:03 发表

根据泄露的截图，Nehalem的L2只有256KB……
不要忘记了，即使是256KB，L2命中的概率还是远大于丢失的概率，假如延迟可以从16周期缩小到8周期，访问L3是24周期，这样每次命中都可以节约一半的时间，而没有命中将 ...

256KB/核心或整个L2为256KB？你说的可是沧者极限上的CPU-Z的截图？能否再贴一次，谢谢。:o

AMD11 · 发表于 2008-3-6 14:20

原帖由 itany 于 2008-3-6 14:03 发表

根据泄露的截图，Nehalem的L2只有256KB……
不要忘记了，即使是256KB，L2命中的概率还是远大于丢失的概率，假如延迟可以从16周期缩小到8周期，访问L3是24周期，这样每次命中都可以节约一半的时间，而没有命中将 ...

l另外，你的算法是非常理想化的情况，实际上数据的调度与轮换，尤其是批量的数据调度与轮换几乎不可能在理论（或物理）延迟周期内完成。

AMD11 · 发表于 2008-3-6 14:41

感谢Prescott的指正。
即使Nehalem先在DP上，Dunnington在MP上，AMD也很难受。通过Dunnington的两两核心共享L2，6核心共享L3，性能也相当变态了，65nm的K10在四路或8路（MP的服务器也大多就是这个级别，再上去就是比较大型系统了，数量也急剧减少，当然利润倒是不少）上很难占上风。至于DP，就不用说。

AMD11 · 发表于 2008-3-7 08:30

原帖由 itany 于 2008-3-6 21:09 发表

我所举的数据，16周期的延迟和Penryn基本相当，而8周期比Dothan的10周期略小，都是完全可以实现的，而且Intel在早先的幻灯片中也表示在Larrabee中会使用很低延迟的L2缓存。
Intel是Include型的缓存，不存在什么调度和轮换的问题；而且上述延迟就是实测得，是处理器的真实表现。

你牛:thumbsup:

AMD11 · 发表于 2008-3-7 08:31

原帖由 itany 于 2008-3-6 21:01 发表

放狗一搜，到处都是

谢谢:p

帐号		自动登录	找回密码
密码			注册

AMD 45纳米/65纳米四核处理器裸片对比

浏览过的版块