POPPUR爱换

标题: AMD 45纳米/65纳米四核处理器裸片对比 [打印本页]

作者: Edison    时间: 2008-3-5 22:55
标题: AMD 45纳米/65纳米四核处理器裸片对比
:charles:
作者: UX201A    时间: 2008-3-5 22:59
成本又提高了,AMD自找苦吃么?那么大的L2也不见得有多少用:charles:
作者: Edison    时间: 2008-3-5 23:02
iL2没任何增加,增加的是iL3以及更多通道的内存控制器。
作者: jackli77    时间: 2008-3-5 23:04
面积更大了:lol:
作者: UX201A    时间: 2008-3-5 23:06
原帖由 Edison 于 2008-3-5 23:02 发表
iL2没任何增加,增加的是iL3以及更多通道的内存控制器。
:sweatingbullets: 记错了,把K10还有L3这回事给忘掉了,唉,K10太不争气了,快被人遗忘了:charles:
作者: itany    时间: 2008-3-5 23:10
原帖由 Edison 于 2008-3-5 23:02 发表
iL2没任何增加,增加的是iL3以及更多通道的内存控制器。


在现有的插座上能增加更多的内存通道么?
还是同时支持DDR2和DDR3闹得?
作者: xreal    时间: 2008-3-6 00:08
:sleeping: 6m l3 的k10 还能抢点服务器买卖
作者: Eji    时间: 2008-3-6 01:25
K10很缺L3....這幫助並不小。
作者: AMD11    时间: 2008-3-6 08:37
原帖由 Eji 于 2008-3-6 01:25 发表
K10很缺L3....這幫助並不小。

个人认为对桌面帮助不大,对服务器,尤其是非常密集的运算有一定帮助,前提是AMD能够做好多核心共享高速缓存的调度算法,否则一个加解锁机制引发的等待就够它受的。
作者: AMD11    时间: 2008-3-6 08:43
原帖由 xreal 于 2008-3-6 00:08 发表
:sleeping: 6m l3 的k10 还能抢点服务器买卖

在多路上,45nm的K10遇上了Dunnington和Nehalem,压力更大,比如4路以上,被Nehalem压着,4路及以下,又被Dunnington压着,到了双路或以下,更是艰难。可以看到,在未来2~3内将举步维艰(前提是不被别人收购)。:sleeping:
作者: acqwer    时间: 2008-3-6 09:48
原帖由 itany 于 2008-3-5 23:10 发表


在现有的插座上能增加更多的内存通道么?
还是同时支持DDR2和DDR3闹得?

Intel都集成三通道了,AMD有什么理由不跟上,最起码可以在一些内存密集型应用中不输Nehalem。
作者: 飞鸟真    时间: 2008-3-6 10:20
亮黄部分都是缓存?增大了多少倍?:o
作者: ChrisVinyard    时间: 2008-3-6 10:25
只是想赶快看到K10 大面积低价上市~~~至少要高性价比:w00t):
作者: itany    时间: 2008-3-6 10:40
原帖由 Eji 于 2008-3-6 01:25 发表
K10很缺L3....這幫助並不小。


我怎么觉得AMD是在走Prescott的老路,530-〉630呢?
作者: AMD11    时间: 2008-3-6 10:41
原帖由 acqwer 于 2008-3-6 09:48 发表

Intel都集成三通道了,AMD有什么理由不跟上,最起码可以在一些内存密集型应用中不输Nehalem。

要是能证实上一次暴露的Nehalem的成绩的真实性,以及该Nehalem的频率就好了。不过现在我个人调低了对Nehalem的期望,甚至某些日常应用上(尤其是游戏上),可能与penryn相当。:loveliness:
但是在数据库或其它大流量的内存密集性的计算,我个人还是非常期待的。:w00t):

[ 本帖最后由 AMD11 于 2008-3-6 10:42 编辑 ]
作者: itany    时间: 2008-3-6 10:44
原帖由 maxs 于 2008-3-6 10:36 发表
看核心部分的比例,这个45nm的图被放大了一点?

总的来看45nm K10增加L3后大的并不过分,基本还在AMD正常的核心面积范围:ph34r:


本来AMD从90nm-〉65nm管芯尺寸的缩减就很不理想,45nm延续这个光荣传统也是很正常的
另,Nehalem的面积可是和现在65nm K10基本相当的,A社总不能和Dunnington、Tukwila比面积吧
作者: Asuka    时间: 2008-3-6 11:01
原帖由 AMD11 于 2008-3-6 10:41 发表

要是能证实上一次暴露的Nehalem的成绩的真实性,以及该Nehalem的频率就好了。不过现在我个人调低了对Nehalem的期望,甚至某些日常应用上(尤其是游戏上),可能与penryn相当。:loveliness:
但是在数据库或其它大流 ...


游戏对内存的路径延迟非常敏感
作者: xreal    时间: 2008-3-6 12:02
:sleeping: amd最多被边缘化,破产或者被收购可能都比较小
作者: itany    时间: 2008-3-6 12:45
原帖由 AMD11 于 2008-3-6 10:41 发表

要是能证实上一次暴露的Nehalem的成绩的真实性,以及该Nehalem的频率就好了。不过现在我个人调低了对Nehalem的期望,甚至某些日常应用上(尤其是游戏上),可能与penryn相当。:loveliness:
但是在数据库或其它大流 ...


个人认为,仅凭藉缓存和内存访问结构上的改进就会有效的拉升性能了。缓存从较大的共享L2变为独立的L2+共享L3,每个核心的L2带宽更好,延迟更低,而整个L3更大,命中率也更高。而减小的内存延迟,对于Core2这种理论IPC很大的处理器来说也是如同甘露。

况且,我不相信Nehalem在内核上没有改进,最简单的,拉L1I到指令解码器的位宽,增加TLB单元,改进分支预测之类的,K10能做,Nehalem也能做,而且效果完全可以更好。
况且,Netburst留下的遗产,除了超线程之外,有的已经用在Core2上了,有的至今还在蒙尘,没准就有很大可能性出现在Nehalem里边
作者: AMD11    时间: 2008-3-6 12:50
原帖由 Asuka 于 2008-3-6 11:01 发表


游戏对内存的路径延迟非常敏感

比较抱歉,我未能理解这句话:funk:
作者: AMD11    时间: 2008-3-6 12:55
原帖由 itany 于 2008-3-6 12:45 发表


个人认为,仅凭藉缓存和内存访问结构上的改进就会有效的拉升性能了。缓存从较大的共享L2变为独立的L2+共享L3,每个核心的L2带宽更好,延迟更低,而整个L3更大,命中率也更高。而减小的内存延迟,对于Core2这种理 ...


调低期望仅仅是我个人的意见而已,如果上次讨论的说Nehalem的L2只有512K的话,L2变得太小了,即使L2延迟减少了,如果需要到L3上获取数据,无疑整体延迟更高。权衡利弊吧,这也算是工程上妥协。
Nehalem的内核对Core2的构架自然是有非常大的变动。
作者: acqwer    时间: 2008-3-6 13:01
原帖由 AMD11 于 2008-3-6 12:50 发表

比较抱歉,我未能理解这句话:funk:

某些游戏中,K8能领先同频K7 40%以上。
作者: AMD11    时间: 2008-3-6 13:03
原帖由 itany 于 2008-3-6 12:45 发表


个人认为,仅凭藉缓存和内存访问结构上的改进就会有效的拉升性能了。缓存从较大的共享L2变为独立的L2+共享L3,每个核心的L2带宽更好,延迟更低,而整个L3更大,命中率也更高。而减小的内存延迟,对于Core2这种理 ...

还有一点,如果说第一代Nehalem的L3为8MB,并不比Penryn的Qx系列大,当然,集成了内存控制器能够抵消这部分劣势。最后结果如何,超越penryn多少,看测试才知道。还是很期待的.:p
作者: AMD11    时间: 2008-3-6 13:05
原帖由 acqwer 于 2008-3-6 13:01 发表

某些游戏中,K8能领先同频K7 40%以上。

谢谢,不过我没有理解“内存的路径延迟”这个,到底说说内存延迟,还是数据在内存中输运时的延迟?
作者: gz_easy    时间: 2008-3-6 13:08
AMD的单个核心效率也急需加强。
抛开其他,Intel Core2单个核心效率高就占了很大便宜。
作者: acqwer    时间: 2008-3-6 13:12
原帖由 AMD11 于 2008-3-6 13:05 发表

谢谢,不过我没有理解“内存的路径延迟”这个,到底说说内存延迟,还是数据在内存中输运时的延迟?

应该是后者,因为内存本身的延迟和CPU无关。
作者: sugn0309    时间: 2008-3-6 13:18
提示: 作者被禁止或删除 内容自动屏蔽
作者: AMD11    时间: 2008-3-6 13:18
原帖由 acqwer 于 2008-3-6 13:12 发表

应该是后者,因为内存本身的延迟和CPU无关。

呵呵,那就非常感谢acqwer了。
如果是后者,我更看不懂了,游戏数据和普通数据在内存中的输运过程应该是没有分别的。不知道能不能得到原话的作者来解释一下,既盼望,又感谢。:loveliness:
作者: itany    时间: 2008-3-6 13:45
原帖由 AMD11 于 2008-3-6 13:05 发表

谢谢,不过我没有理解“内存的路径延迟”这个,到底说说内存延迟,还是数据在内存中输运时的延迟?


都不是,而是内存控制器<->CPU核心的延迟
作者: itany    时间: 2008-3-6 14:03
原帖由 AMD11 于 2008-3-6 12:55 发表

调低期望仅仅是我个人的意见而已,如果上次讨论的说Nehalem的L2只有512K的话,L2变得太小了,即使L2延迟减少了,如果需要到L3上获取数据,无疑整体延迟更高。权衡利弊吧,这也算是工程上妥协。
Nehalem的内核对 ...


根据泄露的截图,Nehalem的L2只有256KB……
不要忘记了,即使是256KB,L2命中的概率还是远大于丢失的概率,假如延迟可以从16周期缩小到8周期,访问L3是24周期,这样每次命中都可以节约一半的时间,而没有命中将浪费一倍的时间,总的算下来还是很合适的
作者: AMD11    时间: 2008-3-6 14:11
原帖由 itany 于 2008-3-6 13:45 发表


都不是,而是内存控制器CPU核心的延迟

谢,如果是这个说法,倒也比较能理解。
作者: AMD11    时间: 2008-3-6 14:15
原帖由 itany 于 2008-3-6 14:03 发表


根据泄露的截图,Nehalem的L2只有256KB……
不要忘记了,即使是256KB,L2命中的概率还是远大于丢失的概率,假如延迟可以从16周期缩小到8周期,访问L3是24周期,这样每次命中都可以节约一半的时间,而没有命中将 ...

256KB/核心或整个L2为256KB?你说的可是沧者极限上的CPU-Z的截图?能否再贴一次,谢谢。:o
作者: AMD11    时间: 2008-3-6 14:20
原帖由 itany 于 2008-3-6 14:03 发表


根据泄露的截图,Nehalem的L2只有256KB……
不要忘记了,即使是256KB,L2命中的概率还是远大于丢失的概率,假如延迟可以从16周期缩小到8周期,访问L3是24周期,这样每次命中都可以节约一半的时间,而没有命中将 ...

l另外,你的算法是非常理想化的情况,实际上数据的调度与轮换,尤其是批量的数据调度与轮换几乎不可能在理论(或物理)延迟周期内完成。
作者: Prescott    时间: 2008-3-6 14:21
原帖由 AMD11 于 2008-3-6 08:43 发表

在多路上,45nm的K10遇上了Dunnington和Nehalem,压力更大,比如4路以上,被Nehalem压着,4路及以下,又被Dunnington压着,到了双路或以下,更是艰难。可以看到,在未来2~3内将举步维艰(前提是不被别人收购)。:s ...

Dunnington是MP。Nehalem首先会出现在DP上。
作者: AMD11    时间: 2008-3-6 14:41
感谢Prescott的指正。
即使Nehalem先在DP上,Dunnington在MP上,AMD也很难受。通过Dunnington的两两核心共享L2,6核心共享L3,性能也相当变态了,65nm的K10在四路或8路(MP的服务器也大多就是这个级别,再上去就是比较大型系统了,数量也急剧减少,当然利润倒是不少)上很难占上风。至于DP,就不用说。
作者: Edison    时间: 2008-3-6 15:15
比例不是非常精确,我在缩放的时候,用工具衡量可能有5%的差别。
作者: jk1526    时间: 2008-3-6 15:51
K10 低价上市   K10 65nm
作者: Edison    时间: 2008-3-6 18:27
:rolleyes: 核心部分大图


作者: itany    时间: 2008-3-6 21:01
原帖由 AMD11 于 2008-3-6 14:15 发表

256KB/核心或整个L2为256KB?你说的可是沧者极限上的CPU-Z的截图?能否再贴一次,谢谢。:o


放狗一搜,到处都是


作者: itany    时间: 2008-3-6 21:09
原帖由 AMD11 于 2008-3-6 14:20 发表

l另外,你的算法是非常理想化的情况,实际上数据的调度与轮换,尤其是批量的数据调度与轮换几乎不可能在理论(或物理)延迟周期内完成。


我所举的数据,16周期的延迟和Penryn基本相当,而8周期比Dothan的10周期略小,都是完全可以实现的,而且Intel在早先的幻灯片中也表示在Larrabee中会使用很低延迟的L2缓存。
Intel是Include型的缓存,不存在什么调度和轮换的问题;而且上述延迟就是实测得,是处理器的真实表现
作者: GZboy    时间: 2008-3-6 21:52
提示: 作者被禁止或删除 内容自动屏蔽
作者: AMD11    时间: 2008-3-7 08:30
原帖由 itany 于 2008-3-6 21:09 发表


我所举的数据,16周期的延迟和Penryn基本相当,而8周期比Dothan的10周期略小,都是完全可以实现的,而且Intel在早先的幻灯片中也表示在Larrabee中会使用很低延迟的L2缓存。
Intel是Include型的缓存,不存在什么调度和轮换的问题;而且上述延迟就是实测得,是处理器的真实表现。

你牛:thumbsup:
作者: AMD11    时间: 2008-3-7 08:31
原帖由 itany 于 2008-3-6 21:01 发表


放狗一搜,到处都是


谢谢:p
作者: g8binicu    时间: 2008-3-7 09:34
:loveliness: 学习提高铁
作者: Miss    时间: 2008-3-7 10:53
等2年后 500块换四核心
作者: shike_cuke    时间: 2008-3-7 11:02
原帖由 Edison 于 2008-3-5 23:02 发表
iL2没任何增加,增加的是iL3以及更多通道的内存控制器。


INTEL已经3通了哦
作者: lilun0080    时间: 2008-3-7 12:53
78百估计你要等到2010年
作者: itany    时间: 2008-3-7 12:59
原帖由 AMD11 于 2008-3-7 08:30 发表

你牛:thumbsup:


我的意思是,现在我们在讨论缓存延迟的问题是缓存读取时候的延迟,如果缓存命中的话,根本不存在替换的问题
如果不命中,要从下级缓存或者内存中读取,这样才涉及到缓存行的替换问题;而其间的延迟完全是访问下级存储结构造成的,而不是缓存替换算法造成的。对于Intel的Include型的缓存,只有“脏”数据才需要回写进入下级缓存,而缓存的读取和写入通过不同的口进行,不会发生阻塞,所以缓存的替换算法就是影响缓存的命中率的,而不是影响缓存访问的延迟
作者: montpellier2007    时间: 2008-3-7 14:25
希望Amd能尽早雄起一次
一家独大得市场不健康
作者: tyc6982    时间: 2008-3-7 14:30
从应对和解决TLB错误的事件上看,AMD现在在CPU方面还不能成为INERL真正有竞争力的对手。
作者: zhangyi1984911    时间: 2010-4-3 12:04
看不懂,不过帮顶。。。。
作者: dadaxingxing    时间: 2010-4-10 13:00
这怎么看啊?




欢迎光临 POPPUR爱换 (https://we.poppur.com/) Powered by Discuz! X3.4