Penryn, Nehalem, SSE4和Fusion

itany · 发表于 2007-3-29 12:29

原帖由 potomac 于 2007-3-29 11:52 发表

偶首先的疑问就是单片8核的尺寸太大了。
如果以45nm的Penryn为例，8核就是460mm^2。（这是没有MC的）
如果Nehalem是核心集成MC的设计。
就尺寸和品种来说，将变得巨大和复杂。
而把两个核心集成MC放在MCM ...

相对于集成16M L3的Tulsa来说，面积还不是什么太大的问题吧
况且还可以适当的削减缓存的规模来控制面积～

谢谢ghrs2010的指正

[ 本帖最后由 itany 于 2007-3-30 00:11 编辑 ]

itany · 发表于 2007-3-29 12:32

另外，Penryne相对于Conroe大概也有很大的改进，并不像预想的那样，像K8转换制程的时候没什么进步
大概是给友商一个甜枣，让他慢慢的针对于Conroe去开发吧，之后一举将其虐死
G80要灵魂附体了 w00t)

itany · 发表于 2007-3-29 23:40

原帖由 cagejin 于 2007-3-29 17:25 发表
英特尔业绩并未透露太多表现penryn但是却留下了一拍几点意见. 我们不知道更多有关试验条件比我们所提出, 而我们没有测量自己,所以采取了什么颇值得. 九九年一3.2ghzpenryn(1.6ghz财经1.33ghz)到3.0ghzconroe(财 ...

真是神作～
计划生育 :wacko:

itany · 发表于 2007-3-30 12:59

看了AnandTech的文章，其中对于Nehalem的预期有几个疑问：
1 Intel一直以共享的L2最为擅长，但是上边说Nehalem将要回到分离L2，共享L3的结构。不知道是不是分离的L2可以为每个核心提供更高的带宽，并有助于降低L2的延迟，并且能够更加方便的扩展到更多个核心。或者说I在实现四核心共享L2的时候发现性能受到了影响，DIB到L2的256bit的总线不够用了，512bit又比较难以实现？这样Yorkfield还是采用双管芯的设计就比较容易理解了。并且可以预期Nehalem将会有一个延迟很低的L2，也许是10～12周期的样子？
2 上边提到新的HT技术可以根据程序的线程数量自动的调节是否开启HT技术。我的疑问是CPU如何侦测到线程数量的多少呢？如果处理器核心数量自爱不断变化，对操作系统的负载分配好像并不是好事～
3 IMC的问题。前面P大曾经指出桌面版的Nehalem很可能不会采用IMC。现在接口已经确定了，桌面的715针脚能不能实现双通道的DDR3 MC呢？是不是还有回旋的余地呢？如果不可能，那么还谈什么集成GPU之类的呢～不会狂妄到试图通过CSI来为GPU提供带宽吧～

不知道各位大人怎么看这个问题？

itany · 发表于 2007-3-30 13:01

另外，potomac大人说过Nehalem是三核心的吧 :(
貌似预测没有命中～

itany · 发表于 2007-3-31 01:38

原帖由 zaarath 于 2007-3-30 13:23 发表
Intel说只会在最高级cache上采用共享结构，回避了是否有L3的问题。我的看法是最终设计还没有确定。到时候我们可能在4核以上看到L3, 在dual core上只有L2。但是如果有L3, L3会共享，L2分离，至于为什么不全面共享我就不懂了，可能是设计过于复杂，也可能是为了使nehalem的模块化设计更加灵活。

715针怎么看都不像能装得下双通道DDR3 MC的样子，但是却足够装下FBDIMM的MC，因为FBDIMM是串行内存，需要的信号线比并行的DDR2/3要少得多。所以到时候如果发现715是server平台，1365（？）才是桌面平台可不要吃惊！

GPU使用CSI有什么不可以？CSI的设计允许多个（5个？）通道，给GPU单独一个通道就可以了。CPU集成的GPU别指望性能有多高，和目前芯片组的GPU性能应该差不多，单独一条CSI足够了。

谢谢回复～

对于引脚、电路之类的一窍不通，但是稍微查了一下，好像FB-DIMM需要48根差分数据线，这样至少每个通道需要50+数据线。4个通道差不多应该是200多个引脚了。
和AMD现在集成的双DDR2 MC应该引脚数量相差不多。
在加上Xeon至少会向外提供4个CSI连接，实现4插座平台的两两互联，差不多每个CSI应该也要40+个针脚，这样又要160个针脚。
相对于现在的FSB占用的针脚应该是增加了不少。再考虑到Sochet F，Socket B针脚稍微少一点，但是相差不大，应该就是对应服务器的。
如果桌面使用双FB-DIMM和单CSI的话，倒是应该可以在针脚的数量之内。
会不会将FB-DIMM的桥接芯片集成在主板的DDR3插槽边上，实际上相当于处理器利用FB-DIMM的协议和主板上的缓冲器通信，之后缓冲器再和每个内存模组通信～
这样不仅可以使用普通的DDR3模组就可以享受到FB-DIMM的好处，而且处理器和内存之间还是相对独立的。以后DDR4支持也不是什么大问题了～

个人认为CPU+GPU通过CSI和北桥的MC通信实在不是一个好主意～
如果还是要保留现在的北桥集成MC的话，为什么不把GPU像以前那样直接做到北桥里边，非要和CPU做在一起凑热闹呢？
本来可以直接访问到内存的，费二遍事，带宽倒是其次，延迟至少是增加了。恐怕效能还不如现在的集成显卡模式

[ 本帖最后由 itany 于 2007-3-31 01:40 编辑 ]

itany · 发表于 2007-3-31 01:39

原帖由 Elensar 于 2007-3-30 14:58 发表

关键词Read After Write
共享太多东西要出问题的

忘了考虑读写、写读、写写之间相关性的问题了～
这样原因就更清楚了～
谢谢指教！

itany · 发表于 2007-3-31 22:28

原帖由 the_god_of_pig 于 2007-3-31 17:27 发表
Nehalem貌似比偶期望的要差点儿意思，不过这样可能已经过剩了:rolleyes:

Barcelona FP能不能比kentsfield更好呢???看来挺悬的，

如果是45%的话，貌似意味着某社研发部门这一年都白干了

K10和Penryne都是小伎俩
Nehalem才是大杀器呢～

另外，某社的研发部门总要做点什么吧～ (_(

itany · 发表于 2007-4-1 00:37

原帖由 the_god_of_pig 于 2007-3-31 22:41 发表

我的意思是某社拼死要缩小差距，结果Penryn一出，差距又拉开了，所以白干了:o

还在一个量级～不白干～
如果是不拼死的话，再过三五年就是降价到100一下也没人待见了

itany · 发表于 2007-4-6 17:39

原帖由 xtal 于 2007-4-6 13:06 发表

貌似你当年可不清楚差分的好处。。。
OP当年可没有用LGA
AM2现在也没有用LGA

差分的好处I早就知道了
从USB到RAMBUS，都是I引领的时代～

itany · 发表于 2007-4-6 17:41

原帖由 xtal 于 2007-4-6 16:56 发表

你先放CSI文档出来让大家研究研究，
我都教育你知道差分的好处了，你总得回报一次不是么:p

CSI是受到保密协议保护的～ :(

帐号		自动登录	找回密码
密码			注册