Originally posted by Christopher at 2005-6-3 15:21
基本上……
看不懂……
::>
Originally posted by HECATE at 2005-6-3 17:06
那P4 3.0E为什么实测效能与3.0C差不多呢
Originally posted by HECATE at 2005-6-3 17:39
访问SRAM会拖慢性能?..那么P4应该比同频塞羊慢的多才对...
Originally posted by HeavenPR at 2005-6-3 14:54
xbitlabs 经过数月的研究写成的报告
Prescott: The Last of the Mohicans? (Pentium 4: from Willamette to Prescott)
里面介绍了 P4 NetBurst 鲜为人知的架构秘密: Replay Queue
前两天用了 5 个小时慢 ...
Originally posted by Christopher at 2005-6-3 17:35
访问缓存的延迟高了……
缓存容量增大,搜索缓存中的数据需要的时间就多
Originally posted by HECATE at 2005-6-3 18:12
这么复杂的结构自然要用更多的电晶体,怎么能说功耗是"意料之外"的呢...Netburst如果找预定的跑在10G上那么将是一颗了不起的CPU,但这似乎有些违反物理法则了..
Originally posted by zbing at 2005-6-3 18:32
抱歉,糊涂了~~~我是指 Prescott 的高功耗
而且目前的说法是,这个主要是因为90nm带来的漏电流~~
长流水自然带来更多的电路,因此增加发热。
不过从 Northwood 的情况看,这个增加的功耗并不是那么严 ...
Originally posted by HeavenPR at 2005-6-3 18:17
Celeron 之所以速度慢,是因为 L2 不仅容量小,而且 Associativity 减小到了 1/4
Associativity 是 Cache 很重要的指标,减小了 1/4,效率会严重降低
Originally posted by HeavenPR at 2005-6-3 18:17
Celeron 之所以速度慢,是因为 L2 不仅容量小,而且 Associativity 减小到了 1/4
Associativity 是 Cache 很重要的指标,减小了 1/4,效率会严重降低
Originally posted by zbing at 2005-6-3 19:04
就我看到的,celeron 并非减小 L2 的 Associativity~~应该是减小了每路的 line size
至少 Tualatin 核心的 Celeron 与 Pentium,L2 是相同的8way associativity,见图
Originally posted by zbing at 2005-6-3 18:32
抱歉,糊涂了~~~我是指 Prescott 的高功耗
而且目前的说法是,这个主要是因为90nm带来的漏电流~~
长流水自然带来更多的电路,因此增加发热。
不过从 Northwood 的情况看,这个增加的功耗并不是那么严 ...
Originally posted by HeavenPR at 2005-6-3 20:29
Northwood Celeron 是 128KB, 2-way 的
相对于 Northwood P4, 512KB, 8-way
Originally posted by HeavenPR at 2005-6-3 14:54
xbitlabs 经过数月的研究写成的报告
Prescott: The Last of the Mohicans? (Pentium 4: from Willamette to Prescott)
里面介绍了 P4 NetBurst 鲜为人知的架构秘密: Replay Queue
前两天用了 5 个小时慢 ...
Originally posted by G70 at 2005-6-4 02:46
被扁为垃圾的P4E,结果还不是...=.=市场全胜.
Originally posted by G70 at 2005-6-4 03:02
完全是迷信么?可能是有人看不出其价值吧.
原帖由 不老牛奶 于 2005-6-4 14:28 发表
有些A饭就喜欢选择性失明:P4的指令预测错误是有一定几率的,不是每周期必然出错。况且指令预测错误不光是P4有,A64也有,只是超长流水线让P4损失过大而以。你让AMD现在出来一款32Pipe的CPU,他敢保证做的比Presc ...
简介(我对文章分析的理解):
P4 NetBurst 因为为了提高频率,采用了超长流水线,从而导致了 Decoder 和实际的 Execution Unit 相隔了很多个时钟周期
这个时候如果执行两条 Dependent Instructions 的话,就会出现麻烦:例如
mov eax, [ecx]
add ebx, eax
这个时候 [ecx] 所指向的数据不知道在 L1/L2 还是 RAM,甚至 Page File 中。如果等第一条指令的结果出来以后
Decoder 再发送第二条指令到流水线,那么第二条指令就要用十几个时钟周期才能传输到 Execution Unit,这将造成严重的流水线
气泡,使效率降低一大截,是不可取得方案。而 Intel Netburst 设计团队想出了让人觉得不可思议的处理方法:
欢迎光临 POPPUR爱换 (https://we.poppur.com/) | Powered by Discuz! X3.4 |