|
原帖由 RacingPHT 于 2007-5-28 13:16 发表 ![]()
大家都知道, 其实K8的SSE ALU资源比P4多一倍。K8具有FP_ADD/FP_MUL两个单元与port, 而P4只有一个FP_MUL/ADD。
NetBurst的理论双精度浮点峰值只有1 flop/cycle/core。(MULPD/ADDPD的thoughput都是2 cycle)
而 ...
throughput的定义是相同指令之间的cycle数,并没有说一条ADDPD之后不能跟着一条MULPD。所以,P4的理论峰值是2FLOPS/cycle。
至于为什么P4的efficiency要高于K8,呵呵,我不知道。 |
|