原帖由 RacingPHT 于 2007-11-25 16:15 发表
1333 FSB * 64bit = 10.6G/s
加上是2x Socket, 所以peak是21.3G/s
跑11G/s, 只到peak的一半
原帖由 bessel 于 2007-11-25 17:19 发表
Their code is better than the benchmark.
It is said AMD has a code which can run 13GB/s with k10.

原帖由 RacingPHT 于 2007-11-25 16
:15 发表
1333 FSB * 64bit = 10.6G/s
加上是2x Socket, 所以peak是21.3G/s
跑11G/s, 只到peak的一半
原帖由 RacingPHT 于 2007-11-25 15:02 发表
http://www.cs.berkeley.edu/~samw/research/papers/sc07.pdf
8个核心的Clovertown系统被4核心的X2玩死了, 人间罕见啊。
Clovertown只要数据不在cache中, FSB的性能就奇烂
page 8
原帖由 紫色 于 2007-11-25 23:09 发表
intel的智能内存+大缓存能应付office,IE,但是在一个数组就有2G的那些数值计算程序面前显然力不从心,酷睿就象个跛子,一条腿长一条腿短。
原帖由 紫色 于 2007-11-25 23:09 发表
intel的智能内存+大缓存能应付office,IE,但是在一个数组就有2G的那些数值计算程序面前显然力不从心,酷睿就象个跛子,一条腿长一条腿短。
原帖由 紫色 于 2007-11-26 00:09 发表
一个数组2G不奇怪。
谁告诉你那些是重复性操作了?象matlab,fortran这样的语言都提供“mask矩阵”之类的东西,想预测下一个该操作的是哪个数组元素?难着呢。
原帖由 紫色 于 2007-11-26 00:09 发表
一个数组2G不奇怪。
谁告诉你那些是重复性操作了?象matlab,fortran这样的语言都提供“mask矩阵”之类的东西,想预测下一个该操作的是哪个数组元素?难着呢。
原帖由 RacingPHT 于 2007-11-26 18:21 发表
受教
不过如果根本没有办法把FSB降下来, 那怎么办?你应该不会否认稀疏矩阵对科学/模拟计算的意义吧。包括稠密矩阵, 也是一样的, 算法本身就有固定的flop/bw比值。
幸好一般常用的程序, working set是大于4MB的情 ...
原帖由 RacingPHT 于 2007-11-26 18:21 发表
受教
不过如果根本没有办法把FSB降下来, 那怎么办?你应该不会否认稀疏矩阵对科学/模拟计算的意义吧。包括稠密矩阵, 也是一样的, 算法本身就有固定的flop/bw比值。
幸好一般常用的程序, working set是大于4MB的情 ...
| 欢迎光临 POPPUR爱换 (https://we.poppur.com/) | Powered by Discuz! X3.4 |