|
原帖由 tschj 于 2006-8-7 14:13 发表
我提到的16GFLOPS是用Intel LINPACK 3.01在Linux上,4GB内存可以达到的结果。
使用GOTO BLAS 1.03都可以得到这样的结果,Kazushige Goto用1.03得到的结果是这样的,
Linapck (HPL, N=31000) : 1 CPU … 9.00G ...
实际上根据我的经验,用1.03+cygwin+core 2make出来的hpl根本跑不了,1.03虽然号称支持Core 2,但是出来的hpl会提示内存分配错误,Kazushige Goto在1.03发布后几天后就马上发布了修订的1.04。
Core 2在1.02上用Prescott profile跑出来的结果只有8.xGFLOPS(单核4.XGFLOPS)。
我说的15.XGFLOPS是在2GB内存上用N=15000+64bit OS上跑的,12.XGFLOPS是32bit OS上跑的,这和你说的并不矛盾。
我们对Core2的NB设定是232(192也尝试过,差别不大),PxQ是1x2,其他的设定对单机或者说单socket影响非常小。
- [font=Courier New]N : 14000
- NB : 232
- PMAP : Row-major process mapping
- P : 1
- Q : 2
- PFACT : Right
- NBMIN : 4
- NDIV : 2
- RFACT : Right
- BCAST : 2ringM
- DEPTH : 1
- SWAP : Mix (threshold = 64)
- L1 : transposed form
- U : transposed form
- EQUIL : yes
- ALIGN : 8 double precision words[/font]
复制代码 |
|