POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
查看: 3838|回复: 7
打印 上一主题 下一主题

the build of cuda microbenchmark was done

[复制链接]
跳转到指定楼层
1#
发表于 2010-7-1 19:45 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
Ubuntu x64 8.04 CUDA 2.2 Toolkit NVIDA 256.35 Core i7-920 2.67ghz ddr3-1333

GeForce GTX 280:

Running (16 x 16 x 16) blocks of 512 empty threads...done
Running (16 x 16 x 16) blocks of 512 empty threads: 113.079 ms

Running clock() test...
kclock:
   (  347016,   347044): 28


kclock_test2: [10 blocks, 1 thread(s)/block]
kclock_test2: [30 blocks, 1 thread(s)/block]
  Block 00: start: 00352160, stop: 00355242
  Block 01: start: 00351996, stop: 00355078
  Block 02: start: 00351688, stop: 00354770
  Block 03: start: 00351788, stop: 00354870
  Block 04: start: 00351740, stop: 00354822
  Block 05: start: 00351736, stop: 00354818
  Block 06: start: 00351376, stop: 00354458
  Block 07: start: 00351004, stop: 00354086
  Block 08: start: 00350488, stop: 00353570
  Block 09: start: 00353412, stop: 00356494
  Block 00: start: 00360696, stop: 00363778
  Block 10: start: 00360704, stop: 00363786
  Block 20: start: 00360688, stop: 00363770
  Block 01: start: 00360572, stop: 00363654
  Block 11: start: 00360580, stop: 00363662
  Block 21: start: 00360564, stop: 00363646
  Block 02: start: 00360164, stop: 00363246
  Block 12: start: 00360156, stop: 00363238
  Block 22: start: 00360156, stop: 00363238
  Block 03: start: 00360280, stop: 00363362
  Block 13: start: 00360272, stop: 00363354
  Block 23: start: 00360272, stop: 00363354
  Block 04: start: 00360224, stop: 00363306
  Block 14: start: 00360216, stop: 00363298
  Block 24: start: 00360216, stop: 00363298
  Block 05: start: 00360248, stop: 00363330
  Block 15: start: 00360240, stop: 00363322
  Block 25: start: 00360240, stop: 00363322
  Block 06: start: 00359900, stop: 00362982
  Block 16: start: 00359912, stop: 00362994
  Block 26: start: 00359920, stop: 00363002
  Block 07: start: 00359616, stop: 00362698
  Block 17: start: 00359624, stop: 00362706
  Block 27: start: 00359632, stop: 00362714
  Block 08: start: 00359152, stop: 00362234
  Block 18: start: 00359160, stop: 00362242
  Block 28: start: 00359168, stop: 00362250
  Block 09: start: 00361992, stop: 00365074
  Block 19: start: 00361976, stop: 00365058
  Block 29: start: 00361984, stop: 00365066


Running pipeline tests...
Pipeline latency (512 dependent operations)
  mul:         49162 clk (96.020 clk/warp)

Running pipeline tests...

  K_ADD_UINT_DEP128         latency:            6170 clk (24.102 clk/warp)
  K_RSQRT_FLOAT_DEP128         latency:            7190 clk (28.086 clk/warp)
  K_ADD_DOUBLE_DEP128         latency:            12276 clk (47.953 clk/warp)

  K_ADD_UINT_DEP128         throughput:            21596 clk (6.069 ops/clk)
  K_RSQRT_FLOAT_DEP128         throughput:            65672 clk (1.996 ops/clk)
  K_ADD_DOUBLE_DEP128         throughput:           131346 clk (0.998 ops/clk)

  K_ADD_UINT_DEP128         latency:            6170 clk (24.102 clk/warp)
  K_SUB_UINT_DEP128         latency:            6170 clk (24.102 clk/warp)
  K_MAD_UINT_DEP128         latency:            30746 clk (120.102 clk/warp)
  K_MUL_UINT_DEP128         latency:            24604 clk (96.109 clk/warp)
  K_DIV_UINT_DEP128         latency:            155664 clk (608.062 clk/warp)
  K_REM_UINT_DEP128         latency:            186384 clk (728.062 clk/warp)
  K_MIN_UINT_DEP128         latency:            12394 clk (48.414 clk/warp)
  K_MAX_UINT_DEP128         latency:            12394 clk (48.414 clk/warp)
  K_ADD_UINT_DEP128         throughput:            21240 clk (6.171 ops/clk)
  K_SUB_UINT_DEP128         throughput:            21240 clk (6.171 ops/clk)
  K_MAD_UINT_DEP128         throughput:           107212 clk (1.223 ops/clk)
  K_MUL_UINT_DEP128         throughput:            83818 clk (1.564 ops/clk)
  K_DIV_UINT_DEP128         throughput:           411572 clk (0.318 ops/clk)
  K_REM_UINT_DEP128         throughput:           495980 clk (0.264 ops/clk)
  K_MIN_UINT_DEP128         throughput:            42652 clk (3.073 ops/clk)
  K_MAX_UINT_DEP128         throughput:            42650 clk (3.073 ops/clk)

  K_ADD_INT_DEP128         latency:            6170 clk (24.102 clk/warp)
  K_SUB_INT_DEP128         latency:            6170 clk (24.102 clk/warp)
  K_MAD_INT_DEP128         latency:            30780 clk (120.234 clk/warp)
  K_MUL_INT_DEP128         latency:            24636 clk (96.234 clk/warp)
  K_DIV_INT_DEP128         latency:            175120 clk (684.062 clk/warp)
  K_REM_INT_DEP128         latency:            200720 clk (784.062 clk/warp)
  K_MIN_INT_DEP128         latency:            12394 clk (48.414 clk/warp)
  K_MAX_INT_DEP128         latency:            12394 clk (48.414 clk/warp)
  K_ABS_INT_DEP128         latency:            10892 clk (42.547 clk/warp)
  K_ADD_INT_DEP128         throughput:            21240 clk (6.171 ops/clk)
  K_SUB_INT_DEP128         throughput:            21596 clk (6.069 ops/clk)
  K_MAD_INT_DEP128         throughput:           106416 clk (1.232 ops/clk)
  K_MUL_INT_DEP128         throughput:            83602 clk (1.568 ops/clk)
  K_DIV_INT_DEP128         throughput:           522532 clk (0.251 ops/clk)
  K_REM_INT_DEP128         throughput:           589288 clk (0.222 ops/clk)
  K_MIN_INT_DEP128         throughput:            42656 clk (3.073 ops/clk)
  K_MAX_INT_DEP128         throughput:            42658 clk (3.073 ops/clk)
  K_ABS_INT_DEP128         throughput:            41916 clk (3.127 ops/clk)

  K_ADD_FLOAT_DEP128         latency:            6170 clk (24.102 clk/warp)
  K_SUB_FLOAT_DEP128         latency:            6170 clk (24.102 clk/warp)
  K_MAD_FLOAT_DEP128         latency:            6170 clk (24.102 clk/warp)
  K_MUL_FLOAT_DEP128         latency:            6170 clk (24.102 clk/warp)
  K_DIV_FLOAT_DEP128         latency:            35054 clk (136.930 clk/warp)
  K_MIN_FLOAT_DEP128         latency:            12394 clk (48.414 clk/warp)
  K_MAX_FLOAT_DEP128         latency:            12394 clk (48.414 clk/warp)
  K_ADD_FLOAT_DEP128         throughput:            21682 clk (6.045 ops/clk)
  K_SUB_FLOAT_DEP128         throughput:            21646 clk (6.055 ops/clk)
  K_MAD_FLOAT_DEP128         throughput:            21652 clk (6.054 ops/clk)
  K_MUL_FLOAT_DEP128         throughput:            10560 clk (12.412 ops/clk)
  K_DIV_FLOAT_DEP128         throughput:            82918 clk (1.581 ops/clk)
  K_MIN_FLOAT_DEP128         throughput:            42696 clk (3.070 ops/clk)
  K_MAX_FLOAT_DEP128         throughput:            42694 clk (3.070 ops/clk)

  K_ADD_DOUBLE_DEP128         latency:            12276 clk (47.953 clk/warp)
  K_SUB_DOUBLE_DEP128         latency:            12276 clk (47.953 clk/warp)
  K_MAD_DOUBLE_DEP128         latency:            12276 clk (47.953 clk/warp)
  K_MUL_DOUBLE_DEP128         latency:            12276 clk (47.953 clk/warp)
  K_DIV_DOUBLE_DEP128         latency:            348856 clk (1362.719 clk/warp)
  K_MIN_DOUBLE_DEP128         latency:            24564 clk (95.953 clk/warp)
  K_MAX_DOUBLE_DEP128         latency:            24564 clk (95.953 clk/warp)
  K_ADD_DOUBLE_DEP128         throughput:           131346 clk (0.998 ops/clk)
  K_SUB_DOUBLE_DEP128         throughput:           131346 clk (0.998 ops/clk)
  K_MAD_DOUBLE_DEP128         throughput:           131346 clk (0.998 ops/clk)
  K_MUL_DOUBLE_DEP128         throughput:           131346 clk (0.998 ops/clk)
  K_DIV_DOUBLE_DEP128         throughput:          2042668 clk (0.064 ops/clk)
  K_MIN_DOUBLE_DEP128         throughput:           262470 clk (0.499 ops/clk)
  K_MAX_DOUBLE_DEP128         throughput:           262400 clk (0.500 ops/clk)

  K_AND_UINT_DEP128         latency:            6170 clk (24.102 clk/warp)
  K_OR_UINT_DEP128         latency:            6170 clk (24.102 clk/warp)
  K_XOR_UINT_DEP128         latency:            6170 clk (24.102 clk/warp)
  K_SHL_UINT_DEP128         latency:            6170 clk (24.102 clk/warp)
  K_SHR_UINT_DEP128         latency:            6170 clk (24.102 clk/warp)
  K_AND_UINT_DEP128         throughput:            21280 clk (6.159 ops/clk)
  K_OR_UINT_DEP128         throughput:            21554 clk (6.081 ops/clk)
  K_XOR_UINT_DEP128         throughput:            21592 clk (6.070 ops/clk)
  K_SHL_UINT_DEP128         throughput:            21596 clk (6.069 ops/clk)
  K_SHR_UINT_DEP128         throughput:            21596 clk (6.069 ops/clk)

  K_UMUL24_UINT_DEP128         latency:            6170 clk (24.102 clk/warp)
  K_MUL24_INT_DEP128         latency:            6170 clk (24.102 clk/warp)
  K_UMULHI_UINT_DEP128         latency:            37510 clk (146.523 clk/warp)
  K_MULHI_INT_DEP128         latency:            48216 clk (188.344 clk/warp)
  K_USAD_UINT_DEP128         latency:            6170 clk (24.102 clk/warp)
  K_SAD_INT_DEP128         latency:            6170 clk (24.102 clk/warp)
  K_UMUL24_UINT_DEP128         throughput:            21302 clk (6.153 ops/clk)
  K_MUL24_INT_DEP128         throughput:            21596 clk (6.069 ops/clk)
  K_UMULHI_UINT_DEP128         throughput:           109190 clk (1.200 ops/clk)
  K_MULHI_INT_DEP128         throughput:           139450 clk (0.940 ops/clk)
  K_USAD_UINT_DEP128         throughput:            21596 clk (6.069 ops/clk)
  K_SAD_INT_DEP128         throughput:            21596 clk (6.069 ops/clk)

  K_FADD_RN_FLOAT_DEP128         latency:            6170 clk (24.102 clk/warp)
  K_FADD_RZ_FLOAT_DEP128         latency:            6170 clk (24.102 clk/warp)
  K_FMUL_RN_FLOAT_DEP128         latency:            6678 clk (26.086 clk/warp)
  K_FMUL_RZ_FLOAT_DEP128         latency:            6678 clk (26.086 clk/warp)
  K_FDIVIDEF_FLOAT_DEP128         latency:            13340 clk (52.109 clk/warp)
  K_FADD_RN_FLOAT_DEP128         throughput:            21636 clk (6.058 ops/clk)
  K_FADD_RZ_FLOAT_DEP128         throughput:            21330 clk (6.145 ops/clk)
  K_FMUL_RN_FLOAT_DEP128         throughput:            11808 clk (11.100 ops/clk)
  K_FMUL_RZ_FLOAT_DEP128         throughput:            11808 clk (11.100 ops/clk)
  K_FDIVIDEF_FLOAT_DEP128         throughput:            66554 clk (1.969 ops/clk)

  K_DADD_RN_DOUBLE_DEP128         latency:            12276 clk (47.953 clk/warp)
  K_DADD_RN_DOUBLE_DEP128         throughput:           131346 clk (0.998 ops/clk)

  K_RCP_FLOAT_DEP128         latency:            13340 clk (52.109 clk/warp)
  K_SQRT_FLOAT_DEP128         latency:            14406 clk (56.273 clk/warp)
  K_RSQRT_FLOAT_DEP128         latency:            7190 clk (28.086 clk/warp)
  K_RCP_FLOAT_DEP128         throughput:            65926 clk (1.988 ops/clk)
  K_SQRT_FLOAT_DEP128         throughput:           131208 clk (0.999 ops/clk)
  K_RSQRT_FLOAT_DEP128         throughput:            65672 clk (1.996 ops/clk)

  K_SINF_FLOAT_DEP128         latency:            12382 clk (48.367 clk/warp)
  K_COSF_FLOAT_DEP128         latency:            12382 clk (48.367 clk/warp)
  K_TANF_FLOAT_DEP128         latency:            25112 clk (98.094 clk/warp)
  K_EXPF_FLOAT_DEP128         latency:            18452 clk (72.078 clk/warp)
  K_EXP2F_FLOAT_DEP128         latency:            12382 clk (48.367 clk/warp)
  K_EXP10F_FLOAT_DEP128         latency:            18452 clk (72.078 clk/warp)
  K_LOGF_FLOAT_DEP128         latency:            13396 clk (52.328 clk/warp)
  K_LOG2F_FLOAT_DEP128         latency:            7190 clk (28.086 clk/warp)
  K_LOG10F_FLOAT_DEP128         latency:            13396 clk (52.328 clk/warp)
  K_POWF_FLOAT_DEP128         latency:            19002 clk (74.227 clk/warp)
  K_SINF_FLOAT_DEP128         throughput:            65760 clk (1.993 ops/clk)
  K_COSF_FLOAT_DEP128         throughput:            65760 clk (1.993 ops/clk)
  K_TANF_FLOAT_DEP128         throughput:           197574 clk (0.663 ops/clk)
  K_EXPF_FLOAT_DEP128         throughput:            65838 clk (1.991 ops/clk)
  K_EXP2F_FLOAT_DEP128         throughput:            65760 clk (1.993 ops/clk)
  K_EXP10F_FLOAT_DEP128         throughput:            65832 clk (1.991 ops/clk)
  K_LOGF_FLOAT_DEP128         throughput:            65810 clk (1.992 ops/clk)
  K_LOG2F_FLOAT_DEP128         throughput:            65672 clk (1.996 ops/clk)
  K_LOG10F_FLOAT_DEP128         throughput:            66046 clk (1.985 ops/clk)
  K_POWF_FLOAT_DEP128         throughput:           131614 clk (0.996 ops/clk)

  K_INTASFLOAT_UINT_DEP128         latency:            5152 clk (20.125 clk/warp)
  K_FLOATASINT_FLOAT_DEP128         latency:            5152 clk (20.125 clk/warp)
  K_INTASFLOAT_UINT_DEP128         throughput:            20828 clk (6.293 ops/clk)
  K_FLOATASINT_FLOAT_DEP128         throughput:            20882 clk (6.277 ops/clk)

  K_POPC_UINT_DEP128         latency:            75312 clk (294.188 clk/warp)
  K_CLZ_UINT_DEP128         latency:            31008 clk (121.125 clk/warp)

  K_POPC_UINT_DEP128         throughput:           289188 clk (0.453 ops/clk)
  K_CLZ_UINT_DEP128         throughput:            71636 clk (1.830 ops/clk)

  K_ALL_UINT_DEP128         latency:            38094 clk (148.805 clk/warp)
  K_ANY_UINT_DEP128         latency:            38094 clk (148.805 clk/warp)
  K_SYNC_UINT_DEP128         latency:            64 clk (0.250 clk/warp)

  K_ALL_UINT_DEP128         throughput:            96522 clk (1.358 ops/clk)
  K_ANY_UINT_DEP128         throughput:            96522 clk (1.358 ops/clk)
  K_SYNC_UINT_DEP128         throughput:              442 clk (296.543 ops/clk)


Pipeline latency/throughput with multiple warps (200 iterations of 256 ops)
  K_ADD_UINT_DEP128:
     1 warp  (  1 thr)   1234000 clk (24.102 clk/warp, 0.041 ops/clk)   Histogram { (24: 200) }
     1 warp  (  2 thr)   1234000 clk (24.102 clk/warp, 0.083 ops/clk)   Histogram { (24: 200) }
     1 warp  (  3 thr)   1234000 clk (24.102 clk/warp, 0.124 ops/clk)   Histogram { (24: 200) }
     1 warp  (  4 thr)   1234000 clk (24.102 clk/warp, 0.166 ops/clk)   Histogram { (24: 200) }
     1 warp  (  6 thr)   1234000 clk (24.102 clk/warp, 0.249 ops/clk)   Histogram { (24: 200) }
     1 warp  (  8 thr)   1234000 clk (24.102 clk/warp, 0.332 ops/clk)   Histogram { (24: 200) }
     1 warp  ( 16 thr)   1234000 clk (24.102 clk/warp, 0.664 ops/clk)   Histogram { (24: 200) }
     1 warp  ( 24 thr)   1234800 clk (24.117 clk/warp, 0.995 ops/clk)   Histogram { (24: 200) }
     1 warp  ( 32 thr)   1234800 clk (24.117 clk/warp, 1.327 ops/clk)   Histogram { (24: 200) }
     2 warps ( 64 thr)   1235600 clk (24.117 clk/warp, 2.652 ops/clk)   Histogram { (24: 400) }
     3 warps ( 96 thr)   1237200 clk (24.127 clk/warp, 3.973 ops/clk)   Histogram { (24: 600) }
     4 warps (128 thr)   1238408 clk (24.133 clk/warp, 5.292 ops/clk)   Histogram { (24: 800) }
     5 warps (160 thr)   1243440 clk (24.188 clk/warp, 6.588 ops/clk)   Histogram { (24: 1000) }
     6 warps (192 thr)   1249528 clk (24.253 clk/warp, 7.867 ops/clk)   Histogram { (24: 1200) }
     7 warps (224 thr)   2164842 clk (25.519 clk/warp, 5.298 ops/clk)   Histogram { (24: 1120) (30: 280) }
     8 warps (256 thr)   2638322 clk (27.723 clk/warp, 4.968 ops/clk)   Histogram { (24: 200) (25: 340) (26: 128) (28: 581) (30: 154) (31: 197) }
     9 warps (288 thr)   2674574 clk (30.592 clk/warp, 5.513 ops/clk)   Histogram { (24: 199) (25: 1) (27: 578) (28: 22) (33: 983) (34: 17) }
    10 warps (320 thr)   2864144 clk (34.604 clk/warp, 5.720 ops/clk)   Histogram { (26: 191) (27: 409) (36: 313) (37: 419) (38: 536) (39: 132) }
    11 warps (352 thr)   3001922 clk (38.873 clk/warp, 6.004 ops/clk)   Histogram { (26: 48) (27: 71) (28: 81) (29: 224) (31: 8) (33: 96) (40: 600) (41: 368) (42: 304) (43: 400) }
    12 warps (384 thr)   3438290 clk (42.094 clk/warp, 5.718 ops/clk)   Histogram { (25: 198) (26: 2) (41: 1080) (42: 120) (45: 619) (46: 381) }
    13 warps (416 thr)   3486274 clk (45.806 clk/warp, 6.109 ops/clk)   Histogram { (28: 164) (29: 35) (30: 1) (39: 400) (40: 189) (48: 958) (49: 89) (50: 486) (51: 278) }
    14 warps (448 thr)   3849126 clk (49.686 clk/warp, 5.959 ops/clk)   Histogram { (26: 147) (27: 53) (48: 1000) (49: 200) (53: 1000) (54: 200) (55: 194) (56: 6) }
    15 warps (480 thr)   3961148 clk (53.613 clk/warp, 6.204 ops/clk)   Histogram { (31: 200) (45: 400) (46: 174) (55: 104) (56: 634) (57: 610) (58: 696) (59: 182) }
    16 warps (512 thr)   4299876 clk (57.179 clk/warp, 6.097 ops/clk)   Histogram { (27: 51) (28: 103) (29: 46) (55: 1104) (56: 96) (60: 916) (61: 284) (62: 504) (63: 96) }


  K_MUL_FLOAT_DEP128         throughput:            10560 clk (12.412 ops/clk)
  K_MAD_FLOAT_DEP128         throughput:            21328 clk (6.146 ops/clk)

  KADD_MUL         throughput:            11624 clk (11.276 ops/clk)

  KADD_MUL2         throughput:        64 thrds      3156 clk (5.191 ops/clk)

++++++++++++++++++++++++++++++++++++++++++++++++++
  K_SYNC_UINT_DEP128         latency:            64 clk (0.250 clk/warp)
  K_SYNC_UINT_DEP128         latency:            72 clk (0.281 clk/warp)
  K_SYNC_UINT_DEP128         latency:            72 clk (0.281 clk/warp)
  K_SYNC_UINT_DEP128         latency:            72 clk (0.281 clk/warp)
  K_SYNC_UINT_DEP128         latency:            84 clk (0.328 clk/warp)
  K_SYNC_UINT_DEP128         latency:            84 clk (0.328 clk/warp)
  K_SYNC_UINT_DEP128         latency:            112 clk (0.438 clk/warp)
  K_SYNC_UINT_DEP128         latency:            124 clk (0.484 clk/warp)
  K_SYNC_UINT_DEP128         latency:            124 clk (0.484 clk/warp)
  K_SYNC_UINT_DEP128         latency:            298 clk (1.164 clk/warp)
  K_SYNC_UINT_DEP128         latency:            140 clk (0.547 clk/warp)
  K_SYNC_UINT_DEP128         latency:            326 clk (1.273 clk/warp)
  K_SYNC_UINT_DEP128         latency:            156 clk (0.609 clk/warp)
  K_SYNC_UINT_DEP128         latency:            386 clk (1.508 clk/warp)
  K_SYNC_UINT_DEP128         latency:            316 clk (1.234 clk/warp)
  K_SYNC_UINT_DEP128         latency:            184 clk (0.719 clk/warp)
Running register file test...
Max threads x regs/thread before kernel spawn failure.
  [512 x   4 =  2048]
  [512 x   8 =  4096]
  [512 x  12 =  6144]
  [512 x  16 =  8192]
  [512 x  20 = 10240]
  [512 x  24 = 12288]
  [512 x  28 = 14336]
  [512 x  32 = 16384]
  [512 x  36 = 18432]
  [512 x  40 = 20480]
  [512 x  44 = 22528]
  [512 x  48 = 24576]
  [512 x  52 = 26624]
  [512 x  56 = 28672]
  [512 x  60 = 30720]
  [512 x  64 = 32768]
  [512 x  68 = 34816]
  [512 x  72 = 36864]
  [512 x  76 = 38912]
  [512 x  80 = 40960]
  [512 x  84 = 43008]
  [512 x  88 = 45056]
  [512 x  92 = 47104]
  [512 x  96 = 49152]
  [512 x 100 = 51200]
  [512 x 104 = 53248]
  [512 x 108 = 55296]
  [512 x 112 = 57344]
  [512 x 116 = 59392]
  [512 x 120 = 61440]
  [512 x 124 = 63488]
  [512 x 128 = 65536]
2#
 楼主| 发表于 2010-7-1 19:47 | 只看该作者
it is gt200's results.

i am going to try it with gf100 and gf10x.
回复 支持 反对

使用道具 举报

3#
 楼主| 发表于 2010-7-1 20:56 | 只看该作者
Ubuntu x64 8.04 CUDA 2.2 Toolkit NVIDA 256.35 Core i7-920 2.67ghz ddr3-1333

GeForce GTX 480:

Running (16 x 16 x 16) blocks of 512 empty threads...done
Running (16 x 16 x 16) blocks of 512 empty threads: 1045.484 ms

Running clock() test...
kclock:
   (668778684, 668778708): 24


kclock_test2: [10 blocks, 1 thread(s)/block]
kclock_test2: [30 blocks, 1 thread(s)/block]
  Block 00: start: 668831498, stop: 668833814
  Block 01: start: 668831586, stop: 668833902
  Block 02: start: 668831396, stop: 668833712
  Block 03: start: 668831504, stop: 668833820
  Block 04: start: 668831592, stop: 668833908
  Block 05: start: 668831402, stop: 668833718
  Block 06: start: 668831504, stop: 668833820
  Block 07: start: 668831592, stop: 668833908
  Block 08: start: 668831402, stop: 668833718
  Block 09: start: 668831512, stop: 668833828
  Block 00: start: 668839916, stop: 668842232
  Block 10: start: 668839656, stop: 668841972
  Block 20: start: 668839814, stop: 668842130
  Block 01: start: 668839928, stop: 668842244
  Block 11: start: 668839704, stop: 668842020
  Block 21: start: 668839654, stop: 668841970
  Block 02: start: 668839930, stop: 668842246
  Block 12: start: 668839914, stop: 668842230
  Block 22: start: 668839858, stop: 668842174
  Block 03: start: 668839942, stop: 668842258
  Block 13: start: 668839922, stop: 668842238
  Block 23: start: 668839698, stop: 668842014
  Block 04: start: 668839802, stop: 668842118
  Block 14: start: 668839928, stop: 668842244
  Block 24: start: 668838896, stop: 668841212
  Block 05: start: 668839812, stop: 668842128
  Block 15: start: 668839940, stop: 668842256
  Block 25: start: 668839912, stop: 668842228
  Block 06: start: 668839816, stop: 668842132
  Block 16: start: 668839796, stop: 668842112
  Block 26: start: 668839806, stop: 668842122
  Block 07: start: 668839864, stop: 668842180
  Block 17: start: 668839636, stop: 668841952
  Block 27: start: 668839646, stop: 668841962
  Block 08: start: 668839642, stop: 668841958
  Block 18: start: 668839810, stop: 668842126
  Block 28: start: 668838896, stop: 668841212
  Block 09: start: 668839652, stop: 668841968
  Block 19: start: 668839650, stop: 668841966
  Block 29: start: 668839932, stop: 668842248


Running pipeline tests...
Pipeline latency (512 dependent operations)
  mul:          9228 clk (18.023 clk/warp)

Running pipeline tests...

  K_ADD_UINT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_RSQRT_FLOAT_DEP128         latency:            5640 clk (22.031 clk/warp)
  K_ADD_DOUBLE_DEP128         latency:            6148 clk (24.016 clk/warp)

  K_ADD_UINT_DEP128         throughput:             4662 clk (28.115 ops/clk)
  K_RSQRT_FLOAT_DEP128         throughput:            32750 clk (4.002 ops/clk)
  K_ADD_DOUBLE_DEP128         throughput:            32746 clk (4.003 ops/clk)

  K_ADD_UINT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_SUB_UINT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_MAD_UINT_DEP128         latency:            5130 clk (20.039 clk/warp)
  K_MUL_UINT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_DIV_UINT_DEP128         latency:            67596 clk (264.047 clk/warp)
  K_REM_UINT_DEP128         latency:            67596 clk (264.047 clk/warp)
  K_MIN_UINT_DEP128         latency:            9228 clk (36.047 clk/warp)
  K_MAX_UINT_DEP128         latency:            9228 clk (36.047 clk/warp)
  K_ADD_UINT_DEP128         throughput:             4664 clk (28.103 ops/clk)
  K_SUB_UINT_DEP128         throughput:             4666 clk (28.091 ops/clk)
  K_MAD_UINT_DEP128         throughput:             8224 clk (15.938 ops/clk)
  K_MUL_UINT_DEP128         throughput:             8224 clk (15.938 ops/clk)
  K_DIV_UINT_DEP128         throughput:            77444 clk (1.692 ops/clk)
  K_REM_UINT_DEP128         throughput:            76064 clk (1.723 ops/clk)
  K_MIN_UINT_DEP128         throughput:             9282 clk (14.121 ops/clk)
  K_MAX_UINT_DEP128         throughput:             9798 clk (13.377 ops/clk)

  K_ADD_INT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_SUB_INT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_MAD_INT_DEP128         latency:            5130 clk (20.039 clk/warp)
  K_MUL_INT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_DIV_INT_DEP128         latency:            76812 clk (300.047 clk/warp)
  K_REM_INT_DEP128         latency:            76044 clk (297.047 clk/warp)
  K_MIN_INT_DEP128         latency:            9228 clk (36.047 clk/warp)
  K_MAX_INT_DEP128         latency:            9228 clk (36.047 clk/warp)
  K_ABS_INT_DEP128         latency:            9228 clk (36.047 clk/warp)
  K_ADD_INT_DEP128         throughput:             4662 clk (28.115 ops/clk)
  K_SUB_INT_DEP128         throughput:             4662 clk (28.115 ops/clk)
  K_MAD_INT_DEP128         throughput:             8224 clk (15.938 ops/clk)
  K_MUL_INT_DEP128         throughput:             8222 clk (15.942 ops/clk)
  K_DIV_INT_DEP128         throughput:            95538 clk (1.372 ops/clk)
  K_REM_INT_DEP128         throughput:            89280 clk (1.468 ops/clk)
  K_MIN_INT_DEP128         throughput:             9280 clk (14.124 ops/clk)
  K_MAX_INT_DEP128         throughput:             9282 clk (14.121 ops/clk)
  K_ABS_INT_DEP128         throughput:             9302 clk (14.091 ops/clk)

  K_ADD_FLOAT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_SUB_FLOAT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_MAD_FLOAT_DEP128         latency:            5130 clk (20.039 clk/warp)
  K_MUL_FLOAT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_DIV_FLOAT_DEP128         latency:            20236 clk (79.047 clk/warp)
  K_MIN_FLOAT_DEP128         latency:            9228 clk (36.047 clk/warp)
  K_MAX_FLOAT_DEP128         latency:            9228 clk (36.047 clk/warp)
  K_ADD_FLOAT_DEP128         throughput:             4664 clk (28.103 ops/clk)
  K_SUB_FLOAT_DEP128         throughput:             4662 clk (28.115 ops/clk)
  K_MAD_FLOAT_DEP128         throughput:             5338 clk (24.555 ops/clk)
  K_MUL_FLOAT_DEP128         throughput:             4664 clk (28.103 ops/clk)
  K_DIV_FLOAT_DEP128         throughput:            33010 clk (3.971 ops/clk)
  K_MIN_FLOAT_DEP128         throughput:             9286 clk (14.115 ops/clk)
  K_MAX_FLOAT_DEP128         throughput:             9284 clk (14.118 ops/clk)

  K_ADD_DOUBLE_DEP128         latency:            6150 clk (24.023 clk/warp)
  K_SUB_DOUBLE_DEP128         latency:            6148 clk (24.016 clk/warp)
  K_MAD_DOUBLE_DEP128         latency:            6150 clk (24.023 clk/warp)
  K_MUL_DOUBLE_DEP128         latency:            6148 clk (24.016 clk/warp)
  K_DIV_DOUBLE_DEP128         latency:            171030 clk (668.086 clk/warp)
  K_MIN_DOUBLE_DEP128         latency:            12292 clk (48.016 clk/warp)
  K_MAX_DOUBLE_DEP128         latency:            12294 clk (48.023 clk/warp)
  K_ADD_DOUBLE_DEP128         throughput:            32752 clk (4.002 ops/clk)
  K_SUB_DOUBLE_DEP128         throughput:            32754 clk (4.002 ops/clk)
  K_MAD_DOUBLE_DEP128         throughput:            32756 clk (4.001 ops/clk)
  K_MUL_DOUBLE_DEP128         throughput:            32752 clk (4.002 ops/clk)
  K_DIV_DOUBLE_DEP128         throughput:           253046 clk (0.518 ops/clk)
  K_MIN_DOUBLE_DEP128         throughput:            65532 clk (2.000 ops/clk)
  K_MAX_DOUBLE_DEP128         throughput:            65530 clk (2.000 ops/clk)

  K_AND_UINT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_OR_UINT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_XOR_UINT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_SHL_UINT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_SHR_UINT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_AND_UINT_DEP128         throughput:             4666 clk (28.091 ops/clk)
  K_OR_UINT_DEP128         throughput:             4666 clk (28.091 ops/clk)
  K_XOR_UINT_DEP128         throughput:             4666 clk (28.091 ops/clk)
  K_SHL_UINT_DEP128         throughput:             8242 clk (15.903 ops/clk)
  K_SHR_UINT_DEP128         throughput:             8242 clk (15.903 ops/clk)

  K_UMUL24_UINT_DEP128         latency:            9234 clk (36.070 clk/warp)
  K_MUL24_INT_DEP128         latency:            9234 clk (36.070 clk/warp)
  K_UMULHI_UINT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_MULHI_INT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_USAD_UINT_DEP128         latency:            5130 clk (20.039 clk/warp)
  K_SAD_INT_DEP128         latency:            5130 clk (20.039 clk/warp)
  K_UMUL24_UINT_DEP128         throughput:             9332 clk (14.045 ops/clk)
  K_MUL24_INT_DEP128         throughput:             9340 clk (14.033 ops/clk)
  K_UMULHI_UINT_DEP128         throughput:             8224 clk (15.938 ops/clk)
  K_MULHI_INT_DEP128         throughput:             8224 clk (15.938 ops/clk)
  K_USAD_UINT_DEP128         throughput:             8242 clk (15.903 ops/clk)
  K_SAD_INT_DEP128         throughput:             8242 clk (15.903 ops/clk)

  K_FADD_RN_FLOAT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_FADD_RZ_FLOAT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_FMUL_RN_FLOAT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_FMUL_RZ_FLOAT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_FDIVIDEF_FLOAT_DEP128         latency:            10252 clk (40.047 clk/warp)
  K_FADD_RN_FLOAT_DEP128         throughput:             4664 clk (28.103 ops/clk)
  K_FADD_RZ_FLOAT_DEP128         throughput:             4666 clk (28.091 ops/clk)
  K_FMUL_RN_FLOAT_DEP128         throughput:             4662 clk (28.115 ops/clk)
  K_FMUL_RZ_FLOAT_DEP128         throughput:             4662 clk (28.115 ops/clk)
  K_FDIVIDEF_FLOAT_DEP128         throughput:            32816 clk (3.994 ops/clk)

  K_DADD_RN_DOUBLE_DEP128         latency:            6148 clk (24.016 clk/warp)
  K_DADD_RN_DOUBLE_DEP128         throughput:            32772 clk (4.000 ops/clk)

  K_RCP_FLOAT_DEP128         latency:            10252 clk (40.047 clk/warp)
  K_SQRT_FLOAT_DEP128         latency:            11272 clk (44.031 clk/warp)
  K_RSQRT_FLOAT_DEP128         latency:            5640 clk (22.031 clk/warp)
  K_RCP_FLOAT_DEP128         throughput:            32816 clk (3.994 ops/clk)
  K_SQRT_FLOAT_DEP128         throughput:            65518 clk (2.001 ops/clk)
  K_RSQRT_FLOAT_DEP128         throughput:            32750 clk (4.002 ops/clk)

  K_SINF_FLOAT_DEP128         latency:            10248 clk (40.031 clk/warp)
  K_COSF_FLOAT_DEP128         latency:            10248 clk (40.031 clk/warp)
  K_TANF_FLOAT_DEP128         latency:            20492 clk (80.047 clk/warp)
  K_EXPF_FLOAT_DEP128         latency:            14856 clk (58.031 clk/warp)
  K_EXP2F_FLOAT_DEP128         latency:            10248 clk (40.031 clk/warp)
  K_EXP10F_FLOAT_DEP128         latency:            14856 clk (58.031 clk/warp)
  K_LOGF_FLOAT_DEP128         latency:            10252 clk (40.047 clk/warp)
  K_LOG2F_FLOAT_DEP128         latency:            5640 clk (22.031 clk/warp)
  K_LOG10F_FLOAT_DEP128         latency:            10252 clk (40.047 clk/warp)
  K_POWF_FLOAT_DEP128         latency:            14878 clk (58.117 clk/warp)
  K_SINF_FLOAT_DEP128         throughput:            32766 clk (4.000 ops/clk)
  K_COSF_FLOAT_DEP128         throughput:            32778 clk (3.999 ops/clk)
  K_TANF_FLOAT_DEP128         throughput:            98434 clk (1.332 ops/clk)
  K_EXPF_FLOAT_DEP128         throughput:            32788 clk (3.998 ops/clk)
  K_EXP2F_FLOAT_DEP128         throughput:            32778 clk (3.999 ops/clk)
  K_EXP10F_FLOAT_DEP128         throughput:            32812 clk (3.995 ops/clk)
  K_LOGF_FLOAT_DEP128         throughput:            32820 clk (3.994 ops/clk)
  K_LOG2F_FLOAT_DEP128         throughput:            32750 clk (4.002 ops/clk)
  K_LOG10F_FLOAT_DEP128         throughput:            32818 clk (3.994 ops/clk)
  K_POWF_FLOAT_DEP128         throughput:            65596 clk (1.998 ops/clk)

  K_INTASFLOAT_UINT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_FLOATASINT_FLOAT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_INTASFLOAT_UINT_DEP128         throughput:             8222 clk (15.942 ops/clk)
  K_FLOATASINT_FLOAT_DEP128         throughput:             8224 clk (15.938 ops/clk)

  K_POPC_UINT_DEP128         latency:            53004 clk (207.047 clk/warp)
  K_CLZ_UINT_DEP128         latency:            26644 clk (104.078 clk/warp)

  K_POPC_UINT_DEP128         throughput:            58912 clk (2.225 ops/clk)
  K_CLZ_UINT_DEP128         throughput:            35678 clk (3.674 ops/clk)

  K_ALL_UINT_DEP128         latency:            12336 clk (48.188 clk/warp)
  K_ANY_UINT_DEP128         latency:            12336 clk (48.188 clk/warp)
  K_SYNC_UINT_DEP128         latency:            58 clk (0.227 clk/warp)

  K_ALL_UINT_DEP128         throughput:            16488 clk (7.950 ops/clk)
  K_ANY_UINT_DEP128         throughput:            16498 clk (7.945 ops/clk)
  K_SYNC_UINT_DEP128         throughput:              108 clk (1213.630 ops/clk)


Pipeline latency/throughput with multiple warps (200 iterations of 256 ops)
  K_ADD_UINT_DEP128:
     1 warp  (  1 thr)    924000 clk (18.047 clk/warp, 0.055 ops/clk)   Histogram { (18: 200) }
     1 warp  (  2 thr)    924000 clk (18.047 clk/warp, 0.111 ops/clk)   Histogram { (18: 200) }
     1 warp  (  3 thr)    924000 clk (18.047 clk/warp, 0.166 ops/clk)   Histogram { (18: 200) }
     1 warp  (  4 thr)    924000 clk (18.047 clk/warp, 0.222 ops/clk)   Histogram { (18: 200) }
     1 warp  (  6 thr)    924000 clk (18.047 clk/warp, 0.332 ops/clk)   Histogram { (18: 200) }
     1 warp  (  8 thr)    924000 clk (18.047 clk/warp, 0.443 ops/clk)   Histogram { (18: 200) }
     1 warp  ( 16 thr)    924000 clk (18.047 clk/warp, 0.887 ops/clk)   Histogram { (18: 200) }
     1 warp  ( 24 thr)    924000 clk (18.047 clk/warp, 1.330 ops/clk)   Histogram { (18: 200) }
     1 warp  ( 32 thr)    924000 clk (18.047 clk/warp, 1.773 ops/clk)   Histogram { (18: 200) }
     2 warps ( 64 thr)    924000 clk (18.047 clk/warp, 3.546 ops/clk)   Histogram { (18: 400) }
     3 warps ( 96 thr)    924400 clk (18.047 clk/warp, 5.317 ops/clk)   Histogram { (18: 600) }
     4 warps (128 thr)    924800 clk (18.051 clk/warp, 7.087 ops/clk)   Histogram { (18: 800) }
     5 warps (160 thr)    925600 clk (18.056 clk/warp, 8.850 ops/clk)   Histogram { (18: 1000) }
     6 warps (192 thr)    926000 clk (18.059 clk/warp, 10.616 ops/clk)   Histogram { (18: 1200) }
     7 warps (224 thr)    926800 clk (18.065 clk/warp, 12.375 ops/clk)   Histogram { (18: 1400) }
     8 warps (256 thr)    927068 clk (18.066 clk/warp, 14.138 ops/clk)   Histogram { (18: 1600) }
     9 warps (288 thr)    928310 clk (18.071 clk/warp, 15.884 ops/clk)   Histogram { (18: 1800) }
    10 warps (320 thr)    928580 clk (18.076 clk/warp, 17.644 ops/clk)   Histogram { (18: 2000) }
    11 warps (352 thr)    928942 clk (18.079 clk/warp, 19.401 ops/clk)   Histogram { (18: 2200) }
    12 warps (384 thr)    929184 clk (18.093 clk/warp, 21.159 ops/clk)   Histogram { (18: 2400) }
    13 warps (416 thr)    930748 clk (18.102 clk/warp, 22.884 ops/clk)   Histogram { (18: 2600) }
    14 warps (448 thr)    931200 clk (18.111 clk/warp, 24.632 ops/clk)   Histogram { (18: 2800) }
    15 warps (480 thr)    932648 clk (18.121 clk/warp, 26.351 ops/clk)   Histogram { (18: 3000) }
    16 warps (512 thr)    932704 clk (18.130 clk/warp, 28.106 ops/clk)   Histogram { (18: 3200) }


  K_MUL_FLOAT_DEP128         throughput:             4664 clk (28.103 ops/clk)
  K_MAD_FLOAT_DEP128         throughput:             5172 clk (25.343 ops/clk)

  KADD_MUL         throughput:             4146 clk (31.614 ops/clk)

  KADD_MUL2         throughput:        64 thrds      2824 clk (5.802 ops/clk)

++++++++++++++++++++++++++++++++++++++++++++++++++
  K_SYNC_UINT_DEP128         latency:            58 clk (0.227 clk/warp)
  K_SYNC_UINT_DEP128         latency:            60 clk (0.234 clk/warp)
  K_SYNC_UINT_DEP128         latency:            62 clk (0.242 clk/warp)
  K_SYNC_UINT_DEP128         latency:            64 clk (0.250 clk/warp)
  K_SYNC_UINT_DEP128         latency:            66 clk (0.258 clk/warp)
  K_SYNC_UINT_DEP128         latency:            68 clk (0.266 clk/warp)
  K_SYNC_UINT_DEP128         latency:            70 clk (0.273 clk/warp)
  K_SYNC_UINT_DEP128         latency:            72 clk (0.281 clk/warp)
  K_SYNC_UINT_DEP128         latency:            76 clk (0.297 clk/warp)
  K_SYNC_UINT_DEP128         latency:            78 clk (0.305 clk/warp)
  K_SYNC_UINT_DEP128         latency:            80 clk (0.312 clk/warp)
  K_SYNC_UINT_DEP128         latency:            82 clk (0.320 clk/warp)
  K_SYNC_UINT_DEP128         latency:            86 clk (0.336 clk/warp)
  K_SYNC_UINT_DEP128         latency:            88 clk (0.344 clk/warp)
  K_SYNC_UINT_DEP128         latency:            90 clk (0.352 clk/warp)
  K_SYNC_UINT_DEP128         latency:            94 clk (0.367 clk/warp)
Running register file test...
Max threads x regs/thread before kernel spawn failure.
  [516 x   4 =  2064]
  [516 x   8 =  4128]
  [516 x  12 =  6192]
  [516 x  16 =  8256]
  [516 x  20 = 10320]
  [516 x  24 = 12384]
  [516 x  28 = 14448]
  [516 x  32 = 16512]
  [516 x  36 = 18576]
  [516 x  40 = 20640]
  [516 x  44 = 22704]
  [516 x  48 = 24768]
  [516 x  52 = 26832]
  [516 x  56 = 28896]
  [516 x  60 = 30960]
  [516 x  64 = 33024]
  [516 x  68 = 35088]
  [516 x  72 = 37152]
  [516 x  76 = 39216]
  [516 x  80 = 41280]
  [516 x  84 = 43344]
  [516 x  88 = 45408]
  [516 x  92 = 47472]
  [516 x  96 = 49536]
  [516 x 100 = 51600]
  [516 x 104 = 53664]
  [516 x 108 = 55728]
  [516 x 112 = 57792]
  [516 x 116 = 59856]
  [516 x 120 = 61920]
  [516 x 124 = 63984]
  [516 x 128 = 66048]
回复 支持 反对

使用道具 举报

4#
 楼主| 发表于 2010-7-2 02:03 | 只看该作者
Ubuntu x64 10.04 CUDA 3.1 Toolkit NVIDA 256.35 Core i7-920 2.67ghz ddr3-1333

GeForce GTX 480:

Running (16 x 16 x 16) blocks of 512 empty threads...done
Running (16 x 16 x 16) blocks of 512 empty threads: 79.610 ms

Running clock() test...
kclock:
   (3591554430, 3591554454): 24


kclock_test2: [10 blocks, 1 thread(s)/block]
kclock_test2: [30 blocks, 1 thread(s)/block]
  Block 00: start: 3591605780, stop: 3591608096
  Block 01: start: 3591606066, stop: 3591608382
  Block 02: start: 3591609784, stop: 3591612100
  Block 03: start: 3591605790, stop: 3591608106
  Block 04: start: 3591606072, stop: 3591608388
  Block 05: start: 3591609790, stop: 3591612106
  Block 06: start: 3591605790, stop: 3591608106
  Block 07: start: 3591606072, stop: 3591608388
  Block 08: start: 3591609790, stop: 3591612106
  Block 09: start: 3591605798, stop: 3591608114
  Block 00: start: 3591616774, stop: 3591619090
  Block 10: start: 3591620632, stop: 3591622948
  Block 20: start: 3591616874, stop: 3591619190
  Block 01: start: 3591616790, stop: 3591619106
  Block 11: start: 3591620662, stop: 3591622978
  Block 21: start: 3591620626, stop: 3591622942
  Block 02: start: 3591616796, stop: 3591619112
  Block 12: start: 3591616780, stop: 3591619096
  Block 22: start: 3591616908, stop: 3591619224
  Block 03: start: 3591616808, stop: 3591619124
  Block 13: start: 3591616788, stop: 3591619104
  Block 23: start: 3591620652, stop: 3591622968
  Block 04: start: 3591616862, stop: 3591619178
  Block 14: start: 3591616790, stop: 3591619106
  Block 24: start: 3591616948, stop: 3591619264
  Block 05: start: 3591616876, stop: 3591619192
  Block 15: start: 3591616802, stop: 3591619118
  Block 25: start: 3591616778, stop: 3591619094
  Block 06: start: 3591616880, stop: 3591619196
  Block 16: start: 3591616860, stop: 3591619176
  Block 26: start: 3591616866, stop: 3591619182
  Block 07: start: 3591616910, stop: 3591619226
  Block 17: start: 3591620612, stop: 3591622928
  Block 27: start: 3591620618, stop: 3591622934
  Block 08: start: 3591620614, stop: 3591622930
  Block 18: start: 3591616870, stop: 3591619186
  Block 28: start: 3591616948, stop: 3591619264
  Block 09: start: 3591620628, stop: 3591622944
  Block 19: start: 3591620622, stop: 3591622938
  Block 29: start: 3591616794, stop: 3591619110


Running pipeline tests...
Pipeline latency (512 dependent operations)
  mul:          9228 clk (18.023 clk/warp)

Running pipeline tests...

  K_ADD_UINT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_RSQRT_FLOAT_DEP128         latency:            17950 clk (70.117 clk/warp)
  K_ADD_DOUBLE_DEP128         latency:            6148 clk (24.016 clk/warp)

  K_ADD_UINT_DEP128         throughput:             4666 clk (28.091 ops/clk)
  K_RSQRT_FLOAT_DEP128         throughput:            32876 clk (3.987 ops/clk)
  K_ADD_DOUBLE_DEP128         throughput:            32752 clk (4.002 ops/clk)

  K_ADD_UINT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_SUB_UINT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_MAD_UINT_DEP128         latency:            5130 clk (20.039 clk/warp)
  K_MUL_UINT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_DIV_UINT_DEP128         latency:            67596 clk (264.047 clk/warp)
  K_REM_UINT_DEP128         latency:            67596 clk (264.047 clk/warp)
  K_MIN_UINT_DEP128         latency:            9228 clk (36.047 clk/warp)
  K_MAX_UINT_DEP128         latency:            9228 clk (36.047 clk/warp)
  K_ADD_UINT_DEP128         throughput:             4662 clk (28.115 ops/clk)
  K_SUB_UINT_DEP128         throughput:             4666 clk (28.091 ops/clk)
  K_MAD_UINT_DEP128         throughput:             8224 clk (15.938 ops/clk)
  K_MUL_UINT_DEP128         throughput:             8224 clk (15.938 ops/clk)
  K_DIV_UINT_DEP128         throughput:            77310 clk (1.695 ops/clk)
  K_REM_UINT_DEP128         throughput:            75536 clk (1.735 ops/clk)
  K_MIN_UINT_DEP128         throughput:             9280 clk (14.124 ops/clk)
  K_MAX_UINT_DEP128         throughput:             9796 clk (13.380 ops/clk)

  K_ADD_INT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_SUB_INT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_MAD_INT_DEP128         latency:            5130 clk (20.039 clk/warp)
  K_MUL_INT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_DIV_INT_DEP128         latency:            77580 clk (303.047 clk/warp)
  K_REM_INT_DEP128         latency:            76044 clk (297.047 clk/warp)
  K_MIN_INT_DEP128         latency:            9228 clk (36.047 clk/warp)
  K_MAX_INT_DEP128         latency:            9228 clk (36.047 clk/warp)
  K_ABS_INT_DEP128         latency:            9228 clk (36.047 clk/warp)
  K_ADD_INT_DEP128         throughput:             4664 clk (28.103 ops/clk)
  K_SUB_INT_DEP128         throughput:             4662 clk (28.115 ops/clk)
  K_MAD_INT_DEP128         throughput:             8224 clk (15.938 ops/clk)
  K_MUL_INT_DEP128         throughput:             8228 clk (15.930 ops/clk)
  K_DIV_INT_DEP128         throughput:            95372 clk (1.374 ops/clk)
  K_REM_INT_DEP128         throughput:            88822 clk (1.476 ops/clk)
  K_MIN_INT_DEP128         throughput:             9280 clk (14.124 ops/clk)
  K_MAX_INT_DEP128         throughput:             9286 clk (14.115 ops/clk)
  K_ABS_INT_DEP128         throughput:             9298 clk (14.097 ops/clk)

  K_ADD_FLOAT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_SUB_FLOAT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_MAD_FLOAT_DEP128         latency:            5130 clk (20.039 clk/warp)
  K_MUL_FLOAT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_DIV_FLOAT_DEP128         latency:            162842 clk (636.102 clk/warp)
  K_MIN_FLOAT_DEP128         latency:            9228 clk (36.047 clk/warp)
  K_MAX_FLOAT_DEP128         latency:            9228 clk (36.047 clk/warp)
  K_ADD_FLOAT_DEP128         throughput:             4662 clk (28.115 ops/clk)
  K_SUB_FLOAT_DEP128         throughput:             4664 clk (28.103 ops/clk)
  K_MAD_FLOAT_DEP128         throughput:             5432 clk (24.130 ops/clk)
  K_MUL_FLOAT_DEP128         throughput:             4664 clk (28.103 ops/clk)
  K_DIV_FLOAT_DEP128         throughput:           221442 clk (0.592 ops/clk)
  K_MIN_FLOAT_DEP128         throughput:             9282 clk (14.121 ops/clk)
  K_MAX_FLOAT_DEP128         throughput:             9280 clk (14.124 ops/clk)

  K_ADD_DOUBLE_DEP128         latency:            6150 clk (24.023 clk/warp)
  K_SUB_DOUBLE_DEP128         latency:            6148 clk (24.016 clk/warp)
  K_MAD_DOUBLE_DEP128         latency:            6150 clk (24.023 clk/warp)
  K_MUL_DOUBLE_DEP128         latency:            6148 clk (24.016 clk/warp)
  K_DIV_DOUBLE_DEP128         latency:            173078 clk (676.086 clk/warp)
  K_MIN_DOUBLE_DEP128         latency:            12292 clk (48.016 clk/warp)
  K_MAX_DOUBLE_DEP128         latency:            12294 clk (48.023 clk/warp)
  K_ADD_DOUBLE_DEP128         throughput:            32752 clk (4.002 ops/clk)
  K_SUB_DOUBLE_DEP128         throughput:            32766 clk (4.000 ops/clk)
  K_MAD_DOUBLE_DEP128         throughput:            32754 clk (4.002 ops/clk)
  K_MUL_DOUBLE_DEP128         throughput:            32760 clk (4.001 ops/clk)
  K_DIV_DOUBLE_DEP128         throughput:           258918 clk (0.506 ops/clk)
  K_MIN_DOUBLE_DEP128         throughput:            65530 clk (2.000 ops/clk)
  K_MAX_DOUBLE_DEP128         throughput:            65520 clk (2.000 ops/clk)

  K_AND_UINT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_OR_UINT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_XOR_UINT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_SHL_UINT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_SHR_UINT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_AND_UINT_DEP128         throughput:             4666 clk (28.091 ops/clk)
  K_OR_UINT_DEP128         throughput:             4666 clk (28.091 ops/clk)
  K_XOR_UINT_DEP128         throughput:             4664 clk (28.103 ops/clk)
  K_SHL_UINT_DEP128         throughput:             8242 clk (15.903 ops/clk)
  K_SHR_UINT_DEP128         throughput:             8242 clk (15.903 ops/clk)

  K_UMUL24_UINT_DEP128         latency:            9234 clk (36.070 clk/warp)
  K_MUL24_INT_DEP128         latency:            9234 clk (36.070 clk/warp)
  K_UMULHI_UINT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_MULHI_INT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_USAD_UINT_DEP128         latency:            5130 clk (20.039 clk/warp)
  K_SAD_INT_DEP128         latency:            5130 clk (20.039 clk/warp)
  K_UMUL24_UINT_DEP128         throughput:             9332 clk (14.045 ops/clk)
  K_MUL24_INT_DEP128         throughput:             9334 clk (14.042 ops/clk)
  K_UMULHI_UINT_DEP128         throughput:             8224 clk (15.938 ops/clk)
  K_MULHI_INT_DEP128         throughput:             8222 clk (15.942 ops/clk)
  K_USAD_UINT_DEP128         throughput:             8240 clk (15.907 ops/clk)
  K_SAD_INT_DEP128         throughput:             8242 clk (15.903 ops/clk)

  K_FADD_RN_FLOAT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_FADD_RZ_FLOAT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_FMUL_RN_FLOAT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_FMUL_RZ_FLOAT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_FDIVIDEF_FLOAT_DEP128         latency:            21260 clk (83.047 clk/warp)
  K_FADD_RN_FLOAT_DEP128         throughput:             4664 clk (28.103 ops/clk)
  K_FADD_RZ_FLOAT_DEP128         throughput:             4664 clk (28.103 ops/clk)
  K_FMUL_RN_FLOAT_DEP128         throughput:             4662 clk (28.115 ops/clk)
  K_FMUL_RZ_FLOAT_DEP128         throughput:             4662 clk (28.115 ops/clk)
  K_FDIVIDEF_FLOAT_DEP128         throughput:            32908 clk (3.983 ops/clk)

  K_DADD_RN_DOUBLE_DEP128         latency:            6148 clk (24.016 clk/warp)
  K_DADD_RN_DOUBLE_DEP128         throughput:            32752 clk (4.002 ops/clk)

  K_RCP_FLOAT_DEP128         latency:            74766 clk (292.055 clk/warp)
  K_SQRT_FLOAT_DEP128         latency:            70688 clk (276.125 clk/warp)
  K_RSQRT_FLOAT_DEP128         latency:            17950 clk (70.117 clk/warp)
  K_RCP_FLOAT_DEP128         throughput:            93152 clk (1.407 ops/clk)
  K_SQRT_FLOAT_DEP128         throughput:            90428 clk (1.449 ops/clk)
  K_RSQRT_FLOAT_DEP128         throughput:            32884 clk (3.986 ops/clk)

  K_SINF_FLOAT_DEP128         latency:            10248 clk (40.031 clk/warp)
  K_COSF_FLOAT_DEP128         latency:            10248 clk (40.031 clk/warp)
  K_TANF_FLOAT_DEP128         latency:            29708 clk (116.047 clk/warp)
  K_EXPF_FLOAT_DEP128         latency:            27154 clk (106.070 clk/warp)
  K_EXP2F_FLOAT_DEP128         latency:            22558 clk (88.117 clk/warp)
  K_EXP10F_FLOAT_DEP128         latency:            27154 clk (106.070 clk/warp)
  K_LOGF_FLOAT_DEP128         latency:            22552 clk (88.094 clk/warp)
  K_LOG2F_FLOAT_DEP128         latency:            17950 clk (70.117 clk/warp)
  K_LOG10F_FLOAT_DEP128         latency:            22552 clk (88.094 clk/warp)
  K_POWF_FLOAT_DEP128         latency:            27232 clk (106.375 clk/warp)
  K_SINF_FLOAT_DEP128         throughput:            32772 clk (4.000 ops/clk)
  K_COSF_FLOAT_DEP128         throughput:            32778 clk (3.999 ops/clk)
  K_TANF_FLOAT_DEP128         throughput:            98380 clk (1.332 ops/clk)
  K_EXPF_FLOAT_DEP128         throughput:            32902 clk (3.984 ops/clk)
  K_EXP2F_FLOAT_DEP128         throughput:            33012 clk (3.970 ops/clk)
  K_EXP10F_FLOAT_DEP128         throughput:            32986 clk (3.974 ops/clk)
  K_LOGF_FLOAT_DEP128         throughput:            32888 clk (3.985 ops/clk)
  K_LOG2F_FLOAT_DEP128         throughput:            32882 clk (3.986 ops/clk)
  K_LOG10F_FLOAT_DEP128         throughput:            32912 clk (3.982 ops/clk)
  K_POWF_FLOAT_DEP128         throughput:            66116 clk (1.982 ops/clk)

  K_INTASFLOAT_UINT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_FLOATASINT_FLOAT_DEP128         latency:            4620 clk (18.047 clk/warp)
  K_INTASFLOAT_UINT_DEP128         throughput:             8220 clk (15.945 ops/clk)
  K_FLOATASINT_FLOAT_DEP128         throughput:             8228 clk (15.930 ops/clk)

  K_POPC_UINT_DEP128         latency:            5130 clk (20.039 clk/warp)
  K_CLZ_UINT_DEP128         latency:            9228 clk (36.047 clk/warp)

  K_POPC_UINT_DEP128         throughput:             8228 clk (15.930 ops/clk)
  K_CLZ_UINT_DEP128         throughput:             9310 clk (14.079 ops/clk)

  K_ALL_UINT_DEP128         latency:            12336 clk (48.188 clk/warp)
  K_ANY_UINT_DEP128         latency:            12336 clk (48.188 clk/warp)
  K_SYNC_UINT_DEP128         latency:            58 clk (0.227 clk/warp)

  K_ALL_UINT_DEP128         throughput:            16484 clk (7.951 ops/clk)
  K_ANY_UINT_DEP128         throughput:            16488 clk (7.950 ops/clk)
  K_SYNC_UINT_DEP128         throughput:              108 clk (1213.630 ops/clk)


Pipeline latency/throughput with multiple warps (200 iterations of 256 ops)
  K_ADD_UINT_DEP128:
     1 warp  (  1 thr)    924000 clk (18.047 clk/warp, 0.055 ops/clk)   Histogram { (18: 200) }
     1 warp  (  2 thr)    924000 clk (18.047 clk/warp, 0.111 ops/clk)   Histogram { (18: 200) }
     1 warp  (  3 thr)    924000 clk (18.047 clk/warp, 0.166 ops/clk)   Histogram { (18: 200) }
     1 warp  (  4 thr)    924000 clk (18.047 clk/warp, 0.222 ops/clk)   Histogram { (18: 200) }
     1 warp  (  6 thr)    924000 clk (18.047 clk/warp, 0.332 ops/clk)   Histogram { (18: 200) }
     1 warp  (  8 thr)    924000 clk (18.047 clk/warp, 0.443 ops/clk)   Histogram { (18: 200) }
     1 warp  ( 16 thr)    924000 clk (18.047 clk/warp, 0.887 ops/clk)   Histogram { (18: 200) }
     1 warp  ( 24 thr)    924000 clk (18.047 clk/warp, 1.330 ops/clk)   Histogram { (18: 200) }
     1 warp  ( 32 thr)    924000 clk (18.047 clk/warp, 1.773 ops/clk)   Histogram { (18: 200) }
     2 warps ( 64 thr)    924000 clk (18.047 clk/warp, 3.546 ops/clk)   Histogram { (18: 400) }
     3 warps ( 96 thr)    924400 clk (18.047 clk/warp, 5.317 ops/clk)   Histogram { (18: 600) }
     4 warps (128 thr)    924800 clk (18.051 clk/warp, 7.087 ops/clk)   Histogram { (18: 800) }
     5 warps (160 thr)    925600 clk (18.056 clk/warp, 8.850 ops/clk)   Histogram { (18: 1000) }
     6 warps (192 thr)    926000 clk (18.059 clk/warp, 10.616 ops/clk)   Histogram { (18: 1200) }
     7 warps (224 thr)    926800 clk (18.065 clk/warp, 12.375 ops/clk)   Histogram { (18: 1400) }
     8 warps (256 thr)    926916 clk (18.064 clk/warp, 14.141 ops/clk)   Histogram { (18: 1600) }
     9 warps (288 thr)    928328 clk (18.071 clk/warp, 15.884 ops/clk)   Histogram { (18: 1800) }
    10 warps (320 thr)    928742 clk (18.076 clk/warp, 17.641 ops/clk)   Histogram { (18: 2000) }
    11 warps (352 thr)    928930 clk (18.079 clk/warp, 19.401 ops/clk)   Histogram { (18: 2200) }
    12 warps (384 thr)    929168 clk (18.093 clk/warp, 21.160 ops/clk)   Histogram { (18: 2400) }
    13 warps (416 thr)    930940 clk (18.103 clk/warp, 22.879 ops/clk)   Histogram { (18: 2600) }
    14 warps (448 thr)    931248 clk (18.111 clk/warp, 24.631 ops/clk)   Histogram { (18: 2800) }
    15 warps (480 thr)    932606 clk (18.121 clk/warp, 26.352 ops/clk)   Histogram { (18: 3000) }
    16 warps (512 thr)    932754 clk (18.130 clk/warp, 28.104 ops/clk)   Histogram { (18: 3200) }


  K_MUL_FLOAT_DEP128         throughput:             4664 clk (28.103 ops/clk)
  K_MAD_FLOAT_DEP128         throughput:             5374 clk (24.390 ops/clk)

  KADD_MUL         throughput:             4146 clk (31.614 ops/clk)

  KADD_MUL2         throughput:        64 thrds      2570 clk (6.375 ops/clk)

++++++++++++++++++++++++++++++++++++++++++++++++++
  K_SYNC_UINT_DEP128         latency:            58 clk (0.227 clk/warp)
  K_SYNC_UINT_DEP128         latency:            60 clk (0.234 clk/warp)
  K_SYNC_UINT_DEP128         latency:            62 clk (0.242 clk/warp)
  K_SYNC_UINT_DEP128         latency:            64 clk (0.250 clk/warp)
  K_SYNC_UINT_DEP128         latency:            66 clk (0.258 clk/warp)
  K_SYNC_UINT_DEP128         latency:            68 clk (0.266 clk/warp)
  K_SYNC_UINT_DEP128         latency:            70 clk (0.273 clk/warp)
  K_SYNC_UINT_DEP128         latency:            72 clk (0.281 clk/warp)
  K_SYNC_UINT_DEP128         latency:            76 clk (0.297 clk/warp)
  K_SYNC_UINT_DEP128         latency:            78 clk (0.305 clk/warp)
  K_SYNC_UINT_DEP128         latency:            80 clk (0.312 clk/warp)
  K_SYNC_UINT_DEP128         latency:            82 clk (0.320 clk/warp)
  K_SYNC_UINT_DEP128         latency:            84 clk (0.328 clk/warp)
  K_SYNC_UINT_DEP128         latency:            88 clk (0.344 clk/warp)
  K_SYNC_UINT_DEP128         latency:            90 clk (0.352 clk/warp)
  K_SYNC_UINT_DEP128         latency:            94 clk (0.367 clk/warp)
Running register file test...
Max threads x regs/thread before kernel spawn failure.
  [516 x   4 =  2064]
  [516 x   8 =  4128]
  [516 x  12 =  6192]
  [516 x  16 =  8256]
  [516 x  20 = 10320]
  [516 x  24 = 12384]
  [516 x  28 = 14448]
  [516 x  32 = 16512]
  [516 x  36 = 18576]
  [516 x  40 = 20640]
  [516 x  44 = 22704]
  [516 x  48 = 24768]
  [516 x  52 = 26832]
  [516 x  56 = 28896]
  [516 x  60 = 30960]
  [516 x  64 = 33024]
  [516 x  68 = 35088]
  [516 x  72 = 37152]
  [516 x  76 = 39216]
  [516 x  80 = 41280]
  [516 x  84 = 43344]
  [516 x  88 = 45408]
  [516 x  92 = 47472]
  [516 x  96 = 49536]
  [516 x 100 = 51600]
  [516 x 104 = 53664]
  [516 x 108 = 55728]
  [516 x 112 = 57792]
  [516 x 116 = 59856]
  [516 x 120 = 61920]
  [516 x 124 = 63984]
回复 支持 反对

使用道具 举报

5#
 楼主| 发表于 2010-7-2 09:47 | 只看该作者
ubuntu 10.04 x64 + CUDA toolkit 3.1 + GTX 280 + 256.35"

Running (16 x 16 x 16) blocks of 512 empty threads...done
Running (16 x 16 x 16) blocks of 512 empty threads: 67.129 ms

Running clock() test...
kclock:
   (  370976,   371004): 28


kclock_test2: [10 blocks, 1 thread(s)/block]
kclock_test2: [30 blocks, 1 thread(s)/block]
  Block 00: start: 00375628, stop: 00378710
  Block 01: start: 00375360, stop: 00378442
  Block 02: start: 00375588, stop: 00378670
  Block 03: start: 00375356, stop: 00378438
  Block 04: start: 00375404, stop: 00378486
  Block 05: start: 00375384, stop: 00378466
  Block 06: start: 00375540, stop: 00378622
  Block 07: start: 00375380, stop: 00378462
  Block 08: start: 00375468, stop: 00378550
  Block 09: start: 00376948, stop: 00380030
  Block 00: start: 00384168, stop: 00387250
  Block 10: start: 00384176, stop: 00387258
  Block 20: start: 00384160, stop: 00387242
  Block 01: start: 00384012, stop: 00387094
  Block 11: start: 00384020, stop: 00387102
  Block 21: start: 00384004, stop: 00387086
  Block 02: start: 00383968, stop: 00387050
  Block 12: start: 00383960, stop: 00387042
  Block 22: start: 00383960, stop: 00387042
  Block 03: start: 00383844, stop: 00386926
  Block 13: start: 00383836, stop: 00386918
  Block 23: start: 00383836, stop: 00386918
  Block 04: start: 00383924, stop: 00387006
  Block 14: start: 00383916, stop: 00386998
  Block 24: start: 00383916, stop: 00386998
  Block 05: start: 00383932, stop: 00387014
  Block 15: start: 00383924, stop: 00387006
  Block 25: start: 00383924, stop: 00387006
  Block 06: start: 00384068, stop: 00387150
  Block 16: start: 00384076, stop: 00387158
  Block 26: start: 00384084, stop: 00387166
  Block 07: start: 00384012, stop: 00387094
  Block 17: start: 00384020, stop: 00387102
  Block 27: start: 00384028, stop: 00387110
  Block 08: start: 00384080, stop: 00387162
  Block 18: start: 00384088, stop: 00387170
  Block 28: start: 00384096, stop: 00387178
  Block 09: start: 00385528, stop: 00388610
  Block 19: start: 00385512, stop: 00388594
  Block 29: start: 00385520, stop: 00388602


Running pipeline tests...
Pipeline latency (512 dependent operations)
  mul:         49162 clk (96.020 clk/warp)

Running pipeline tests...

  K_ADD_UINT_DEP128         latency:            6154 clk (24.039 clk/warp)
  K_RSQRT_FLOAT_DEP128         latency:            7190 clk (28.086 clk/warp)
  K_ADD_DOUBLE_DEP128         latency:            12276 clk (47.953 clk/warp)

  K_ADD_UINT_DEP128         throughput:            21310 clk (6.151 ops/clk)
  K_RSQRT_FLOAT_DEP128         throughput:            65672 clk (1.996 ops/clk)
  K_ADD_DOUBLE_DEP128         throughput:           131346 clk (0.998 ops/clk)

  K_ADD_UINT_DEP128         latency:            6154 clk (24.039 clk/warp)
  K_SUB_UINT_DEP128         latency:            6154 clk (24.039 clk/warp)
  K_MAD_UINT_DEP128         latency:            30730 clk (120.039 clk/warp)
  K_MUL_UINT_DEP128         latency:            24586 clk (96.039 clk/warp)
  K_DIV_UINT_DEP128         latency:            155664 clk (608.062 clk/warp)
  K_REM_UINT_DEP128         latency:            186384 clk (728.062 clk/warp)
  K_MIN_UINT_DEP128         latency:            12378 clk (48.352 clk/warp)
  K_MAX_UINT_DEP128         latency:            12378 clk (48.352 clk/warp)
  K_ADD_UINT_DEP128         throughput:            21518 clk (6.091 ops/clk)
  K_SUB_UINT_DEP128         throughput:            21518 clk (6.091 ops/clk)
  K_MAD_UINT_DEP128         throughput:           107530 clk (1.219 ops/clk)
  K_MUL_UINT_DEP128         throughput:            86368 clk (1.518 ops/clk)
  K_DIV_UINT_DEP128         throughput:           412540 clk (0.318 ops/clk)
  K_REM_UINT_DEP128         throughput:           495040 clk (0.265 ops/clk)
  K_MIN_UINT_DEP128         throughput:            42668 clk (3.072 ops/clk)
  K_MAX_UINT_DEP128         throughput:            42614 clk (3.076 ops/clk)

  K_ADD_INT_DEP128         latency:            6154 clk (24.039 clk/warp)
  K_SUB_INT_DEP128         latency:            6154 clk (24.039 clk/warp)
  K_MAD_INT_DEP128         latency:            30780 clk (120.234 clk/warp)
  K_MUL_INT_DEP128         latency:            24616 clk (96.156 clk/warp)
  K_DIV_INT_DEP128         latency:            175120 clk (684.062 clk/warp)
  K_REM_INT_DEP128         latency:            200720 clk (784.062 clk/warp)
  K_MIN_INT_DEP128         latency:            12378 clk (48.352 clk/warp)
  K_MAX_INT_DEP128         latency:            12378 clk (48.352 clk/warp)
  K_ABS_INT_DEP128         latency:            10876 clk (42.484 clk/warp)
  K_ADD_INT_DEP128         throughput:            21300 clk (6.154 ops/clk)
  K_SUB_INT_DEP128         throughput:            21310 clk (6.151 ops/clk)
  K_MAD_INT_DEP128         throughput:           106810 clk (1.227 ops/clk)
  K_MUL_INT_DEP128         throughput:            82838 clk (1.582 ops/clk)
  K_DIV_INT_DEP128         throughput:           523372 clk (0.250 ops/clk)
  K_REM_INT_DEP128         throughput:           589288 clk (0.222 ops/clk)
  K_MIN_INT_DEP128         throughput:            42648 clk (3.073 ops/clk)
  K_MAX_INT_DEP128         throughput:            42672 clk (3.072 ops/clk)
  K_ABS_INT_DEP128         throughput:            41808 clk (3.135 ops/clk)

  K_ADD_FLOAT_DEP128         latency:            6154 clk (24.039 clk/warp)
  K_SUB_FLOAT_DEP128         latency:            6154 clk (24.039 clk/warp)
  K_MAD_FLOAT_DEP128         latency:            6154 clk (24.039 clk/warp)
  K_MUL_FLOAT_DEP128         latency:            6154 clk (24.039 clk/warp)
  K_DIV_FLOAT_DEP128         latency:            33082 clk (129.227 clk/warp)
  K_MIN_FLOAT_DEP128         latency:            12378 clk (48.352 clk/warp)
  K_MAX_FLOAT_DEP128         latency:            12378 clk (48.352 clk/warp)
  K_ADD_FLOAT_DEP128         throughput:            21344 clk (6.141 ops/clk)
  K_SUB_FLOAT_DEP128         throughput:            21486 clk (6.100 ops/clk)
  K_MAD_FLOAT_DEP128         throughput:            21486 clk (6.100 ops/clk)
  K_MUL_FLOAT_DEP128         throughput:            10528 clk (12.450 ops/clk)
  K_DIV_FLOAT_DEP128         throughput:            73848 clk (1.775 ops/clk)
  K_MIN_FLOAT_DEP128         throughput:            42696 clk (3.070 ops/clk)
  K_MAX_FLOAT_DEP128         throughput:            42698 clk (3.070 ops/clk)

  K_ADD_DOUBLE_DEP128         latency:            12276 clk (47.953 clk/warp)
  K_SUB_DOUBLE_DEP128         latency:            12276 clk (47.953 clk/warp)
  K_MAD_DOUBLE_DEP128         latency:            12276 clk (47.953 clk/warp)
  K_MUL_DOUBLE_DEP128         latency:            12276 clk (47.953 clk/warp)
  K_DIV_DOUBLE_DEP128         latency:            348868 clk (1362.766 clk/warp)
  K_MIN_DOUBLE_DEP128         latency:            24564 clk (95.953 clk/warp)
  K_MAX_DOUBLE_DEP128         latency:            24564 clk (95.953 clk/warp)
  K_ADD_DOUBLE_DEP128         throughput:           131346 clk (0.998 ops/clk)
  K_SUB_DOUBLE_DEP128         throughput:           131346 clk (0.998 ops/clk)
  K_MAD_DOUBLE_DEP128         throughput:           131346 clk (0.998 ops/clk)
  K_MUL_DOUBLE_DEP128         throughput:           131346 clk (0.998 ops/clk)
  K_DIV_DOUBLE_DEP128         throughput:          2043848 clk (0.064 ops/clk)
  K_MIN_DOUBLE_DEP128         throughput:           262470 clk (0.499 ops/clk)
  K_MAX_DOUBLE_DEP128         throughput:           262470 clk (0.499 ops/clk)

  K_AND_UINT_DEP128         latency:            6154 clk (24.039 clk/warp)
  K_OR_UINT_DEP128         latency:            6154 clk (24.039 clk/warp)
  K_XOR_UINT_DEP128         latency:            6154 clk (24.039 clk/warp)
  K_SHL_UINT_DEP128         latency:            6154 clk (24.039 clk/warp)
  K_SHR_UINT_DEP128         latency:            6154 clk (24.039 clk/warp)
  K_AND_UINT_DEP128         throughput:            21300 clk (6.154 ops/clk)
  K_OR_UINT_DEP128         throughput:            21516 clk (6.092 ops/clk)
  K_XOR_UINT_DEP128         throughput:            21614 clk (6.064 ops/clk)
  K_SHL_UINT_DEP128         throughput:            21300 clk (6.154 ops/clk)
  K_SHR_UINT_DEP128         throughput:            21300 clk (6.154 ops/clk)

  K_UMUL24_UINT_DEP128         latency:            6154 clk (24.039 clk/warp)
  K_MUL24_INT_DEP128         latency:            6154 clk (24.039 clk/warp)
  K_UMULHI_UINT_DEP128         latency:            36946 clk (144.320 clk/warp)
  K_MULHI_INT_DEP128         latency:            46246 clk (180.648 clk/warp)
  K_USAD_UINT_DEP128         latency:            6154 clk (24.039 clk/warp)
  K_SAD_INT_DEP128         latency:            6154 clk (24.039 clk/warp)
  K_UMUL24_UINT_DEP128         throughput:            21300 clk (6.154 ops/clk)
  K_MUL24_INT_DEP128         throughput:            21516 clk (6.092 ops/clk)
  K_UMULHI_UINT_DEP128         throughput:           109038 clk (1.202 ops/clk)
  K_MULHI_INT_DEP128         throughput:           140950 clk (0.930 ops/clk)
  K_USAD_UINT_DEP128         throughput:            21576 clk (6.075 ops/clk)
  K_SAD_INT_DEP128         throughput:            21574 clk (6.075 ops/clk)

  K_FADD_RN_FLOAT_DEP128         latency:            6154 clk (24.039 clk/warp)
  K_FADD_RZ_FLOAT_DEP128         latency:            6154 clk (24.039 clk/warp)
  K_FMUL_RN_FLOAT_DEP128         latency:            6664 clk (26.031 clk/warp)
  K_FMUL_RZ_FLOAT_DEP128         latency:            6664 clk (26.031 clk/warp)
  K_FDIVIDEF_FLOAT_DEP128         latency:            13332 clk (52.078 clk/warp)
  K_FADD_RN_FLOAT_DEP128         throughput:            21334 clk (6.144 ops/clk)
  K_FADD_RZ_FLOAT_DEP128         throughput:            21342 clk (6.142 ops/clk)
  K_FMUL_RN_FLOAT_DEP128         throughput:            11724 clk (11.180 ops/clk)
  K_FMUL_RZ_FLOAT_DEP128         throughput:            11724 clk (11.180 ops/clk)
  K_FDIVIDEF_FLOAT_DEP128         throughput:            66830 clk (1.961 ops/clk)

  K_DADD_RN_DOUBLE_DEP128         latency:            12276 clk (47.953 clk/warp)
  K_DADD_RN_DOUBLE_DEP128         throughput:           131346 clk (0.998 ops/clk)

  K_RCP_FLOAT_DEP128         latency:            13332 clk (52.078 clk/warp)
  K_SQRT_FLOAT_DEP128         latency:            14406 clk (56.273 clk/warp)
  K_RSQRT_FLOAT_DEP128         latency:            7190 clk (28.086 clk/warp)
  K_RCP_FLOAT_DEP128         throughput:            65674 clk (1.996 ops/clk)
  K_SQRT_FLOAT_DEP128         throughput:           131208 clk (0.999 ops/clk)
  K_RSQRT_FLOAT_DEP128         throughput:            65672 clk (1.996 ops/clk)

  K_SINF_FLOAT_DEP128         latency:            12382 clk (48.367 clk/warp)
  K_COSF_FLOAT_DEP128         latency:            12382 clk (48.367 clk/warp)
  K_TANF_FLOAT_DEP128         latency:            25104 clk (98.062 clk/warp)
  K_EXPF_FLOAT_DEP128         latency:            18442 clk (72.039 clk/warp)
  K_EXP2F_FLOAT_DEP128         latency:            12382 clk (48.367 clk/warp)
  K_EXP10F_FLOAT_DEP128         latency:            18442 clk (72.039 clk/warp)
  K_LOGF_FLOAT_DEP128         latency:            13396 clk (52.328 clk/warp)
  K_LOG2F_FLOAT_DEP128         latency:            7190 clk (28.086 clk/warp)
  K_LOG10F_FLOAT_DEP128         latency:            13396 clk (52.328 clk/warp)
  K_POWF_FLOAT_DEP128         latency:            18992 clk (74.188 clk/warp)
  K_SINF_FLOAT_DEP128         throughput:            65760 clk (1.993 ops/clk)
  K_COSF_FLOAT_DEP128         throughput:            65760 clk (1.993 ops/clk)
  K_TANF_FLOAT_DEP128         throughput:           197642 clk (0.663 ops/clk)
  K_EXPF_FLOAT_DEP128         throughput:            65850 clk (1.990 ops/clk)
  K_EXP2F_FLOAT_DEP128         throughput:            65760 clk (1.993 ops/clk)
  K_EXP10F_FLOAT_DEP128         throughput:            65772 clk (1.993 ops/clk)
  K_LOGF_FLOAT_DEP128         throughput:            65810 clk (1.992 ops/clk)
  K_LOG2F_FLOAT_DEP128         throughput:            65672 clk (1.996 ops/clk)
  K_LOG10F_FLOAT_DEP128         throughput:            65810 clk (1.992 ops/clk)
  K_POWF_FLOAT_DEP128         throughput:           131800 clk (0.994 ops/clk)

  K_INTASFLOAT_UINT_DEP128         latency:            5136 clk (20.062 clk/warp)
  K_FLOATASINT_FLOAT_DEP128         latency:            5136 clk (20.062 clk/warp)
  K_INTASFLOAT_UINT_DEP128         throughput:            20658 clk (6.345 ops/clk)
  K_FLOATASINT_FLOAT_DEP128         throughput:            20770 clk (6.311 ops/clk)

  K_POPC_UINT_DEP128         latency:            75296 clk (294.125 clk/warp)
  K_CLZ_UINT_DEP128         latency:            31012 clk (121.141 clk/warp)

  K_POPC_UINT_DEP128         throughput:           288064 clk (0.455 ops/clk)
  K_CLZ_UINT_DEP128         throughput:            71650 clk (1.829 ops/clk)

  K_ALL_UINT_DEP128         latency:            38086 clk (148.773 clk/warp)
  K_ANY_UINT_DEP128         latency:            38086 clk (148.773 clk/warp)
  K_SYNC_UINT_DEP128         latency:            64 clk (0.250 clk/warp)

  K_ALL_UINT_DEP128         throughput:            96672 clk (1.356 ops/clk)
  K_ANY_UINT_DEP128         throughput:            96486 clk (1.358 ops/clk)
  K_SYNC_UINT_DEP128         throughput:              442 clk (296.543 ops/clk)


Pipeline latency/throughput with multiple warps (200 iterations of 256 ops)
  K_ADD_UINT_DEP128:
     1 warp  (  1 thr)   1230800 clk (24.039 clk/warp, 0.042 ops/clk)   Histogram { (24: 200) }
     1 warp  (  2 thr)   1230800 clk (24.039 clk/warp, 0.083 ops/clk)   Histogram { (24: 200) }
     1 warp  (  3 thr)   1230800 clk (24.039 clk/warp, 0.125 ops/clk)   Histogram { (24: 200) }
     1 warp  (  4 thr)   1230800 clk (24.039 clk/warp, 0.166 ops/clk)   Histogram { (24: 200) }
     1 warp  (  6 thr)   1230800 clk (24.039 clk/warp, 0.250 ops/clk)   Histogram { (24: 200) }
     1 warp  (  8 thr)   1230800 clk (24.039 clk/warp, 0.333 ops/clk)   Histogram { (24: 200) }
     1 warp  ( 16 thr)   1230800 clk (24.039 clk/warp, 0.666 ops/clk)   Histogram { (24: 200) }
     1 warp  ( 24 thr)   1230800 clk (24.039 clk/warp, 0.998 ops/clk)   Histogram { (24: 200) }
     1 warp  ( 32 thr)   1230800 clk (24.039 clk/warp, 1.331 ops/clk)   Histogram { (24: 200) }
     2 warps ( 64 thr)   1231600 clk (24.039 clk/warp, 2.661 ops/clk)   Histogram { (24: 400) }
     3 warps ( 96 thr)   1234800 clk (24.068 clk/warp, 3.981 ops/clk)   Histogram { (24: 600) }
     4 warps (128 thr)   1236520 clk (24.079 clk/warp, 5.300 ops/clk)   Histogram { (24: 800) }
     5 warps (160 thr)   1240540 clk (24.133 clk/warp, 6.604 ops/clk)   Histogram { (24: 1000) }
     6 warps (192 thr)   1247838 clk (24.201 clk/warp, 7.878 ops/clk)   Histogram { (24: 1200) }
     7 warps (224 thr)   2107458 clk (25.650 clk/warp, 5.442 ops/clk)   Histogram { (24: 1076) (30: 324) }
     8 warps (256 thr)   2616310 clk (27.643 clk/warp, 5.010 ops/clk)   Histogram { (24: 200) (25: 424) (26: 116) (28: 455) (30: 394) (31: 11) }
     9 warps (288 thr)   2681110 clk (30.535 clk/warp, 5.500 ops/clk)   Histogram { (24: 184) (25: 16) (27: 600) (33: 956) (34: 44) }
    10 warps (320 thr)   2768950 clk (35.554 clk/warp, 5.917 ops/clk)   Histogram { (26: 190) (27: 212) (35: 4) (36: 403) (37: 785) (38: 8) (39: 398) }
    11 warps (352 thr)   2981822 clk (38.441 clk/warp, 6.044 ops/clk)   Histogram { (26: 16) (28: 184) (29: 184) (30: 184) (33: 48) (40: 540) (41: 476) (43: 562) (44: 6) }
    12 warps (384 thr)   3418442 clk (41.891 clk/warp, 5.751 ops/clk)   Histogram { (25: 200) (41: 1023) (42: 177) (45: 1000) }
    13 warps (416 thr)   3486864 clk (45.848 clk/warp, 6.108 ops/clk)   Histogram { (28: 185) (30: 15) (39: 400) (40: 200) (48: 1015) (50: 236) (51: 549) }
    14 warps (448 thr)   3823702 clk (49.530 clk/warp, 5.999 ops/clk)   Histogram { (26: 200) (48: 1065) (49: 135) (52: 468) (53: 597) (55: 285) (56: 50) }
    15 warps (480 thr)   3976764 clk (53.439 clk/warp, 6.180 ops/clk)   Histogram { (31: 47) (32: 153) (45: 400) (46: 200) (55: 800) (56: 400) (57: 47) (58: 251) (59: 702) }
    16 warps (512 thr)   4288294 clk (57.354 clk/warp, 6.113 ops/clk)   Histogram { (27: 82) (28: 75) (29: 43) (55: 1082) (56: 118) (60: 497) (61: 648) (62: 298) (63: 322) (64: 35) }


  K_MUL_FLOAT_DEP128         throughput:            10634 clk (12.326 ops/clk)
  K_MAD_FLOAT_DEP128         throughput:            21504 clk (6.095 ops/clk)

  KADD_MUL         throughput:            11540 clk (11.358 ops/clk)

  KADD_MUL2         throughput:        64 thrds      3150 clk (5.201 ops/clk)

++++++++++++++++++++++++++++++++++++++++++++++++++
  K_SYNC_UINT_DEP128         latency:            64 clk (0.250 clk/warp)
  K_SYNC_UINT_DEP128         latency:            72 clk (0.281 clk/warp)
  K_SYNC_UINT_DEP128         latency:            72 clk (0.281 clk/warp)
  K_SYNC_UINT_DEP128         latency:            72 clk (0.281 clk/warp)
  K_SYNC_UINT_DEP128         latency:            84 clk (0.328 clk/warp)
  K_SYNC_UINT_DEP128         latency:            84 clk (0.328 clk/warp)
  K_SYNC_UINT_DEP128         latency:            112 clk (0.438 clk/warp)
  K_SYNC_UINT_DEP128         latency:            116 clk (0.453 clk/warp)
  K_SYNC_UINT_DEP128         latency:            124 clk (0.484 clk/warp)
  K_SYNC_UINT_DEP128         latency:            304 clk (1.188 clk/warp)
  K_SYNC_UINT_DEP128         latency:            140 clk (0.547 clk/warp)
  K_SYNC_UINT_DEP128         latency:            326 clk (1.273 clk/warp)
  K_SYNC_UINT_DEP128         latency:            168 clk (0.656 clk/warp)
  K_SYNC_UINT_DEP128         latency:            386 clk (1.508 clk/warp)
  K_SYNC_UINT_DEP128         latency:            120 clk (0.469 clk/warp)
  K_SYNC_UINT_DEP128         latency:            184 clk (0.719 clk/warp)
Running register file test...
Max threads x regs/thread before kernel spawn failure.
  [512 x   4 =  2048]
  [512 x   8 =  4096]
  [512 x  12 =  6144]
  [512 x  16 =  8192]
  [512 x  20 = 10240]
  [512 x  24 = 12288]
  [512 x  28 = 14336]
  [512 x  32 = 16384]
  [512 x  36 = 18432]
  [512 x  40 = 20480]
  [512 x  44 = 22528]
  [512 x  48 = 24576]
  [512 x  52 = 26624]
  [512 x  56 = 28672]
  [512 x  60 = 30720]
  [512 x  64 = 32768]
  [512 x  68 = 34816]
  [512 x  72 = 36864]
  [512 x  76 = 38912]
  [512 x  80 = 40960]
  [512 x  84 = 43008]
  [512 x  88 = 45056]
  [512 x  92 = 47104]
  [512 x  96 = 49152]
  [512 x 100 = 51200]
  [512 x 104 = 53248]
  [512 x 108 = 55296]
  [512 x 112 = 57344]
  [512 x 116 = 59392]
  [512 x 120 = 61440]
  [512 x 124 = 63488]
  [512 x 128 = 65536]
回复 支持 反对

使用道具 举报

6#
发表于 2010-7-3 00:06 | 只看该作者
什么东东啊?
回复 支持 反对

使用道具 举报

7#
 楼主| 发表于 2010-7-3 00:33 | 只看该作者
这些是使用 ptx 指令执行的 5 种测试,其中有空 kernel、流水线吞吐/延迟、分歧等不同的测试项目,以上只是 microbenchmark 的一小部分测试结果。

要了解这些测试结果,你需要具备基本的电脑科学、计算机架构、CUDA 知识。
回复 支持 反对

使用道具 举报

8#
 楼主| 发表于 2010-7-11 11:43 | 只看该作者
Running (16 x 16 x 16) blocks of 512 empty threads: 91.146 ms

Running clock() test...
kclock:
   (3307087146, 3307087160): 14


kclock_test2: [10 blocks, 1 thread(s)/block]
kclock_test2: [30 blocks, 1 thread(s)/block]
  Block 00: start: 3307102296, stop: 3307104354
  Block 01: start: 3307102302, stop: 3307104360
  Block 02: start: 3307102306, stop: 3307104364
  Block 03: start: 3307102316, stop: 3307104374
  Block 04: start: 3307102290, stop: 3307104348
  Block 05: start: 3307102308, stop: 3307104366
  Block 06: start: 3307102312, stop: 3307104370
  Block 07: start: 3307102322, stop: 3307104380
  Block 08: start: 3301707744, stop: 3301709802
  Block 09: start: 3307102304, stop: 3307104362
  Block 00: start: 3307109036, stop: 3307111094
  Block 10: start: 3301714358, stop: 3301716418
  Block 20: start: 3307109054, stop: 3307111112
  Block 01: start: 3307109048, stop: 3307111106
  Block 11: start: 3307109032, stop: 3307111090
  Block 21: start: 3307109058, stop: 3307111116
  Block 02: start: 3307109052, stop: 3307111110
  Block 12: start: 3307109044, stop: 3307111102
  Block 22: start: 3301714284, stop: 3301716342
  Block 03: start: 3307109052, stop: 3307111110
  Block 13: start: 3307109048, stop: 3307111106
  Block 23: start: 3301714346, stop: 3301716404
  Block 04: start: 3307109030, stop: 3307111088
  Block 14: start: 3307109060, stop: 3307111118
  Block 24: start: 3301714362, stop: 3301716420
  Block 05: start: 3307109042, stop: 3307111100
  Block 15: start: 3301714282, stop: 3301716340
  Block 25: start: 3307109040, stop: 3307111098
  Block 06: start: 3307109046, stop: 3307111104
  Block 16: start: 3301714340, stop: 3301716400
  Block 26: start: 3301714278, stop: 3301716336
  Block 07: start: 3307109066, stop: 3307111124
  Block 17: start: 3301714356, stop: 3301716414
  Block 27: start: 3307109052, stop: 3307111110
  Block 08: start: 3301714280, stop: 3301716340
  Block 18: start: 3307109038, stop: 3307111096
  Block 28: start: 3301714344, stop: 3301716402
  Block 09: start: 3301714338, stop: 3301716396
  Block 19: start: 3307109050, stop: 3307111108
  Block 29: start: 3307109056, stop: 3307111114


Pipeline latency (512 dependent operations)
  mul:         10236 clk (19.992 clk/warp)

  K_ADD_UINT_DEP128         latency:            4094 clk (15.992 clk/warp)
  K_RSQRT_FLOAT_DEP128         latency:            19986 clk (78.070 clk/warp)
  K_ADD_DOUBLE_DEP128         latency:            9716 clk (37.953 clk/warp)

  K_ADD_UINT_DEP128         throughput:             4112 clk (31.875 ops/clk)
  K_RSQRT_FLOAT_DEP128         throughput:            20644 clk (6.349 ops/clk)
  K_ADD_DOUBLE_DEP128         throughput:            32776 clk (3.999 ops/clk)

  K_ADD_UINT_DEP128         latency:            4094 clk (15.992 clk/warp)
  K_SUB_UINT_DEP128         latency:            4094 clk (15.992 clk/warp)
  K_MAD_UINT_DEP128         latency:            5624 clk (21.969 clk/warp)
  K_MUL_UINT_DEP128         latency:            5116 clk (19.984 clk/warp)
  K_DIV_UINT_DEP128         latency:            72708 clk (284.016 clk/warp)
  K_REM_UINT_DEP128         latency:            72644 clk (283.766 clk/warp)
  K_MIN_UINT_DEP128         latency:            8700 clk (33.984 clk/warp)
  K_MAX_UINT_DEP128         latency:            8700 clk (33.984 clk/warp)
  K_ADD_UINT_DEP128         throughput:             4112 clk (31.875 ops/clk)
  K_SUB_UINT_DEP128         throughput:             4120 clk (31.814 ops/clk)
  K_MAD_UINT_DEP128         throughput:             8194 clk (15.996 ops/clk)
  K_MUL_UINT_DEP128         throughput:             8192 clk (16.000 ops/clk)
  K_DIV_UINT_DEP128         throughput:            81936 clk (1.600 ops/clk)
  K_REM_UINT_DEP128         throughput:            81374 clk (1.611 ops/clk)
  K_MIN_UINT_DEP128         throughput:             9788 clk (13.391 ops/clk)
  K_MAX_UINT_DEP128         throughput:            10236 clk (12.805 ops/clk)

  K_ADD_INT_DEP128         latency:            4094 clk (15.992 clk/warp)
  K_SUB_INT_DEP128         latency:            4094 clk (15.992 clk/warp)
  K_MAD_INT_DEP128         latency:            5624 clk (21.969 clk/warp)
  K_MUL_INT_DEP128         latency:            5116 clk (19.984 clk/warp)
  K_DIV_INT_DEP128         latency:            85446 clk (333.773 clk/warp)
  K_REM_INT_DEP128         latency:            81606 clk (318.773 clk/warp)
  K_MIN_INT_DEP128         latency:            8700 clk (33.984 clk/warp)
  K_MAX_INT_DEP128         latency:            8700 clk (33.984 clk/warp)
  K_ABS_INT_DEP128         latency:            8712 clk (34.031 clk/warp)
  K_ADD_INT_DEP128         throughput:             4112 clk (31.875 ops/clk)
  K_SUB_INT_DEP128         throughput:             4112 clk (31.875 ops/clk)
  K_MAD_INT_DEP128         throughput:             8194 clk (15.996 ops/clk)
  K_MUL_INT_DEP128         throughput:             8192 clk (16.000 ops/clk)
  K_DIV_INT_DEP128         throughput:            97366 clk (1.346 ops/clk)
  K_REM_INT_DEP128         throughput:            93058 clk (1.408 ops/clk)
  K_MIN_INT_DEP128         throughput:             9788 clk (13.391 ops/clk)
  K_MAX_INT_DEP128         throughput:            10134 clk (12.934 ops/clk)
  K_ABS_INT_DEP128         throughput:             9932 clk (13.197 ops/clk)

  K_ADD_FLOAT_DEP128         latency:            4094 clk (15.992 clk/warp)
  K_SUB_FLOAT_DEP128         latency:            4094 clk (15.992 clk/warp)
  K_MAD_FLOAT_DEP128         latency:            4604 clk (17.984 clk/warp)
  K_MUL_FLOAT_DEP128         latency:            4094 clk (15.992 clk/warp)
  K_DIV_FLOAT_DEP128         latency:            177690 clk (694.102 clk/warp)
  K_MIN_FLOAT_DEP128         latency:            9210 clk (35.977 clk/warp)
  K_MAX_FLOAT_DEP128         latency:            9210 clk (35.977 clk/warp)
  K_ADD_FLOAT_DEP128         throughput:             4114 clk (31.860 ops/clk)
  K_SUB_FLOAT_DEP128         throughput:             4120 clk (31.814 ops/clk)
  K_MAD_FLOAT_DEP128         throughput:             4878 clk (26.870 ops/clk)
  K_MUL_FLOAT_DEP128         throughput:             4112 clk (31.875 ops/clk)
  K_DIV_FLOAT_DEP128         throughput:           210164 clk (0.624 ops/clk)
  K_MIN_FLOAT_DEP128         throughput:             9754 clk (13.438 ops/clk)
  K_MAX_FLOAT_DEP128         throughput:             9262 clk (14.152 ops/clk)

  K_ADD_DOUBLE_DEP128         latency:            9716 clk (37.953 clk/warp)
  K_SUB_DOUBLE_DEP128         latency:            9716 clk (37.953 clk/warp)
  K_MAD_DOUBLE_DEP128         latency:            9886 clk (38.617 clk/warp)
  K_MUL_DOUBLE_DEP128         latency:            9716 clk (37.953 clk/warp)
  K_DIV_DOUBLE_DEP128         latency:            200596 clk (783.578 clk/warp)
  K_MIN_DOUBLE_DEP128         latency:            19444 clk (75.953 clk/warp)
  K_MAX_DOUBLE_DEP128         latency:            19444 clk (75.953 clk/warp)
  K_ADD_DOUBLE_DEP128         throughput:            32770 clk (4.000 ops/clk)
  K_SUB_DOUBLE_DEP128         throughput:            32778 clk (3.999 ops/clk)
  K_MAD_DOUBLE_DEP128         throughput:            32784 clk (3.998 ops/clk)
  K_MUL_DOUBLE_DEP128         throughput:            32766 clk (4.000 ops/clk)
  K_DIV_DOUBLE_DEP128         throughput:           260468 clk (0.503 ops/clk)
  K_MIN_DOUBLE_DEP128         throughput:            65552 clk (2.000 ops/clk)
  K_MAX_DOUBLE_DEP128         throughput:            65544 clk (2.000 ops/clk)

  K_AND_UINT_DEP128         latency:            4094 clk (15.992 clk/warp)
  K_OR_UINT_DEP128         latency:            4094 clk (15.992 clk/warp)
  K_XOR_UINT_DEP128         latency:            4094 clk (15.992 clk/warp)
  K_SHL_UINT_DEP128         latency:            4608 clk (18.000 clk/warp)
  K_SHR_UINT_DEP128         latency:            4608 clk (18.000 clk/warp)
  K_AND_UINT_DEP128         throughput:             4112 clk (31.875 ops/clk)
  K_OR_UINT_DEP128         throughput:             4120 clk (31.814 ops/clk)
  K_XOR_UINT_DEP128         throughput:             4112 clk (31.875 ops/clk)
  K_SHL_UINT_DEP128         throughput:             8240 clk (15.907 ops/clk)
  K_SHR_UINT_DEP128         throughput:             8240 clk (15.907 ops/clk)

  K_UMUL24_UINT_DEP128         latency:            9736 clk (38.031 clk/warp)
  K_MUL24_INT_DEP128         latency:            9736 clk (38.031 clk/warp)
  K_UMULHI_UINT_DEP128         latency:            5116 clk (19.984 clk/warp)
  K_MULHI_INT_DEP128         latency:            5116 clk (19.984 clk/warp)
  K_USAD_UINT_DEP128         latency:            5116 clk (19.984 clk/warp)
  K_SAD_INT_DEP128         latency:            5114 clk (19.977 clk/warp)
  K_UMUL24_UINT_DEP128         throughput:            11078 clk (11.832 ops/clk)
  K_MUL24_INT_DEP128         throughput:            11340 clk (11.558 ops/clk)
  K_UMULHI_UINT_DEP128         throughput:             8190 clk (16.004 ops/clk)
  K_MULHI_INT_DEP128         throughput:             8190 clk (16.004 ops/clk)
  K_USAD_UINT_DEP128         throughput:             8242 clk (15.903 ops/clk)
  K_SAD_INT_DEP128         throughput:             8242 clk (15.903 ops/clk)

  K_FADD_RN_FLOAT_DEP128         latency:            4094 clk (15.992 clk/warp)
  K_FADD_RZ_FLOAT_DEP128         latency:            4094 clk (15.992 clk/warp)
  K_FMUL_RN_FLOAT_DEP128         latency:            4094 clk (15.992 clk/warp)
  K_FMUL_RZ_FLOAT_DEP128         latency:            4094 clk (15.992 clk/warp)
  K_FDIVIDEF_FLOAT_DEP128         latency:            23806 clk (92.992 clk/warp)
  K_FADD_RN_FLOAT_DEP128         throughput:             4114 clk (31.860 ops/clk)
  K_FADD_RZ_FLOAT_DEP128         throughput:             4114 clk (31.860 ops/clk)
  K_FMUL_RN_FLOAT_DEP128         throughput:             4114 clk (31.860 ops/clk)
  K_FMUL_RZ_FLOAT_DEP128         throughput:             4114 clk (31.860 ops/clk)
  K_FDIVIDEF_FLOAT_DEP128         throughput:            31532 clk (4.157 ops/clk)

  K_DADD_RN_DOUBLE_DEP128         latency:            9716 clk (37.953 clk/warp)
  K_DADD_RN_DOUBLE_DEP128         throughput:            32778 clk (3.999 ops/clk)

  K_RCP_FLOAT_DEP128         latency:            74884 clk (292.516 clk/warp)
  K_SQRT_FLOAT_DEP128         latency:            72716 clk (284.047 clk/warp)
  K_RSQRT_FLOAT_DEP128         latency:            19986 clk (78.070 clk/warp)
  K_RCP_FLOAT_DEP128         throughput:            97038 clk (1.351 ops/clk)
  K_SQRT_FLOAT_DEP128         throughput:            80848 clk (1.621 ops/clk)
  K_RSQRT_FLOAT_DEP128         throughput:            21104 clk (6.211 ops/clk)

  K_SINF_FLOAT_DEP128         latency:            10746 clk (41.977 clk/warp)
  K_COSF_FLOAT_DEP128         latency:            10746 clk (41.977 clk/warp)
  K_TANF_FLOAT_DEP128         latency:            34304 clk (134.000 clk/warp)
  K_EXPF_FLOAT_DEP128         latency:            29186 clk (114.008 clk/warp)
  K_EXP2F_FLOAT_DEP128         latency:            25106 clk (98.070 clk/warp)
  K_EXP10F_FLOAT_DEP128         latency:            29186 clk (114.008 clk/warp)
  K_LOGF_FLOAT_DEP128         latency:            24078 clk (94.055 clk/warp)
  K_LOG2F_FLOAT_DEP128         latency:            19986 clk (78.070 clk/warp)
  K_LOG10F_FLOAT_DEP128         latency:            24078 clk (94.055 clk/warp)
  K_POWF_FLOAT_DEP128         latency:            31826 clk (124.320 clk/warp)
  K_SINF_FLOAT_DEP128         throughput:            16432 clk (7.977 ops/clk)
  K_COSF_FLOAT_DEP128         throughput:            16432 clk (7.977 ops/clk)
  K_TANF_FLOAT_DEP128         throughput:            49746 clk (2.635 ops/clk)
  K_EXPF_FLOAT_DEP128         throughput:            32074 clk (4.087 ops/clk)
  K_EXP2F_FLOAT_DEP128         throughput:            27028 clk (4.849 ops/clk)
  K_EXP10F_FLOAT_DEP128         throughput:            32042 clk (4.091 ops/clk)
  K_LOGF_FLOAT_DEP128         throughput:            26088 clk (5.024 ops/clk)
  K_LOG2F_FLOAT_DEP128         throughput:            20606 clk (6.361 ops/clk)
  K_LOG10F_FLOAT_DEP128         throughput:            26086 clk (5.025 ops/clk)
  K_POWF_FLOAT_DEP128         throughput:            37696 clk (3.477 ops/clk)

  K_INTASFLOAT_UINT_DEP128         latency:            5116 clk (19.984 clk/warp)
  K_FLOATASINT_FLOAT_DEP128         latency:            5116 clk (19.984 clk/warp)
  K_INTASFLOAT_UINT_DEP128         throughput:             8192 clk (16.000 ops/clk)
  K_FLOATASINT_FLOAT_DEP128         throughput:             8190 clk (16.004 ops/clk)

  K_POPC_UINT_DEP128         latency:            5624 clk (21.969 clk/warp)
  K_CLZ_UINT_DEP128         latency:            8706 clk (34.008 clk/warp)

  K_POPC_UINT_DEP128         throughput:             8194 clk (15.996 ops/clk)
  K_CLZ_UINT_DEP128         throughput:            10258 clk (12.778 ops/clk)

  K_ALL_UINT_DEP128         latency:            15394 clk (60.133 clk/warp)
  K_ANY_UINT_DEP128         latency:            15394 clk (60.133 clk/warp)
  K_SYNC_UINT_DEP128         latency:            58 clk (0.227 clk/warp)

  K_ALL_UINT_DEP128         throughput:            16462 clk (7.962 ops/clk)
  K_ANY_UINT_DEP128         throughput:            16462 clk (7.962 ops/clk)
  K_SYNC_UINT_DEP128         throughput:              112 clk (1170.286 ops/clk)


Pipeline latency/throughput with multiple warps (200 iterations of 256 ops)
  K_ADD_UINT_DEP128:
     1 warp  (  1 thr)    818800 clk (15.992 clk/warp, 0.063 ops/clk)   Histogram { (15: 200) }
     1 warp  (  2 thr)    818800 clk (15.992 clk/warp, 0.125 ops/clk)   Histogram { (15: 200) }
     1 warp  (  3 thr)    818800 clk (15.992 clk/warp, 0.188 ops/clk)   Histogram { (15: 200) }
     1 warp  (  4 thr)    818800 clk (15.992 clk/warp, 0.250 ops/clk)   Histogram { (15: 200) }
     1 warp  (  6 thr)    818800 clk (15.992 clk/warp, 0.375 ops/clk)   Histogram { (15: 200) }
     1 warp  (  8 thr)    818800 clk (15.992 clk/warp, 0.500 ops/clk)   Histogram { (15: 200) }
     1 warp  ( 16 thr)    818800 clk (15.992 clk/warp, 1.000 ops/clk)   Histogram { (15: 200) }
     1 warp  ( 24 thr)    818800 clk (15.992 clk/warp, 1.501 ops/clk)   Histogram { (15: 200) }
     1 warp  ( 32 thr)    818800 clk (15.992 clk/warp, 2.001 ops/clk)   Histogram { (15: 200) }
     2 warps ( 64 thr)    818800 clk (15.992 clk/warp, 4.002 ops/clk)   Histogram { (15: 400) }
     3 warps ( 96 thr)    819600 clk (15.995 clk/warp, 5.997 ops/clk)   Histogram { (15: 400) (16: 200) }
     4 warps (128 thr)    819202 clk (15.992 clk/warp, 8.000 ops/clk)   Histogram { (15: 799) (16: 1) }
     5 warps (160 thr)    819600 clk (15.992 clk/warp, 9.995 ops/clk)   Histogram { (15: 1000) }
     6 warps (192 thr)    819600 clk (15.992 clk/warp, 11.994 ops/clk)   Histogram { (15: 1200) }
     7 warps (224 thr)    820062 clk (15.993 clk/warp, 13.985 ops/clk)   Histogram { (15: 1307) (16: 93) }
     8 warps (256 thr)    820006 clk (15.992 clk/warp, 15.984 ops/clk)   Histogram { (15: 1591) (16: 9) }
     9 warps (288 thr)    820794 clk (15.996 clk/warp, 17.965 ops/clk)   Histogram { (15: 1209) (16: 591) }
    10 warps (320 thr)    820754 clk (15.996 clk/warp, 19.962 ops/clk)   Histogram { (15: 1129) (16: 871) }
    11 warps (352 thr)    821202 clk (15.997 clk/warp, 21.946 ops/clk)   Histogram { (15: 1021) (16: 1179) }
    12 warps (384 thr)    821198 clk (15.994 clk/warp, 23.942 ops/clk)   Histogram { (15: 1793) (16: 607) }
    13 warps (416 thr)    821592 clk (15.997 clk/warp, 25.924 ops/clk)   Histogram { (15: 1229) (16: 1371) }
    14 warps (448 thr)    821600 clk (15.998 clk/warp, 27.918 ops/clk)   Histogram { (15: 1051) (16: 1749) }
    15 warps (480 thr)    822914 clk (16.004 clk/warp, 29.865 ops/clk)   Histogram { (15: 773) (16: 2227) }
    16 warps (512 thr)    823598 clk (16.011 clk/warp, 31.829 ops/clk)   Histogram { (15: 203) (16: 2997) }


  K_MUL_FLOAT_DEP128         throughput:             4114 clk (31.860 ops/clk)
  K_MAD_FLOAT_DEP128         throughput:             4878 clk (26.870 ops/clk)

  KADD_MUL         throughput:             3364 clk (38.963 ops/clk)

  KADD_MUL2         throughput:        64 thrds      2300 clk (7.123 ops/clk)

++++++++++++++++++++++++++++++++++++++++++++++++++
  K_SYNC_UINT_DEP128         latency:            58 clk (0.227 clk/warp)
  K_SYNC_UINT_DEP128         latency:            60 clk (0.234 clk/warp)
  K_SYNC_UINT_DEP128         latency:            64 clk (0.250 clk/warp)
  K_SYNC_UINT_DEP128         latency:            64 clk (0.250 clk/warp)
  K_SYNC_UINT_DEP128         latency:            70 clk (0.273 clk/warp)
  K_SYNC_UINT_DEP128         latency:            70 clk (0.273 clk/warp)
  K_SYNC_UINT_DEP128         latency:            76 clk (0.297 clk/warp)
  K_SYNC_UINT_DEP128         latency:            76 clk (0.297 clk/warp)
  K_SYNC_UINT_DEP128         latency:            76 clk (0.297 clk/warp)
  K_SYNC_UINT_DEP128         latency:            78 clk (0.305 clk/warp)
  K_SYNC_UINT_DEP128         latency:            80 clk (0.312 clk/warp)
  K_SYNC_UINT_DEP128         latency:            84 clk (0.328 clk/warp)
  K_SYNC_UINT_DEP128         latency:            88 clk (0.344 clk/warp)
  K_SYNC_UINT_DEP128         latency:            92 clk (0.359 clk/warp)
  K_SYNC_UINT_DEP128         latency:            92 clk (0.359 clk/warp)
  K_SYNC_UINT_DEP128         latency:            96 clk (0.375 clk/warp)
Max threads x regs/thread before kernel spawn failure.
  [516 x   4 =  2064]
  [516 x   8 =  4128]
  [516 x  12 =  6192]
  [516 x  16 =  8256]
  [516 x  20 = 10320]
  [516 x  24 = 12384]
  [516 x  28 = 14448]
  [516 x  32 = 16512]
  [516 x  36 = 18576]
  [516 x  40 = 20640]
  [516 x  44 = 22704]
  [516 x  48 = 24768]
  [516 x  52 = 26832]
  [516 x  56 = 28896]
  [516 x  60 = 30960]
  [516 x  64 = 33024]
  [516 x  68 = 35088]
  [516 x  72 = 37152]
  [516 x  76 = 39216]
  [516 x  80 = 41280]
  [516 x  84 = 43344]
  [516 x  88 = 45408]
  [516 x  92 = 47472]
  [516 x  96 = 49536]
  [516 x 100 = 51600]
  [516 x 104 = 53664]
  [516 x 108 = 55728]
  [516 x 112 = 57792]
  [516 x 116 = 59856]
  [516 x 120 = 61920]
  [516 x 124 = 63984]
  [516 x 128 = 66048]
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-9-14 06:17

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表