NVIDIA TESLA K40C 12G DDR5 2880核心 高性能GPU运算卡
由于有大量的路径,此算法需要更多核心和更高的时钟速度来获得更显著的性能提升。
Xcelerit用两个系统来测试基准软件,规格如下:
| K20X System
| K40 System
| CPU
| 2 Intel Xeon E5-2677 (2.9GHz)
| 2 Intel Xeon E5-2670 (2.6GHz)
| GPU
| NVIDIA Tesla K20Xm
| NVIDIA Tesla K40m
| OS
| RHEL 6.2 (64bit)
| RHEL 6.2 (64bit)
| RAM
| 128GB
| 128GB
| GPU driver
| 319.72
| 319.58
| CUDA Toolkit
| 5.5
| 5.5
| Host Compiler
| GCC 4.4
| GCC 4.4
| 为了更好的比较,下表显示了K40对比K20X GPU在不同数量的路径下的加速比:
Paths
| Speedup (def. clock, single)
| Speedup (def. clock, double)
| Speedup (max. clock, single)
| Speedup (max. clock, double)
| 16K
| 1.15x
| 1.17x
| 1.21x
| 1.21x
| 256K
| 1.15x
| 1.17x
| 1.21x
| 1.26x
| 1024K
| 1.15x
| 1.18x
| 1.22x
| 1.28x
|
另有其他型号TESLA产品 M2070,C2070,C2075,M2090,K10,K20,K40 北京实体公司
联系人 温巍
QQ499686668
全新Tesla® K20 系列产品基于革命性的 NVIDIA® Kepler™ 计算架构,其中包括 NVIDIA® Tesla® 加速计算产品系列中的旗舰产品 Tesla® K20X 加速器。 K20X 的计算性能开创了单颗处理器史上最高纪录,在与领先的CPU 搭配使用时可令应用程序速度提升十倍。(2) 在两大常见计算性能衡量指标上,K20X 超过了所有其它处理器 – 单精度与双精度的峰值浮点性能分别为 3.95 Teraflops 和 1.31 Teraflops。 这一全新系列还包括 Tesla® K20 加速器,其单精度和双精度的峰值性能分别为 3.52 Teraflops 和 1.17 Teraflops。Tesla® K20X 与 K20 GPU 加速器标志着,在过去的三十天里已经实现了 30 Petaflops 以上的性能。这相当于去年十强超级计算机的计算性能总和。 苏黎世理工学院计算物理学教授兼瑞士国家超级计算中心总监 Thomas Schulthess 博士表示: “我们正在利用 NVIDIA® (英伟达™) GPU 架构来大幅加速诸多领域中的模拟,这些领域包括气候与气象学、地震学、天体物理学、流体力学、材料科学以及分子生物物理学。K20 系列加速器标志着计算方面在 NVIDIA® (英伟达™)上一代 Fermi 架构上实现了重大飞跃,该系列加速器不但提升了生产率,而且让我们有可能得出全新的深刻见解,这在之前是不可能实现的。” 基于开普勒大核心GK110、拥有71亿个晶体管的Tesla K20终于正式发布了,而且还有更高端的Tesla K20X。 Tesla K20X拥有十四组SMX、2688个流处理器,屏蔽了一组192个,但同时启用完整的384-bit显存位宽和1.5MB二级缓存,搭配6GB GDDR5。频率方面核心定在732MHz,浮点性能为单精度FP32 3.95TFlops、双精度FP64 1.31TFlops(这代3:1上代费米2:1),显存频率则是5.2GHz,带宽达249.6GB/s。 事实上,美国橡树岭国家实验室的新一代超级计算机“泰坦”里配备的就是Tesla K20X,而不是Tesla K20,只不过之前双方都口风甚紧,谁也没有明说。泰坦此番不仅成功登顶超算王者,拿下世界性能第一,还在能效上超越了半年前的绿色超算第一名。 Tesla K20又放弃了一组SMX和一个显存控制器,因此有2496个流处理器、320-bit位宽,显存容量5GB GDDR5,二级缓存也对应地减少到1.25MB。核心频率也略降至706MHz,因此浮点性能减少为单精度3.52TFlops、双精度1.17TFlops,而显存频率仍然是5.2GHz,带宽为208GB/s。 Tesla K20X的热设计功耗为235W,Tesla K20则降低到225W——别小看了这区区10W,225W正是绝大多数服务器和机柜所允许的扩展卡最大TDP,再高就需要定制了,AMD 375W的双芯型FirePro S10000就比较麻烦。二者都提供主动和被动散热,供客户选择。 相比之下,上一代费米架构的Tesla M2090/M2070Q只有30亿个晶体管、最多512个流处理器、384-bit 3.7GHz 6GB GDDR5显存,浮点性能最高单精度1.33TFlops、双精度655GFlops,热设计功耗最高250W。AMD FirePro S10000单精度高达5.91TFlops,双精度也有1.48TFlops,比之Tesla K20X分别高出50%、13%,但到了实际生态里显然还是Tesla更有优势。 NVIDIA tesla k40 现货
|