|
CUDA 做双精度计算已经是1/8 了,如果再做软件解决,微指令集软计算大致1/7,最后可能比CPU 还要慢很多。
其实目前CUDA 的理论峰值性能很大程度是虚的,一个MA 计算是两个OP,通用计算很难用MA 的,这就打了对折了,再考虑到SPMD MIMD 这样的模式,打折就更多了。
举个简单的例子,TSUBAME 增加了170台Tesla 1070,但是双精度Linpack 仅仅不到是10TFlops,折合一台1070 的贡献是58GFlops,相当于什么呢?要低于一个两路4核Xeon 的水平。 |
|