POPPUR爱换
标题:
英伟达 特斯拉 K20超算GPU 另有 K40
[打印本页]
作者:
zhangyu1112
时间:
2014-5-6 15:26
标题:
英伟达 特斯拉 K20超算GPU 另有 K40
(, 下载次数: )
上传
点击文件名下载附件
北京思腾创新科技 特斯拉运算卡北方区总代
联系人:张瑜 18210075131
Tesla K20
与
GK110
架构
NVIDIA
对
K20
的描述是
“3
倍双精度浮点性能
”
,并有
Hyper-Q
、
Dynamic Parallelism
等多种并行计算技术加持,这些是现有的
GK104
架构不具备的。
NVIDIA
的
PDF
资料中介绍了
GK110
的
SMX
架构,也是
192
个
CUDA
核心
必须要承认,以前泄露的有关
GK110
架构的消息是错误的,
GK110
的
SMX
架构其实跟
GK104
还是一样的,都是
192
个
CUDA
核心,
32
组
SFU
单元以及
32
个
LD/ST
单元。
GK110
架构图
除去其他的功能单元之外,
GK110
核心总共有
15
组
SMX
单元,
2880
个
CUDA
核心,
但是
Heise
声称并非所有单元都是启用的,实际上可能只有
13-14
组
SMX
单元,实际
CUDA
核心是
2496
或者
2688
个。
显存位宽是
384bit
,已为黄仁勋和
NVIDIA CTO
确认
。
由于
CUDA
核心数已经低于之前的报导,显存位宽降到
384bit
也是很自然的事,如果保持
GK104
的
6Gbps
显存速率,那么
GK110
的带宽将达到
288GB/s
,终于超过
AMD GCN
架构的
260GB /s
了。
NVIDIA
给出的
3
倍双精度浮点性能不知是跟
GF110
显卡还是跟
GF110
核心的
Tesla
加速卡做的比较,
GF110
的单精度浮点能力为
1.58TFLOPS
,显卡中的双精度为单精度的
1/ 4
,也就是
0.4TFLOPS
,但是
GF110
核心的
Tesla
卡双精度能力可达单精度
1/2
,大约是
0.8TFLOPS
。
如此一来,如果以显卡为基础,
GK110
的双精度浮点性能大约是
1.2TFLOPS
以上,如果是
Tesla
卡的
3
倍,那就是
2.4TFLOPS
以上,鉴于后者已经超出之前传闻的
2TFLOPS
的能力,
GK110
的双精度浮点能力应该是
1.2TFLOPS
或更高
。
Tesla K20
配置了
6pin+8pin
供电接口
核心面积和
TDP
未知,不过
K20
配备的是
6pin
和
8pin
供电接口,最大
TDP
不会超过
300W
。
晶体管数量也是一个
70
亿,准确点说是
71
亿。
◆
GK110
并行计算技术介绍
显卡规格方面的信息基本就是这么多了,再来看一下
NVIDIA
为
GK110
所增加的新技术吧。
Dynamic Parallelism
(动态并行)
GK110
架构的首要目标之一就是使程序员更方便地调用
GPU
强大的并行计算能力
。
传统的模式下,
GPU
每次操作都需要
CPU
的参与,而
Dynamic Paralleliom
的存在使得
GPU
接收数据时会动态刷新线程而无需
CPU
参与。
由于内核有了独立加载工作负载的能力,动态并行技术允许程序直接在
GPU
上运行。
这项技术的好处就是可以降低编程的复杂性,原本需要
200-300
行代码才能完成的工作在
GK110
显卡上只需要
30
行就可以了。
Hyper-Q
上一项技术强调的是简化操作,是给
CPU
减负,而
Hyper-Q
则是增加了
CPU
同时加载工作的核心数,是在提升
=
高
CPU
的利用率,避免
CPU
过多的闲置。
Fermi
架构中
CPU
只能同时运行一个
MPI
(
Message Passing Interface
消息传递接口)任务,但是在
GK110
架构中
CPU
同时运行的
MPI
任务数多达
32
个。
传统的
MPI
任务主要基于多核
CPU
应用,与
GPU
强大的并行计算能力相比,
CPU
处理的
MPI
任务量实在是太小了,往往会带来虚假的
GPU
依赖性,导致
GPU
的性能无法有效利用,
Hyper-Q
大幅提高了
CPU
可以分配给
GPU
的
MPI
任务量,如果同时传递
32
个任务给
GPU
,那么理论性能会达到
Fermi
架构的
32
倍,实际应用中虽然不会这么夸张,但是优化调度之后
GPU
的并行计算能力还是会有改善。
GPU Direct
GPU Direct
直连是
NVIDIA
官方
PDF
中没有提到的,不过依然值得解释一下。
NVIDIA
已经推出了基于
Kepler
架构的
GeForce GRID
云游戏技术,那么使用
Kepler
显卡的服务器就免不了要互相交换数据。
GPU Direct
技术可以让服务器的中不同显卡直接读取显存的数据,甚至不同服务器之间的显卡也可以通过网卡读取另一块显卡显存中的数据,简单来说就是提高了显卡的数据交换能力,所需的步骤更少,延迟更低。
CUDA 5
要想使用上面介绍的技术就必须使用新的
CUDA 5
,
GTC
大会上
NVIDIA
已经发布了一个预览版的
CUDA 5 SDK
,正式版将在今年三季度发布。
Kepler
显卡发布之后,
Tesla
家族也终于迎来架构更新,而且很快就会有更新架构的
Tesla
加速卡,得益于
GK104
良好的效能比,
NVIDIA
的
Tesla
加速卡也具备了这样的能力,性能更强的同时功耗更低。
新一代
GK110
架构重点针对
GPU
计算性能做了加强,双精度浮点能力提升到之前架构的三倍,并有动态并行、
Hyper-Q
、
GPU Direct
等技术辅助,无论是易用性还是性能都有明显改善,担当起
GPU
计算的光荣使命了。
欢迎光临 POPPUR爱换 (https://we.poppur.com/)
Powered by Discuz! X3.4