原创：NVIDIA Fermi GPU架构简单解析.

玉清 · 发表于 2009-10-30 18:00

本帖最后由玉清于 2009-10-30 23:35 编辑

作者：玉清

在过去的几年中，GPU的发展产生了较大的变化，GPU强大的性能被局限于处理图形渲染的任务，无疑是对计算资源的浪费，随着GPU可编程能力不断提高，通用计算（GPGPU: General-purpose computing on graphics processing units）应运而生，目前已经取得部分显著成效，部分应用带来的性能提升也是非常可观.

在DirectX 10规范之前的GPGPU计算中，可编程的单元主要是顶点着色器和像素着色器，两者在物理上是分离的，数量也是固定的，一个程序要想发挥其最大性能有较大的编程难度。

最早的GPGPU的开发直接使用了图形学的API，将任务映射成纹理的渲染过程，使用汇编或者高级着色器语言Cg，HLSL等等）编写程序，然后通过图形学API执行（Direct3D和OpenGL），这样的开发不仅难度较大，程序优化也有很大难度，对开发人员的入门要求也是较高，因此，传统的GPGPU没有被广泛应用.

2007年6月，NVIDIA公司推出了CUDA，CUDA不需要借助图形学API，而是采用了类C语言进行开发。同时，CUDA的GPU采用了统一处理架构，以及引入了片内共享存储器，这大大降低了基于GPU的并行计算程式的开发难度。当然，开发人员仍然需要掌握并行算法和GPU架构相关的知识.

G80和GT200 GPU架构回顾：
最早推出的G80架构中，采用了128个SP(流处理单元Streaming Processor)，每8个SP组成一个SM（多流处理器Streaming Multiprocessors），每3个SM再组成一个TPC（ThreadProcessing Cluster，线程处理器群）.

注：在G80架构中，是两个SM组成一个TPC，而GT200中，是三个SM组成一个TPC.

G80里面有8个TPC，而GT200增加到了10个，其中，每个TPC内部还有一个纹理流水线.

而在AMD的RV770中，具有10个SIMD engine，每个SIMD engine中有16个SIMD Core，每个SIMD Core相当于一个5D ALU，RV770则共有160个，GT200中有240个1D ALU.

许多DIY爱好者称之SP为类似于CPU多核的”流处理器”，这个称呼严格的看起来存在不妥，把SM与CPU的核相比更加合适。和现在的CPU的核一样，SM也拥有独立的取指和调度单元构成的完整前端。SP 并不能算作独立的处理器核，它们具有独立的寄存器和指令指针，但是并没有取指和调度单元来构成完整前端.

CUDA 编程模型简述：

在 CUDA 的架构下，程式分为两个部份：host 和 device 。Host 是指在 CPU 上执行的部份，而 device 端则是在GPU上执行的部份。
Device 端的部分称之为"kernel"。通常 host 端程序会将数据准备好后，复制到显存中，再由GPU执行 device 端程序，完成后再由 host 端程序将结果从GPU中取回。

在CUDA架构下，线程的最小单元是thread，多个thread组成一个block，多个block再组成一个grid，不同block之前的thread不能读写同一shared memory共享内存，因此，block里面的thread之间的通信和同步所带来的开销是比较大的。

SM 以 32 个 Thread 为一组的 Warp 来执行 Thread。Warp内的线程是静态的，即在属于同一个warp内的thread之间进行通信，不需要进行栅栏同步(barrier)。

GT200中每个SM中有16KB的sharedmemory供8个SP共享，这也是GT200中线程中进行低延迟数据通信的唯一方法，因此地位至关重要。

但是16KB的shared memory可能对于某些程式来说偏小，所以Fermi在此作出了重大的改变。

简单解析Fermi：

Fermi的设计根据G80和GT200的架构作出的很多缺陷来改变。

在Fermi中，每个SM中的数量不再是GT200的8个SP，而是变成了32个SP，NVIDIA现在又称之为CUDA Core，总共具有16个SM，所以总共有512个SP。而在GT200中，是30个SM，240个SP。

至于Fermi为什么要做出一个SM内设计成32个SP，减少SM总数的这样的设计，目前还不明白是为什么，不过这样设计或许可以减少控制逻辑控制单元。

Fermi支持每一个block里面启动1536个线程。而在GT200，这一数量是512个。

同时，在GT200和G80中，都是用IEEE 754

玉清 · 发表于 2009-10-30 18:01

本帖最后由玉清于 2009-10-30 23:36 编辑

Fermi存储器改变：

刚才提到，G80和GT200中每个SM中有16KB的shared memory，这在Fermi已经做出了极大的改观。
有些程式根本就不会用到shared memory，它们需要的是缓冲来提高性能，而有的程式对16KB的shared memory实在难以满足，因此Fermi对此作出了改变。
Fermi具有64KB的共享存储器，这64KB的存储器可以作为48 KB的共享内存和16 KB的L1缓存，或者成为16 KB的共享内存和48 KB的L1缓存。

同时，Fermi也首次增加了768KB大小的L2缓存，可以提供所有的存储和纹理操作，L2缓存是和所有SM相通的。

Fermi增加了ECC功能，在大型集群和高可靠性领域中，ECC是一个重要的特性。这是业界第一款支持ECC校验的GPU。Fermi的寄存器，共享内存，L1和L2缓存以及显存DRAM都支持ECC校验，这增加了系统的可靠性。

同时，Fermi的原子操作能力大为提升，原子操作对于并行计算来说至关重要，Fermi增加了众多的原子操控单元，以及使用了L2 缓存，使得Fermi的原子操控大大提升。

多个Kernel并发执行和支持C++：

Fermi支持同一个程式中的多个Kernel同时执行在一个Ferimi架构的GPU上面，这提高了GPU的利用率。

像CPU一样，GPU也可以利用context的切换来管理多任务的切换，Fermi的pipeline经过优化设计，把context切换时间开销降低到了10-20ms，性能得到极大的提高，这大大的优化了Kernel-to-Kernel的程式.

对于C++的支持毫无疑问是一个让人激动的设计，Fermi和PTX2.0 ISA实现了统一寻址空间，可以统一寻址3种不同的内存地址（线程私有变量，block的共享内存和全局内存）来进行存/取操作。

统一地址空间的实现，让Fermi完全支持C++编程。在C++中，所有的变量和函数都在一个object中，通过指针访问。PTX2.0可以通过统一指针管理找到内存上的object，Fermi提供的硬件寻址方式可以自动的把指针对应到相应的物理地址。同时，Fermi同样提供C++虚函数(virtual function)，函式指针(function pointer)，new，delete，try，catch等等支持。

参考文献：

Whitepaper NVIDIA’s Next Generation CUDACompute Architecture: Fermi ---NVIDIA Corporation.
Fermi 白皮书中文翻译 v0.1版本-- NVIDIA Corporation/翻译：赵开勇
深入浅出谈CUDA.--作者:Hotball
NVIDIA's GT200--- Inside a ParallelProcessor --Dr.David Kanter
NVIDIA Fermi 体系架构技术预览---Edison Chen
GPU高性能运算之CUDA --张舒褚艳利赵开勇张钰勃
一些关于Fermi的集中问答--- hpctech.com 张舒

玉清 · 发表于 2009-10-30 18:02

本帖最后由玉清于 2009-10-30 23:37 编辑

本人小白，欢迎大家多多提出意见和建议，谢谢.

来力 · 发表于 2009-10-30 18:06

支持，技术帖

yamhill · 发表于 2009-10-30 18:13

强力支持原创技术贴

顶后再看

奶牛老仙 · 发表于 2009-10-30 18:16

提示: 作者被禁止或删除内容自动屏蔽

玉清 · 发表于 2009-10-30 18:17

6# 奶牛老仙

这是当然，我只是小白而已，比我强大那是肯定的.

奶牛老仙 · 发表于 2009-10-30 18:18

提示: 作者被禁止或删除内容自动屏蔽

玉清 · 发表于 2009-10-30 18:18

额？楼上的要表达什么意思？

yamhill · 发表于 2009-10-30 18:18

看来，费米将会是相当不错的FAH平台

希望能把GPU多任务的资源分配问题解决好

yamhill · 发表于 2009-10-30 18:36

额？楼上的要表达什么意思？
玉清发表于 2009-10-30 18:18

或许他对国内的学术腐败很悲观，恐怕认为参考文献都是那回事

yamhill · 发表于 2009-10-30 18:41

这个能算学术文章？

要能算的话，都是科学技术界的悲剧了c
Seraphlich 发表于 2009-10-30 18:39

我又没说这个是学术文章……

再说了，参考文献可以引用正式出版物、期刊文章甚至厂家的说明书，我初步感觉LZ的参考文献基本没有问题

玉清 · 发表于 2009-10-30 18:50

楼上的Seraphlich同学，我没空去JJYY饭A还是饭N的问题，市场的XX策略我也没心思和兴趣去关心。

我已经之前说过我只是小白而已，也没说过这算什么学术文章，假如是学术文章的话也犯不着在这里发了，假如对文章有任何意见和建议欢迎以礼貌的态度提出来，本人虚心接受。

玉清 · 发表于 2009-10-30 19:15

我是对yamhill 说的
Seraphlich 发表于 2009-10-30 19:13

呵呵，如有冒犯之处，请见谅。

yamhill · 发表于 2009-10-30 19:22

仔细看看，我并没有说谁什么啊？

一个说文献“哎”

一个问？

我说是人家大概对参考文献有疑问，

yamhill 说可能是对学术腐败导使人没信心了

我说这个不能算学术文章

仅这个意思而已，没有针对 ...
Seraphlich 发表于 2009-10-30 19:20

学术腐败，造成了氛围，现在你我都生活在这种氛围当中，出现某楼很正常

可是……我真没说玉清这文章是学术文章吖……他也说是小白文章

我个人认为，这个文章还是可以学学的

玉清 · 发表于 2009-10-30 19:28

额，对Seraphlich 同学和楼上的诸位同学感到抱歉，我自己一下子说话过了点，失礼，实在抱歉。

还请见谅。

感谢大家的理解和支持。

ktv123 · 发表于 2009-10-30 19:33

消费级关注的死性能与价格

yamhill · 发表于 2009-10-30 19:50

偶早不是同学啦~~~所以文章看了不少了
Seraphlich 发表于 2009-10-30 19:40

昵称嘛

philonb · 发表于 2009-10-30 20:04

感觉可以到学术期刊上发表了
偶行外的看不懂

yamhill · 发表于 2009-10-30 20:36

自由人士。
Seraphlich 发表于 2009-10-30 20:35

一样

帐号		自动登录	找回密码
密码			注册

奶牛老仙奶牛老仙当前离线积分 18 IP卡狗仔卡头像被屏蔽	6^# 发表于 2009-10-30 18:16 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
奶牛老仙奶牛老仙当前离线积分 18 IP卡狗仔卡头像被屏蔽
	回复支持反对使用道具举报显身卡

奶牛老仙奶牛老仙当前离线积分 18 IP卡狗仔卡头像被屏蔽	8^# 发表于 2009-10-30 18:18 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
奶牛老仙奶牛老仙当前离线积分 18 IP卡狗仔卡头像被屏蔽
	回复支持反对使用道具举报显身卡

原创：NVIDIA Fermi GPU架构简单解析.

浏览过的版块