CUDA Nvcc 编译流程

玉清 · 发表于 2009-8-10 10:19

注：以下档案为转载：

如果你想了解Nvcc到底搞了什么鬼，究竟compute_xy sm_xy区别在哪里，ptx,cudabin

又是怎么嵌套到exe里面最终被驱动执行的，这一节正是你想要的知识。他将讲解每一个编

译的具体步骤，而且不光是知识，读者可以自己动手操作来体验这一个过程。他的用处不仅

在能够对CUDA的编译以及工作机制有更深的认识，而且可以进行高级debug，比如可以自

己手动进行ptx->cudabin的步骤等等。

参考：nvcc2.1.pdf 由于水平有限，错误部分欢迎大家留言指出

作者：insky(wenyao2009(at)gmail.com)

主页：www.gamecoding.cn

1. 一个编译例子

随意找一个包含kernel以及kernel调用的.cu文件，如x.cu。进入命令行:敲打nvcc–cuda

x.cu –keep 将得到如下结果，-cuda是将.cu编译成.cu.cpp，-keep保留中间结果。（如果提示

找不到nvcc请在path中添加%cuda_bin_path%）

打开.cu 文件所在目录（此处是ptx）,你会惊讶的发现多出了一大堆文件，是的，很烦，

不过很快你将会喜欢上他们，因为他们把nvcc 的工作流程完美的记录下来了。好吧，那我

们开始吧。

2. Virtual architecture vs GPUfeature

首先定位到文件x.cu, x.ptx, x.sm_10.cubin这三个文件上来，他们按照下图流程依次生

成，x.cubin,x.ptx最终会被嵌套到x.cu.cpp 中。

玉清 · 发表于 2009-8-10 10:22

Virtual compute architecture对应nvcc的-arch 编译选项，他的值如下表所示。他的意思
是nvcc将针对哪个类型的virtual compute architecture生成ptx汇编代码。如果是compute_10
则x.cu 中无法使用atomic等不支持的操作，否则会出现编译错误。

Real sm architecture 指的是真实GPU的架构，这个选项对应于nvcc的-code编译选项，
他可以选的值如下表所示。他的意思是根据此目标GPU 架构将x.ptx 编译成x.cubin，一般
来说，Real sm architecture必须等于或者高于对应的Virtual compute architecture。比如：
Nvcc –cuda x.cu –arch compute_13 –code sm_10 是行不通的。

到这里，你或许会说“你讲错了吧”，nvcc的-arch 选项可以取sm_13 呢，cudarule都这

么取的，没错，是可以怎么做，因为有些特殊机制的支持：

_ -code 可以有多个值，将生成多个版本的cubin，最终全部嵌套在exe中，见下节

_ -code 里面可以包含compute_xy,对应的ptx会被嵌套在exe中，见下节

_ 省略-arch,则自动选择最接近的

nvcc x.cu –code=sm_13 _ nvcc x.cu –arch=compute_13 –code=sm_13

_ 省略-code

nvcc x.cu –arch=sm_13 _ nvcc x.cu –arch=compute_13 –code=compute_13 sm_13

nvcc x.cu –arch=compute_10 _ nvcc x.cu –arch=compute_10 –code=compute_10

_ 省略-arch –code

nvcc x.cu _ nvcc x.cu –arch=compute_10 –code=sm_10

玉清 · 发表于 2009-8-10 10:23

3. cubin，ptx是如何组织到exe中，又是如何被加载到驱动

中去的

好的，现在我们已经能够用-code –arch去控制nvcc生成对应virtual or gpu architecture

的ptx及cubin文件了。接下来我们讲更彻底去了解，这些ptx, cubin是怎么集中到exe中，

又是如何被执行的。打开x.cu.cpp，搜索“__deviceText_$compute_10$”,找到了吗？没错，

这就是compute_10 下的PTX 代码的二进制形式，接着往下看，你可以找到

“__deviceText_$sm_10$”，这是sm_10 下的cubin代码。好吧，再接着看吧：

static __cudaFatPtxEntry __ptxEntries []

static __cudaFatCubinEntry __cubinEntries[]

static __cudaFatDebugEntry __debugEntries[]

他们分别是ptx 数组，cubin 数组以及debug 数组，{0，0}结尾的原因不用多说了吧，

再找找__cudaFatPtxEntry在哪定义的吧cuda2.1include__cudaFatFormat.h，好好的读一下这

个文件的说明，你会长叹一声“你丫原来藏在这里”。OK，全文引用如下：

玉清 · 发表于 2009-8-10 10:25

4. 回头来解决剩下的中间文件

其实nvcc只是个编译器驱动，他会调用很多cuda tools去完成各个编译步骤，最后调用

系统的c/cpp编译器(cl,gcc)以及链接器。他的流程如下图所示：

1， cudafe.exe去分离host code, device code，生成.gpu等

2， nvopencc(我想应该就是nvcc.exe完成的)编译.gpu到.ptx

3， ptxas.exe编译.ptx 到.cubin

4， fatbin.exe编译.cubin 到.fatbin.c，最终集合到.cu.cpp或者.cu.c中。

xinran_aggie · 发表于 2009-9-4 06:19

Very good explanations! Thanks a lot!

帐号		自动登录	找回密码
密码			注册

CUDA Nvcc 编译流程

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

本帖子中包含更多资源

浏览过的版块