POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
查看: 10403|回复: 4
打印 上一主题 下一主题

CUDA Nvcc 编译流程

[复制链接]
跳转到指定楼层
1#
发表于 2009-8-10 10:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
注:以下档案为转载:

如果你想了解Nvcc到底搞了什么鬼,究竟compute_xy sm_xy区别在哪里,ptx,cudabin
又是怎么嵌套到exe里面最终被驱动执行的,这一节正是你想要的知识。他将讲解每一个编
译的具体步骤,而且不光是知识,读者可以自己动手操作来体验这一个过程。他的用处不仅
在能够对CUDA的编译以及工作机制有更深的认识,而且可以进行高级debug,比如可以自
己手动进行ptx->cudabin的步骤等等。
参考:nvcc2.1.pdf 由于水平有限,错误部分欢迎大家留言指出
作者:insky(wenyao2009(at)gmail.com)
主页:www.gamecoding.cn
1. 一个编译例子
随意找一个包含kernel以及kernel调用的.cu文件,如x.cu。进入命令行:敲打nvcc–cuda
x.cu –keep 将得到如下结果,-cuda是将.cu编译成.cu.cpp-keep保留中间结果。(如果提示
找不到nvcc请在path中添加%cuda_bin_path%



打开.cu 文件所在目录(此处是ptx,你会惊讶的发现多出了一大堆文件,是的,很烦,
不过很快你将会喜欢上他们,因为他们把nvcc 的工作流程完美的记录下来了。好吧,那我
们开始吧。

2. Virtual architecture vs GPUfeature
首先定位到文件x.cu, x.ptx, x.sm_10.cubin这三个文件上来,他们按照下图流程依次生
成,x.cubin,x.ptx最终会被嵌套到x.cu.cpp 中。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
2#
 楼主| 发表于 2009-8-10 10:22 | 只看该作者
Virtual compute architecture对应nvcc的-arch 编译选项,他的值如下表所示。他的意思
是nvcc将针对哪个类型的virtual compute architecture生成ptx汇编代码。如果是compute_10
则x.cu 中无法使用atomic等不支持的操作,否则会出现编译错误。



Real sm architecture 指的是真实GPU的架构,这个选项对应于nvcc的-code编译选项,
他可以选的值如下表所示。他的意思是根据此目标GPU 架构将x.ptx 编译成x.cubin,一般
来说,Real sm architecture必须等于或者高于对应的Virtual compute architecture。比如:
Nvcc –cuda x.cu –arch compute_13 –code sm_10 是行不通的。



到这里,你或许会说“你讲错了吧”,nvcc-arch 选项可以取sm_13 呢,cudarule都这
么取的,没错,是可以怎么做,因为有些特殊机制的支持:
_ -code 可以有多个值,将生成多个版本的cubin,最终全部嵌套在exe中,见下节
_ -code 里面可以包含compute_xy,对应的ptx会被嵌套在exe中,见下节
_ 省略-arch,则自动选择最接近的
nvcc x.cu –code=sm_13 _ nvcc x.cu –arch=compute_13 –code=sm_13
_ 省略-code
nvcc x.cu –arch=sm_13 _ nvcc x.cu –arch=compute_13 –code=compute_13 sm_13
nvcc x.cu –arch=compute_10 _ nvcc x.cu –arch=compute_10 –code=compute_10
_ 省略-arch –code
nvcc x.cu _ nvcc x.cu –arch=compute_10 –code=sm_10

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回复 支持 反对

使用道具 举报

3#
 楼主| 发表于 2009-8-10 10:23 | 只看该作者
3. cubinptx是如何组织到exe中,又是如何被加载到驱动
中去的
好的,现在我们已经能够用-code –arch去控制nvcc生成对应virtual or gpu architecture
ptxcubin文件了。接下来我们讲更彻底去了解,这些ptx, cubin是怎么集中到exe中,
又是如何被执行的。打开x.cu.cpp,搜索“__deviceText_$compute_10$,找到了吗?没错,
这就是compute_10 下的PTX 代码的二进制形式,接着往下看,你可以找到
__deviceText_$sm_10$”,这是sm_10 下的cubin代码。好吧,再接着看吧:
static __cudaFatPtxEntry __ptxEntries []
static __cudaFatCubinEntry __cubinEntries[]
static __cudaFatDebugEntry __debugEntries[]
他们分别是ptx 数组,cubin 数组以及debug 数组,{00}结尾的原因不用多说了吧,
再找找__cudaFatPtxEntry在哪定的吧cuda2.1include__cudaFatFormat.h,好好的读一下这
个文件的说,你会长叹“你原来在这里”。OK,全文用如下:



本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回复 支持 反对

使用道具 举报

4#
 楼主| 发表于 2009-8-10 10:25 | 只看该作者
4. 回头来解决剩下的中间文件
nvcc是个编译驱动,他会调用很多cuda tools去完成个编译步骤,最调用
系统c/cpp编译(cl,gcc)以及。他的流程如下图所示:
1cudafe.exe去分host code, device code,生成.gpu
2nvopencc(我想应就是nvcc.exe完成的)编译.gpu.ptx
3ptxas.exe编译.ptx .cubin
4fatbin.exe编译.cubin .fatbin.c,最终集.cu.cpp或者.cu.c中。




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回复 支持 反对

使用道具 举报

5#
发表于 2009-9-4 06:19 | 只看该作者
Very good explanations! Thanks a lot!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-8-27 20:47

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表