POPPUR爱换

标题: 分析评论:NVIDIA、CUDA与x86 [打印本页]

作者: gf6600    时间: 2010-9-29 16:01
提示: 作者被禁止或删除 内容自动屏蔽
作者: goldman948    时间: 2010-9-29 16:36
废话连篇,nv推技术当然是为了自家产品,不然呢?
为啥intel不积极让havok支持gpu呢?
作者: yyzjp    时间: 2010-9-29 16:39
没接触过X86 CUDA
这个到底是个啥东东?@@@@@!!
作者: Edison    时间: 2010-9-29 16:42
没接触过X86 CUDA
这个到底是个啥东东?@@@@@!!
yyzjp 发表于 2010-9-29 16:39


可以把 CUDA C 程序编译为可以在 x86 处理上运行的途径之一。
作者: sleepyboy    时间: 2010-9-29 17:01
可以把 CUDA C 程序编译为可以在 x86 处理上运行的途径之一。
Edison 发表于 2010-9-29 16:42


我不理解的是,既然都加速了,建一个通道让程序运行在更慢的CPU上是为了什么?
作者: yyzjp    时间: 2010-9-29 17:07
可以把 CUDA C 程序编译为可以在 x86 处理上运行的途径之一。
Edison 发表于 2010-9-29 16:42



    CUDA 主要利用GPU强大的并行处理能力,GigaThread这些
为啥要让它跑在一个X86上面呢(最多只有8核心,16Thread)
作者: yyzjp    时间: 2010-9-29 17:11
难道真的像文章分析的那样,只是故意为了暴露CPU上跑CUDA很慢的弱点?

我觉得不是。肯定有更深层次的原因
作者: 结果    时间: 2010-9-29 17:11
浮点比CPU快但它有空吗?呵呵。主治大夫刀再好他忙死没空理你也白搭,还得剩下的有空的给你开,那就是多核CPU了
作者: 我爱宝宝    时间: 2010-9-29 17:13
看重了培养习惯的重要性
就如MS纵容盗版一样
作者: Edison    时间: 2010-9-29 17:31
我不理解的是,既然都加速了,建一个通道让程序运行在更慢的CPU上是为了什么?
sleepyboy 发表于 2010-9-29 17:01


这就涉及到程序开发的生态环境问题。

现在或者说之前的 CUDA kernel 程序除了 debug 仿真模式外,就只能运行于 GPU 上,程序开发员做出来的 CUDA C 程序拿到其他没有 CUDA 设备的电脑上就无法运行,这不仅仅是速度问题,而是根本跑不了。

如果 CUDA C 程序能在 x86 处理器上运行,即使速度较慢,也是能跑呀,而且 CUDA-x86 支持多处理器和 SIMD 扩展,速度慢不慢很大程度上取决于系统本身 CPU 性能和规模。
作者: iamspy    时间: 2010-9-29 17:39
我来说的通俗点吧。
一个软件需要20个程序员编个CUDA应用。可是CUDA开发机只有一台。以前只能每个人轮着到开发机上编译调试。现在每个人都可以在自己的电脑上编译调试了,区别只是执行效率不同。最后只需要到开发机上验证就行了。
各位明白了吗?
作者: e0ily    时间: 2010-9-29 17:59
技术帖搞不懂,不过以NV的市场地位,要推广怕也不容易吧?
作者: westlee    时间: 2010-9-29 18:15
提示: 作者被禁止或删除 内容自动屏蔽
作者: Edison    时间: 2010-9-30 00:29
支持 SSE 虽好,不过 SSE 本身缺乏一些 CUDA 的特性,例如硬件 gather、scatter(向量定址),甚至没有 masked execution,前者可以用 serial load/store 代替,但是 masked execution 难道要用 and/or 代替
作者: 开普勒    时间: 2010-9-30 00:36
很简单嘛,对于一些CPU+GPU组成的异构系统,为了发挥最大性能,就不需要给GPU写个CUDA版本同时给CPU写个x86版本了,直接一套CUDA程序搞定。CPU计算能力不及GPU,但服务器的CPU一般核心多,加上SSE优化的话,性能增加个百分之一二十还是可以的。
作者: 开普勒    时间: 2010-9-30 00:52
支持 SSE 虽好,不过 SSE 本身缺乏一些 CUDA 的特性,例如硬件 gather、scatter(向量定址),甚至没有 mas ...
Edison 发表于 2010-9-30 00:29


呃~~~E大,其实SSE有带mask的store的~~~
要实现mask execute,可以先把所有都计算然后用mask store保存结果就可以了。反正在SIMD下实现分支,ALU就是拿来浪费的。
没有gather/scatter就杯具一些~~~




欢迎光临 POPPUR爱换 (https://we.poppur.com/) Powered by Discuz! X3.4