您认为CUDA技术最终能让我们电脑发展走向GPGPU计算时代吗？[NVIDIA达人挑选赛]

天魔 · 发表于 2009-7-17 15:46

本帖最后由天魔于 2009-7-17 17:11 编辑

对方辩友还是好好做足功课再来引用吧：目前的G200芯片中只有一个流处理器能进行双精度运算，其运算效率很低，速度也远比不上CPU。GPGPU的卖点就是运算速度和效率，既没效率又没速度，空谈支持，恐怕英伟达的设计人员自己都不好意思提“Support for double-precisionfloating-point numbers”这句话。

对方辩友引用CUDA的缺点来论证己方论点，这不是自己往枪口上撞么？功课做得不到家哈
weihua8206 发表于 2009-7-17 14:36

这里整个讨论主题中没有做好功课或者说根本没做功课的恰恰是你。

首先你提出了GT200没有双精度运算，这点已经被我批驳掉了，而后tomsmith123说的"8个SP 配合1个DP模块"又被你歪曲成GT200只有一个流处理器能进行双精度运算，这说明你对GT200的体系架构甚至连CPU的体系架构都完全是处于匮乏的状态，所能做的帖子大部分都是没有丝毫正确的论据来支撑其论点。

GT200有30个MP，每个MP有8个单精度Stream Processor、一个双精度Stream Processor、两个SFU，每个Stream Processor周期GT200能完成30个DP MAD，Stream Processor的运算时钟在Tesla C1060上是1.296 Ghz，双精度运算性能是78GFLOPS。

而在RV770上，每个SIMD Core有16个Thread Processor，每个Thread Processor有5个单精度运算单元，即ALU[X,Y,Z,W]和ALU.T，其中的ALU[X,Y,Z,W]可以执行双精度运算，在RADEON HD 4870上能提供200GFLOPS级别的双精度运算性能。

有多种因素制约了GPU的性能发挥，例如内存容量。就拿跑Linpack为例，矩阵规模越大，性能就越可以接近峰值，Tesla C1060目前只有4GB，相比之下CPU只要内存槽足够，上个16GB也是轻而易举的事情，我在Core i7 920上使用gotoblas跑linpack，可以做到35GFLOPS左右，矩阵规模是25000x25000，至少6GB的内存，如果把矩阵规模缩小到4GB，这个测试值就会掉2GFLOPS以上，但是Nehalem是三通道，要达到最佳的带宽，理论上应该是三条通道的内存容量一致，那如果是3GB的话，下降到30GFLOPS一点也不奇怪。

如果用N=23040，在Core2 Q6850 + Tesla C1060上跑 HPL，效率是整体（CPU+GPU）双精度峰值性能的66%，如果N=32320（8GB+4GB可以达到的最高求解规模上限，新版本的CUDA可以实现每个MPI进程的 page-lock 内存超过4GB），就能达到72%。

还有像BLAS库的问题，在软件上这个可能更加重要，CUBLAS 2.0和CUBLAS 1.0相比就有非常显著的性能提升。

lifeofpc · 发表于 2009-7-17 16:40

功能上双方并不对立并且有相相辅相成的功效，所以会并存很长一段时间，直到集成度更高性能更优越的跨时代技术出现，双方目前的技术忽悠都玩完

daytohi · 发表于 2009-7-17 19:37

本帖最后由 daytohi 于 2009-7-17 19:41 编辑

所谓的未来方向从来就没有准确的预言出来过

电子科技本来就在不断的发展提高

天魔 · 发表于 2009-7-18 00:53

本帖最后由天魔于 2009-7-18 12:14 编辑

这位朋友说的不错，我不是底层架构的程序员，对CPU和GPU的底层架构并不很关心，也不想花很大的时间精力去研究英伟达的芯片组里面的SP单元和DP模块是怎样协同运作的。

但请你注意一个事实：世界上绝大多数的应 ...weihua8206 发表于 2009-7-17 22:19

也不知道你到底明白没有，CUDA本身就是不需要你接触微架构细节（这部分NVIDIA隐藏得很深），只是你需要做性能优化的时候，才需要进一步了解并行化的元素。

简单地说，如果你要编译一个程序，你可以什么开关都不加，直接编译得了，但是如果需要进一步优化性能，你就可能需要在编译器后面加个-O3。但是编译器并不总是那么聪明，这个时候你就需要做一些程序上的优化，例如un-loop什么的。

不管你写什么程序，这些过程对CPU和GPU都是一样的，我不相信你写什么程序都不需要做调试。如果你做matlab的话，本身就需要知道在浮点运算的情况下，(A+B)+C的运算结果在有些情况下就无法等同于A+(B+C)，有些算式你就算用128位的精度，也不可能获得正确的运算结果，而这个误差为什么会造成，你是需要查阅处理器的浮点精度细节，这本身其实就是涉及到ISA，在这些过程中其实就很容易了解到微架构的大致情况。

长风 · 发表于 2009-7-18 02:11

241# weihua8206
插句嘴，觉得你有点放赖了。

NV绝对不会不努力让CUDA编程变得简单，绝对不会对你说你认为NV会说的话。

但是，目前来看，你并不如你的辩友了解CUDA编程则是事实，请正视。

长风 · 发表于 2009-7-18 02:12

241# weihua8206

另外，NV芯片的设计人员，他们会认为程序员应该了解门电路的开关通断吗？

你说话有点谱好不？

长风 · 发表于 2009-7-18 02:16

目前的CUDA编程环境，是NV在目前的硬件环境下在能力之内做出的最友好的，这一点难以否认吧。

CUDA编程的友好性缺陷，不是NV不想修正，是目前力所不能及。觉得还是不要把这个缺陷引申成为NV仇视程序员的结果吧。

pnweibin · 发表于 2009-7-18 02:28

不知道CUDA是啥东西，路过顺便进来看看。

tyro · 发表于 2009-7-18 13:24

CUDA 模型更像是一種CPU+GPU 模型,其中的設備也不一定是GPU或者是其他架構(或非X86架構),以便實現在CPU中調用某個在協作硬件中執行的函數,現在的設備大多數是GPU,據說以後還會添加CELL或者其他協作處理器.CPU雖然在通用性方面較好,但是在某些具體的算法模型上的欠缺效率,這樣"協作"處理器可以發揮較大的優勢.
在CUDA中,CPU執行"串行"代碼,然而,可以調用在設備(GPU)上執行的并行函數,做到相扶相稱的效果.

pollywen · 发表于 2009-7-18 17:59

中间实用派。。。。
N卡支持的游戏越多，那就换N卡。相反就换A卡。、。。

tyro · 发表于 2009-7-18 20:19

界面的友好程度也不一定影响到CUDA的高效性和功能的强大，例如现在C/C++语言的友好程度虽然比不上C#/JAVA等等，但是它的高效和功能强大是无可否认的，据说强大的cryengineII也是由C++开发的。

tyro · 发表于 2009-7-18 21:44

254# arnew

这样的复杂性存在也不为过，本人也是软件方向的，也接触不少编程的人，觉得较多编程的朋友（包括本人）太过讲专注力放在编程语言本身上面，方便性，友好性，忽略的它背后根本的东西：算法/和数学模型，还有就是一些基本的硬件知识。一普通受过训练的编程人员写一个XX应用系统基本不成问题，但是要他们实现一些较为常用基本算法，编译原理中的一些算法，图像处理，关于树和图论的一些算法等等就没多少人熟悉了。

肥羊王 · 发表于 2009-7-19 00:00

顶顶更健康

长风 · 发表于 2009-7-19 00:26

249# weihua8206

朋友，首先，我没有支持正方或反方观点，我是对你的思辨方法提出了异议。

首先，你说NV的芯片设计人员与程序员作对，故意令CUDA编程繁琐无比，并趾高气昂地说“爱用不用”云云，这与实际情况绝对不是夸张修饰的关系，这是不同性质的两种情形，你虚拟一种不可能存在的情形用以证明你的观点，似有不妥；
其次，我不是因为你不懂CUDA编程才对你质疑，我是因为你不仅不懂CUDA编程，你对CUDA编程根本就是敌视，对掌握一定CUDA编程的人根本没有一点起码的尊重，不仅对CUDA知识，乃至对本人，都没有；
再次，你所说前面一位用GOOGLE翻译的网友如何如何，一、如上所言，我不是因为你不懂CUDA编程，才如何如何；二、用GOOGLE翻译说明不了人家没看懂，也说明不了人家不懂CUDA编程，你扯上这个算是哪门子事？

帐号		自动登录	找回密码
密码			注册