【转帖】NVIDIA：CUDA要走进大学课堂；Intel：GPGPU没有未来，CUDA只是历史过客

Edison · 发表于 2008-7-3 11:12

原帖由 furtfans 于 2008-7-3 10:47 发表
做的还不够好啊～～局限太多太多了。比如GPU线程间的计算结果交换就是大问题。目前的HPC一个core一般拥有4～8个GB的内存。节点间的通讯量也是巨大的。HPC应用最多的还是工程计算领域。真正的巨型机诸如蓝色基因部署少之又少。Nv不能解决对主流工程计算软件的支持问题就没戏。
Nv貌似是三代换一次架构吧，G80-G92-GT200。我倒是真的很期待看一看Nv下一代架构是个什么样子。

Tesla架构是有64bit MMU的，CUDA本身也提供了shared memory、device memory、host memory等阶层内存模型的支持，Tesla 1070有4GB GDDR3 per GPU，total 16GB per node，408GB/s的带宽（这是CPU完全无法媲美的），如果你有更多的预算，可以提出定制。

Tesla的系统界面是两条PCIE 16X 2.0，每条的带宽是8GB/s各向，共计16GB/s，是InfiniBand QDR 4X的4倍。

我不清楚你说得主流工程计算软件是指哪些，如果还是指matlab的话，前面已经有提供相应的CUDA plug-in连接了。

这里有一些相应的应用介绍：
http://www.beyond3d.com/content/articles/107/2

kril · 发表于 2008-7-3 11:19

CUDA暂时只适合在一些需要高带宽的应用上，比如核爆

Edison · 发表于 2008-7-3 11:31

原帖由 kril 于 2008-7-3 11:19 发表
CUDA暂时只适合在一些需要高带宽的应用上，比如核爆

CUDA只是一个C的扩展，理论上所有的算法都能在上面实现，包括h264编码、游戏物理加速等大家常见的应用都已经有了相关软件。

Edison · 发表于 2008-7-3 14:03

NVIDIA 表示 Ansys 正在做一个 CUDA 的项目，不过应该还有段时间。

furtfans · 发表于 2008-7-3 16:56

MSC software,comsol,Ansys...很多很多。真想列能列出来几十个，cuda到现在这么长时间，工程领域没有一家支持的（有个原因是之前只支持单精度浮点）。现在能见到的大多是数学，物理计算，而且都是明显的高度并行化的。但也并不是简简单单的像写c一样写出来算法就完了，优化还要做很多很多。工作性质实在是有些类似MPI编程的程序员。类似CUDA的matlab，pathyon中的 parallel computing plug in实际上现在有一个极为成熟的解决方案，名字叫做star-p，cuda现阶段哪怕能跟这个东西小拼一下都是极为成功的。
另外，我说一个core占用4-8gb内存，一个gpu有多少“core”呢？上百个？而且问题的关键并不在带宽上，而是虽然GPU可以同时执行一大堆线程，但是每个线程能做的事情和CPU比起来都还显得太简单了，而且每个thread又能占有多少带宽呢？。如何将巨大复杂的问题变成如此并行化，对程序员来说都是噩梦，更不要说追求界面友善化的商业应用软件了。
在adams的一些多自由度运动分析中，超过256线程的求解相对256线程的求解速度已经近乎0增长在某些极端个例中甚至是负增长，比如多重受力，大量边界条件的模型。ansys也是类似的。其中一个原因就是因为线程拆的太过细小，以至于迭代次数暴增（在多自由度运动分析和有限元分析中，就是迭代迭代再迭代，直到满足要求精度为止）。所以，并行问题的拆分并不是拆的越细越好。
我并不是否定cuda，相反我确实认为这个东西是个巨大的革新。但如果单从硬件指标，比如带宽，线程数量等等来看待超级计算的应用的话那么局限性非常大。我们不能忽略并行问题本身的性质。而现在GPU能够处理的最好的就是本身被拆成非常多线程的数学基本问题，比如F傅立叶变换。但工程上仅仅应用傅立叶变换的场合是没有的，比如一个多自由度系统的模态分析，多物理场的耦合等等。
你说到的ansys的项目我刚刚没有查到，有的话相信也只是一个算例而已，应该不是一个可以立刻应用的插件。

我认为GPGPU计算要走的路还很长。它能够成功的重要条件就是使工程/科学工作者摒弃传统HPC。而做到这点必须对应用软件提供良好支持。CUDA的未来不是梦，只不过还年轻。

[ 本帖最后由 furtfans 于 2008-7-3 16:59 编辑 ]

furtfans · 发表于 2008-7-3 17:00

simwe关于gpgpu的讨论串居然没了，真不幸。。。不过有兴趣的可以去上超算的版块发贴问问专业HPC编程人员的意见。

[ 本帖最后由 furtfans 于 2008-7-3 17:07 编辑 ]

Edison · 发表于 2008-7-3 17:13

NVIDIA的CUDA forum有人扔了个这样的东西，我对python不熟悉，你可以试试看。
ftp://ftp.graviscom.de/pub/code/python-cuda

这是相关的讨论串：
http://forums.nvidia.com/index.php?showtopic=54496

还有人做了个PyCDUA：
http://forums.nvidia.com/index.php?showtopic=70067

I am happy to announce the availability of PyCuda, which is a Python wrapper around Cuda. What differentiates it from previous efforts?

Object cleanup is tied to lifetime of objects. This idiom, often called RAII in C++, makes it much easier to write correct, leak- and crash-free code. PyCuda knows about dependencies, too, so (for example) it wonâ

rtyou · 发表于 2008-7-3 18:36

原帖由 yngwie 于 2008-7-3 17:14 发表
CUDA 正所谓击中了游戏程序吃不透CPU性能的弱点推出的东西

CPU的能力狭义的全体现在了3DM 分数上了

不知所谓

帐号		自动登录	找回密码
密码			注册