您认为CUDA技术最终能让我们电脑发展走向GPGPU计算时代吗？[NVIDIA达人挑选赛]

tyro · 发表于 2009-7-16 19:56

220# 天魔

上述函数涉及到到超越函数运算，NV的GPU中每个SM好像有8个标量单元和两个超越函数运算，可能可以用硬件加速。也可以通用软件实现，就把超越函数通过变换成为有限次的4则运算，由乘法单元和加法单元实现。

天魔 · 发表于 2009-7-16 20:20

本帖最后由天魔于 2009-7-16 20:22 编辑

这不重要，那基本上是编译器如何使用SP和SFU的问题

只看该作者 · 发表于 2009-7-16 21:33

提示: 作者被禁止或删除内容自动屏蔽

只看该作者 · 发表于 2009-7-16 21:34

提示: 作者被禁止或删除内容自动屏蔽

whhwhhwhh · 发表于 2009-7-16 21:55

CUDA 是NV 一个抛砖引玉的“概念”，一个并行化的编程模型(软/硬件)，在一些计算密度极高的编程问题时可以发挥出极大的优势，例如设计到矩阵方面的运算，将一个大问题分解成N个相互独立的子问题，分别解决，如矩阵的 ...
tyro 发表于 2009-7-8 17:43

就像前面的XD说的Delphi一样,NV要维护起一个庞大的算法模型库,做到通用计算领域的4GL才有可能真正拥有话语权,但就是Delphi也...........这是一个相对高利润的领域,也是一个高投入的领域,作为通用计算,通用这二字就决定了开发效率是第一位的.

loveboa11 · 发表于 2009-7-17 13:33

CUDA是可能取代CPU的计算功能的
CUDA已经超越了通用的CPU 不论IU　或是AU
CUDA如此强大的芯片如果只是作为显卡GPU就太TM浪费了
NV推出的运算平台CUDA 虽然还是雏形希望能够在GPU的强大图形计算能力
能着力开发起一种效率更高的密集数据计算解决方案。

天魔 · 发表于 2009-7-17 13:36

G80和G200是存在严重缺陷的架构（对于GPGPU来说），其最多只能提供32位浮点数的支持，单这一点缺陷，就足以使其在图形以外的应用场合无人问津。
weihua8206 发表于 2009-7-16 19:37

你还是再看看CUDA的文档再说吧：

http://developer.download.nvidia ... mming_Guide_2.0.pdf

A.1.4 Specifications for Compute Capability 1.3
Support for double-precision floating-point numbers.

基于GT200或者说Tesla 10系列的NVIDIA 产品以及 AMD RV670、RV770、RV740都提供了对应IEEE 754标准的硬件双精度运算能力。

tomsmith123 · 发表于 2009-7-17 14:33

229# 天魔
GT200 系列是8个SP 配合1个DP模块，2个SFU，基本上，DP 的性能是单精度的不到1/8，ATI 的显卡好一点，双精度目前还不是GPU 能够显示力量的地方，包括未来的Larrabee。

weihua8206 · 发表于 2009-7-17 14:36

你还是再看看 CUDA 的文档再说吧：

http://developer.download.nvidia.com/compute/cuda/2_0/docs/NVIDIA_CUDA_Programming_Guide_2.0.pdf

A.1.4 Specifications for Compute Capability 1.3
Support fo ...
天魔发表于 2009-7-17 13:36

对方辩友还是好好做足功课再来引用吧：目前的G200芯片中只有一个流处理器能进行双精度运算，其运算效率很低，速度也远比不上CPU。GPGPU的卖点就是运算速度和效率，既没效率又没速度，空谈支持，恐怕英伟达的设计人员自己都不好意思提“Support for double-precision floating-point numbers”这句话。

对方辩友引用CUDA的缺点来论证己方论点，这不是自己往枪口上撞么？功课做得不到家哈

玉清 · 发表于 2009-7-17 14:57

CUDA是可能取代CPU的计算功能的
CUDA已经超越了通用的CPU 不论IU　或是AU
CUDA如此强大的芯片如果只是作为显卡GPU就太TM浪费了
NV推出的运算平台CUDA 虽然还是雏形希望能够在GPU的强大图形计算能力
能着力开 ...
loveboa11 发表于 2009-7-17 13:33

CUDA是不可能取代CPU计算功能的.
原因在之前已经说过很多～～～

也谈不上超越CPU之说..

天魔 · 发表于 2009-7-17 15:46

本帖最后由天魔于 2009-7-17 17:11 编辑

对方辩友还是好好做足功课再来引用吧：目前的G200芯片中只有一个流处理器能进行双精度运算，其运算效率很低，速度也远比不上CPU。GPGPU的卖点就是运算速度和效率，既没效率又没速度，空谈支持，恐怕英伟达的设计人员自己都不好意思提“Support for double-precisionfloating-point numbers”这句话。

对方辩友引用CUDA的缺点来论证己方论点，这不是自己往枪口上撞么？功课做得不到家哈
weihua8206 发表于 2009-7-17 14:36

这里整个讨论主题中没有做好功课或者说根本没做功课的恰恰是你。

首先你提出了GT200没有双精度运算，这点已经被我批驳掉了，而后tomsmith123说的"8个SP 配合1个DP模块"又被你歪曲成GT200只有一个流处理器能进行双精度运算，这说明你对GT200的体系架构甚至连CPU的体系架构都完全是处于匮乏的状态，所能做的帖子大部分都是没有丝毫正确的论据来支撑其论点。

GT200有30个MP，每个MP有8个单精度Stream Processor、一个双精度Stream Processor、两个SFU，每个Stream Processor周期GT200能完成30个DP MAD，Stream Processor的运算时钟在Tesla C1060上是1.296 Ghz，双精度运算性能是78GFLOPS。

而在RV770上，每个SIMD Core有16个Thread Processor，每个Thread Processor有5个单精度运算单元，即ALU[X,Y,Z,W]和ALU.T，其中的ALU[X,Y,Z,W]可以执行双精度运算，在RADEON HD 4870上能提供200GFLOPS级别的双精度运算性能。

有多种因素制约了GPU的性能发挥，例如内存容量。就拿跑Linpack为例，矩阵规模越大，性能就越可以接近峰值，Tesla C1060目前只有4GB，相比之下CPU只要内存槽足够，上个16GB也是轻而易举的事情，我在Core i7 920上使用gotoblas跑linpack，可以做到35GFLOPS左右，矩阵规模是25000x25000，至少6GB的内存，如果把矩阵规模缩小到4GB，这个测试值就会掉2GFLOPS以上，但是Nehalem是三通道，要达到最佳的带宽，理论上应该是三条通道的内存容量一致，那如果是3GB的话，下降到30GFLOPS一点也不奇怪。

如果用N=23040，在Core2 Q6850 + Tesla C1060上跑 HPL，效率是整体（CPU+GPU）双精度峰值性能的66%，如果N=32320（8GB+4GB可以达到的最高求解规模上限，新版本的CUDA可以实现每个MPI进程的 page-lock 内存超过4GB），就能达到72%。

还有像BLAS库的问题，在软件上这个可能更加重要，CUBLAS 2.0和CUBLAS 1.0相比就有非常显著的性能提升。

lifeofpc · 发表于 2009-7-17 16:40

功能上双方并不对立并且有相相辅相成的功效，所以会并存很长一段时间，直到集成度更高性能更优越的跨时代技术出现，双方目前的技术忽悠都玩完

tomsmith123 · 发表于 2009-7-17 18:57

233# 天魔
CUDA 的限制还是很多的。峰值的性能，一个MAD 是算两次计算的，一旦出现分支，性能会雪崩下降，而数据从PCIE 传送也是很重要的瓶颈。
双精度计算来说，很容易出现S1070 不如双路X5530的情况。

daytohi · 发表于 2009-7-17 19:37

本帖最后由 daytohi 于 2009-7-17 19:41 编辑

所谓的未来方向从来就没有准确的预言出来过

电子科技本来就在不断的发展提高

RoME仔 · 发表于 2009-7-17 21:21

绝对支持NVIDIA 的CUDA技术（1）

CUDA™是一种由NVIDIA推出的通用并行计算架构，该架构使GPU能够解决复杂的计算问题。它包含了CUDA指令集架构（ISA）以及GPU内部的并行计算引擎。开发人员现在可以使用C语言来为CUDA™架构编写程序，C语言是应用最广泛的一种高级编程语言。所编写出的程序于是就可以在支持CUDA™的处理器上以超高性能运行。将来还会支持其它语言，包括FORTRAN以及C++。

目前，支持CUDA的GPU销量已逾1亿，数以千计的软件开发人员正在使用免费的CUDA软件开发工具来解决各种专业以及家用应用程序中的问题。这些应用程序从视频与音频处理和物理效果模拟到石油天然气勘探、产品设计、医学成像以及科学研究，涵盖了各个领域。目前市面上已经部署了超过一亿颗支持CUDA的GPU，数以千计的软件开发人员正在使用免费的CUDA软件工具来为各种应用程序加速。

CUDA技术特点
用于GPU并行应用开发的标准C语言快速傅里叶转换（FFT）以及基本线性代数子程序（BLAS）的标准数字库专用CUDA驱动器，用于GPU和CPU之间快速数据传输计算 CUDA驱动程序与OpenGL和DirectX图形驱动程序可以实现互操作支持Linux 32/64位，Windows XP 32/64位以及Mac 操作系统
1.NVIDIA CUDA技术的发展，是GPU彻底的解放。以前GPU往往限制在处理单一图形图像的信息。但是CUDE的出现，使GPU有翻天覆地的变化，至今CUDE技术不仅运用在家用机器上面，而在运用在领域。

例子：

1.高光谱图像压缩的NVIDIA GPU

高光谱成像仪器能够收集数百个图像，相应的不同波长的渠道，对同一地区的地球表面。例如，美国航天局正在不断收集图像数据与文书，如喷气推进实验室的机载可见光，红外成像光谱仪（ AVIRIS ），能够记录的可见光和近红外光谱（波长区域从0.4到2.5微米）的反射光一个地区2日至12公里宽和几公里长，使用224谱带。由此产生的多层面的数据量通常包括若干金紫荆星章，每飞行。我们已经开发出一种高效率的计算方法，有损压缩的高光谱遥感图像，保留了有关资料分析，高光谱数据与亚像素精度。拟议的方法已得到执行，使用统一计算设备架构（ CUDA技术），对NVIDIA的GeForce 8800 GTX图形处理器，实现speedups的顺序26x相比，一个优化的执行相同的代码在一个双核CPU 。

2.稀疏矩阵向量GPU的产品

稀疏矩阵向量的产品（ SpMV ）是至高无上的行动中的工程和科学计算，因此，一直是话题的长期研究。不规则计算参与SpMV使其优化有挑战性。因此，巨大的努力一直致力于制定数据格式来存储稀疏矩阵的最终目的是最大限度地发挥效能。在图形处理单元（ GPU ）最近成为优秀的平台，产量加速因素。目前， SpMV实现对NVIDIA - GPU的已经出现在现场。这方面的工作建议和评价一个新的执行SpMV对GPU的基础上一个新的矩阵存储格式，所谓ELLPACK - R的，并比较它反对各种形式提出的其他地方。最重要的素质，这种新格式是：（ 1 ）没有预处理的稀疏矩阵的需要，和（ 2 ）所产生的SpMV算法是非常正常。比较评价这一新的SpMV方法进行了基于一批有代表性的测试矩阵。结果表明， SpMV做法的基础上ELLPACK - R的结果要优于以往战略迄今所使用。此外，与标准的国家，最先进的超标量处理器表明，显着加速的因素所取得的GPU 。

贵甲 · 发表于 2009-7-17 21:25

cuda或者类似架构在遇到分支或者其他并行度不高的情况必然效能会不高此类技术也只能在特定场所成为传统手段的补充如在向量处理较多的时候

Larrabee x86单纯在通用计算领域很可能比tesla还好，但在一般应用按照目前的情况肯定还是不如nvidia的同代的产品，也会只会活跃在某些专业领域

RoME仔 · 发表于 2009-7-17 21:26

本帖最后由 RoME仔于 2009-7-17 22:14 编辑

绝对支持NVIDIA 的CUDA技术（2）

2.被彻底解放的GPU比起现在中央处理器还要有强大的运算能力。强大的运算能力使使用NV显卡的用户坐享强大的3D技术。

例子：
1.GPUTop是topology Optimizer的CUDA技术启用图形卡。它是基于简单的方法标准，更新与优化的三个层面。线弹性是利用有限元离散的笛卡儿网格。该材料密度在不断假定每个元素。由此产生的系统解决了一个矩阵的共轭梯度法的GPU内部完全。

2.运行非结构网格的CFD的解决现代图形硬件

我们执行一项非结构网格的有限体积求解三维Euler方程的可压缩流动。我们描述优化策略，尽量减少采取uncoalesced内存访问，并实现高性能。我们认为，两个案件的空气动力学性能的基准。

RoME仔 · 发表于 2009-7-17 22:03

本帖最后由 RoME仔于 2009-7-17 22:15 编辑

绝对支持NVIDIA 的CUDA技术（3）

3.性能强大CUDA GPU运行能力使用户设计，操作，管理更加的得心应手，也体现CUDA的受欢迎程度。

例子：
GPU加速Monte Carlo模拟的Ising模型

计算统一设备架构（ CUDA技术）是一种编程的方式履行科学计算图形处理单元（ GPU ）作为一个数据并行计算的设备。首先，我们应用此新技术， Monte Carlo模拟的二维铁磁平方米晶格Ising模型。通过实施的一个变种的棋盘算法，结果得到了高达60倍的速度在GPU上，而不是目前的CPU核心。一个实施三维铁磁立方晶格Ising模型的GPU是能够产生结果高达35倍的速度比目前的CPU核心。由于概念证明我们计算的临界温度的二维和三维Ising模型采用有限大小缩放技术。理论成果的二维Ising模型和以往的模拟结果的三维Ising模型可以再现。

weihua8206 · 发表于 2009-7-17 22:19

本帖最后由 weihua8206 于 2009-7-17 22:47 编辑

这里整个讨论主题中没有做好功课或者说根本没做功课的恰恰是你。

首先你提出了GT200没有双精度运算，这点已经被我批驳掉了，而后tomsmith123说的"8个SP 配合1个DP模块"又被你歪曲成GT200只有一个流处理器能进 ...
天魔发表于 2009-7-17 15:46

这位朋友说的不错，我不是底层架构的程序员，对CPU和GPU的底层架构并不很关心，也不想花很大的时间精力去研究英伟达的芯片组里面的SP单元和DP模块是怎样协同运作的。

但请你注意一个事实：世界上绝大多数的应用软件编写者都是不熟悉底层架构的，程序员们并不会面向底层去进行开发，因为那样太繁琐，太缺乏效率！这世界变化很快，你要求程序员们每次看到新一代显卡出现，都去从架构开始去熟悉硬件，这是不可能的。

作为一个芯片设计人员，如果他认为程序员们连芯片内部的模拟门开关，三极管通断都应该了然于胸的时候，只能说明他太狂妄，太自我中心，最终结果只能是被芯片的使用者所抛弃。

所以，当面对CUDA的繁琐的API时，我第一个反映是：想骂人！

也许您会说我笨，好吧，我笨，我只会用MATLAB，VS.net开发一些简单的应用程序（反正不会比WORD简单多少= =|||），英伟达看不上、并且也不愿意尊重我这样的程序员是吧？如果我告诉你一些著名杀毒软件、媒体播放器、甚至USB板卡及其配套驱动也是我们这些程序员做出来的时候，你会怎样想呢？

“我们英伟达是老大，我们才看不上你，你爱用不用？我的东西计算快，就算只提供汇编接口，那些高级程序员也不得不用。我说的可不包括你们这些没文化的烂程序员哈。”你是不是想这样回答我？告诉你，一个脱离大众的人是注定要孤立的，一项被广大应用者诟病的技术是注定要消亡的！别陶醉在那些炫目的技术参数里了，你自己用过么？（用赵本山的话说：“你跺你也麻！——让你用CUDA做个大的项目，你也一样会骂设计者不是东西”）

以现在英伟达提供的CUDA来说，易用性远远不够，如果英伟达也像这位朋友一样的态度：“我们的东西用着就是难，用不明白一边呆着去！

”。那我们只能说：您自己好好玩CUDA去好了，我们就当你CUDA不存在了

。

RoME仔 · 发表于 2009-7-17 22:21

绝对支持NVIDIA 的CUDA技术（4）

4.通过期望最大化算法的高斯混合模型具体个案体现出CUDA技术的易用性，高效性，快速性。

他是一个CUDA技术实施期望最大化算法的高斯混合模型。在我的机器，它提供了性能提升与170x的CPU的参考版本。见该报告可在http://andrewharp.com/gmmcuda以获取更多信息

这是一个并行执行的期望最大化算法的高斯混合模型，旨在运行于NVIDIA显卡支持CUDA技术。 *在我的机器，它提供了性能提升与170x的CPU的参考版本。
见该报告的更多信息。
有趣的代码是在gpugaumixmod.h和gpugaumixmod_kernel.h 。提到CPU的执行情况列入cpugaumixmod.h 。
它可以被集成到任何C程序的CUDA技术使系统。此外， Matlab的一体化提供gmm.cu.
期望最大化是一个功能强大的方法收敛到一个地方的最高。 K -均值聚类是一种特殊情况，期望最大化高斯集群。

帐号		自动登录	找回密码
密码			注册

4DCGDEMO 该用户已被删除	223^# 中立发表于 2009-7-16 21:33 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
4DCGDEMO 该用户已被删除
	回复使用道具举报显身卡

4DCGDEMO 该用户已被删除	224^# 正方支持 0 发表于 2009-7-16 21:34 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
4DCGDEMO 该用户已被删除
	回复使用道具举报显身卡