POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
楼主: Elvis
打印 上一主题 下一主题

您认为CUDA技术最终能让我们电脑发展走向GPGPU计算时代吗?[NVIDIA达人挑选赛]

[复制链接]
101#
发表于 2009-7-17 15:46 | 只看该作者
本帖最后由 天魔 于 2009-7-17 17:11 编辑
对方辩友还是好好做足功课再来引用吧:目前的G200芯片中只有一个流处理器能进行双精度运算,其运算效率很低,速度也远比不上CPU。GPGPU的卖点就是运算速度和效率,既没效率又没速度,空谈支持,恐怕英伟达的设计人员自己都不好意思提“Support for double-precisionfloating-point numbers”这句话。

对方辩友引用CUDA的缺点来论证己方论点,这不是自己往枪口上撞么?功课做得不到家哈
weihua8206 发表于 2009-7-17 14:36


这里整个讨论主题中没有做好功课或者说根本没做功课的恰恰是你。

首先你提出了GT200没有双精度运算,这点已经被我批驳掉了,而后tomsmith123说的"8个SP 配合1个DP模块"又被你歪曲成GT200只有一个流处理器能进行双精度运算,这说明你对GT200的体系架构甚至连CPU的体系架构都完全是处于匮乏的状态,所能做的帖子大部分都是没有丝毫正确的论据来支撑其论点。

GT200有30个MP,每个MP有8个单精度Stream Processor、一个双精度Stream Processor、两个SFU,每个Stream Processor周期GT200能完成30个DP MAD,Stream Processor的运算时钟在Tesla C1060上是1.296 Ghz,双精度运算性能是78GFLOPS。

而在RV770上,每个SIMD Core有16个Thread Processor,每个Thread Processor有5个单精度运算单元,即ALU[X,Y,Z,W]和ALU.T,其中的ALU[X,Y,Z,W]可以执行双精度运算,在RADEON HD 4870上能提供200GFLOPS级别的双精度运算性能。

有多种因素制约了GPU的性能发挥,例如内存容量。就拿跑Linpack为例,矩阵规模越大,性能就越可以接近峰值,Tesla C1060目前只有4GB,相比之下CPU只要内存槽足够,上个16GB也是轻而易举的事情,我在Core i7 920上使用gotoblas跑linpack,可以做到35GFLOPS左右,矩阵规模是25000x25000,至少6GB的内存,如果把矩阵规模缩小到4GB,这个测试值就会掉2GFLOPS以上,但是Nehalem是三通道,要达到最佳的带宽,理论上应该是三条通道的内存容量一致,那如果是3GB的话,下降到30GFLOPS一点也不奇怪。

如果用N=23040,在Core2 Q6850 + Tesla C1060上跑 HPL,效率是整体(CPU+GPU)双精度峰值性能的66%,如果N=32320(8GB+4GB可以达到的最高求解规模上限,新版本的CUDA可以实现每个MPI进程的 page-lock 内存超过4GB),就能达到72%。

还有像BLAS库的问题,在软件上这个可能更加重要,CUBLAS 2.0和CUBLAS 1.0相比就有非常显著的性能提升。
回复

使用道具 举报

102#
发表于 2009-7-17 16:40 | 只看该作者
功能上双方并不对立并且有相相辅相成的功效,所以会并存很长一段时间,直到集成度更高性能更优越的跨时代技术出现,双方目前的技术忽悠都玩完
回复

使用道具 举报

103#
发表于 2009-7-17 19:37 | 只看该作者
本帖最后由 daytohi 于 2009-7-17 19:41 编辑

所谓的未来方向从来就没有准确的预言出来过

电子科技本来就在不断的发展提高
回复

使用道具 举报

104#
发表于 2009-7-18 00:53 | 只看该作者
本帖最后由 天魔 于 2009-7-18 12:14 编辑
这位朋友说的不错,我不是底层架构的程序员,对CPU和GPU的底层架构并不很关心,也不想花很大的时间精力去研究英伟达的芯片组里面的SP单元和DP模块是怎样协同运作的。

但请你注意一个事实:世界上绝大多数的应 ...weihua8206 发表于 2009-7-17 22:19


也不知道你到底明白没有,CUDA本身就是不需要你接触微架构细节(这部分NVIDIA隐藏得很深),只是你需要做性能优化的时候,才需要进一步了解并行化的元素。

简单地说,如果你要编译一个程序,你可以什么开关都不加,直接编译得了,但是如果需要进一步优化性能,你就可能需要在编译器后面加个-O3。但是编译器并不总是那么聪明,这个时候你就需要做一些程序上的优化,例如un-loop什么的。

不管你写什么程序,这些过程对CPU和GPU都是一样的,我不相信你写什么程序都不需要做调试。如果你做matlab的话,本身就需要知道在浮点运算的情况下,(A+B)+C的运算结果在有些情况下就无法等同于A+(B+C),有些算式你就算用128位的精度,也不可能获得正确的运算结果,而这个误差为什么会造成,你是需要查阅处理器的浮点精度细节,这本身其实就是涉及到ISA,在这些过程中其实就很容易了解到微架构的大致情况。
回复

使用道具 举报

105#
发表于 2009-7-18 02:11 | 只看该作者
241# weihua8206
插句嘴,觉得你有点放赖了。

NV绝对不会不努力让CUDA编程变得简单,绝对不会对你说你认为NV会说的话。

但是,目前来看,你并不如你的辩友了解CUDA编程则是事实,请正视。
回复

使用道具 举报

106#
发表于 2009-7-18 02:12 | 只看该作者
241# weihua8206

另外,NV芯片的设计人员,他们会认为程序员应该了解门电路的开关通断吗?

你说话有点谱好不?
回复

使用道具 举报

107#
发表于 2009-7-18 02:16 | 只看该作者
目前的CUDA编程环境,是NV在目前的硬件环境下在能力之内做出的最友好的,这一点难以否认吧。

CUDA编程的友好性缺陷,不是NV不想修正,是目前力所不能及。觉得还是不要把这个缺陷引申成为NV仇视程序员的结果吧。
回复

使用道具 举报

108#
发表于 2009-7-18 02:28 | 只看该作者
不知道CUDA是啥东西,路过顺便进来看看。
回复

使用道具 举报

109#
发表于 2009-7-18 13:24 | 只看该作者
CUDA 模型更像是一種CPU+GPU 模型,其中的設備也不一定是GPU或者是其他架構(或非X86架構),以便實現在CPU中調用某個在協作硬件中執行的函數,現在的設備大多數是GPU,據說以後還會添加CELL或者其他協作處理器.CPU雖然在通用性方面較好,但是在某些具體的算法模型上的欠缺效率,這樣"協作"處理器可以發揮較大的優勢.
在CUDA中,CPU執行"串行"代碼,然而,可以調用在設備(GPU)上執行的并行函數,做到相扶相稱的效果.
回复

使用道具 举报

110#
发表于 2009-7-18 17:59 | 只看该作者
中间实用派。。。。
N卡支持的游戏越多,那就换N卡。相反就换A卡。、。。
回复

使用道具 举报

111#
发表于 2009-7-18 20:19 | 只看该作者
界面的友好程度也不一定影响到CUDA的高效性和功能的强大,例如现在C/C++语言的友好程度虽然比不上C#/JAVA等等,但是它的高效和功能强大是无可否认的,据说强大的cryengineII也是由C++开发的。
回复

使用道具 举报

112#
发表于 2009-7-18 21:44 | 只看该作者
254# arnew

这样的复杂性存在也不为过,本人也是软件方向的,也接触不少编程的人,觉得较多编程的朋友(包括本人)太过讲专注力放在 编程语言本身上面,方便性,友好性,忽略的它背后根本的东西:算法/和数学模型,还有就是一些基本的硬件知识。一普通受过训练的编程人员写一个XX应用系统基本不成问题,但是要他们实现一些较为常用基本算法,编译原理中的一些算法,图像处理,关于树和图论的一些算法等等 就没多少人熟悉了。
回复

使用道具 举报

113#
发表于 2009-7-19 00:00 | 只看该作者
顶顶更健康
回复

使用道具 举报

114#
发表于 2009-7-19 00:26 | 只看该作者
249# weihua8206

朋友,首先,我没有支持正方或反方观点,我是对你的思辨方法提出了异议。

首先,你说NV的芯片设计人员与程序员作对,故意令CUDA编程繁琐无比,并趾高气昂地说“爱用不用”云云,这与实际情况绝对不是夸张修饰的关系,这是不同性质的两种情形,你虚拟一种不可能存在的情形用以证明你的观点,似有不妥;
其次,我不是因为你不懂CUDA编程才对你质疑,我是因为你不仅不懂CUDA编程,你对CUDA编程根本就是敌视,对掌握一定CUDA编程的人根本没有一点起码的尊重,不仅对CUDA知识,乃至对本人,都没有;
再次,你所说前面一位用GOOGLE翻译的网友如何如何,一、如上所言,我不是因为你不懂CUDA编程,才如何如何;二、用GOOGLE翻译说明不了人家没看懂,也说明不了人家不懂CUDA编程,你扯上这个算是哪门子事?
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2024-4-28 17:37

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表