POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
楼主: Elvis
打印 上一主题 下一主题

您认为CUDA技术最终能让我们电脑发展走向GPGPU计算时代吗?[NVIDIA达人挑选赛]

[复制链接]
121#
发表于 2009-7-8 01:09 | 只看该作者
我很赞同AMD的价格战略+实用+主流市场战略,做生意毕竟不可能只靠几个发烧友来维持。
回复

使用道具 举报

122#
发表于 2009-7-8 07:46 | 只看该作者
用A卡的人这么多。。。 敢是他们于不顾那是会引起公愤的 呵呵
回复

使用道具 举报

123#
发表于 2009-7-8 10:29 | 只看该作者
电脑终端玩家的一切应用都是基于软件的,而软件都是由程序员来编写的。试想,如果没有程序员编写基于X86的软件,你买电脑来干啥?如果没有人使用DIRECTX编写游戏,那现在的显卡可能还停留在巫毒时代(那样的话GT ...
weihua8206 发表于 2009-7-7 22:55


这位仁兄的意思那些接口更不方便的OpenCL之类的

比CUDA Runtime API更底层的是根本没有存活之路了?
回复

使用道具 举报

124#
发表于 2009-7-8 11:58 | 只看该作者
反感纯技术层面的讨论 什么最大 市场最大 去月球的技术牛B吧?你100年去几次

希望大家从普及成本 使用成本 市场接受度 技术易用性去讨论 

讨论编程 屁意思没有
回复

使用道具 举报

125#
发表于 2009-7-8 12:01 | 只看该作者
看看很热闹 支持下中立
回复

使用道具 举报

126#
发表于 2009-7-8 12:05 | 只看该作者
Intel此前曾多次表示,其独立显卡产品Larrabee将在2009年底或2010年初发布,不过现在看来今年是没戏了:Intel确认,Larrabee将于2010年上半年推出。

根据德国c't Magazine的一份报告,Intel的Joseph Schultz在萨尔兰大学视觉计算研究院的成立典礼上表示,他们已经放弃了在今年发布Larrabee的计划,并坦承和NVIDIA、AMD进行竞争将是“非常严峻的挑战”,特别是AMD Radeon显卡现在的能效非常高。

Intel发言人Nick Knupffer确认了发布时间的延后,但拒绝透露更多细节。

Intel虽然已经展示过Larrabee的晶圆和核心照片,但始终不肯透露核心架构方面的资料,不过我们知道它源于1994年P54C核心的第二代奔腾处理器,低端型号至少8个x86核心,高端可能会超过32个,在2GHz频率下理论最大浮点运算能力2TFlops,超过1GHz的Radeon HD 4890。


看了以上新闻 你们有什么感想?

人家AMD在执行效率上让INTEL都感到害怕 你那些 CUDA PSX 有何意义
回复

使用道具 举报

Christ2002 该用户已被删除
127#
发表于 2009-7-8 14:18 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

128#
发表于 2009-7-8 14:34 | 只看该作者
其实辩题的两个观点都不成立 以后不会cuda独大 也不会单纯由amd和intel主导 而应该是三家都统一到opencl和Compute Shader下去 当然nv应该还是占据主导地位
回复

使用道具 举报

129#
发表于 2009-7-8 17:19 | 只看该作者
CUDA技术最终能让我们电脑发展走向GPGPU计算时代,当然,是经过漫长的斗争和进化之后。。。
回复

使用道具 举报

130#
发表于 2009-7-8 17:35 | 只看该作者
当前是利益决定了技术。
回复

使用道具 举报

131#
发表于 2009-7-8 17:43 | 只看该作者
CUDA 是NV 一个抛砖引玉的“概念”,一个并行化的编程模型(软/硬件),在一些计算密度极高的编程问题时可以发挥出极大的优势,例如设计到矩阵方面的运算,将一个大问题分解成N个相互独立的子问题,分别解决,如矩阵的线性运算,初等变换等等。在图像处理,音频,力学模型,天气系统,金融系统等等都很好的成效。 不过在算法的设计上要求程序员有一定的造诣,譬如要将一个串行算法设计成一个并行算法等,这常常要求编程人员比较熟悉各种算法和较好的数学基础。在解决过程中往往还要建立数学模型,这个增加了编程的门槛。

在效率方面,如果分解后的子过程的有较强的相关性则会严重影响性能,最差的情况为完全串行执行。譬如在在内核代码中的子过程有相关的话可能要进行线程互斥和同步等,从而不能达到较高的并行度。在编程中所谓的隐藏延时,实际上是一种提高并发度的思想(并发区别于并行)。

在CUDA模型中可以很好地体现了宏观上的并发性和微观上的并行性,凭借这个优势在解决相应的问题中有很高的效率。其实我想说“CUDA”是NV一个 抛砖引玉的“概念”,它体现了多处理机+多线程的概念。
回复

使用道具 举报

132#
发表于 2009-7-8 18:17 | 只看该作者
INTEL 的Larrabee 像是个 多个X86处理器的集合,它主要化简了每个X86核心的结构,然后将多个化简后的核心组织系一起,呵呵这里提出了个比较有趣的问题,就是把每个核心化简到什么程度?因为越简单的核心就可以融合更多的核心,越复杂的话核心数量就会减少,然而核心数量越多他们的协调效率却越低,如果在一定的技术规模,成本约束,功耗约束等基础上设定核心规模为X,核心数量为N, 他们的约束关系是G(X,N),总体性能为F(X,N)的MAX就是一个值得探讨的问题。如Larrabee 在约束下可能只能容纳10到数十个化简后的X86,然而,结构更加简单的GPU流处理器/流处理单元却可以做到上百到数百个。
回复

使用道具 举报

133#
发表于 2009-7-8 20:30 | 只看该作者
CUDA 是NV 一个抛砖引玉的“概念”,一个并行化的编程模型(软/硬件),在一些计算密度极高的编程问题时可以发挥出极大的优势,例如设计到矩阵方面的运算,将一个大问题分解成N个相互独立的子问题,分别解决,如矩阵的 ...
tyro 发表于 2009-7-8 17:43


CUDA是一种傻瓜式的架构,硬件并不能判断自己应该做什么,这种马蜂窝式的并行运算在处理非重复性复杂运算时就力不从心了。而且其最高只能支持32位浮点数运算,做为浮点处理器,如此之低的精度是绝对无法令人忍受的(用它算个类星体红移,误差能有个几千万光年,换你是物理学家你敢用这种处理器么)所以,这个架构是不成功的,不能代表GPGPU未来的发展方向。
回复

使用道具 举报

134#
发表于 2009-7-9 07:24 | 只看该作者
135# weihua8206

即使最高支持32bit也可以 处理大位数,譬如CPU就可以处理就是,这不单单依赖于硬件的数据表示,还涉及到软件层的数据结构。
回复

使用道具 举报

135#
发表于 2009-7-9 07:29 | 只看该作者
135# weihua8206

CUDA的一个优势就 尽量降低编程难度,像用户屏蔽硬件级的复杂性。
回复

使用道具 举报

136#
发表于 2009-7-9 07:51 | 只看该作者
135# weihua8206  

CUDA的一个优势就 尽量降低编程难度,像用户屏蔽硬件级的复杂性。
tyro 发表于 2009-7-9 07:29

阁下在说反话么?CUDA编程难度远远高于x86!
回复

使用道具 举报

137#
发表于 2009-7-9 08:02 | 只看该作者
本帖最后由 weihua8206 于 2009-7-11 11:58 编辑
135# weihua8206  

即使最高支持32bit也可以 处理大位数,譬如CPU就可以处理就是,这不单单依赖于硬件的数据表示,还涉及到软件层的数据结构。
tyro 发表于 2009-7-9 07:24


这位朋友显然对编程知之不多:

首先,目前的CPU是64位的(也许你在用奔四,但现在主流的CPU都已经是64位的)。而且并不是说64位的CPU最高只支持64位浮点数!CPU很灵活,程序员可以使用多个64位单元来表示一个浮点数,即使256位数据精度也是可以实现的。

反观CUDA,其架构最多支持32位浮点数(请注意,并不是说GPU是32位的),并且程序员是根本无法用其来处理大位数的(指令集就不支持,32位已经最高,你可以自己编写一大堆代码去拼凑拆解长浮点数。当然了,你这堆代码执行起来效率会非常低,运算起来速度相当于回到486时代)。这个精度远远不够。我曾经使用32位数编写过一个补偿算法算法,对单曲线进行一维拟合(这几乎算不上科学运算,很简单的算法),结果误差竟然高达2%。
回复

使用道具 举报

138#
发表于 2009-7-9 09:07 | 只看该作者
135# weihua8206  

CUDA的一个优势就 尽量降低编程难度,像用户屏蔽硬件级的复杂性。
tyro 发表于 2009-7-9 07:29


cuda目前最大的麻烦就是开发者需要很深刻的了解硬件级的复杂性才能写出一个比较通用的、高效的程序。

是很深刻了解,嗯。
回复

使用道具 举报

139#
发表于 2009-7-9 09:10 | 只看该作者
本帖最后由 arnew 于 2009-7-9 09:14 编辑
这位朋友显然对编程一无所知:

首先,目前的CPU是64位的(也许你在用奔四,但现在主流的CPU都已经是64位的)。而且并不是说64位的CPU最高只支持64位浮点数!CPU很灵活,程序员可以使用多个64位单元来表示一个 ...
weihua8206 发表于 2009-7-9 08:02


Intel里面还有几个128位的reg,应用于SSE指令,因此对很多运算SSE加速效果不错。

理论上说,GPU也可以用算法来达到高精度,但是相对CPU,带来的速度下降比较严重。特别是64位,因为64位计算单元少,效率是非常低的。
回复

使用道具 举报

Christ2002 该用户已被删除
140#
发表于 2009-7-9 09:35 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2024-4-20 03:49

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表