POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
查看: 1696|回复: 2
打印 上一主题 下一主题

斯坦福大学:ATI GPU具有最好的通用计算性能

[复制链接]
跳转到指定楼层
1#
发表于 2006-10-16 19:10 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
Beyond3d采访了Stanford大学的Mike Houston,讨论了ATi刚刚宣布的Folding@Home项目。Houston表示目前ATI芯片具有最好的GPGPU架构,同时他还透漏NVIDIA GPU进行通用运算的劣势所在。

Beyond3D:是不是X1K系列GPU的动态分支性能可以让你们真正挖掘R580(和R520)的GPGPU功能,特别是BrookGPU的GROMACS(分子动力学软件)。那么这种方式是否可以在当前其他的硬件上实现?除此之外,X1K还有哪些功能是GROMACS性能的关键?是否在fragment硬件中接近峰值性能?内存带宽如何?GROMACS的什么功能让芯片工作负荷严重?你们是如何挖掘芯片在该应用中的潜力的?

Mike Houston:所有的GPU都是SIMD,所以分支肯定会有相应的性能结果。我们仔细设计了代码,具有很高的分支统一性。代码严重依赖于shader中巨大的循环数目。对于ATi而言,循环和分支运算可以通过数学来处理。我们有很多数学计算。我们所运行的fragment shader非常接近所使用的指令顺序峰值。但是,我不能说分支就是该应用实现的关键。我认为是X1K令人难以置信的内存系统和线程设计使得它成为了最适合GPGPU的架构。这允许我们以接近峰值的速度运行fragment引擎。

ATi所能实现而NVIDIA却无法做到的原因是因为运行Folding代码需要在每个fragment中动态执行许多指令。而对于NVIDIA来说,在指令大于64K后,shader终止并在Color[0]->Color[3]中以R0->3退出。所以,对于NVIDIA显卡,我们必须执行多通道运算,这可能导致缓存崩溃并增加芯片外部带宽要求。

另外一个对我们很重要的是ATi硬件中纹理延迟隐藏的方式。通过数学计算,我们可以消除所有纹理读取的成本。我们可以在很宽范围内进行海量计算,我们可以在同一内存系统中驱动更多ALU。NVIDIA则无法隐藏纹理延迟率,更重要的是,即使发出一个float4取回命令也要花费4个周期。所以NVIDIA的成本=ALU+纹理+分支,而ATi则可以将GPGPU性能发挥到最好。

在当前NVIDIA硬件上运行代码还不可能,我们必须对代码做出巨大变化,即便如此,性能还是不理想。我们将关注NVIDIA的下一代架构并作出评估。ATi和NVIDIA的下一代芯片都引人注目。

斯坦福科研项目Folding@home先驱者Vijay Pande表示,他的团队还优化了GPU中心软件的运算法则,将让现有GPU速度再提高“10至15倍”。

另外Rage3d刊登了一些ATi显卡GPGPU性能信息:

●是常规GPU峰值性能的100倍。
●X1900XT运算性能为500 GFlops,相比而言Cell处理器只有220 GFlops,Core 2 Duo处理器更是只有25 GFlops。
●10000台配备X1900XT显卡的客户机性能相当于一台PetaFlop的超级计算机。
●目前支持X1900、X1950等级显卡,不久后就支持X1800。
●X1900XT folding时功耗为80W,比3D运算时还少 。

如果你有一款X1900显卡,有多余的处理资源,为什么不加入Folding@Home,为人类健康事业做出自己的贡献呢?

目前Folding@home进行中的研究:

阿兹海默症
癌症
亨廷顿病
成骨不全症
帕金森氏症
核糖体与抗生素

我们也同时期待NVIDIA、Intel、AMD等业内芯片厂商能够开发出类似的流运算技术,让计算机技术更直接地造福人类。
lhxz1219 该用户已被删除
2#
发表于 2006-10-17 00:24 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2024-5-5 01:11

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表