细看GPU通用运算的实际效能

流氓兔116 · 发表于 2006-10-16 19:07

上月底，ATi正式宣布了自己的流计算技术，并与斯坦福大学联手，利用自己的GPGPU架构进行Folding@Home分布式通用运算。利用最新Radeon GPU的48个像素着色单元，ATi GPU可提供375GFLOPS的运算能力和64GB/s的存储带宽，斯坦福大学也声称基于Radeon GPU的Folding@Home客户端要比基于CPU的客户端快20-40倍。

那么实际情况是否真的如此神乎其神呢？看看TechReport的实际测试。

TechReport在同一套系统上同时运行CPU版和GPU版Folding@Home数日，版本号分别是5.04和5.05，均为命令行版。测试配置包括：升技Fatal1ty AN8 32X主板、AMD Opteron 180 2.4GHz处理器、海盗船XMS PRO DDR-400 2GB内存、Radeon X1900XTX显卡。驱动程序为经过斯坦福广泛测试的催化剂6.5。

需要注意的是：第一，斯坦福官方文档称，GPU客户端应获得至少25％的CPU资源，实际测试中利用了双核心处理器，所以GPU分配到约50％；第二，暂时不支持CrossFire，所以只能用单块Radeon显卡。

系统运行5天后结果如下：

Radeon X1900XTX完成了8个工作单元，得分2640，而Opteron 180的一个核心只完成了6个工作单元，得分899，约为前者的三分之一；不过，如果Opteron的两个核心都全力运行CPU版客户端的话，就可以完成12个工作单元，1900分左右，Radeon GPU领先不到50％。

不管怎么说，GPU领先CPU的幅度远不到20-40倍。斯坦福对此也有解释，称GPU的实际工作要比CPU多很多，但二者的最终得分没有可比性，不能直接比较。斯坦福还表示将继续深入工作，改进GPU运算的记分体系。

既然运算效率上还不能直接比拼，下边就来看看功耗情况

显然，GPU运算要比CPU运算更耗电，即使CPU的两个核心都全速工作也比GPU省电10W。不过在另一方面，GPU的效率要高于CPU：CPU，185.6W得分1798，平均每瓦特9.7分；GPU，195.6W得分2640，平均每瓦特13.5分。有趣的是，在一套系统上同时运行CPU客户端和GPU客户端得分3539，耗电228W，平均每瓦特15.5分。

总之，根据斯坦福大学的说法，以上测试和得分只能作为一种参考，还不能完全反应GPU通用运算性能的真正实力。这里我们也期待斯坦福能尽快拿出相应的测试标准，以更好地衡量CPU和GPU的通用计算性能

Kayv · 发表于 2006-10-18 22:40

没优化好？还是没设计好？

帐号		自动登录	找回密码
密码			注册

细看GPU通用运算的实际效能

浏览过的版块