POPPUR爱换

标题: 当前最强显卡计算平台4*GTX295开机照及评测(22图) [打印本页]

作者: intel2k 时间: 2009-5-17 17:09
标题: 当前最强显卡计算平台4*GTX295开机照及评测(22图)
本帖最后由 intel2k 于 2009-5-17 21:52 编辑

关注CUDA编程有一段时间了，越来越发现这确实是个好东西。在代码充分优化的情况下，利用显卡计算可以获得远高于CPU的运算性能。以前CUDA编程用的是一台配9800gt显卡的机器，性能已经比较落后了，因此最近打算配一台新的机器。几经考虑，最后决定上4*GTX295平台。由于目前SLI技术不支持4块295，因此这样的配置对于游戏玩家来说可能没什么用，但是对于CUDA计算来说这却是绝佳的利器。4块GTX295拥有1920个流处理器核心，单精度浮点峰值性能接近8个TFlops，是当前最强的单机CUDA显卡计算平台。目前国外采用这样的配置已经很多了，但国内还不多见，至少网上未看到过相关评测，不知道本文算不算是4*GTX295平台的国内首测。

要配出这样一台极限配置的机器还真是不容易，遇到了不少困难。前段时间曾经到本论坛咨询过有关主板和机箱方面的一些问题，得到了不少热情的答复，在此表示感谢！

经过了一段时间的准备，机器终于配好了，最终定下来的配置是：

主板: 华擎 X58 SuperComputer *1
CPU: intel i7 920(盒) *1
显卡: 索泰GTX295极速版 *4
内存: 金士顿 DDR3 1333 2G*6
硬盘: 希捷7200.12 500G *1
电源: Tt ToughPower 1500W *1
机箱: 高塔式服务器机箱 *1

整机照：
[attach]1051701[/attach]

后面板：
[attach]1051693[/attach]

由于一般的机箱后面只有7个扩展槽挡板位，上不了4块295，所以在机箱选取方面也动了不少脑筋。最后采用的是一款杂牌加大号服务器机箱。这款机箱比一般的高塔式机箱还要大一些，整机加上底部的轮子尺寸大约是80cm*50cm*20cm。机箱内部空间很大，而且价格很便宜，只要大约400，不过做工和用料就比较一般了。

打开机箱：
[attach]1051691[/attach]

[attach]1051690[/attach]

可以看到机箱左右方向的确宽敞，在两侧还有不少空间。

采用的主板是华擎X58 SuperComputer，这块主板似乎是目前市面上唯一能找到的支持4块295的X58主板，有4根互不相邻的PCIe X16插槽。美中不足的就是上满4块显卡时X16插槽只能工作在X8状态，这对内存带宽敏感型的程序会造成一定影响。此外有一点需要注意的是华擎这款主板的BIOS有bug，必须升级到1.60版以后才能正常支持4块295。此外，华硕的P6t7 WS SuperComputer主板也可以上4块295，并且支持4块显卡同时工作在X16状态，可惜这款主板目前市面上还没货，并且价格据说非常贵。

CPU采用的是i7 920，加上超线程有8个逻辑核心，正好可以和4块GTX295的8个GPU一一对应，基本上应该够用了。内存方面采用的是普通DDR3 1333内存，在多GPU并行计算时不知是否存在瓶颈，相关测试还没来得及做。

电源采用的是TT 1500W。这款电源考虑了4块高功率显卡的供电要求，提供了4个8pin和4个6pin显卡供电接口，给4块295供电接口刚好够用。功率方面，据国外评测4块295全负荷工作时整机功率大约1200W，因此1500W的功率应该够用了。

电源特写：
[attach]1051692[/attach]

显卡方面采用的是4块索泰GTX295极速版。目前295都是公版设计，各品牌应该都差不多。

显卡特写：
[attach]1051699[/attach]

[attach]1051700[/attach]

[attach]1051698[/attach]

4块295一共有8个GPU。开机进入操作系统后，可以正常识别出8个GPU。

设备管理器：
[attach]1051683[/attach]

显示属性：
[attach]1051684[/attach]

everest:
[attach]1051681[/attach]

GPU-Z:
[attach]1051682[/attach]

由于一般显卡测试软件不支持非SLI状态的多显卡并行，因此本文并没有采用常见的显卡测试软件，而是使用了Nvidia CUDA SDK中的例程进行测试。

首先用devicequery.exe进行CUDA设备参数查询。这是Nvidia CUDA SDK自带的一个程序，下图中可以看到，4块295的8个GPU的各项参数都可以被正确识别。
[attach]1051688[/attach]

然后使用bandwidth.exe进行内存带宽测试。这个程序可以测试内存到显存以及显存到显存之间的实际传输速度。测试结果表明显存到内存之间的传输速度大约为3GB/s，这个速度受到了PCIE x8接口速率的制约，在X16模式下可以达到5GB/s以上。显存到显存之间的传输速度是大约93GB/s，基本达到了295显存带宽的理论上限。

[attach]1051686[/attach]

下图测试的是累计模式，也就是所有GPU带宽之和。可以看到各项数值测试结果很接近单卡结果的8倍，
说明各显卡的带宽都很稳定。在这几项数值中，因为系统内存带宽有限，内存到显卡的累计带宽在实际
应用中基本上是无法实现的。但显存到显存的累计带宽是可以实现的，也就是说，4块295在实际计算中
可以达到接近800GB/s的显存带宽。
[attach]1051687[/attach]

散热问题是高端显卡用户最关心的问题之一，下面两个图是用everest测得的开机半小时后的空载显卡温
度、风扇转速以及电流电压等参数的情况。
[attach]1051695[/attach]

[attach]1051694[/attach]

从中可以看到空载时GPU核心温度维持在64-69度之间，而风扇转速仅为41%的最低转速。

最后进行的是满载负荷测试，采用的测试程序是NVidia CUDA SDK中自带的天体物理多体运动模拟程序nbody.exe。通过设置device=0-7参数，可以让测试程序在特定GPU上运行，因此同时运行8个nbody程序即可实现4块295的满负荷运行。

首先用单个nbody程序测试单个GPU的性能，结果如下图。该测试同时模拟30720个星体的运动，100个时间步，用时4895.953ms。对应的实测浮点性能是约385GFlops，大约是理论峰值的40%左右。

[attach]1051689[/attach]

然后是同时跑8个nbody测试，通过参数device=0一直到device=7让8各程序分别运行在8个GPU上，下图是测试过程中的一幅截图。

[attach]1051685[/attach]

可以看到此时8个程序的实时运算速度在286到329GFlops之间，比运行单个测试时速度有一定下降。此时8个测试程序的浮点性能之和是2489.3GFlops，是单个测试程序的大约6.5倍。8个nbody测试满载运行约40分钟后，系统仍然很稳定。此时GPU核心温度基本达到稳定值，在81-86度之间分布(室温约25度)，对于295来说，这样的温度并不算太高，此时显卡风扇转速也不过60%左右。+12伏电压降到了11.51伏，还算正常范围，而GPU VRM电流在45A上下波动。就是主板温度有些过高，如果再加装几块机箱风扇也许会好一些。

[attach]1051696[/attach]

[attach]1051697[/attach]

总结：从以上测试情况来看，单机4块295做CUDA计算是完全可行的，发热问题并不像是想象中的那么严重。对CUDA运算性能有极端要求的网友不妨一试。

作者: foureyesdog 时间: 2009-5-17 17:27
关键是现在CUDA支持那些科学计算软件的。
比如计算电磁场等等能不能

作者: 柳叶刀 时间: 2009-5-17 17:28
这配置很不一般啊

作者: atitend 时间: 2009-5-17 17:34
这个很专业，帮顶下。

作者: ak75 时间: 2009-5-17 17:43
看见一堆米~~~~~~~~~~~

作者: 柳叶刀 时间: 2009-5-17 17:43
你这个硬盘不是很保险，听说ST12代的硬盘有缺陷不出半年准坏

作者: mast 时间: 2009-5-17 17:58
牛X，GZ~~~~

作者: gongshun 时间: 2009-5-17 18:06
还好~！

作者: k319 时间: 2009-5-17 18:17
好牛的配置

作者: wwffans 时间: 2009-5-17 18:23
显卡诱人啊

作者: kof2003 时间: 2009-5-17 18:36
好像在哪里见过

作者: 呵呵想呀想 时间: 2009-5-17 18:39
这是要搞科研吧。。。。。。

作者: yxj8810 时间: 2009-5-17 18:42
真是牛xx
其他配件也得配这个吧？
感觉不协调
用的啥显示器呀

作者: cupyu 时间: 2009-5-17 18:58
请恕偶孤陋寡闻了，CUDA目前最常见的应用是什么，硬件压缩视频数据流吗？LZ对CUDA能力有需求是主要应用在什么方面？

作者: cupyu 时间: 2009-5-17 18:59
对了，上面忘说了，真的是很牛叉，拜服一下先~

作者: 苯苯小哥 时间: 2009-5-17 19:00
显然是公款腐败

作者: lkc52 时间: 2009-5-17 19:06
这配置，给我也用不起，超级电老虎。

作者: 专业挖坟 时间: 2009-5-17 19:09
不是自己的钱花着就是不心疼啊。哎~~~~

作者: intel2k 时间: 2009-5-17 19:29
本帖最后由 intel2k 于 2009-5-17 19:59 编辑

目前支持CUDA的软件的确还很少，NVidia CUDA主页上提到的主要有FFT，BLAS的CUDA库以及Matlab插件。此外还有一些各行业具体应用的例子。
不过相信以后越来越多的软件会支持CUDA，比如本人目前就正在从事若干CUDA计算软件的研发工作。其实CUDA编程感觉是一个很不错的体系，个人十分看好CUDA的前景。

关键是现在CUDA支持那些科学计算软件的。
比如计算电磁场等等能不能
foureyesdog 发表于 2009-5-17 17:27

作者: kaikai0220 时间: 2009-5-17 19:38
CUDA不是说只支持单精度么？MATLAB不是双精度的么？怎么也支持？
小白不懂........

作者: roger243 时间: 2009-5-17 19:41
拉拉比一出，CUDA还有什么生存空间？

作者: intel2k 时间: 2009-5-17 19:52
本帖最后由 intel2k 于 2009-5-18 23:50 编辑

CUDA应用领域很广，它提供了一种高性能的通用并行计算平台。高性能科学计算是NVidia推出CUDA最主要的目标之一，CUDA在这方面也的确很有优势。一块295就可以获得过去一台大型机才能达到的运算能力，利用CUDA可以极大地降低运算成本。目前主要问题应该是软件支持方面，支持CUDA的软件现在还比较少。

请恕偶孤陋寡闻了，CUDA目前最常见的应用是什么，硬件压缩视频数据流吗？LZ对CUDA能力有需求是主要应用在什么方面？
cupyu 发表于 2009-5-17 18:58

作者: shiver76 时间: 2009-5-17 19:53
gtx295=鸡肋, gtx295x4=鸡肋x4

不过为了楼主的辛苦组装, 还是要顶一下

作者: intel2k 时间: 2009-5-17 19:54
GT200核心已经支持双精度了，不过速度比较慢，比单精度慢大约一个数量级。

CUDA不是说只支持单精度么？MATLAB不是双精度的么？怎么也支持？
小白不懂........
kaikai0220 发表于 2009-5-17 19:38

作者: 尼古拉斯凯奇 时间: 2009-5-17 19:58

gtx295=鸡肋, gtx295x4=鸡肋x4

不过为了楼主的辛苦组装, 还是要顶一下
shiver76 发表于 2009-5-17 19:53

看应用，又不是为了玩游戏
GTX285在lz用的这方面和295相比是鸡肋，如果用到GTX285*4就是鸡肋*4

作者: kaikai0220 时间: 2009-5-17 20:02

GT200核心已经支持双精度了，不过速度比较慢，比单精度慢大约一个数量级。

intel2k 发表于 2009-5-17 19:54

多谢，我只关注了G80 G92的CUDA去了，没关注GT200的...
速度比较慢？那也比CPU快不少吧

作者: wxdlzx 时间: 2009-5-17 20:13
好强大的鸡肋啊

作者: HilaryDuff 时间: 2009-5-17 20:53
这个比较厉害

作者: 哈雷彗星 时间: 2009-5-17 21:19
看着很麻木，显卡牛逼，其他配件太一般

作者: 天下18 时间: 2009-5-17 22:14
提示: 作者被禁止或删除内容自动屏蔽

作者: 萧翎翎 时间: 2009-5-17 22:23
还是那句话有钱真好

作者: hanhan830 时间: 2009-5-17 23:06
我觉得这样的配置对于我来说最大的困难就是 MONEY 的问题别的都可以结局~~~~

作者: airforce18 时间: 2009-5-17 23:28
Tesla 的双精度浮点比普通GT200高一倍（记得好像是这样的）

作者: 小山谷 时间: 2009-5-17 23:28
科学计算的话稳定性应该是第一的，但楼主的配置在这方面都没有考虑，我想基本上内存和主板至少要用ECC的和工作站主板，这样稳定性才有一定保证，否则算一半死机了就欲哭无泪了。

作者: 旺达 时间: 2009-5-17 23:33
好强大的鸡肋啊

作者: sdlxlin 时间: 2009-5-18 11:29
确实，钱花了不少，这配置很无语～

一、AsRock的这板子，实际上分到每块GPU上的带宽只有PCI-E 4x
二、TT 1500一看就是业余的班子配的
三、AsRock的板子说实话也很业余

作者: messia 时间: 2009-5-18 12:44
很不错~也很好看~

作者: chnn 时间: 2009-5-18 13:02
鸡肋中的战斗机。。

作者: 890009 时间: 2009-5-18 13:11
我觉得作为一台专业用途的机器，要考虑的地方有很多，“I7有HT后8个逻辑核心，和8个GPU刚好一对一”...这是啥理论...而且不用双CPU，ECC内存，服务器冗余电源，稳定性，性能都无法保证吧

作者: wgsmogui 时间: 2009-5-18 13:19
显卡电源主板分别啥价格？

作者: intel2k 时间: 2009-5-18 13:35
对AsRock主板也不大满意，不过这似乎是目前市面上x58 4*295平台的唯一选择，找不到第2块啊。
带宽4x的说法有没有出处？我实测达到3GB/s，已经超过了4x上限了。
电源方面还有更好的选择么？能否推荐一款。

确实，钱花了不少，这配置很无语～

一、AsRock的这板子，实际上分到每块GPU上的带宽只有PCI-E 4x
二、TT 1500一看就是业余的班子配的
三、AsRock的板子说实话也很业余
sdlxlin 发表于 2009-5-18 11:29

作者: lswq1978 时间: 2009-5-18 14:03
牛xxxxx！

作者: shwwz 时间: 2009-5-18 16:16

这配置很不一般啊
柳叶刀发表于 2009-5-17 17:28

真的很不一般呀,牛人用牛机

作者: intel2k 时间: 2009-5-18 16:24
本帖最后由 intel2k 于 2009-5-19 00:51 编辑

CPU的问题我稍微解释一下：单GPU CPU计算时情况比较简单，计算时单个GPU内部的多个流处理器间的数据交换和同步不需要CPU的参与。而多GPU计算则不然，此时GPU之间的数据交换和同步需要有CPU的参与。通常是采用多线程或多进程模式，在CPU中分出若干线程，每个CPU线程控制一个GPU，然后CPU线程之间要相互通讯。显然这个时候超线程技术是很管用的，至少在负荷大的时候可以避免进程片切换，消除进程调度的延迟等待。关于这个问题NVidia官方论坛也有人提及：
* CPU: If you are running many short kernels on your CUDA devices, best performance is usually obtained with one CPU core per GPU. This minimizes the latency between the GPU finishing the kernel and your host thread being alerted to this fact. This is not a hard requirement, and some programs work just fine with fewer CPUs than CUDA devices.

关于内存问题，因为计算主要是在显卡内部进行，数据都存在显存上，对内存方面要求并不高，因此选用了普通内存。而且在内存性能方面，通常服务器内存性能比同档次PC内存要差一些。以前曾对Xeon 53xx/54xx平台上的FBD内存性能进行过测试，结果实在是惨不忍睹。虽然号称带宽21G/s，但实测读写速度大约只能达到大约3GB/s，发热也非常恐怖，机箱通风情况已经很好了，内存工作温度还有100度左右。当然，这是上一代产品的情况，新一代的DDR3服务器内存个人还没有接触过，将来有机会也打算测试一下。

我觉得作为一台专业用途的机器，要考虑的地方有很多，“I7有HT后8个逻辑核心，和8个GPU刚好一对一”...这是啥理论...而且不用双CPU，ECC内存，服务器冗余电源，稳定性，性能都无法保证吧
890009 发表于 2009-5-18 13:11

作者: winfast007 时间: 2009-5-18 16:50
应该加数个暴力风扇把机箱内的温度降下来，其次找论坛上的大眼仔做一个双电源同步开关，把硬盘那边的供电独立起来，11.5V对硬盘来说危险了点！

作者: intel2k 时间: 2009-5-18 18:18
本帖最后由 intel2k 于 2009-5-18 18:20 编辑

11.5伏的电压我也有些担心，打算先运行一段时间看看，如果不稳定再想其他办法。双电源方案原先也考虑过，不过因为以前没接触过双电源，最后还是没敢上。选取目前的电源主要是参考了国外已有的配置，在NVidia的官方论坛上有不少4*GTX295(包括之前的4*9800GX2)配置的讨论，关于单电源的方案看到那边推荐的主要有TT 1500W和Coolermaster 1250W，如前不久斯坦福23块295的那个配置用的电源就是CoolerMaster 1250W，而去年媒体广泛报道的ASTRA 4*9800GX2配置用的是TT 1500W。TT这款光看电源参数应该是够用的，希望能稳定运行吧。

作者: godspeed66 时间: 2009-5-18 19:17
本帖最后由 godspeed66 于 2009-5-18 19:22 编辑

同样的价格为什么不直接买Tesla?

4个295要12K，1个Tesla 约10K。

不过4块295进行运算应该很强。

PS1:C1060则是一块单卡运算系统，NVIDIA称它为计算处理器。它将T10P的频率略降至1.3GHz，因此运算能力下降至960GFlops，但同样搭载4GB 512bit GDDR3存储器，带宽102GB/s。平均功耗160W，峰值225W.
(载至http://news.mydrivers.com/1/108/108756.htm）
PS2:http://cn.nvidia.com/object/tesla_c1060_cn.html

作者: myh925 时间: 2009-5-18 19:21
提示: 作者被禁止或删除内容自动屏蔽

作者: jerome0506 时间: 2009-5-18 19:29
很专业。。。需要学习啊

作者: michaelyao 时间: 2009-5-18 23:44

我觉得作为一台专业用途的机器，要考虑的地方有很多，“I7有HT后8个逻辑核心，和8个GPU刚好一对一”...这是啥理论...而且不用双CPU，ECC内存，服务器冗余电源，稳定性，性能都无法保证吧
890009 发表于 2009-5-18 13:11

人家这是测试用的，又没说过要拿这机子去做科学运算，充其量算过把瘾而已。

真要正式装机用于这方面，肯定得配多CPU+服务器主板+ECC内存。硬盘也不可能只用一块而不组RAID的。

作者: 木鹿大王 时间: 2009-5-19 00:02
显卡很YY，其他的貌似不太般配。上XEON+ECC+SAS阵列+冗余电源多威风。

作者: leiren82 时间: 2009-5-19 00:44
楼主勇敢的走出了第一步的尝试...路过开开眼界

作者: jambooc 时间: 2009-5-19 11:22
这点钱直接上Tesla，有得找而且可靠性与技术支持方面都好很多。

高性能计算平台，Tesla算是新的入门级玩具而已。

作者: lzh69_sh 时间: 2009-5-19 12:11
米不起，也不懂，支持lz的原创，现在pci就要多点这样的技术贴。每天看吵架真是眼都看麻木了。

作者: lian8 时间: 2009-5-19 12:22
玩游戏怎么样呢？

作者: 潜水战舰 时间: 2009-5-19 13:31
295*4太震撼了。。。

作者: droalea 时间: 2009-5-19 13:37
这米烧的

作者: jlkzhu 时间: 2009-5-19 14:18
牛x*4.。。。

作者: dawensger 时间: 2009-5-19 16:35
1200W~~~~比空调省电

作者: 8℃咖啡 时间: 2009-5-19 16:40
提示: 作者被禁止或删除内容自动屏蔽

作者: aylwyn 时间: 2009-5-19 16:40
有钱人就是不一样~

作者: intel2k 时间: 2009-5-19 17:29
本帖最后由 intel2k 于 2009-5-19 17:31 编辑

1块Tesla C1060的性能远不能和4块295相比吧？大约要7块才行。
Tesla峰值性能和性价比都比较低，感觉不如GTX295平台划算。目前主流的Tesla C1060处理器硬件构架和GTX280非常类似，单GPU构架，240个流处理器核心，流处理器频率1.296GHz，官方的单精度峰值浮点性能1.296*3*240=933Gflops。一台配上4块Tesla C1060的机器整机价格要5万以上，flops之和不足4T。而GTX295是双GPU构架，4*GTX295整机峰值性能为1.243*3*240*2*4=7.1Tflops，价格只要2-3万。当然，Tesla的4G显存是其一大优点，这对某些显存容量方面要求比较高的用户肯定是有用的。

同样的价格为什么不直接买Tesla?

4个295要12K，1个Tesla 约10K。

不过4块295进行运算应该很强。

PS1:C1060则是一块单卡运算系统，NVIDIA称它为计算处理器。它将T10P的频率略降至1.3GHz，因此运算能力下降至 ...
godspeed66 发表于 2009-5-18 19:17

作者: 达韦 时间: 2009-5-19 21:11
楼主测个3DMARK看分数如何?不管哪个版本的,大家都YY一下.

作者: jiang.gg 时间: 2009-5-20 12:48
无知群众围观高科技.....

作者: intel2k 时间: 2009-5-20 13:14
没做这个测试，4块295不能sli，估计3DMARK成绩不会太好。

楼主测个3DMARK看分数如何?不管哪个版本的,大家都YY一下.
达韦发表于 2009-5-19 21:11

作者: intel2k 时间: 2009-5-20 13:17
本帖最后由 intel2k 于 2009-5-20 13:20 编辑

最近测试发现如果只是GPU满载还可以，但如果CPU和GPU同时满载，系统仍会变得不大稳定。看来1500W电源功率还是有些不足啊。

作者: titan369369 时间: 2009-5-20 13:20
我是想知道...这得多少钱呢...

作者: intel2k 时间: 2009-5-20 13:34
整机大约2万出头吧，主要就是显卡贵。配这个机器并不是为了烧钱，性价比也是主要考虑因素。在确定了显卡和CPU配置之后，其他都尽可能采用够用即可的原则。

作者: wangkingd 时间: 2009-5-20 13:43
进来学习一下

作者: lacri 时间: 2009-5-20 16:01
看来还是得双电源才比较靠谱啊。

作者: 角色 时间: 2009-5-20 16:16
这.....折腾呀..

作者: king6784 时间: 2009-5-20 16:38
看到这烧的利害，回头看看自己的工包..萎缩中

作者: kf9470 时间: 2009-5-20 17:25
太专业了，

进来学习一下

作者: pinkme005 时间: 2009-5-20 18:33
织补牛X，很米很强大

作者: Corebeta 时间: 2009-5-20 19:02
牛啊流口水

作者: yossarian 时间: 2009-5-20 19:05
这个很专业，帮顶下。

作者: ATI专业卡 时间: 2009-5-20 19:15
呵呵. 目前TESLA 和GEFORECE 硬件上除了显存容量大小之外，计算能力和计算精度毫无区别

作者: ATI专业卡 时间: 2009-5-20 19:17
LZ选择用295去替代C1060是很正常的选择. N多人在用GEFORCE 去计算. 反正都是前期研发. 实际项目运行的时候自然会去评估买个"真正的"TESLA 有什么差别贵了几倍价格.

作者: wu-ya 时间: 2009-5-21 09:16
盗版片商和电影网站大概都是这个配置

作者: droganmaster 时间: 2009-5-21 11:40
不知道现在有没有游戏可以调用四块295吗？

欢迎光临 POPPUR爱换 (https://we.poppur.com/)