POPPUR爱换

标题: NVIDIA 官方 Tesla C2050 初步测试结果 [打印本页]

作者: Edison 时间: 2010-5-20 02:50
标题: NVIDIA 官方 Tesla C2050 初步测试结果
[attach]1286989[/attach]

[attach]1286990[/attach]

[attach]1286991[/attach]

[attach]1286992[/attach]

[attach]1286993[/attach]

[attach]1286994[/attach]

[attach]1286995[/attach]

[attach]1286996[/attach]

[attach]1286997[/attach]

[attach]1286998[/attach]

[attach]1286999[/attach]

[attach]1287000[/attach]

[attach]1287001[/attach]

另外：按照 BSN 上的新结果，2CPU+2GPU 的 Linpack 测试结果是 656.1 GFLOPS，这是 BSN 的链接：http://www.brightsideofnews.com/ ... mbers-analyzed.aspx

不过 BSN 的新闻里有一个地方是错误的，那就是 linpack 效率，他们使用了双精度实测值处以单精度理论值，这样得出效率，是不正确的。正确的效率计算应该是双精度实测值处以双精度理论值才对。

因此按照 BSN 上的数据正确 Tesla C2050 GPU 效率应该是（（656.1 GFLOPS-80 GFLOPS）/2）/515 = 55.9%。

作者: cool_exorcist 时间: 2010-5-20 08:18
这种帖子还是让它沉下去吧。我们来讨论一下天河一号。

作者: WG_Baby 时间: 2010-5-20 08:21
提升的效能與功耗上升比差不多 = =|||

作者: 380 时间: 2010-5-20 08:51
提示: 作者被禁止或删除内容自动屏蔽

作者: goldman948 时间: 2010-5-20 09:00

2070的功耗怎么比2050还低？
380 发表于 2010-5-20 08:51

2010 q3,代表应该是工艺改进版吧

作者: 懒猫小双 时间: 2010-5-20 09:22
太专业了，打个酱油看解释。

作者: rurouni2 时间: 2010-5-20 09:30

提升的效能與功耗上升比差不多 = =|||
WG_Baby 发表于 2010-5-20 08:21

请问阁下是针对哪张图有此评论呢？

作者: mooncocoon 时间: 2010-5-20 10:22
你们别这样，好像天天催着人家自杀ID似的……

作者: anolen01 时间: 2010-5-20 10:56
本帖最后由 anolen01 于 2010-5-20 11:09 编辑

天河一号的大规模集群3072+2560效率都有46.7%吧，C2050才2+2效率只有5X%是不是低了点？

作者: slr 时间: 2010-5-20 10:56
回复 2# cool_exorcist 天河一号过去时了，低成本试水产物。现在是费米时代

作者: hpctech 时间: 2010-5-20 10:56
本帖最后由 hpctech 于 2010-5-20 10:57 编辑

CUBLAS 3.1果然NB，开ECC性能和关ECC基本没有区别。。。应该是极度优化到完全计算密集型的

作者: anolen01 时间: 2010-5-20 11:01
回复 11# slr

这个成本差距太大了吧，天河一号GPU才值500W，用C2050至少得翻2翻吧

要说性价比，还是天河一号可以

作者: slr 时间: 2010-5-20 11:03

回复 slr

这个成本差距太大了吧，天河一号GPU才值500W，用C2050至少得翻2翻吧

要说性价比，还是天河 ...
anolen01 发表于 2010-5-20 11:01

拿游戏卡和特斯拉比价格，谁都得认输

4870X2试水看看效果

作者: yamhill 时间: 2010-5-20 11:30

回复 slr

这个成本差距太大了吧，天河一号GPU才值500W，用C2050至少得翻2翻吧

要说性价比，还是天河 ...
anolen01 发表于 2010-5-20 11:01

500W要被换掉，全浪费了

作者: 鱼儿水中游 时间: 2010-5-20 11:47
太专业了，打个酱油看解释。

作者: stalker-cop 时间: 2010-5-20 14:45
请问一下nvidia负责tesla销售的部门联系电话是多少？

作者: Edison 时间: 2010-5-20 14:52
http://www.nvidia.cn/object/tesla_wtb_cn.html

这是公开的联系方式，但是不知道他们是否有货了。

作者: stalker-cop 时间: 2010-5-20 15:47
回复 19# Edison

谢谢

作者: shar001 时间: 2010-5-20 16:24
专业应用确实厉害

作者: 梦游的猪 时间: 2010-5-20 16:47
一订几千张，回款应该也容易些，真是好买卖。

作者: iwannasay 时间: 2010-5-20 16:48
Tesla到底是啥。
我只知道这是人类历史上一个神人，神奇程度不亚于达芬奇，爱因斯坦，也不亚于张衡。

作者: 梦游的猪 时间: 2010-5-20 17:01

Tesla到底是啥。
我只知道这是人类历史上一个神人，神奇程度不亚于达芬奇，爱因斯坦，也不亚于张衡。
iwannasay 发表于 2010-5-20 16:48

N伟大的子品牌：
Tesla 高性能计算；
Quadro 专业图形；
GeForce 游戏。

作者: deadmeat 时间: 2010-5-20 18:22
提示: 作者被禁止或删除内容自动屏蔽

作者: aimbot 时间: 2010-5-20 19:22
提示: 作者被禁止或删除内容自动屏蔽

作者: iwannasay 时间: 2010-5-20 20:08

Tesla好像是俄裔，在美国混，被爱迪生整得很惨。好像研究交流电、电磁波之类的，也不知道对不对。
aimbot 发表于 2010-5-20 19:22

随便谷歌了一下，ctrl+c ctrl+v了一段：
1856年7月10日，他生于南斯拉夫克罗地亚的斯米良，他父亲是牧师，母亲是打蛋器的发明者。他一生的发明无数。 1882年，他继爱迪生发明直流电（DC）后不久，发明了交流电（AC），并制造出世界上第一台交流发电机，并创立了多相电力传输技术。 1895年，他替美国尼亚加拉发电站制造发电机组，致使该发电站至今仍是世界著名水电站之一。 1897年，他使马可尼的无线电通信理论成为现实。 1898年，他制造出世界上第一艘无线电遥控船，无线电遥控技术取得专利（美国专利号#613.809）。 1899年，他发明了X光(X-Ray)摄影技术。其他发明包括：收音机、雷达、传真机、真空管、霓虹灯管、飞弹导航、星球防御系统等。甚至以他名字而命名的磁密度单位（1 Tesla = 10,000 Gause）更表明他在磁学上的贡献。

作者: Prescott 时间: 2010-5-20 21:56
当年不是动不动就比CPU快好几百倍的吗？
怎么Fermi出来了，比单个4核CPU也只快了几倍而已啊，嘿嘿，这还是挑了最好用的几个程序呢。

作者: hpctech 时间: 2010-5-20 22:07

当年不是动不动就比CPU快好几百倍的吗？
怎么Fermi出来了，比单个4核CPU也只快了几倍而已啊，嘿嘿，这还是 ...
Prescott 发表于 2010-5-20 21:56

实际应用上才有可能快几十到几百倍。
基本运算的测试不可能差那么远。

作者: Prescott 时间: 2010-5-20 22:11

实际应用上才有可能快几十到几百倍。
基本运算的测试不可能差那么远。
hpctech 发表于 2010-5-20 22:07

你这句话实在对不起你的ID

作者: hpctech 时间: 2010-5-20 22:13

你这句话实在对不起你的ID
Prescott 发表于 2010-5-20 22:11

这可不是我发明的，我是从实际应用数据总结出来的。

作者: Prescott 时间: 2010-5-20 22:14

这可不是我发明的，我是从实际应用数据总结出来的。
hpctech 发表于 2010-5-20 22:13

那你就更对不起你的ID了。

作者: hpctech 时间: 2010-5-20 22:16

那你就更对不起你的ID了。
Prescott 发表于 2010-5-20 22:14

CUDA Zone那么多论文你不会去看？！
再说了不是所有应用都能快那么多，要天时地利人和的。
我自己做过的就图像处理方面能加速个几十到100倍左右。

作者: Edison 时间: 2010-5-20 22:17
CPU 缺乏纹理单元，涉及这些单元的应用 CPU 落后许多倍一点都不奇怪，楼上（Prescott）发些阴阳怪调是没用的。

作者: Prescott 时间: 2010-5-20 22:21
回复 34# hpctech

所以说你对不起自己的ID，论文大部分是**，比你的水平高不了多少。

作者: hpctech 时间: 2010-5-20 22:30

CPU 缺乏纹理单元，涉及这些单元的应用 CPU 落后许多倍一点都不奇怪，楼上（Prescott）发些阴阳怪调是没用的 ...
Edison 发表于 2010-5-20 22:17

我只是举例～～～实际上能加速个10几20倍已经很不错了，能上两个数量级的应用是很少的。

作者: hpctech 时间: 2010-5-20 22:30

回复 hpctech

所以说你对不起自己的ID，论文大部分是**，比你的水平高不了多少。
Prescott 发表于 2010-5-20 22:21

看都不看就质疑，最没技术含量就是这种

作者: Prescott 时间: 2010-5-20 22:36

看都不看就质疑，最没技术含量就是这种
hpctech 发表于 2010-5-20 22:30

好吧，你随便找一篇过来，我来挑错

作者: xmuxsp 时间: 2010-5-20 22:52
Prescott你完了....hpctech的都是专业搞cuda的

作者: gz_easy 时间: 2010-5-20 23:03
跑GPCBenchmarkOCL这种底层测试GPU比CPU快百倍，实际应用受限于整体软硬系统。
系统依旧要靠CPU支持，NV也只能提异构计算，扔了CPU，GPU独自存在有意义吗？

作者: hpctech 时间: 2010-5-20 23:05

好吧，你随便找一篇过来，我来挑错
Prescott 发表于 2010-5-20 22:36

把俺哥们做的一个东西摆上台：http://cuda.csdn.net/Contest/pro/nvidia_showme.aspx?pointid=39

作者: hpctech 时间: 2010-5-20 23:12

跑GPCBenchmarkOCL这种底层测试GPU比CPU快百倍，实际应用受限于整体软硬系统。
系统依旧要靠CPU支持，NV也 ...
gz_easy 发表于 2010-5-20 23:03

测试里只有图像处理才有百倍区别吧，不过是借助纹理单元的，呵呵
实际应用如果要比CPU快百倍的话，只能：
1、肯定是个单精度计算密集型的
2、线程间通讯、同步多。要知道CPU的Cache带宽也就跟GPU显存带宽一个级别的，比Shared Memory慢多了。
3、一堆超越函数，GPU是有SFU处理这些的，速度比CPU的软方法快多了

这样的应用有，但还是比较少。

作者: tomsmith123 时间: 2010-5-20 23:18
理论性能，C2050 峰值是500G DP 左右，而CPU 6核已经有130G DP 的峰值。双精度来说，GPU 有4倍CPU 性能是合理的，至于SP，也许8倍。
拿极端优化的GPU，和没有优化过的CPU 代码比较加速比，是很愚蠢的。
目前我看到绝大多数所谓CPU 代码，连SSE都没用到。

作者: naze 时间: 2010-5-20 23:19

回复 hpctech

所以说你对不起自己的ID，论文大部分是**，比你的水平高不了多少。
Prescott 发表于 2010-5-20 22:21

老大低调点好 larrabee在显卡区的坟//头

作者: tomsmith123 时间: 2010-5-20 23:25
回复 45# naze
他说得基本上没有什么问题。

作者: hpctech 时间: 2010-5-20 23:30

理论性能，C2050 峰值是500G DP 左右，而CPU 6核已经有130G DP 的峰值。双精度来说，GPU 有4倍CPU 性能是合 ...
tomsmith123 发表于 2010-5-20 23:18

能用好SSE的人不多。。。能极端优化GPU代码的也没几个。那就只能在保证可读性和普遍意义的前提下去比较了。

作者: tomsmith123 时间: 2010-5-20 23:36
回复 47# hpctech
用ICC，Intel BLAS 就可以很容易用SSE，新的ICC，可以直接把向量计算SSE 实现。

作者: hpctech 时间: 2010-5-20 23:46

回复 hpctech
用ICC，Intel BLAS 就可以很容易用SSE，新的ICC，可以直接把向量计算SSE 实现。
tomsmith123 发表于 2010-5-20 23:36

BLAS就不说了，ICC没具体试过。本人愚钝，写程序还处于_mm_mul_ps这样的阶段，当然仅仅是计算向量是完全没有问题的。但问题是有些应用中的确不好打包，拆了又打挺麻烦的，性能也提升有限。靠编译器的话，我认为不会比自己手工打包要强。

作者: tomsmith123 时间: 2010-5-20 23:49
回复 49# hpctech
最早需要用NASM 来写SSE，后来嵌入汇编就可以，现在可以用模板定义，ICC 搞定。
20分钟可以写一个80% 峰值的线性计算程序。

作者: Prescott 时间: 2010-5-20 23:51
本帖最后由 Prescott 于 2010-5-21 00:42 编辑

把俺哥们做的一个东西摆上台：
hpctech 发表于 2010-5-20 23:05

这种东西也好意思摆上台。懒得看GPU version，随便说说CPU version
没源代码，不用看也知道代码烂的和屎一样。
1. CPU version是一个单线程程序，无论多少个核心只能用一个核心进行计算。
[attach]1287658[/attach]

2. 整个程序75%的时间耗在MSVCRT80.dll中，25%的时间耗在主程序中
[attach]1287666[/attach]

3. 超级可悲的是：MSVCRT80.dll中居然有97%的时间花在modf函数上，我就不信这个程序真的需要分别取小数部分和整数部分来做运算，文章中特地指出的sin/cos等GPU处理性能占优的超越函数只占了3%
[attach]1287669[/attach]

4. 号称会写SSE intrinsic的高手，自己的代码统统用的是x87浮点，而且是还是双精度，你的GPU也是双精度浮点？？
[attach]1287671[/attach]

懒得看下去了
这几个问题解决，一个i7-860就可以轻松干掉Fermi，CPU程序写成这样，连走都不会，就学什么跑。

我说论文都是**，你还有什么话说。

作者: hpctech 时间: 2010-5-20 23:57

回复 hpctech
最早需要用NASM 来写SSE，后来嵌入汇编就可以，现在可以用模板定义，ICC 搞定。
20分钟可 ...
tomsmith123 发表于 2010-5-20 23:49

可能咱们研究方向不同。

解线性数学问题，SSE的确很好写，我个人是倾向于直接写那些SSE intrinsic functions。

作者: hpctech 时间: 2010-5-21 00:18

这种东西也好意思摆上台。懒得看GPU version，随便说说CPU version
没源代码，不用看也知道代码烂的和屎 ...
Prescott 发表于 2010-5-20 23:51

呵呵，的确是单线程。。。
你就直接乘以核心数好了

作者: tomsmith123 时间: 2010-5-21 00:32
回复 54# 左脚选手
那个42％包括500T CPU 的计算量，GPU 要比42％低一些。

作者: Edison 时间: 2010-5-21 00:37
SSE 没有 gather/scatter/masked load/store，甚至没有 masked execution，自动向量化的效果其实并不怎样，只是因为 SSE 是 4D 的，所以这个自动向量化还可以凑合一下。

作者: hpctech 时间: 2010-5-21 00:39
曙光的还没有完全优化，因为之前赶着申报成绩去了。。。不过就算完全优化，估计GPU部分不会超过50%，参考天河一号的效率。

作者: hpctech 时间: 2010-5-21 00:42
另外问一下tomsmith123，6核CPU DP有130G是如何计算出来的？

作者: tomsmith123 时间: 2010-5-21 00:45
回复 58# hpctech
I7 980X 我手头benchmark 跑到了130G DP 的性能。

作者: hpctech 时间: 2010-5-21 00:51

SSE 没有 gather/scatter/masked load/store，甚至没有 masked execution，自动向量化的效果其实并不怎样， ...
Edison 发表于 2010-5-21 00:37

Intel不厚道，拉拉比都做了，就是不做进x86里面。貌似下一代AVX也没有。

作者: Edison 时间: 2010-5-21 00:52
Gulftown（Westmere-EP）应该也就是 80 GFLOPS DP，你跑的是 SP 吧。

作者: tomsmith123 时间: 2010-5-21 00:52
回复 60# hpctech
X86 SSE AVX Larrabee 都支持的，是CT。

作者: hpctech 时间: 2010-5-21 00:54

回复 hpctech
I7 980X 我手头benchmark 跑到了130G DP 的性能。
tomsmith123 发表于 2010-5-21 00:45

米人！

是单测SSE2还是SSE2+普通浮点单元？貌似两者可以ILP

作者: hpctech 时间: 2010-5-21 00:57

回复 hpctech
X86 SSE AVX Larrabee 都支持的，是CT。
tomsmith123 发表于 2010-5-21 00:52

我的意思是管理员大人说的scatter/gather。。。

作者: tomsmith123 时间: 2010-5-21 01:00
回复 64# hpctech
我的意思是，Ct 产品化的时候，向量计算对于Intel 的产品，都是自动的。

作者: tomsmith123 时间: 2010-5-21 01:01
回复 63# hpctech
不是自己买，没什么米。

作者: tomsmith123 时间: 2010-5-21 01:03
回复 61# Edison
还有TB 的，我的Benchmark 测的是理论峰值，会有一个效率系数。

作者: hpctech 时间: 2010-5-21 01:09

回复 hpctech
我的意思是，Ct 产品化的时候，向量计算对于Intel 的产品，都是自动的。
tomsmith123 发表于 2010-5-21 01:00

明白。。。
不过拉拉比和x86架构不同，如何高效在x86上产生SSE代码？希望不要搞得像AMD的OpenCL on CPU那样。。。

作者: tomsmith123 时间: 2010-5-21 01:16
回复 69# hpctech
Ct 下不同的平台，有不同的runtime支持。

作者: hpctech 时间: 2010-5-21 01:16

不知道这个sisoftware测试的是不是准确，的确有130G左右
左脚选手发表于 2010-5-21 01:05

aggregate arithmetic performance不知道怎样统计出来的
不过下面两个dhrystone和whetstone并非真实峰值速度，而是实跑出来的，但是是以某N年前跑的基准作为1MIPS，并非真正的1秒跑了那么多条指令。

作者: Prescott 时间: 2010-5-21 01:17
本帖最后由 Prescott 于 2010-5-21 01:19 编辑

SSE 没有 gather/scatter/masked load/store，甚至没有 masked execution，自动向量化的效果其实并不怎样， ...
Edison 发表于 2010-5-21 00:37

谁告诉你没有masked store？MASKMOVQ是干什么的？
有masked store，你还要masked exec和masked load干什么？怕SIMD单元累着？？

作者: Edison 时间: 2010-5-21 01:18

回复 Edison
还有TB 的，我的Benchmark 测的是理论峰值，会有一个效率系数。
tomsmith123 发表于 2010-5-21 01:03

Gulftown 属于 Nehalem 家族，内核执行端部分应该是一样都是 4DP flop per clock，6 内核@ 3.33 GHz =79.X GFLOPS。

作者: hpctech 时间: 2010-5-21 01:28
本帖最后由 hpctech 于 2010-5-21 01:49 编辑

这种东西也好意思摆上台。懒得看GPU version，随便说说CPU version
没源代码，不用看也知道代码烂的和屎 ...
Prescott 发表于 2010-5-20 23:51

并非我写的。改天贴我写的程序给你批判

源程序的确是单精度的，不过你可别以为所有人都和你一样，SSE随便写。有那时间去优化成SSE，GPU程序早写了几个了。

作者: hpctech 时间: 2010-5-21 01:45

谁告诉你没有masked store？MASKMOVQ是干什么的？
有masked store，你还要masked exec和masked load干 ...
Prescott 发表于 2010-5-21 01:17

masked execution还好办，gather/scatter怎么解决？不要以为SSE是万能的。。。

作者: anolen01 时间: 2010-5-21 10:07

并非我写的。改天贴我写的程序给你批判

源程序的确是单精度的，不过你可别以为所有人都和你一样，SS ...
hpctech 发表于 2010-5-21 01:28

原来还不是你写的，就拿出来炫耀，结果被大佬批得一钱不值，嘿嘿，年轻人还是低调点好……

作者: hpctech 时间: 2010-5-21 13:06

这种东西也好意思摆上台。懒得看GPU version，随便说说CPU version
没源代码，不用看也知道代码烂的和屎 ...
Prescott 发表于 2010-5-20 23:51

这种东西也好意思摆上台。懒得看GPU version，随便说说CPU version
没源代码，不用看也知道代码烂的和屎一样。
1. CPU version是一个单线程程序，无论多少个核心只能用一个核心进行计算。

的确是单线程的

2. 整个程序75%的时间耗在MSVCRT80.dll中，25%的时间耗在主程序中

3. 超级可悲的是：MSVCRT80.dll中居然有97%的时间花在modf函数上，我就不信这个程序真的需要分别取小数部分和整数部分来做运算，文章中特地指出的sin/cos等GPU处理性能占优的超越函数只占了3%

你测的是计数还是cycle？我不认为SAR部分CPU和GPU代码有多大区别。modf或许是其它科学计算函数自己调用的。SAR计算大部分是sin/cos为主，你这个就别争了

4. 号称会写SSE intrinsic的高手，自己的代码统统用的是x87浮点，而且是还是双精度，你的GPU也是双精度浮点？？

加乘两次就要算exp/sin的你优化给我看？！好吧，就当你sin/cos也写SSE版的，顶多也就4倍性能吧，再综合考虑内存带宽因素，最终程序能优化到单核上2倍提高已经很不错了，还秒杀Fermi呢，吹牛不是这样吹的

作者: hpctech 时间: 2010-5-21 13:07

原来还不是你写的，就拿出来炫耀，结果被大佬批得一钱不值，嘿嘿，年轻人还是低调点好……
anolen01 发表于 2010-5-21 10:07

我拿来炫耀？麻烦你看看这里谁的语气最嚣张～～～

作者: Prescott 时间: 2010-5-21 22:42

这种东西也好意思摆上台。懒得看GPU version，随便说说CPU version
没源代码，不用看也知道代码烂的和 ...
hpctech 发表于 2010-5-21 13:06

你敢在这里打个赌吗？你公开源码，我来优化。不说几个核，我赌单线程性能就能提高一倍。赌注你开。

作者: ATI专业卡 时间: 2010-5-21 23:53
呵呵。

目前国内HPC是GPU 火爆，无论是否值得做的题目或者非常适合GPU运算的东东，都一股脑用GPU+CPU实现。

加上NV/AMD的算盘，想让更多的人进来这个领域一起“研究”看什么才是最适合的GPU应用。所以各种浮躁和流于表面的“应用”冒出来了。

现状的确是CPU都没用好，再搞一个还未成熟的GPU。没有OPENCL会挡掉些急功近利的人，但有OPENCL又会快速降低门槛。

呵呵。个人见解。

作者: Edison 时间: 2010-5-22 01:43
LRBni 里 masked L/S 是不会有 SSE 那样的 exception，当然发生这样的 exception 只有在跨界的时候才会产生，SSE load 如果是对齐的话也就不会发生了。

AVX 就比 SSE 好多了，当然这也和它的并行度有关，毕竟 SSE 是 4D（*32-bit 的话），AVX 是 8D（*32-bit 的话，8-bit 就是 32D 了:p，只是 VMASKMOV 只支持 32-bit 和 64-bit），但是 AVX1 依然缺乏 gather/scatter，这和 gather/scatter 在一般的 cpu 上不好实现有关，需要考虑很多 exception 的情况。

欢迎光临 POPPUR爱换 (https://we.poppur.com/)