POPPUR爱换

标题: NVIDIA 官方 Tesla C2050 初步测试结果 [打印本页]

作者: Edison    时间: 2010-5-20 02:50
标题: NVIDIA 官方 Tesla C2050 初步测试结果
[attach]1286989[/attach]

[attach]1286990[/attach]

[attach]1286991[/attach]

[attach]1286992[/attach]

[attach]1286993[/attach]

[attach]1286994[/attach]

[attach]1286995[/attach]

[attach]1286996[/attach]

[attach]1286997[/attach]

[attach]1286998[/attach]

[attach]1286999[/attach]

[attach]1287000[/attach]

[attach]1287001[/attach]

另外:按照 BSN 上的新结果,2CPU+2GPU 的 Linpack 测试结果是 656.1 GFLOPS,这是 BSN 的链接:http://www.brightsideofnews.com/ ... mbers-analyzed.aspx

不过 BSN 的新闻里有一个地方是错误的,那就是 linpack 效率,他们使用了双精度实测值处以单精度理论值,这样得出效率,是不正确的。正确的效率计算应该是双精度实测值处以双精度理论值才对。

因此按照 BSN 上的数据正确 Tesla C2050 GPU 效率应该是 ((656.1 GFLOPS-80 GFLOPS)/2)/515 = 55.9%。
作者: cool_exorcist    时间: 2010-5-20 08:18
这种帖子还是让它沉下去吧。我们来讨论一下天河一号。
作者: WG_Baby    时间: 2010-5-20 08:21
提升的效能與功耗上升比差不多 = =|||
作者: 380    时间: 2010-5-20 08:51
提示: 作者被禁止或删除 内容自动屏蔽
作者: goldman948    时间: 2010-5-20 09:00
2070的功耗怎么比2050还低?
380 发表于 2010-5-20 08:51


2010 q3,代表应该是工艺改进版吧
作者: 懒猫小双    时间: 2010-5-20 09:22
太专业了,打个酱油看解释。
作者: rurouni2    时间: 2010-5-20 09:30
提升的效能與功耗上升比差不多 = =|||
WG_Baby 发表于 2010-5-20 08:21



    请问阁下是针对哪张图有此评论呢?
作者: mooncocoon    时间: 2010-5-20 10:22
你们别这样,好像天天催着人家自杀ID似的……
作者: anolen01    时间: 2010-5-20 10:56
本帖最后由 anolen01 于 2010-5-20 11:09 编辑

天河一号的大规模集群3072+2560效率都有46.7%吧,C2050才2+2效率只有5X%是不是低了点?
作者: slr    时间: 2010-5-20 10:56
回复 2# cool_exorcist 天河一号过去时了,低成本试水产物。现在是费米时代
作者: hpctech    时间: 2010-5-20 10:56
本帖最后由 hpctech 于 2010-5-20 10:57 编辑

CUBLAS 3.1果然NB,开ECC性能和关ECC基本没有区别。。。应该是极度优化到完全计算密集型的
作者: anolen01    时间: 2010-5-20 11:01
回复 11# slr

这个成本差距太大了吧,天河一号GPU才值500W,用C2050至少得翻2翻吧

要说性价比,还是天河一号可以
作者: slr    时间: 2010-5-20 11:03
回复  slr

这个成本差距太大了吧,天河一号GPU才值500W,用C2050至少得翻2翻吧

要说性价比,还是天河 ...
anolen01 发表于 2010-5-20 11:01
拿游戏卡和特斯拉比价格,谁都得认输

4870X2试水看看效果
作者: yamhill    时间: 2010-5-20 11:30
回复  slr

这个成本差距太大了吧,天河一号GPU才值500W,用C2050至少得翻2翻吧

要说性价比,还是天河 ...
anolen01 发表于 2010-5-20 11:01

500W要被换掉,全浪费了
作者: 鱼儿水中游    时间: 2010-5-20 11:47
太专业了,打个酱油看解释。
作者: stalker-cop    时间: 2010-5-20 14:45
请问一下nvidia负责tesla销售的部门联系电话是多少?
作者: Edison    时间: 2010-5-20 14:52
http://www.nvidia.cn/object/tesla_wtb_cn.html

这是公开的联系方式,但是不知道他们是否有货了。
作者: stalker-cop    时间: 2010-5-20 15:47
回复 19# Edison


    谢谢
作者: shar001    时间: 2010-5-20 16:24
专业应用确实厉害
作者: 梦游的猪    时间: 2010-5-20 16:47
一订几千张,回款应该也容易些,真是好买卖。
作者: iwannasay    时间: 2010-5-20 16:48
Tesla到底是啥。
我只知道这是人类历史上一个神人,神奇程度不亚于达芬奇,爱因斯坦,也不亚于张衡。
作者: 梦游的猪    时间: 2010-5-20 17:01
Tesla到底是啥。
我只知道这是人类历史上一个神人,神奇程度不亚于达芬奇,爱因斯坦,也不亚于张衡。
iwannasay 发表于 2010-5-20 16:48


N伟大的子品牌:
Tesla      高性能计算;
Quadro  专业图形;
GeForce 游戏。
作者: deadmeat    时间: 2010-5-20 18:22
提示: 作者被禁止或删除 内容自动屏蔽
作者: aimbot    时间: 2010-5-20 19:22
提示: 作者被禁止或删除 内容自动屏蔽
作者: iwannasay    时间: 2010-5-20 20:08
Tesla好像是俄裔,在美国混,被爱迪生整得很惨。好像研究交流电、电磁波之类的,也不知道对不对。
aimbot 发表于 2010-5-20 19:22


随便谷歌了一下,ctrl+c  ctrl+v了一段:
1856年7月10日,他生于南斯拉夫克罗地亚的斯米良,他父亲是牧师,母亲是打蛋器的发明者。他一生的发明无数。 1882年,他继爱迪生发明直流电(DC)后不久,发明了交流电(AC),并制造出世界上第一台交流发电机,并创立了多相电力传输技术。 1895年,他替美国尼亚加拉发电站制造发电机组,致使该发电站至今仍是世界著名水电站之一。 1897年,他使马可尼的无线电通信理论成为现实。 1898年,他制造出世界上第一艘无线电遥控船,无线电遥控技术取得专利(美国专利号#613.809)。 1899年,他发明了X光(X-Ray)摄影技术。其他发明包括:收音机、雷达、传真机、真空管、霓虹灯管、飞弹导航、星球防御系统等。甚至以他名字而命名的磁密度单位(1 Tesla = 10,000 Gause)更表明他在磁学上的贡献。
作者: Prescott    时间: 2010-5-20 21:56
当年不是动不动就比CPU快好几百倍的吗?
怎么Fermi出来了,比单个4核CPU也只快了几倍而已啊,嘿嘿,这还是挑了最好用的几个程序呢。

作者: hpctech    时间: 2010-5-20 22:07
当年不是动不动就比CPU快好几百倍的吗?
怎么Fermi出来了,比单个4核CPU也只快了几倍而已啊,嘿嘿,这还是 ...
Prescott 发表于 2010-5-20 21:56


实际应用上才有可能快几十到几百倍。
基本运算的测试不可能差那么远。
作者: Prescott    时间: 2010-5-20 22:11
实际应用上才有可能快几十到几百倍。
基本运算的测试不可能差那么远。
hpctech 发表于 2010-5-20 22:07


你这句话实在对不起你的ID
作者: hpctech    时间: 2010-5-20 22:13
你这句话实在对不起你的ID
Prescott 发表于 2010-5-20 22:11


这可不是我发明的,我是从实际应用数据总结出来的。
作者: Prescott    时间: 2010-5-20 22:14
这可不是我发明的,我是从实际应用数据总结出来的。
hpctech 发表于 2010-5-20 22:13


那你就更对不起你的ID了。
作者: hpctech    时间: 2010-5-20 22:16
那你就更对不起你的ID了。
Prescott 发表于 2010-5-20 22:14


CUDA Zone那么多论文你不会去看?!
再说了不是所有应用都能快那么多,要天时地利人和的。
我自己做过的就图像处理方面能加速个几十到100倍左右。
作者: Edison    时间: 2010-5-20 22:17
CPU 缺乏纹理单元,涉及这些单元的应用 CPU 落后许多倍一点都不奇怪,楼上(Prescott)发些阴阳怪调是没用的。
作者: Prescott    时间: 2010-5-20 22:21
回复 34# hpctech


    所以说你对不起自己的ID,论文大部分是**,比你的水平高不了多少。
作者: hpctech    时间: 2010-5-20 22:30
CPU 缺乏纹理单元,涉及这些单元的应用 CPU 落后许多倍一点都不奇怪,楼上(Prescott)发些阴阳怪调是没用的 ...
Edison 发表于 2010-5-20 22:17


我只是举例~~~实际上能加速个10几20倍已经很不错了,能上两个数量级的应用是很少的。
作者: hpctech    时间: 2010-5-20 22:30
回复  hpctech


    所以说你对不起自己的ID,论文大部分是**,比你的水平高不了多少。
Prescott 发表于 2010-5-20 22:21


看都不看就质疑,最没技术含量就是这种
作者: Prescott    时间: 2010-5-20 22:36
看都不看就质疑,最没技术含量就是这种
hpctech 发表于 2010-5-20 22:30



    好吧,你随便找一篇过来,我来挑错
作者: xmuxsp    时间: 2010-5-20 22:52
Prescott你完了....hpctech的都是专业搞cuda的
作者: gz_easy    时间: 2010-5-20 23:03
跑GPCBenchmarkOCL这种底层测试GPU比CPU快百倍,实际应用受限于整体软硬系统。
系统依旧要靠CPU支持,NV也只能提异构计算,扔了CPU,GPU独自存在有意义吗?
作者: hpctech    时间: 2010-5-20 23:05
好吧,你随便找一篇过来,我来挑错
Prescott 发表于 2010-5-20 22:36


把俺哥们做的一个东西摆上台:http://cuda.csdn.net/Contest/pro/nvidia_showme.aspx?pointid=39
作者: hpctech    时间: 2010-5-20 23:12
跑GPCBenchmarkOCL这种底层测试GPU比CPU快百倍,实际应用受限于整体软硬系统。
系统依旧要靠CPU支持,NV也 ...
gz_easy 发表于 2010-5-20 23:03


测试里只有图像处理才有百倍区别吧,不过是借助纹理单元的,呵呵
实际应用如果要比CPU快百倍的话,只能:
1、肯定是个单精度计算密集型的
2、线程间通讯、同步多。要知道CPU的Cache带宽也就跟GPU显存带宽一个级别的,比Shared Memory慢多了。
3、一堆超越函数,GPU是有SFU处理这些的,速度比CPU的软方法快多了

这样的应用有,但还是比较少。
作者: tomsmith123    时间: 2010-5-20 23:18
理论性能,C2050 峰值是500G DP 左右,而CPU 6核 已经有130G DP 的峰值。双精度来说,GPU 有4倍CPU 性能是合理的,至于SP,也许8倍。
拿极端优化的GPU,和没有优化过的CPU 代码比较加速比,是很愚蠢的。
目前我看到绝大多数所谓CPU 代码,连SSE都没用到。
作者: naze    时间: 2010-5-20 23:19
回复  hpctech


    所以说你对不起自己的ID,论文大部分是**,比你的水平高不了多少。
Prescott 发表于 2010-5-20 22:21

老大 低调点好  larrabee在显卡区的 坟//头
作者: tomsmith123    时间: 2010-5-20 23:25
回复 45# naze
他说得基本上没有什么问题。
作者: hpctech    时间: 2010-5-20 23:30
理论性能,C2050 峰值是500G DP 左右,而CPU 6核 已经有130G DP 的峰值。双精度来说,GPU 有4倍CPU 性能是合 ...
tomsmith123 发表于 2010-5-20 23:18


能用好SSE的人不多。。。能极端优化GPU代码的也没几个。那就只能在保证可读性和普遍意义的前提下去比较了。
作者: tomsmith123    时间: 2010-5-20 23:36
回复 47# hpctech
用ICC,Intel BLAS 就可以很容易用SSE,新的ICC,可以直接把向量计算SSE 实现。
作者: hpctech    时间: 2010-5-20 23:46
回复  hpctech
用ICC,Intel BLAS 就可以很容易用SSE,新的ICC,可以直接把向量计算SSE 实现。
tomsmith123 发表于 2010-5-20 23:36


BLAS就不说了,ICC没具体试过。本人愚钝,写程序还处于_mm_mul_ps这样的阶段,当然仅仅是计算向量是完全没有问题的。但问题是有些应用中的确不好打包,拆了又打挺麻烦的,性能也提升有限。靠编译器的话,我认为不会比自己手工打包要强。
作者: tomsmith123    时间: 2010-5-20 23:49
回复 49# hpctech
最早需要用NASM 来写SSE,后来嵌入汇编就可以,现在可以用模板定义,ICC 搞定。
20分钟可以写一个80% 峰值的线性计算程序。
作者: Prescott    时间: 2010-5-20 23:51
本帖最后由 Prescott 于 2010-5-21 00:42 编辑
把俺哥们做的一个东西摆上台:
hpctech 发表于 2010-5-20 23:05

这种东西也好意思摆上台。懒得看GPU version,随便说说CPU version
没源代码,不用看也知道代码烂的和屎一样。
1. CPU version是一个单线程程序,无论多少个核心只能用一个核心进行计算。
[attach]1287658[/attach]

2. 整个程序75%的时间耗在MSVCRT80.dll中,25%的时间耗在主程序中
[attach]1287666[/attach]

3. 超级可悲的是:MSVCRT80.dll中居然有97%的时间花在modf函数上,我就不信这个程序真的需要分别取小数部分和整数部分来做运算,文章中特地指出的sin/cos等GPU处理性能占优的超越函数只占了3%
[attach]1287669[/attach]

4. 号称会写SSE intrinsic的高手,自己的代码统统用的是x87浮点,而且是还是双精度,你的GPU也是双精度浮点??
[attach]1287671[/attach]

懒得看下去了
这几个问题解决,一个i7-860就可以轻松干掉Fermi,CPU程序写成这样,连走都不会,就学什么跑。

我说论文都是**,你还有什么话说。
作者: hpctech    时间: 2010-5-20 23:57
回复  hpctech
最早需要用NASM 来写SSE,后来嵌入汇编就可以,现在可以用模板定义,ICC 搞定。
20分钟可 ...
tomsmith123 发表于 2010-5-20 23:49


可能咱们研究方向不同。

解线性数学问题,SSE的确很好写,我个人是倾向于直接写那些SSE intrinsic functions。
作者: hpctech    时间: 2010-5-21 00:18
这种东西也好意思摆上台。懒得看GPU version,随便说说CPU version
没源代码,不用看也知道代码烂的和屎 ...
Prescott 发表于 2010-5-20 23:51


呵呵,的确是单线程。。。
你就直接乘以核心数好了
作者: tomsmith123    时间: 2010-5-21 00:32
回复 54# 左脚选手
那个42% 包括500T CPU 的计算量,GPU 要比42%低一些。
作者: Edison    时间: 2010-5-21 00:37
SSE 没有 gather/scatter/masked load/store,甚至没有  masked execution,自动向量化的效果其实并不怎样,只是因为 SSE 是 4D 的,所以这个自动向量化还可以凑合一下。
作者: hpctech    时间: 2010-5-21 00:39
曙光的还没有完全优化,因为之前赶着申报成绩去了。。。不过就算完全优化,估计GPU部分不会超过50%,参考天河一号的效率。
作者: hpctech    时间: 2010-5-21 00:42
另外问一下tomsmith123,6核CPU DP有130G是如何计算出来的?
作者: tomsmith123    时间: 2010-5-21 00:45
回复 58# hpctech
I7 980X 我手头benchmark 跑到了130G DP 的性能。
作者: hpctech    时间: 2010-5-21 00:51
SSE 没有 gather/scatter/masked load/store,甚至没有  masked execution,自动向量化的效果其实并不怎样, ...
Edison 发表于 2010-5-21 00:37


Intel不厚道,拉拉比都做了,就是不做进x86里面。貌似下一代AVX也没有。
作者: Edison    时间: 2010-5-21 00:52
Gulftown(Westmere-EP)应该也就是 80 GFLOPS DP,你跑的是 SP 吧。
作者: tomsmith123    时间: 2010-5-21 00:52
回复 60# hpctech
X86 SSE AVX Larrabee 都支持的,是CT。
作者: hpctech    时间: 2010-5-21 00:54
回复  hpctech
I7 980X 我手头benchmark 跑到了130G DP 的性能。
tomsmith123 发表于 2010-5-21 00:45


米人!

是单测SSE2还是SSE2+普通浮点单元?貌似两者可以ILP
作者: hpctech    时间: 2010-5-21 00:57
回复  hpctech
X86 SSE AVX Larrabee 都支持的,是CT。
tomsmith123 发表于 2010-5-21 00:52


我的意思是管理员大人说的scatter/gather。。。
作者: tomsmith123    时间: 2010-5-21 01:00
回复 64# hpctech
我的意思是,Ct 产品化的时候,向量计算对于Intel 的产品,都是自动的。
作者: tomsmith123    时间: 2010-5-21 01:01
回复 63# hpctech
不是自己买,没什么米。
作者: tomsmith123    时间: 2010-5-21 01:03
回复 61# Edison
还有TB 的,我的Benchmark 测的是理论峰值,会有一个效率系数。
作者: hpctech    时间: 2010-5-21 01:09
回复  hpctech
我的意思是,Ct 产品化的时候,向量计算对于Intel 的产品,都是自动的。
tomsmith123 发表于 2010-5-21 01:00


明白。。。
不过拉拉比和x86架构不同,如何高效在x86上产生SSE代码?希望不要搞得像AMD的OpenCL on CPU那样。。。
作者: tomsmith123    时间: 2010-5-21 01:16
回复 69# hpctech
Ct 下不同的平台,有不同的runtime支持。
作者: hpctech    时间: 2010-5-21 01:16
不知道这个sisoftware测试的是不是准确,的确有130G左右
左脚选手 发表于 2010-5-21 01:05


aggregate arithmetic performance不知道怎样统计出来的
不过下面两个dhrystone和whetstone并非真实峰值速度,而是实跑出来的,但是是以某N年前跑的基准作为1MIPS,并非真正的1秒跑了那么多条指令。
作者: Prescott    时间: 2010-5-21 01:17
本帖最后由 Prescott 于 2010-5-21 01:19 编辑
SSE 没有 gather/scatter/masked load/store,甚至没有  masked execution,自动向量化的效果其实并不怎样, ...
Edison 发表于 2010-5-21 00:37


谁告诉你没有masked store?MASKMOVQ是干什么的?
有masked store,你还要masked exec和masked load干什么?怕SIMD单元累着??
作者: Edison    时间: 2010-5-21 01:18
回复  Edison
还有TB 的,我的Benchmark 测的是理论峰值,会有一个效率系数。
tomsmith123 发表于 2010-5-21 01:03


Gulftown 属于 Nehalem 家族,内核执行端部分应该是一样都是 4DP flop per clock,6 内核@ 3.33 GHz =79.X GFLOPS。
作者: hpctech    时间: 2010-5-21 01:28
本帖最后由 hpctech 于 2010-5-21 01:49 编辑
这种东西也好意思摆上台。懒得看GPU version,随便说说CPU version
没源代码,不用看也知道代码烂的和屎 ...
Prescott 发表于 2010-5-20 23:51


并非我写的。改天贴我写的程序给你批判

源程序的确是单精度的,不过你可别以为所有人都和你一样,SSE随便写。有那时间去优化成SSE,GPU程序早写了几个了。
作者: hpctech    时间: 2010-5-21 01:45
谁告诉你没有masked store?MASKMOVQ是干什么的?
有masked store,你还要masked exec和masked load干 ...
Prescott 发表于 2010-5-21 01:17


masked execution还好办,gather/scatter怎么解决?不要以为SSE是万能的。。。
作者: anolen01    时间: 2010-5-21 10:07
并非我写的。改天贴我写的程序给你批判

源程序的确是单精度的,不过你可别以为所有人都和你一样,SS ...
hpctech 发表于 2010-5-21 01:28


原来还不是你写的,就拿出来炫耀,结果被大佬批得一钱不值,嘿嘿,年轻人还是低调点好……
作者: hpctech    时间: 2010-5-21 13:06
这种东西也好意思摆上台。懒得看GPU version,随便说说CPU version
没源代码,不用看也知道代码烂的和屎 ...
Prescott 发表于 2010-5-20 23:51


这种东西也好意思摆上台。懒得看GPU version,随便说说CPU version
没源代码,不用看也知道代码烂的和屎一样。
1. CPU version是一个单线程程序,无论多少个核心只能用一个核心进行计算。

的确是单线程的

2. 整个程序75%的时间耗在MSVCRT80.dll中,25%的时间耗在主程序中

3. 超级可悲的是:MSVCRT80.dll中居然有97%的时间花在modf函数上,我就不信这个程序真的需要分别取小数部分和整数部分来做运算,文章中特地指出的sin/cos等GPU处理性能占优的超越函数只占了3%

你测的是计数还是cycle?我不认为SAR部分CPU和GPU代码有多大区别。modf或许是其它科学计算函数自己调用的。SAR计算大部分是sin/cos为主,你这个就别争了


4. 号称会写SSE intrinsic的高手,自己的代码统统用的是x87浮点,而且是还是双精度,你的GPU也是双精度浮点??

加乘两次就要算exp/sin的你优化给我看?!好吧,就当你sin/cos也写SSE版的,顶多也就4倍性能吧,再综合考虑内存带宽因素,最终程序能优化到单核上2倍提高已经很不错了,还秒杀Fermi呢,吹牛不是这样吹的
作者: hpctech    时间: 2010-5-21 13:07
原来还不是你写的,就拿出来炫耀,结果被大佬批得一钱不值,嘿嘿,年轻人还是低调点好……
anolen01 发表于 2010-5-21 10:07


我拿来炫耀?麻烦你看看这里谁的语气最嚣张~~~
作者: Prescott    时间: 2010-5-21 22:42
这种东西也好意思摆上台。懒得看GPU version,随便说说CPU version
没源代码,不用看也知道代码烂的和 ...
hpctech 发表于 2010-5-21 13:06



你敢在这里打个赌吗?你公开源码,我来优化。不说几个核,我赌单线程性能就能提高一倍。赌注你开。
作者: ATI专业卡    时间: 2010-5-21 23:53
呵呵。

目前国内HPC是GPU 火爆,无论是否值得做的题目或者非常适合GPU运算的东东,都一股脑用GPU+CPU实现。

加上NV/AMD的算盘,想让更多的人进来这个 领域一起“研究”看什么才是最适合的GPU应用。 所以各种浮躁和流于表面的“应用”冒出来了。

现状的确是CPU都没用好,再搞一个还未成熟的GPU。没有OPENCL会挡掉些急功近利的人,但有OPENCL又会快速降低门槛。

呵呵。 个人见解。
作者: Edison    时间: 2010-5-22 01:43
LRBni 里 masked L/S 是不会有 SSE 那样的 exception,当然发生这样的 exception 只有在跨界的时候才会产生,SSE load 如果是对齐的话也就不会发生了。

AVX 就比 SSE 好多了,当然这也和它的并行度有关,毕竟 SSE 是 4D(*32-bit 的话),AVX 是 8D(*32-bit 的话,8-bit 就是 32D 了:p,只是 VMASKMOV 只支持 32-bit 和 64-bit),但是 AVX1 依然缺乏 gather/scatter,这和 gather/scatter  在一般的 cpu 上不好实现有关,需要考虑很多 exception 的情况。




欢迎光临 POPPUR爱换 (https://we.poppur.com/) Powered by Discuz! X3.4