NVIDIA 官方 Tesla C2050 初步测试结果

tomsmith123 · 发表于 2010-5-20 23:18

理论性能，C2050 峰值是500G DP 左右，而CPU 6核已经有130G DP 的峰值。双精度来说，GPU 有4倍CPU 性能是合理的，至于SP，也许8倍。
拿极端优化的GPU，和没有优化过的CPU 代码比较加速比，是很愚蠢的。
目前我看到绝大多数所谓CPU 代码，连SSE都没用到。

naze · 发表于 2010-5-20 23:19

回复 hpctech

所以说你对不起自己的ID，论文大部分是**，比你的水平高不了多少。
Prescott 发表于 2010-5-20 22:21

老大低调点好 larrabee在显卡区的坟//头

tomsmith123 · 发表于 2010-5-20 23:25

回复 45# naze
他说得基本上没有什么问题。

hpctech · 发表于 2010-5-20 23:30

理论性能，C2050 峰值是500G DP 左右，而CPU 6核已经有130G DP 的峰值。双精度来说，GPU 有4倍CPU 性能是合 ...
tomsmith123 发表于 2010-5-20 23:18

能用好SSE的人不多。。。能极端优化GPU代码的也没几个。那就只能在保证可读性和普遍意义的前提下去比较了。

tomsmith123 · 发表于 2010-5-20 23:36

回复 47# hpctech
用ICC，Intel BLAS 就可以很容易用SSE，新的ICC，可以直接把向量计算SSE 实现。

hpctech · 发表于 2010-5-20 23:46

回复 hpctech
用ICC，Intel BLAS 就可以很容易用SSE，新的ICC，可以直接把向量计算SSE 实现。
tomsmith123 发表于 2010-5-20 23:36

BLAS就不说了，ICC没具体试过。本人愚钝，写程序还处于_mm_mul_ps这样的阶段，当然仅仅是计算向量是完全没有问题的。但问题是有些应用中的确不好打包，拆了又打挺麻烦的，性能也提升有限。靠编译器的话，我认为不会比自己手工打包要强。

tomsmith123 · 发表于 2010-5-20 23:49

回复 49# hpctech
最早需要用NASM 来写SSE，后来嵌入汇编就可以，现在可以用模板定义，ICC 搞定。
20分钟可以写一个80% 峰值的线性计算程序。

Prescott · 发表于 2010-5-20 23:51

本帖最后由 Prescott 于 2010-5-21 00:42 编辑

把俺哥们做的一个东西摆上台：
hpctech 发表于 2010-5-20 23:05

这种东西也好意思摆上台。懒得看GPU version，随便说说CPU version
没源代码，不用看也知道代码烂的和屎一样。
1. CPU version是一个单线程程序，无论多少个核心只能用一个核心进行计算。

2. 整个程序75%的时间耗在MSVCRT80.dll中，25%的时间耗在主程序中

3. 超级可悲的是：MSVCRT80.dll中居然有97%的时间花在modf函数上，我就不信这个程序真的需要分别取小数部分和整数部分来做运算，文章中特地指出的sin/cos等GPU处理性能占优的超越函数只占了3%

4. 号称会写SSE intrinsic的高手，自己的代码统统用的是x87浮点，而且是还是双精度，你的GPU也是双精度浮点？？

懒得看下去了
这几个问题解决，一个i7-860就可以轻松干掉Fermi，CPU程序写成这样，连走都不会，就学什么跑。

我说论文都是**，你还有什么话说。

hpctech · 发表于 2010-5-20 23:57

回复 hpctech
最早需要用NASM 来写SSE，后来嵌入汇编就可以，现在可以用模板定义，ICC 搞定。
20分钟可 ...
tomsmith123 发表于 2010-5-20 23:49

可能咱们研究方向不同。

解线性数学问题，SSE的确很好写，我个人是倾向于直接写那些SSE intrinsic functions。

hpctech · 发表于 2010-5-21 00:18

这种东西也好意思摆上台。懒得看GPU version，随便说说CPU version
没源代码，不用看也知道代码烂的和屎 ...
Prescott 发表于 2010-5-20 23:51

呵呵，的确是单线程。。。
你就直接乘以核心数好了

tomsmith123 · 发表于 2010-5-21 00:32

回复 54# 左脚选手
那个42％包括500T CPU 的计算量，GPU 要比42％低一些。

Edison · 发表于 2010-5-21 00:37

SSE 没有 gather/scatter/masked load/store，甚至没有 masked execution，自动向量化的效果其实并不怎样，只是因为 SSE 是 4D 的，所以这个自动向量化还可以凑合一下。

hpctech · 发表于 2010-5-21 00:39

曙光的还没有完全优化，因为之前赶着申报成绩去了。。。不过就算完全优化，估计GPU部分不会超过50%，参考天河一号的效率。

hpctech · 发表于 2010-5-21 00:42

另外问一下tomsmith123，6核CPU DP有130G是如何计算出来的？

tomsmith123 · 发表于 2010-5-21 00:45

回复 58# hpctech
I7 980X 我手头benchmark 跑到了130G DP 的性能。

hpctech · 发表于 2010-5-21 00:51

SSE 没有 gather/scatter/masked load/store，甚至没有 masked execution，自动向量化的效果其实并不怎样， ...
Edison 发表于 2010-5-21 00:37

Intel不厚道，拉拉比都做了，就是不做进x86里面。貌似下一代AVX也没有。

Edison · 发表于 2010-5-21 00:52

Gulftown（Westmere-EP）应该也就是 80 GFLOPS DP，你跑的是 SP 吧。

tomsmith123 · 发表于 2010-5-21 00:52

回复 60# hpctech
X86 SSE AVX Larrabee 都支持的，是CT。

hpctech · 发表于 2010-5-21 00:54

回复 hpctech
I7 980X 我手头benchmark 跑到了130G DP 的性能。
tomsmith123 发表于 2010-5-21 00:45

米人！

是单测SSE2还是SSE2+普通浮点单元？貌似两者可以ILP

hpctech · 发表于 2010-5-21 00:57

回复 hpctech
X86 SSE AVX Larrabee 都支持的，是CT。
tomsmith123 发表于 2010-5-21 00:52

我的意思是管理员大人说的scatter/gather。。。

帐号		自动登录	找回密码
密码			注册

NVIDIA 官方 Tesla C2050 初步测试结果

本帖子中包含更多资源

浏览过的版块