POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
楼主: Edison
打印 上一主题 下一主题

NVIDIA 官方 Tesla C2050 初步测试结果

[复制链接]
41#
发表于 2010-5-20 23:18 | 只看该作者
理论性能,C2050 峰值是500G DP 左右,而CPU 6核 已经有130G DP 的峰值。双精度来说,GPU 有4倍CPU 性能是合理的,至于SP,也许8倍。
拿极端优化的GPU,和没有优化过的CPU 代码比较加速比,是很愚蠢的。
目前我看到绝大多数所谓CPU 代码,连SSE都没用到。
回复 支持 反对

使用道具 举报

42#
发表于 2010-5-20 23:19 | 只看该作者
回复  hpctech


    所以说你对不起自己的ID,论文大部分是**,比你的水平高不了多少。
Prescott 发表于 2010-5-20 22:21

老大 低调点好  larrabee在显卡区的 坟//头
回复 支持 反对

使用道具 举报

43#
发表于 2010-5-20 23:25 | 只看该作者
回复 45# naze
他说得基本上没有什么问题。
回复 支持 反对

使用道具 举报

44#
发表于 2010-5-20 23:30 | 只看该作者
理论性能,C2050 峰值是500G DP 左右,而CPU 6核 已经有130G DP 的峰值。双精度来说,GPU 有4倍CPU 性能是合 ...
tomsmith123 发表于 2010-5-20 23:18


能用好SSE的人不多。。。能极端优化GPU代码的也没几个。那就只能在保证可读性和普遍意义的前提下去比较了。
回复 支持 反对

使用道具 举报

45#
发表于 2010-5-20 23:36 | 只看该作者
回复 47# hpctech
用ICC,Intel BLAS 就可以很容易用SSE,新的ICC,可以直接把向量计算SSE 实现。
回复 支持 反对

使用道具 举报

46#
发表于 2010-5-20 23:46 | 只看该作者
回复  hpctech
用ICC,Intel BLAS 就可以很容易用SSE,新的ICC,可以直接把向量计算SSE 实现。
tomsmith123 发表于 2010-5-20 23:36


BLAS就不说了,ICC没具体试过。本人愚钝,写程序还处于_mm_mul_ps这样的阶段,当然仅仅是计算向量是完全没有问题的。但问题是有些应用中的确不好打包,拆了又打挺麻烦的,性能也提升有限。靠编译器的话,我认为不会比自己手工打包要强。
回复 支持 反对

使用道具 举报

47#
发表于 2010-5-20 23:49 | 只看该作者
回复 49# hpctech
最早需要用NASM 来写SSE,后来嵌入汇编就可以,现在可以用模板定义,ICC 搞定。
20分钟可以写一个80% 峰值的线性计算程序。
回复 支持 反对

使用道具 举报

48#
发表于 2010-5-20 23:51 | 只看该作者
本帖最后由 Prescott 于 2010-5-21 00:42 编辑
把俺哥们做的一个东西摆上台:
hpctech 发表于 2010-5-20 23:05

这种东西也好意思摆上台。懒得看GPU version,随便说说CPU version
没源代码,不用看也知道代码烂的和屎一样。
1. CPU version是一个单线程程序,无论多少个核心只能用一个核心进行计算。


2. 整个程序75%的时间耗在MSVCRT80.dll中,25%的时间耗在主程序中


3. 超级可悲的是:MSVCRT80.dll中居然有97%的时间花在modf函数上,我就不信这个程序真的需要分别取小数部分和整数部分来做运算,文章中特地指出的sin/cos等GPU处理性能占优的超越函数只占了3%


4. 号称会写SSE intrinsic的高手,自己的代码统统用的是x87浮点,而且是还是双精度,你的GPU也是双精度浮点??


懒得看下去了
这几个问题解决,一个i7-860就可以轻松干掉Fermi,CPU程序写成这样,连走都不会,就学什么跑。

我说论文都是**,你还有什么话说。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回复 支持 反对

使用道具 举报

49#
发表于 2010-5-20 23:57 | 只看该作者
回复  hpctech
最早需要用NASM 来写SSE,后来嵌入汇编就可以,现在可以用模板定义,ICC 搞定。
20分钟可 ...
tomsmith123 发表于 2010-5-20 23:49


可能咱们研究方向不同。

解线性数学问题,SSE的确很好写,我个人是倾向于直接写那些SSE intrinsic functions。
回复 支持 反对

使用道具 举报

50#
发表于 2010-5-21 00:18 | 只看该作者
这种东西也好意思摆上台。懒得看GPU version,随便说说CPU version
没源代码,不用看也知道代码烂的和屎 ...
Prescott 发表于 2010-5-20 23:51


呵呵,的确是单线程。。。
你就直接乘以核心数好了
回复 支持 反对

使用道具 举报

51#
发表于 2010-5-21 00:32 | 只看该作者
回复 54# 左脚选手
那个42% 包括500T CPU 的计算量,GPU 要比42%低一些。
回复 支持 反对

使用道具 举报

52#
 楼主| 发表于 2010-5-21 00:37 | 只看该作者
SSE 没有 gather/scatter/masked load/store,甚至没有  masked execution,自动向量化的效果其实并不怎样,只是因为 SSE 是 4D 的,所以这个自动向量化还可以凑合一下。
回复 支持 反对

使用道具 举报

53#
发表于 2010-5-21 00:39 | 只看该作者
曙光的还没有完全优化,因为之前赶着申报成绩去了。。。不过就算完全优化,估计GPU部分不会超过50%,参考天河一号的效率。
回复 支持 反对

使用道具 举报

54#
发表于 2010-5-21 00:42 | 只看该作者
另外问一下tomsmith123,6核CPU DP有130G是如何计算出来的?
回复 支持 反对

使用道具 举报

55#
发表于 2010-5-21 00:45 | 只看该作者
回复 58# hpctech
I7 980X 我手头benchmark 跑到了130G DP 的性能。
回复 支持 反对

使用道具 举报

56#
发表于 2010-5-21 00:51 | 只看该作者
SSE 没有 gather/scatter/masked load/store,甚至没有  masked execution,自动向量化的效果其实并不怎样, ...
Edison 发表于 2010-5-21 00:37


Intel不厚道,拉拉比都做了,就是不做进x86里面。貌似下一代AVX也没有。
回复 支持 反对

使用道具 举报

57#
 楼主| 发表于 2010-5-21 00:52 | 只看该作者
Gulftown(Westmere-EP)应该也就是 80 GFLOPS DP,你跑的是 SP 吧。
回复 支持 反对

使用道具 举报

58#
发表于 2010-5-21 00:52 | 只看该作者
回复 60# hpctech
X86 SSE AVX Larrabee 都支持的,是CT。
回复 支持 反对

使用道具 举报

59#
发表于 2010-5-21 00:54 | 只看该作者
回复  hpctech
I7 980X 我手头benchmark 跑到了130G DP 的性能。
tomsmith123 发表于 2010-5-21 00:45


米人!

是单测SSE2还是SSE2+普通浮点单元?貌似两者可以ILP
回复 支持 反对

使用道具 举报

60#
发表于 2010-5-21 00:57 | 只看该作者
回复  hpctech
X86 SSE AVX Larrabee 都支持的,是CT。
tomsmith123 发表于 2010-5-21 00:52


我的意思是管理员大人说的scatter/gather。。。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-9-13 16:18

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表