NVIDIA 官方 Tesla C2050 初步测试结果

tomsmith123 · 发表于 2010-5-21 01:00

回复 64# hpctech
我的意思是，Ct 产品化的时候，向量计算对于Intel 的产品，都是自动的。

tomsmith123 · 发表于 2010-5-21 01:01

回复 63# hpctech
不是自己买，没什么米。

tomsmith123 · 发表于 2010-5-21 01:03

回复 61# Edison
还有TB 的，我的Benchmark 测的是理论峰值，会有一个效率系数。

hpctech · 发表于 2010-5-21 01:09

回复 hpctech
我的意思是，Ct 产品化的时候，向量计算对于Intel 的产品，都是自动的。
tomsmith123 发表于 2010-5-21 01:00

明白。。。
不过拉拉比和x86架构不同，如何高效在x86上产生SSE代码？希望不要搞得像AMD的OpenCL on CPU那样。。。

tomsmith123 · 发表于 2010-5-21 01:16

回复 69# hpctech
Ct 下不同的平台，有不同的runtime支持。

hpctech · 发表于 2010-5-21 01:16

不知道这个sisoftware测试的是不是准确，的确有130G左右
左脚选手发表于 2010-5-21 01:05

aggregate arithmetic performance不知道怎样统计出来的
不过下面两个dhrystone和whetstone并非真实峰值速度，而是实跑出来的，但是是以某N年前跑的基准作为1MIPS，并非真正的1秒跑了那么多条指令。

Prescott · 发表于 2010-5-21 01:17

本帖最后由 Prescott 于 2010-5-21 01:19 编辑

SSE 没有 gather/scatter/masked load/store，甚至没有 masked execution，自动向量化的效果其实并不怎样， ...
Edison 发表于 2010-5-21 00:37

谁告诉你没有masked store？MASKMOVQ是干什么的？
有masked store，你还要masked exec和masked load干什么？怕SIMD单元累着？？

Edison · 发表于 2010-5-21 01:18

回复 Edison
还有TB 的，我的Benchmark 测的是理论峰值，会有一个效率系数。
tomsmith123 发表于 2010-5-21 01:03

Gulftown 属于 Nehalem 家族，内核执行端部分应该是一样都是 4DP flop per clock，6 内核@ 3.33 GHz =79.X GFLOPS。

hpctech · 发表于 2010-5-21 01:28

本帖最后由 hpctech 于 2010-5-21 01:49 编辑

这种东西也好意思摆上台。懒得看GPU version，随便说说CPU version
没源代码，不用看也知道代码烂的和屎 ...
Prescott 发表于 2010-5-20 23:51

并非我写的。改天贴我写的程序给你批判

源程序的确是单精度的，不过你可别以为所有人都和你一样，SSE随便写。有那时间去优化成SSE，GPU程序早写了几个了。

hpctech · 发表于 2010-5-21 01:45

谁告诉你没有masked store？MASKMOVQ是干什么的？
有masked store，你还要masked exec和masked load干 ...
Prescott 发表于 2010-5-21 01:17

masked execution还好办，gather/scatter怎么解决？不要以为SSE是万能的。。。

anolen01 · 发表于 2010-5-21 10:07

并非我写的。改天贴我写的程序给你批判

源程序的确是单精度的，不过你可别以为所有人都和你一样，SS ...
hpctech 发表于 2010-5-21 01:28

原来还不是你写的，就拿出来炫耀，结果被大佬批得一钱不值，嘿嘿，年轻人还是低调点好……

hpctech · 发表于 2010-5-21 13:06

这种东西也好意思摆上台。懒得看GPU version，随便说说CPU version
没源代码，不用看也知道代码烂的和屎 ...
Prescott 发表于 2010-5-20 23:51

这种东西也好意思摆上台。懒得看GPU version，随便说说CPU version
没源代码，不用看也知道代码烂的和屎一样。
1. CPU version是一个单线程程序，无论多少个核心只能用一个核心进行计算。

的确是单线程的

2. 整个程序75%的时间耗在MSVCRT80.dll中，25%的时间耗在主程序中

3. 超级可悲的是：MSVCRT80.dll中居然有97%的时间花在modf函数上，我就不信这个程序真的需要分别取小数部分和整数部分来做运算，文章中特地指出的sin/cos等GPU处理性能占优的超越函数只占了3%

你测的是计数还是cycle？我不认为SAR部分CPU和GPU代码有多大区别。modf或许是其它科学计算函数自己调用的。SAR计算大部分是sin/cos为主，你这个就别争了

4. 号称会写SSE intrinsic的高手，自己的代码统统用的是x87浮点，而且是还是双精度，你的GPU也是双精度浮点？？

加乘两次就要算exp/sin的你优化给我看？！好吧，就当你sin/cos也写SSE版的，顶多也就4倍性能吧，再综合考虑内存带宽因素，最终程序能优化到单核上2倍提高已经很不错了，还秒杀Fermi呢，吹牛不是这样吹的

hpctech · 发表于 2010-5-21 13:07

原来还不是你写的，就拿出来炫耀，结果被大佬批得一钱不值，嘿嘿，年轻人还是低调点好……
anolen01 发表于 2010-5-21 10:07

我拿来炫耀？麻烦你看看这里谁的语气最嚣张～～～

Prescott · 发表于 2010-5-21 22:42

这种东西也好意思摆上台。懒得看GPU version，随便说说CPU version
没源代码，不用看也知道代码烂的和 ...
hpctech 发表于 2010-5-21 13:06

你敢在这里打个赌吗？你公开源码，我来优化。不说几个核，我赌单线程性能就能提高一倍。赌注你开。

ATI专业卡 · 发表于 2010-5-21 23:53

呵呵。

目前国内HPC是GPU 火爆，无论是否值得做的题目或者非常适合GPU运算的东东，都一股脑用GPU+CPU实现。

加上NV/AMD的算盘，想让更多的人进来这个领域一起“研究”看什么才是最适合的GPU应用。所以各种浮躁和流于表面的“应用”冒出来了。

现状的确是CPU都没用好，再搞一个还未成熟的GPU。没有OPENCL会挡掉些急功近利的人，但有OPENCL又会快速降低门槛。

呵呵。个人见解。

Edison · 发表于 2010-5-22 01:43

LRBni 里 masked L/S 是不会有 SSE 那样的 exception，当然发生这样的 exception 只有在跨界的时候才会产生，SSE load 如果是对齐的话也就不会发生了。

AVX 就比 SSE 好多了，当然这也和它的并行度有关，毕竟 SSE 是 4D（*32-bit 的话），AVX 是 8D（*32-bit 的话，8-bit 就是 32D 了:p，只是 VMASKMOV 只支持 32-bit 和 64-bit），但是 AVX1 依然缺乏 gather/scatter，这和 gather/scatter 在一般的 cpu 上不好实现有关，需要考虑很多 exception 的情况。

帐号		自动登录	找回密码
密码			注册

NVIDIA 官方 Tesla C2050 初步测试结果

浏览过的版块