POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
楼主: Edison
打印 上一主题 下一主题

NVIDIA 官方 Tesla C2050 初步测试结果

[复制链接]
61#
发表于 2010-5-21 01:00 | 只看该作者
回复 64# hpctech
我的意思是,Ct 产品化的时候,向量计算对于Intel 的产品,都是自动的。
回复 支持 反对

使用道具 举报

62#
发表于 2010-5-21 01:01 | 只看该作者
回复 63# hpctech
不是自己买,没什么米。
回复 支持 反对

使用道具 举报

63#
发表于 2010-5-21 01:03 | 只看该作者
回复 61# Edison
还有TB 的,我的Benchmark 测的是理论峰值,会有一个效率系数。
回复 支持 反对

使用道具 举报

64#
发表于 2010-5-21 01:09 | 只看该作者
回复  hpctech
我的意思是,Ct 产品化的时候,向量计算对于Intel 的产品,都是自动的。
tomsmith123 发表于 2010-5-21 01:00


明白。。。
不过拉拉比和x86架构不同,如何高效在x86上产生SSE代码?希望不要搞得像AMD的OpenCL on CPU那样。。。
回复 支持 反对

使用道具 举报

65#
发表于 2010-5-21 01:16 | 只看该作者
回复 69# hpctech
Ct 下不同的平台,有不同的runtime支持。
回复 支持 反对

使用道具 举报

66#
发表于 2010-5-21 01:16 | 只看该作者
不知道这个sisoftware测试的是不是准确,的确有130G左右
左脚选手 发表于 2010-5-21 01:05


aggregate arithmetic performance不知道怎样统计出来的
不过下面两个dhrystone和whetstone并非真实峰值速度,而是实跑出来的,但是是以某N年前跑的基准作为1MIPS,并非真正的1秒跑了那么多条指令。
回复 支持 反对

使用道具 举报

67#
发表于 2010-5-21 01:17 | 只看该作者
本帖最后由 Prescott 于 2010-5-21 01:19 编辑
SSE 没有 gather/scatter/masked load/store,甚至没有  masked execution,自动向量化的效果其实并不怎样, ...
Edison 发表于 2010-5-21 00:37


谁告诉你没有masked store?MASKMOVQ是干什么的?
有masked store,你还要masked exec和masked load干什么?怕SIMD单元累着??
回复 支持 反对

使用道具 举报

68#
 楼主| 发表于 2010-5-21 01:18 | 只看该作者
回复  Edison
还有TB 的,我的Benchmark 测的是理论峰值,会有一个效率系数。
tomsmith123 发表于 2010-5-21 01:03


Gulftown 属于 Nehalem 家族,内核执行端部分应该是一样都是 4DP flop per clock,6 内核@ 3.33 GHz =79.X GFLOPS。
回复 支持 反对

使用道具 举报

69#
发表于 2010-5-21 01:28 | 只看该作者
本帖最后由 hpctech 于 2010-5-21 01:49 编辑
这种东西也好意思摆上台。懒得看GPU version,随便说说CPU version
没源代码,不用看也知道代码烂的和屎 ...
Prescott 发表于 2010-5-20 23:51


并非我写的。改天贴我写的程序给你批判

源程序的确是单精度的,不过你可别以为所有人都和你一样,SSE随便写。有那时间去优化成SSE,GPU程序早写了几个了。
回复 支持 反对

使用道具 举报

70#
发表于 2010-5-21 01:45 | 只看该作者
谁告诉你没有masked store?MASKMOVQ是干什么的?
有masked store,你还要masked exec和masked load干 ...
Prescott 发表于 2010-5-21 01:17


masked execution还好办,gather/scatter怎么解决?不要以为SSE是万能的。。。
回复 支持 反对

使用道具 举报

71#
发表于 2010-5-21 10:07 | 只看该作者
并非我写的。改天贴我写的程序给你批判

源程序的确是单精度的,不过你可别以为所有人都和你一样,SS ...
hpctech 发表于 2010-5-21 01:28


原来还不是你写的,就拿出来炫耀,结果被大佬批得一钱不值,嘿嘿,年轻人还是低调点好……
回复 支持 反对

使用道具 举报

72#
发表于 2010-5-21 13:06 | 只看该作者
这种东西也好意思摆上台。懒得看GPU version,随便说说CPU version
没源代码,不用看也知道代码烂的和屎 ...
Prescott 发表于 2010-5-20 23:51


这种东西也好意思摆上台。懒得看GPU version,随便说说CPU version
没源代码,不用看也知道代码烂的和屎一样。
1. CPU version是一个单线程程序,无论多少个核心只能用一个核心进行计算。

的确是单线程的

2. 整个程序75%的时间耗在MSVCRT80.dll中,25%的时间耗在主程序中

3. 超级可悲的是:MSVCRT80.dll中居然有97%的时间花在modf函数上,我就不信这个程序真的需要分别取小数部分和整数部分来做运算,文章中特地指出的sin/cos等GPU处理性能占优的超越函数只占了3%

你测的是计数还是cycle?我不认为SAR部分CPU和GPU代码有多大区别。modf或许是其它科学计算函数自己调用的。SAR计算大部分是sin/cos为主,你这个就别争了


4. 号称会写SSE intrinsic的高手,自己的代码统统用的是x87浮点,而且是还是双精度,你的GPU也是双精度浮点??

加乘两次就要算exp/sin的你优化给我看?!好吧,就当你sin/cos也写SSE版的,顶多也就4倍性能吧,再综合考虑内存带宽因素,最终程序能优化到单核上2倍提高已经很不错了,还秒杀Fermi呢,吹牛不是这样吹的
回复 支持 反对

使用道具 举报

73#
发表于 2010-5-21 13:07 | 只看该作者
原来还不是你写的,就拿出来炫耀,结果被大佬批得一钱不值,嘿嘿,年轻人还是低调点好……
anolen01 发表于 2010-5-21 10:07


我拿来炫耀?麻烦你看看这里谁的语气最嚣张~~~
回复 支持 反对

使用道具 举报

74#
发表于 2010-5-21 22:42 | 只看该作者
这种东西也好意思摆上台。懒得看GPU version,随便说说CPU version
没源代码,不用看也知道代码烂的和 ...
hpctech 发表于 2010-5-21 13:06



你敢在这里打个赌吗?你公开源码,我来优化。不说几个核,我赌单线程性能就能提高一倍。赌注你开。
回复 支持 反对

使用道具 举报

75#
发表于 2010-5-21 23:53 | 只看该作者
呵呵。

目前国内HPC是GPU 火爆,无论是否值得做的题目或者非常适合GPU运算的东东,都一股脑用GPU+CPU实现。

加上NV/AMD的算盘,想让更多的人进来这个 领域一起“研究”看什么才是最适合的GPU应用。 所以各种浮躁和流于表面的“应用”冒出来了。

现状的确是CPU都没用好,再搞一个还未成熟的GPU。没有OPENCL会挡掉些急功近利的人,但有OPENCL又会快速降低门槛。

呵呵。 个人见解。
回复 支持 反对

使用道具 举报

76#
 楼主| 发表于 2010-5-22 01:43 | 只看该作者
LRBni 里 masked L/S 是不会有 SSE 那样的 exception,当然发生这样的 exception 只有在跨界的时候才会产生,SSE load 如果是对齐的话也就不会发生了。

AVX 就比 SSE 好多了,当然这也和它的并行度有关,毕竟 SSE 是 4D(*32-bit 的话),AVX 是 8D(*32-bit 的话,8-bit 就是 32D 了:p,只是 VMASKMOV 只支持 32-bit 和 64-bit),但是 AVX1 依然缺乏 gather/scatter,这和 gather/scatter  在一般的 cpu 上不好实现有关,需要考虑很多 exception 的情况。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-9-13 20:04

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表