POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
楼主: RealT
打印 上一主题 下一主题

橡树岭的纸面上的Fermi HPC悲剧了吗?

[复制链接]
cellwing 该用户已被删除
61#
发表于 2009-12-18 10:12 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

62#
发表于 2009-12-18 11:13 | 只看该作者
有时候会直接拿production的代码来测试。
要看rate的话直接买nahelem-xeon就行了.
bessel 发表于 2009-12-18 07:11


有production的代码当然是最好,但是specfp_rate还是相当有代表性的。
话说回来,现在做HPC的,最好的选择确实是Nahalem-EP
回复 支持 反对

使用道具 举报

63#
发表于 2009-12-18 11:39 | 只看该作者
因为Gemm更容易跑出接近理论值的性能。
回复 支持 反对

使用道具 举报

64#
发表于 2009-12-18 22:27 | 只看该作者
嘿嘿,如果一个hpc没有确定的用途,specfp_rate确实是有代表性的。
nehalem-ep有两个优点,对于乱七八糟的程序平均来说性能最好,无论是int还是fp rate,
另一个是内存性能好。很多production的代码很在乎内存性能。

有production的代码当然是最好,但是specfp_rate还是相当有代表性的。
话说回来,现在做HPC的,最好的选择确实是Nahalem-EP
Prescott 发表于 2009-12-18 11:13
回复 支持 反对

使用道具 举报

65#
发表于 2009-12-18 22:28 | 只看该作者
他们早就有telsa集群,
nv在hpc上目前还是领先的。

如果像树龄的Fermi HPC真的停了,不光是对NV的Fermi项目,对NV进入HPC领域的整个公司战略将是沉重的打击。
左脚选手 发表于 2009-12-18 16:25
回复 支持 反对

使用道具 举报

66#
发表于 2009-12-18 22:28 | 只看该作者
你知道linpack里主要的计算是哪个程序么?



回复  bessel
edison的意思是比linpack
但是一般的gpu和cpu对比都比sgemm 和dgemm!
intel自己在超 ...
6訷 发表于 2009-12-18 11:24
回复 支持 反对

使用道具 举报

67#
发表于 2009-12-18 22:32 | 只看该作者
嘿嘿,如果一个hpc没有确定的用途,specfp_rate确实是有代表性的。
nehalem-ep有两个优点,对于乱七八糟的 ...
bessel 发表于 2009-12-18 22:27

hpc用specfp_rate?这个笑话真冷
回复 支持 反对

使用道具 举报

68#
发表于 2009-12-19 01:27 | 只看该作者
你说说哪里错了吧?


抄的还是自己写的,很难找出对的部分哟。
bessel 发表于 2009-12-18 06:58
回复 支持 反对

使用道具 举报

69#
发表于 2009-12-19 08:35 | 只看该作者
矩阵运算是科学计算中非常常用的,这是为什么lapack这些玩意很早以前就做出来了.矩阵运算处于一个
非常基础的位置.但是你第一句说"通常",这句话把千千万万的具体问题简化为矩阵运算,并不合适. 差分方程能归结到矩阵运算么,分子动力学模拟可以做到百万原子,能归结到矩阵运算么,实际上的程序如果都能做到linpack的效率, 计算xx学家要乐开花了.

linpack是干啥的?简单说,解方程Ax=b的。在很多年前,hpc的性能还是很局限的时候,解个千八百维的方程组是个挑战,人们提出拿linpack来作为benchmark。作为标准的矩阵运算库,它很不够全面。
lapack = Linear Algebra PACKage,
blas=Basic Linear Algebra Subprograms
lapack或者blas才是标准的矩阵运算程序。
如果你感兴趣,可以去netlib.org看看。历史上lapack最初是为了取代linpack/eispack,在共享内存的机器上提高性能, 实际的lapack内容比linpack丰富多了.

今天的机器里,由于人们长年的努力+linpack解的问题的简单性,使得linpack并行效率非常高,甚至在
diy的集群上也很容易。你看top500的数字,经常看到7x%~8X%的效率,那是实测性能/理论峰值.
如果你拿单个节点来跑linpack,其实也是8x%的效率. 节点间的并行效率其实接近100%,嘿嘿.
实际问题的效率要看具体问题,多数没有这么理想,诸如很多稀疏矩阵运算,或者天气预报,后者你可以
看看wrf,开源的程序.所以说linpack的测试是比较没用的,基本上和西方人过圣诞节要砍树,咱么过年要
包饺子一样,属于历史遗留下来的传统,另外也没有更普遍而又简单的benchmark而已.
话说回来,th-1的性能有40%多,这个数字大部分应该来自单个节点显卡优化不到峰值,不要质疑他们节点间的并行效率.





"科学研究中的计算问题计算机化了之后通常是矩阵运算,而Linpack和Eispack是标准的矩阵运算程序Library,所以它的性能能比较准确的反映HPC的实际计算效率
虽然逐渐被Lapack取代,其在理论评估计算能力上还是有很大现实意义的。"
你说说哪里错了吧?
koppie 发表于 2009-12-19 01:27
回复 支持 反对

使用道具 举报

70#
发表于 2009-12-19 09:40 | 只看该作者
回复 92# bessel
Linpack 其实是作为HPC 物理极限的指标,和实际的Workload 比,参考性的。
回复 支持 反对

使用道具 举报

71#
发表于 2009-12-22 07:33 | 只看该作者
目前top500排第一的用的是哪家的处理器,
在hpc上amd和intel谁领先?

在天河一号出来前可以这么说,现在天河一号排名top500第5,linpack实测成绩563.10T, Telsa集群目前在top500排名最高的是东京工业大学的那台HPC,排名56,linpack实测成绩87.01T,那是差了好几条街的距离,现在还说NV在HPC上是领先的那实在说不过去。要改变NV在HPC这个领域落后的局面,只有等Fermi出来了。
左脚选手 发表于 2009-12-21 09:16
回复 支持 反对

使用道具 举报

72#
发表于 2009-12-22 10:21 | 只看该作者
我记得本区最开始讨论那个天河一号的时候,貌似还说了,GPU部分还在组装,而且那时候貌似linpack成绩就出来了……

如果我记错了的话,请包涵……
回复 支持 反对

使用道具 举报

73#
发表于 2009-12-22 10:53 | 只看该作者
天河一号总共5120个CPU处理器,其中 E5540(2.53GHz)处理器4096个,E5450(3.0GHz)处理器1024个,CPU部分理 ...
左脚选手 发表于 2009-12-22 10:44

那就是我记错了
回复 支持 反对

使用道具 举报

74#
发表于 2009-12-22 10:56 | 只看该作者
关于东京那个Tesla机器,从Google找了段文字,就当娱乐了:

(2008年11月21日,美国德克萨斯州奥斯汀市SC08大会)—东京工业大学(Tokyo Tech)于今日正式宣布与NVIDIA®(英伟达™)展开合作,采用NVIDIA® Tesla™ GPU来提升其TSUBAME超级计算机的计算能力。通过加入170台Tesla S1070 1U系统,TSUBAME超级计算机现在的理论峰值性能可达将近170 TFLOP,测得的Linpack性能达到了77.48 TFLOP。这样的超高性能让其再次跻身世界五百强超级计算机的领先行列。
回复 支持 反对

使用道具 举报

75#
发表于 2009-12-22 11:00 | 只看该作者
如果单纯用GPU的话,CPU的性能足够做调度就行了
回复 支持 反对

使用道具 举报

76#
发表于 2009-12-22 11:05 | 只看该作者
经过软件优化,现在可以跑87.01T了,看下面top500连接的56位
左脚选手 发表于 2009-12-22 11:03

谢传送门

看到了

就是不知道这机器的CPU部分配置如何
回复 支持 反对

使用道具 举报

77#
发表于 2009-12-23 09:23 | 只看该作者
本帖最后由 bessel 于 2009-12-23 09:25 编辑

top500里只有这俩台,top500以外呢,代码的移植程度呢?
amd其实远没有在加速计算上象nvdia那么上心,他们更偏重传统的图形应用。


Tesla Cluster Installations:

CSIRO -Australia
Argonne National Labs
Tokyo Tech
NCSA
BNP-Paribas
Pacific Northwest Labs
Harvard
Oak Ridge Nat’l Laboratory
National Taiwan University
Ames Lab –Iowa State
Federal agencies
University of Alberta
Petrobras
British Aerospace
TOTAL
Fermi Research Labs
Hess
HLRS –Germany
Max Planck Institute
University of Michigan
DaresburyLabs, UK
Chinese Academy of Sciences




目前Top500牌第一的用的是AMD的CPU,但是整体TOP 500主机使用Intel的CPU数量比AMD多得多,所以可以说Intel在HPC上整体领先AMD但是使用Telsa的只有1台东京工业大学的那台HPC,排名56,linpack实测成绩87.01T,使用RV770的也只有一台天河一号,top500第5,linpack实测成绩563.10T,任何人都可以轻易分辨出Rv770和Telsa目前谁领先。
左脚选手 发表于 2009-12-22 10:19
回复 支持 反对

使用道具 举报

78#
发表于 2009-12-23 09:30 | 只看该作者
sun x4600,很爽的机器
全部是8 sockets。

谢传送门
看到了
就是不知道这机器的CPU部分配置如何
yamhill 发表于 2009-12-22 11:05
回复 支持 反对

使用道具 举报

79#
发表于 2009-12-23 09:40 | 只看该作者
回复 104# yamhill
那台机器单CPU 计算的性能大约是68T,GPU 效率还是比较低的。
回复 支持 反对

使用道具 举报

80#
发表于 2009-12-23 12:39 | 只看该作者
sun x4600,很爽的机器
全部是8 sockets。
bessel 发表于 2009-12-23 09:30

那就爽了~
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-9-9 15:25

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表