POPPUR爱换

标题: 橡树岭的纸面上的Fermi HPC悲剧了吗? [打印本页]

作者: RealT    时间: 2009-12-17 13:27
提示: 作者被禁止或删除 内容自动屏蔽
作者: littlemove    时间: 2009-12-17 13:36
可怜的“权力因素”
费米的“权力”太大
作者: koppie    时间: 2009-12-17 13:36
SemiAccurate
From Wikipedia, the free encyclopedia
SemiAccurate is an U.S.-based technology news and opinion web site. It was created by Charlie Demerjian after his departure from The Inquirer. News organization IDG credited SemiAccurate [1] for first reporting the story on Sony warning its customers about faulty nVidia chips in some Vaio laptops.
Tech news site Ubergizmo has criticized a SemiAccurate story [2] which speculated on wheter Apple would ditch nVidia chips calling the news site "half-accurate".
The site lists as its contributors: John Murphy, an IT Manager at Dow Jones, Leticia Smith, a security consultant, and Rodney Thayer, a "protocol and crypto implementor".

原来是INQ的人,所以不能全信。不过他貌似也不会原地空想胡编乱造出来吧
作者: tomsmith123    时间: 2009-12-17 13:48
如果是功耗太高,应该裁撤X86,也就是AMD 的CPU 部分。。。
作者: tomsmith123    时间: 2009-12-17 14:03
回复 5# 6訷
100W CPU 以Istanbul 为例(Cray XT5 的装备),目前大致是90GFlops 双精度,而且通用性更好。
我只是说,功耗不应该是个很敏感的因素,对于GPU 系统,目前看如果取消,那么是长时间延迟导致的。
作者: RealT    时间: 2009-12-17 14:26
提示: 作者被禁止或删除 内容自动屏蔽
作者: yamhill    时间: 2009-12-17 14:27
这种东西再不配个发电厂就说不过去了
作者: sagecao    时间: 2009-12-17 15:23
要建核电厂不?
作者: acqwer    时间: 2009-12-17 15:55
HPC的CPU数量是指核心的数量。不明白的看这句

12个处理核心和16GB共享内存
作者: westlee    时间: 2009-12-17 15:56
提示: 作者被禁止或删除 内容自动屏蔽
作者: Edison    时间: 2009-12-17 15:57
这是完全不可能的:我说15g算是乐观说了,假如Istanbul达到90g那么fermi不用出了!都洗洗睡吧!cell才100 ...
6訷 发表于 2009-12-17 15:46


请不要拿这些乱七八糟的翻译消息作准,这里提到的六核浮点性能是完全错误的。
作者: Edison    时间: 2009-12-17 16:00
amd这边不清楚,intel这边:


Conroe的双精度浮点我们在前面已经介绍过,Core 2 Duo E6700的 ...
westlee 发表于 2009-12-17 15:56


这里测试使用的 HPL 是用了比较烂的设置。

应该看这个:
http://www.pcinlife.com/article/ ... 59207275d221_8.html

如果是 HPL 2.0 的话,测试出来性能还能再高 5% 左右。
作者: acqwer    时间: 2009-12-17 16:01
300G/100w的话,战不过sandy bridge吧。
作者: tomsmith123    时间: 2009-12-17 16:02
回复 13# 6訷
你的消息来源乱七八糟。
巴塞罗那的基准就是2.4G 每核心10G。
作者: zifuxyx    时间: 2009-12-17 16:05
橡树岭的fermi每100w可以提供300g的双精度浮点!
amd的cpu每100w可以提供15g左右的双精度!
橡 ...
6訷 发表于 2009-12-17 13:56



    拍照 本以为6神是技术流 至少要懂点吧
    原来是yy流
作者: zifuxyx    时间: 2009-12-17 16:08
还是爱迪生比较猛 牛人
作者: Bohr    时间: 2009-12-17 16:09
提示: 作者被禁止或删除 内容自动屏蔽
作者: stcshy_3    时间: 2009-12-17 16:18
提示: 作者被禁止或删除 内容自动屏蔽
作者: hundrix    时间: 2009-12-17 16:36
我倒是觉得对于这种极高计算密度的系统,功耗是最重要的考虑因素之一。
作者: xaao    时间: 2009-12-17 16:37
都直接取消CPU最好了,让GPU蹦达去
作者: melissa    时间: 2009-12-17 16:57
那个是不可能90g的,i7 975单精度矩阵运算也才100g![
6訷 发表于 2009-12-17 16:37



    汗....先生,那个是core 2 extreme 不是core i7 975,说之前也把图片看清楚好么
作者: tomsmith123    时间: 2009-12-17 16:58
http://www.ithov.com/Server/Evaluating/Product/86926.shtml
作者: stcshy_3    时间: 2009-12-17 17:00
提示: 作者被禁止或删除 内容自动屏蔽
作者: stcshy_3    时间: 2009-12-17 17:10
提示: 作者被禁止或删除 内容自动屏蔽
作者: Buffer    时间: 2009-12-17 17:27
x86的浮点性能?
INTEL的80核笑而不语
stcshy_3 发表于 2009-12-17 16:18


LRB已经含笑九泉了

开个玩笑,别来喷我
作者: Buffer    时间: 2009-12-17 17:28
INTEL的80核在两年前说5年后出来.
作者: tomsmith123    时间: 2009-12-17 18:00
HPL对比测试的两个平台介绍,AMD方面为皓龙2435“伊斯坦布尔”系统(六核心,主频2.6GHz,16GB 800MHz DDR2内存 );英特尔方面为至强X5550 Nehalem系统(四核心,主频2.66GHz,12GB 1333MHz DDR3内存)。测试人员尽可能的保持测试平台的平等性,同样的电源、硬盘驱动器以及操作系统。内存的容量在发挥三通道内存架构的Nehalem和双通道内存皓龙之间性能各不相同。由于该测试项目倾向于内存容量和测试成绩成正比,因此,测试人员调整了两个平台的内容容量大小。

至强5500与皓龙2400系列处理器性能对比测试

处理器型号
理论峰值
实测峰值
效能 平台价格 每GFLOP运算成本
Nehalem X5550 2.66GHz
85.12 GFLOPS
74.03 GFLOPS
86.97% $3,800.00 $51.33
Istanbul 2435 2.6GHz
124.8 GFLOPS
99.38 GFLOPS
79.63% $3,500.00 $35.21

  简而言之,在该测试中AMD“伊斯坦布尔”战胜了英特尔Nehalem,其测试结果对比为99.38个gigaflop(每秒钟至少进行10 亿次浮点运算的工作能力)VS74.03个gigaflop。也许六核战胜四核并不在意料之外,但考虑到英特尔支持单核心双线程的hyperthreading技术,也许会预测英特尔要在并行运算占据优势。而在实际应用,我们发现hyperthreading技术带来的性能的提升很大程度上取决于具体的应用。
作者: tomsmith123    时间: 2009-12-17 18:00
回复 36# 6訷
HPC 领域的基准,是Linpack。
作者: yamhill    时间: 2009-12-17 19:25
又是linpack……这玩意又不是神……
作者: yamhill    时间: 2009-12-17 19:43
那显卡还整天跑3dmark呢,有啥意义?
jeandja 发表于 2009-12-17 19:32

简单:参考

但是,显卡能跑的项目很多,众多参考组合到一起就是比较让人信服的数据

而HPC,除了linpack,我在显卡区还没碰到太多其他名词(可能是我孤陋寡闻吧)

单一参考所得出的结论,效度势必要差一些,也就是那句“仅供参考”
作者: shineqqq    时间: 2009-12-17 19:51
行了行了老和图纸高达叫什么劲,有能耐你出卡出评测别动不动发几张yy图片啥的。老赵都说了,来点真格的!云里雾里我可比你能忽悠
作者: Prescott    时间: 2009-12-17 20:22
您能推荐个更好的?
gaint 发表于 2009-12-17 19:30



    specfp_rate啊,正经评估性能,谁用什么linpack?
作者: ststst    时间: 2009-12-17 20:27
顶一下看看。。。哎。。。
作者: toshibacom    时间: 2009-12-17 20:32
我倒是觉得对于这种极高计算密度的系统,功耗是最重要的考虑因素之一。
hundrix 发表于 2009-12-17 16:36

最近哥本哈根正在召开会议,节能减排将是今后的流行趋势。
作者: yamhill    时间: 2009-12-17 22:47
对于用途单一的硬件
项目多了只有不好
jeandja 发表于 2009-12-17 20:58

太多是不好

眼花第一,而且项目和项目之间对硬件的要求也不尽相同

所以,如果跑显卡,除了3Dmark,还要找一些比较能体现出测试意图的项目,这样才能做到证据充分

至于HPC,自然是想用什么就测什么。单纯测CPU的运算能力,linpack确实是不二之选,但我总觉得还需要其他项目来辅助

对了,据说linpack不适合测那些极少CPU带动巨量GPU的,是这样么?
作者: yamhill    时间: 2009-12-17 22:48
关于功耗嘛,找到平衡点就行了

极度节能必然损失计算能力,反之亦然

当然还有就是期望芯片厂商多多研发新技术啦
作者: stcshy_3    时间: 2009-12-17 22:49
提示: 作者被禁止或删除 内容自动屏蔽
作者: Bohr    时间: 2009-12-17 23:06
提示: 作者被禁止或删除 内容自动屏蔽
作者: koppie    时间: 2009-12-17 23:20
科学研究中的计算问题计算机化了之后通常是矩阵运算,而Linpack和Eispack是标准的矩阵运算程序Library,所以它的性能能比较准确的反映HPC的实际计算效率
虽然逐渐被Lapack取代,其在理论评估计算能力上还是有很大现实意义的。

简单:参考

但是,显卡能跑的项目很多,众多参考组合到一起就是比较让人信服的数据

而HPC,除了lin ...
yamhill 发表于 2009-12-17 19:43

作者: yamhill    时间: 2009-12-17 23:42
科学研究中的计算问题计算机化了之后通常是矩阵运算,而Linpack和Eispack是标准的矩阵运算程序Library,所以 ...
koppie 发表于 2009-12-17 23:20

计算机化的过程我不了解,但是我知道一个原则,就是用什么就测什么,所以那两个pack都比较合适

那么你觉得对于少量CPU带动大量GPU的HPC,用什么方式测比较合适?
作者: stcshy_3    时间: 2009-12-18 00:36
提示: 作者被禁止或删除 内容自动屏蔽
作者: CC9K    时间: 2009-12-18 01:42
80核是实验室的东西,不是可量产的
作者: itany    时间: 2009-12-18 04:49
主频2.6GHz、单颗浮点性能10.4GFlops
6訷 发表于 2009-12-17 15:46


理论性能很好算啊,核心数*频率*4 就对了
这就是胡扯的
算出来是62.4好不
作者: itany    时间: 2009-12-18 04:54
HPL对比测试的两个平台介绍,AMD方面为皓龙2435“伊斯坦布尔”系统(六核心,主频2.6GHz,16GB 800MHz DDR2 ...
tomsmith123 发表于 2009-12-17 18:00


国内枪文就不要贴出来了
作者: itany    时间: 2009-12-18 05:00
80核是实验室的东西,不是可量产的
CC9K 发表于 2009-12-18 01:42


80核心不具备完整的CPU功能,不能商业化
Intel最近拿出一个48核心x86核心+2D mesh互联,这个才是能实际用的
作者: bessel    时间: 2009-12-18 06:49

您是来娱乐大家的。

主频2.6GHz、单颗浮点性能10.4GFlops
6訷 发表于 2009-12-17 15:46

作者: bessel    时间: 2009-12-18 06:53
本帖最后由 bessel 于 2009-12-18 06:57 编辑

我觉得在60G左右,你似乎算错了?

回复  6訷
100W CPU 以Istanbul 为例(Cray XT5 的装备),目前大致是90GFlops 双精度,而且通用性更好。 ...
tomsmith123 发表于 2009-12-17 14:03

作者: bessel    时间: 2009-12-18 06:58
抄的还是自己写的,很难找出对的部分哟。

科学研究中的计算问题计算机化了之后通常是矩阵运算,而Linpack和Eispack是标准的矩阵运算程序Library,所以它的性能能比较准确的反映HPC的实际计算效率
虽然逐渐被Lapack取代,其在理论评估计算能力上还是有很大现实意义的。
koppie 发表于 2009-12-17 23:20

作者: bessel    时间: 2009-12-18 07:01
hpcc。
不过linpack仍然是最常用的,传统么。
就像过年要包饺子一样。

您能推荐个更好的?
gaint 发表于 2009-12-17 19:30

作者: bessel    时间: 2009-12-18 07:11
有时候会直接拿production的代码来测试。
要看rate的话直接买nahelem-xeon就行了.

specfp_rate啊,正经评估性能,谁用什么linpack?
Prescott 发表于 2009-12-17 20:22

作者: bessel    时间: 2009-12-18 07:12
这是两个socket。

HPL对比测试的两个平台介绍,AMD方面为皓龙2435“伊斯坦布尔”系统(六核心,主频2.6GHz,16GB 800MHz DDR2 ...
tomsmith123 发表于 2009-12-17 18:00

作者: bessel    时间: 2009-12-18 07:19
看多大的系统了,oak的那个系统吃了大概10M瓦的电。
如果原封不动的扩大体系,上amd的12核心,推到20P的话要吃掉5倍以上的电力。

100W CPU 以Istanbul 为例(Cray XT5 的装备),目前大致是90GFlops 双精度,而且通用性更好。我只是说,功耗不应该是个很敏感的因素,对于GPU 系统,目前看如果取消,那么是长时间延迟导致的。
tomsmith123 发表于 2009-12-17 14:03

作者: tomsmith123    时间: 2009-12-18 08:31
回复 68# bessel
我是以HE 版本估算的,上下有浮动。
作者: tomsmith123    时间: 2009-12-18 08:33
回复 73# bessel
扩大到原体系不变,互联必须有所变化。如果有重载算法可以异构,可以GPU,那么Fermi还是不错的选择。
SC09 的主要问题是两个,编程和功耗。
作者: tomsmith123    时间: 2009-12-18 08:33
回复 72# bessel
这是针对那个单CPU 10.4 G说的。。。
作者: 6316199    时间: 2009-12-18 09:35
确实杯具了…
作者: bessel    时间: 2009-12-18 09:43
来回看了几遍,终于懂了.
你说的是2个2.1G的he版本大概有90G左右.

回复  bessel
我是以HE 版本估算的,上下有浮动。
tomsmith123 发表于 2009-12-18 08:31

作者: tomsmith123    时间: 2009-12-18 09:49
回复 78# bessel
HE 版本的Istanbul HE 版本是55W,这样的话,100W 的基准性能可以达到90GFlops/100W。
SE 版本的性能高,但是功耗也高,目前用在高密度计算,反而HE 版本要经济一些。
作者: tomsmith123    时间: 2009-12-18 09:51
回复 78# bessel
HE 版本的Istanbul HE 版本是55W,这样的话,100W 的基准性能可以达到90GFlops/100W。
SE 版本的性能高,但是功耗也高,目前用在高密度计算,反而HE 版本要经济一些。
按照100W 功耗性能计算,HE 版本性能大概是4G 的SE 版本,这是有90GFlops/100W的。
作者: bessel    时间: 2009-12-18 09:52
本帖最后由 bessel 于 2009-12-18 09:53 编辑

fermi的功耗如果有150w,并且提供400G的linpack,
对比x86的优势就不明显. oak那里的coder还是很勤奋的,在nv的卡上做了不少工作。
如果charlie的话是真的,那么功耗可能是主要的因素,或者说dp的性能还不够高。

回复  bessel
扩大到原体系不变,互联必须有所变化。如果有重载算法可以异构,可以GPU,那么Fermi还是不错 ...
tomsmith123 发表于 2009-12-18 08:33

作者: cellwing    时间: 2009-12-18 10:12
提示: 作者被禁止或删除 内容自动屏蔽
作者: Prescott    时间: 2009-12-18 11:13
有时候会直接拿production的代码来测试。
要看rate的话直接买nahelem-xeon就行了.
bessel 发表于 2009-12-18 07:11


有production的代码当然是最好,但是specfp_rate还是相当有代表性的。
话说回来,现在做HPC的,最好的选择确实是Nahalem-EP
作者: acqwer    时间: 2009-12-18 11:39
因为Gemm更容易跑出接近理论值的性能。
作者: bessel    时间: 2009-12-18 22:27
嘿嘿,如果一个hpc没有确定的用途,specfp_rate确实是有代表性的。
nehalem-ep有两个优点,对于乱七八糟的程序平均来说性能最好,无论是int还是fp rate,
另一个是内存性能好。很多production的代码很在乎内存性能。

有production的代码当然是最好,但是specfp_rate还是相当有代表性的。
话说回来,现在做HPC的,最好的选择确实是Nahalem-EP
Prescott 发表于 2009-12-18 11:13

作者: bessel    时间: 2009-12-18 22:28
他们早就有telsa集群,
nv在hpc上目前还是领先的。

如果像树龄的Fermi HPC真的停了,不光是对NV的Fermi项目,对NV进入HPC领域的整个公司战略将是沉重的打击。
左脚选手 发表于 2009-12-18 16:25

作者: bessel    时间: 2009-12-18 22:28
你知道linpack里主要的计算是哪个程序么?



回复  bessel
edison的意思是比linpack
但是一般的gpu和cpu对比都比sgemm 和dgemm!
intel自己在超 ...
6訷 发表于 2009-12-18 11:24

作者: ifu    时间: 2009-12-18 22:32
嘿嘿,如果一个hpc没有确定的用途,specfp_rate确实是有代表性的。
nehalem-ep有两个优点,对于乱七八糟的 ...
bessel 发表于 2009-12-18 22:27

hpc用specfp_rate?这个笑话真冷
作者: koppie    时间: 2009-12-19 01:27
你说说哪里错了吧?


抄的还是自己写的,很难找出对的部分哟。
bessel 发表于 2009-12-18 06:58

作者: bessel    时间: 2009-12-19 08:35
矩阵运算是科学计算中非常常用的,这是为什么lapack这些玩意很早以前就做出来了.矩阵运算处于一个
非常基础的位置.但是你第一句说"通常",这句话把千千万万的具体问题简化为矩阵运算,并不合适. 差分方程能归结到矩阵运算么,分子动力学模拟可以做到百万原子,能归结到矩阵运算么,实际上的程序如果都能做到linpack的效率, 计算xx学家要乐开花了.

linpack是干啥的?简单说,解方程Ax=b的。在很多年前,hpc的性能还是很局限的时候,解个千八百维的方程组是个挑战,人们提出拿linpack来作为benchmark。作为标准的矩阵运算库,它很不够全面。
lapack = Linear Algebra PACKage,
blas=Basic Linear Algebra Subprograms
lapack或者blas才是标准的矩阵运算程序。
如果你感兴趣,可以去netlib.org看看。历史上lapack最初是为了取代linpack/eispack,在共享内存的机器上提高性能, 实际的lapack内容比linpack丰富多了.

今天的机器里,由于人们长年的努力+linpack解的问题的简单性,使得linpack并行效率非常高,甚至在
diy的集群上也很容易。你看top500的数字,经常看到7x%~8X%的效率,那是实测性能/理论峰值.
如果你拿单个节点来跑linpack,其实也是8x%的效率. 节点间的并行效率其实接近100%,嘿嘿.
实际问题的效率要看具体问题,多数没有这么理想,诸如很多稀疏矩阵运算,或者天气预报,后者你可以
看看wrf,开源的程序.所以说linpack的测试是比较没用的,基本上和西方人过圣诞节要砍树,咱么过年要
包饺子一样,属于历史遗留下来的传统,另外也没有更普遍而又简单的benchmark而已.
话说回来,th-1的性能有40%多,这个数字大部分应该来自单个节点显卡优化不到峰值,不要质疑他们节点间的并行效率.





"科学研究中的计算问题计算机化了之后通常是矩阵运算,而Linpack和Eispack是标准的矩阵运算程序Library,所以它的性能能比较准确的反映HPC的实际计算效率
虽然逐渐被Lapack取代,其在理论评估计算能力上还是有很大现实意义的。"
你说说哪里错了吧?
koppie 发表于 2009-12-19 01:27

作者: tomsmith123    时间: 2009-12-19 09:40
回复 92# bessel
Linpack 其实是作为HPC 物理极限的指标,和实际的Workload 比,参考性的。
作者: bessel    时间: 2009-12-22 07:33
目前top500排第一的用的是哪家的处理器,
在hpc上amd和intel谁领先?

在天河一号出来前可以这么说,现在天河一号排名top500第5,linpack实测成绩563.10T, Telsa集群目前在top500排名最高的是东京工业大学的那台HPC,排名56,linpack实测成绩87.01T,那是差了好几条街的距离,现在还说NV在HPC上是领先的那实在说不过去。要改变NV在HPC这个领域落后的局面,只有等Fermi出来了。
左脚选手 发表于 2009-12-21 09:16

作者: yamhill    时间: 2009-12-22 10:21
我记得本区最开始讨论那个天河一号的时候,貌似还说了,GPU部分还在组装,而且那时候貌似linpack成绩就出来了……

如果我记错了的话,请包涵……
作者: yamhill    时间: 2009-12-22 10:53
天河一号总共5120个CPU处理器,其中 E5540(2.53GHz)处理器4096个,E5450(3.0GHz)处理器1024个,CPU部分理 ...
左脚选手 发表于 2009-12-22 10:44

那就是我记错了
作者: yamhill    时间: 2009-12-22 10:56
关于东京那个Tesla机器,从Google找了段文字,就当娱乐了:

(2008年11月21日,美国德克萨斯州奥斯汀市SC08大会)—东京工业大学(Tokyo Tech)于今日正式宣布与NVIDIA®(英伟达™)展开合作,采用NVIDIA® Tesla™ GPU来提升其TSUBAME超级计算机的计算能力。通过加入170台Tesla S1070 1U系统,TSUBAME超级计算机现在的理论峰值性能可达将近170 TFLOP,测得的Linpack性能达到了77.48 TFLOP。这样的超高性能让其再次跻身世界五百强超级计算机的领先行列。
作者: yamhill    时间: 2009-12-22 11:00
如果单纯用GPU的话,CPU的性能足够做调度就行了
作者: yamhill    时间: 2009-12-22 11:05
经过软件优化,现在可以跑87.01T了,看下面top500连接的56位
左脚选手 发表于 2009-12-22 11:03

谢传送门

看到了

就是不知道这机器的CPU部分配置如何
作者: bessel    时间: 2009-12-23 09:23
本帖最后由 bessel 于 2009-12-23 09:25 编辑

top500里只有这俩台,top500以外呢,代码的移植程度呢?
amd其实远没有在加速计算上象nvdia那么上心,他们更偏重传统的图形应用。


Tesla Cluster Installations:

CSIRO -Australia
Argonne National Labs
Tokyo Tech
NCSA
BNP-Paribas
Pacific Northwest Labs
Harvard
Oak Ridge Nat’l Laboratory
National Taiwan University
Ames Lab –Iowa State
Federal agencies
University of Alberta
Petrobras
British Aerospace
TOTAL
Fermi Research Labs
Hess
HLRS –Germany
Max Planck Institute
University of Michigan
DaresburyLabs, UK
Chinese Academy of Sciences




目前Top500牌第一的用的是AMD的CPU,但是整体TOP 500主机使用Intel的CPU数量比AMD多得多,所以可以说Intel在HPC上整体领先AMD但是使用Telsa的只有1台东京工业大学的那台HPC,排名56,linpack实测成绩87.01T,使用RV770的也只有一台天河一号,top500第5,linpack实测成绩563.10T,任何人都可以轻易分辨出Rv770和Telsa目前谁领先。
左脚选手 发表于 2009-12-22 10:19

作者: bessel    时间: 2009-12-23 09:30
sun x4600,很爽的机器
全部是8 sockets。

谢传送门
看到了
就是不知道这机器的CPU部分配置如何
yamhill 发表于 2009-12-22 11:05

作者: tomsmith123    时间: 2009-12-23 09:40
回复 104# yamhill
那台机器单CPU 计算的性能大约是68T,GPU 效率还是比较低的。
作者: yamhill    时间: 2009-12-23 12:39
sun x4600,很爽的机器
全部是8 sockets。
bessel 发表于 2009-12-23 09:30

那就爽了~
作者: yamhill    时间: 2009-12-23 12:40
回复 107# tomsmith123
看来还需要对软件进行优化?




欢迎光临 POPPUR爱换 (https://we.poppur.com/) Powered by Discuz! X3.4