POPPUR爱换

标题: Cray OLCF捷豹超算即将换装开普勒GPU [打印本页]

作者: gtx5 时间: 2012-5-9 09:05
标题: Cray OLCF捷豹超算即将换装开普勒GPU
本帖最后由 gtx5 于 2012-5-9 10:36 编辑

前段时间刚刚被英特尔收购的超算企业Cray又有新动作，其为美国橡树岭国家实验室制造的名为OLCF的捷豹超算系统即将迎来第二次阶段性的升级。在本次升级中，橡树岭国家实验室所拥有的代号为泰坦的XK6超算系统将配装来自NVIDIA的最新的开普勒GPU；预计升级完成之后，这款XK6超算将具备超过20Petaflops的峰值浮点性能。本次升级预计将于2012年秋季开始。

　　美国橡树岭国家实验室今天表示，旗下的OLCF超级计算设施已完成第一阶段的捷豹系统升级，带来超过20 petaflops理论峰　　第一阶段升级完成于2012年2月，每台捷豹当中，18688个Cray XT5计算节点被替换为新的Cray XK6计算节点。每个新节点包含一颗AMD 16核心皓龙6274处理器，工作频率2.2GHz，32GB DDR3内存和Cray新型高性能双子座网络提供更高的带宽，更低的时延，更快的数据收集性能，和更高的可靠性。升级后的捷豹系统共计使用299008 AMD皓龙CPU内核，600 TB内存，并连接到带宽240GB/s的蜘蛛文件系统。这个升级也使用了960个NVIDIA费米GPU来填充960个XK6节点。

　　第二阶段升级将于2012年秋季开始，960个费米加速器将被拆除，Titan78%的计算节点，即合计14592个节点，将被搭配6GB专属内的NVDIA开普勒GPU加速器(大开普勒)取代。

　　橡树岭预计，开普勒加速计算节点，将于2013年初供用户使用。第二阶段升级完成之后，Titan还有4096 个XK6节点没有GPU加速，这些节点将在2013全年继续提供给用户使用。

　　橡树岭表示，泰坦用户将继续访问蜘蛛文件系统，带宽240GB/s，外加超过10 PB的存储容量。 OLCF将在2013年升级蜘蛛系统带宽和容量。

　　开普勒GPU是NVIDIA的最新GPU产品，其采用台积电28nm工艺制造，拥有更高的浮点计算能力。但由于芯片本身的设计以及台积电28nm工艺良品率等因素的影响，NVIDIA开普勒核心的量产工作一直进行的相当艰难。不过相信到今年秋季，开普勒的产能问题将得到缓解，而OLCF的升级工作也将顺利开展。

原文出自【比特网】，转载请保留原文链接：http://server.chinabyte.com/485/12327985.shtml

作者: sucKing 时间: 2012-5-9 09:40
CRAY被Intel收了？好吧，我懂了

作者: cloudol 时间: 2012-5-9 09:40
amd自作孽

作者: GTX999 时间: 2012-5-9 09:41
效率是关键

作者: coollab 时间: 2012-5-9 10:28

GTX999 发表于 2012-5-9 09:41
效率是关键

每个帖子都看你说什么效率是关键
你比比每瓦特性能？比比占地面积和价格？看看京多少颗CPU，多少耗电，多少成本，多大面积，再看看排名第二第三的Tesla+CPU组合呢？
看开普勒和CPU谁效率更高？

说你为了黑N而黑N，已经到了无视事实的地步了

作者: 32nm 时间: 2012-5-9 10:34
6GB显存的话可以确认GK110的显存位宽是384bit了。

作者: GTX999 时间: 2012-5-9 10:38
标题: RE: Cray OLCF捷豹超算即将换装开普勒GPU

coollab 发表于 2012-5-9 10:28
每个帖子都看你说什么效率是关键
你比比每瓦特性能？比比占地面积和价格？看看京多少颗CPU，多少耗电，多 ...

哈哈。gpu效率低是我说低就低？看新闻好了
中国超级计算机天河一号需过“软件关”2012-04-24 15:54:406547人阅读编辑：萧萧[复制链接][我要爆料]天河一号超级计算机的发展，先后突破了研发、应用两个关卡，未来还需要通过“软件关”。刘光明说，应用软件跟不上硬件的发展速度，导致超级计算机的计算能力发挥不出来，已成为中国超级计算机发展的最大桎梏。目前，天津中心已联合一些用户进行软件开发。“自主开发软件，摆脱国外软件技术上的控制，还有很长的路要走。”孟祥飞表示。国家超级计算天津中心主任刘光明在23日举行的天河一号推广应用情况新闻发布会上宣布，中国超级计算机天河一号已成为目前世界上获得广泛应用的最快的超级计算机系统，这标志着中国超级计算机应用水平进入世界先进行列。由国防科技大学研制成功的天河一号超级计算机系统是我国首台千万亿次超级计算机系统，每秒钟4700万亿次的峰值速度和每秒2566万亿次的Linpack实测性能，使它在2010年11月第36届国际超级计算机500强排行榜上位居世界第一。国家超级计算天津中心应用部部长孟祥飞说，“超级计算机的真正效能是在各种用户的使用中产生的，如果得不到广泛的实际应用，对性能的追求也就失去了意义。”2010年11月，天津中心工作重点全面转向应用。一年多时间内，天河一号超级计算机系统已为石油勘探、生物医药、航空航天、高端装备制造、土木工程设计、气象预报、海洋环境、新能源、新材料、动漫与影视渲染等众多重要领域提供了超级计算服务，平均利用率达到60%到70%，居世界前列。此外，天河一号还开发了云计算的服务模式，为有关用户提供在线超级计算服务，使得广大用户能够更方便地使用天河一号。“‘天河’是一个开放的平台，我们愿意与世界共享中国的创新成果。”孟祥飞说。

作者: G70 时间: 2012-5-9 10:42
提示: 作者被禁止或删除内容自动屏蔽

作者: gzpony 时间: 2012-5-9 10:42
第二阶段升级将于2012年秋季开始，960个费米加速器将被拆除，Titan78%的计算节点，即合计14592个节点，将被搭配6GB专属内的NVDIA开普勒GPU加速器(大开普勒)取代。

--------这句话是什么意思？但看文字字面，是14592个节点的CPU计算节点被大开普勒GPU取代？
大开普勒GPU能独立运行，不需要CPU协助了？

作者: cloudol 时间: 2012-5-9 10:43

coollab 发表于 2012-5-9 10:28
每个帖子都看你说什么效率是关键
你比比每瓦特性能？比比占地面积和价格？看看京多少颗CPU，多少耗电，多 ...

这个看角度吧

http://www.top500.org/list/2011/11/100

rmax/rpeak 是衡量效率的主要标准

基于tesla的基本都在50% 而基于cpu的一般都在80%左右

作者: 久泉苍月 时间: 2012-5-9 10:53

cloudol 发表于 2012-5-9 10:43
这个看角度吧

http://www.top500.org/list/2011/11/100

目前tesla的效率有这么高了么？超过50%意味着以后这种异构会成为主流方式啊

作者: coollab 时间: 2012-5-9 10:54

cloudol 发表于 2012-5-9 10:43
这个看角度吧

http://www.top500.org/list/2011/11/100

我知道这个也是一种效率，是硬件理论和实际可应用的效率

另外一个角度是，同样的可应用性能下，谁使用了更少的设备和更少的电能，占地面积、建造经费更少呢？显然CPU输掉了。

作者: coollab 时间: 2012-5-9 10:56

GTX999 发表于 2012-5-9 10:38
哈哈。gpu效率低是我说低就低？看新闻好了
中国超级计算机天河一号需过“软件关”2012-04-24 15:54:4065 ...

效率和利用率都搞不清楚的人，还是回家奶孩子比较好

作者: SnakeLee 时间: 2012-5-9 10:57
6G显存？有玄机

作者: GTX999 时间: 2012-5-9 11:00
标题: RE: Cray OLCF捷豹超算即将换装开普勒GPU

G70 发表于 2012-5-9 10:42
你想阐述什么观点？

gpu hpc效率低下

作者: gzpony 时间: 2012-5-9 11:02

久泉苍月发表于 2012-5-9 10:53
目前tesla的效率有这么高了么？超过50%意味着以后这种异构会成为主流方式啊

从费米架构之后明显看得出，架构的改进是一直向更加提高通用计算效率的方向去

作者: 32nm 时间: 2012-5-9 11:05
6GB的内存肯定了开普勒384bit MC

作者: bruto123 时间: 2012-5-9 11:08
提示: 作者被禁止或删除内容自动屏蔽

作者: coollab 时间: 2012-5-9 11:08

GTX999 发表于 2012-5-9 11:00
gpu hpc效率低下

提供同样性能的时候，GPU+CPU的异构HPC是最节省经费、电能、占地面积的构架
桌面超级计算机也是类似。

AMD没有，你就别酸了，搞得这里乌烟瘴气的

作者: goldman948 时间: 2012-5-9 11:10
不是吹gcn通用运算如何强大吗?gcn用面积和功耗换来的强大通用运算
到底体现在哪?费米又大又耗电也确实在通用运算上有很大的优势与贡献,gcn??

作者: coollab 时间: 2012-5-9 11:12

bruto123 发表于 2012-5-9 11:08
反正不可能用AMD的渣渣GPU，不然血本无归啊[lol>

AMD的推土机多线程应用下还是有一定意义的，特别是作为网络节点服务CPU

作者: gzpony 时间: 2012-5-9 11:13

coollab 发表于 2012-5-9 11:08
提供同样性能的时候，GPU+CPU的异构HPC是最节省经费、电能、占地面积的构架
桌面超级计算机也是类似。
...

不用多说了。看新的HPC都在怎么选择就OK。
咬着效率低的，只是因为没别的可以说了。

明显的无力感，大家应该笑才是。

作者: GTX999 时间: 2012-5-9 11:18
标题: RE: Cray OLCF捷豹超算即将换装开普勒GPU

coollab 发表于 2012-5-9 11:08
提供同样性能的时候，GPU+CPU的异构HPC是最节省经费、电能、占地面积的构架
桌面超级计算机也是类似。
...

也是最难编程，效率最低的，原来新闻也是黑n的。哈哈

作者: coollab 时间: 2012-5-9 11:20

GTX999 发表于 2012-5-9 11:18
也是最难编程，效率最低的，原来新闻也是黑n的。哈哈

总比没有编程的，毫无意义的那一家强多了吧？

作者: gtx5 时间: 2012-5-9 11:22

sucKing 发表于 2012-5-9 09:40
CRAY被Intel收了？好吧，我懂了

..........

作者: G70 时间: 2012-5-9 11:22
提示: 作者被禁止或删除内容自动屏蔽

作者: cloudol 时间: 2012-5-9 11:26
我讲一个故事……

最早国防部想做一个利用gpu计算的研究项目 cray承担但cray自己搞不定就找amd帮忙当时amd还没有收购ati 就找nv帮忙折腾折腾就出了cuda…… 再后来就是橡树岭的那个怪物 cray+amd+nv的结晶……

再后来cray互联被intel收购了

作者: gtx5 时间: 2012-5-9 11:29

cloudol 发表于 2012-5-9 11:26
我讲一个故事……

最早国防部想做一个利用gpu计算的研究项目 cray承担但cray自己搞不定就找amd帮忙当 ...

cray找AMD

AMD找NV

作者: gzpony 时间: 2012-5-9 11:36

cloudol 发表于 2012-5-9 11:26
我讲一个故事……

最早国防部想做一个利用gpu计算的研究项目 cray承担但cray自己搞不定就找amd帮忙当 ...

现在是Intel和NV也收到国防部的项目了。intel所以才收购克雷的互联吧

作者: Vendicare 时间: 2012-5-9 11:55

coollab 发表于 2012-5-9 11:12
AMD的推土机多线程应用下还是有一定意义的，特别是作为网络节点服务CPU

你这是闹哪样？谁告诉你CMT会比SMT效率高的？计算机的基础原理搞明白再来发高论吧。

作者: Vendicare 时间: 2012-5-9 12:07

GTX999 发表于 2012-5-9 11:18
也是最难编程，效率最低的，原来新闻也是黑n的。哈哈

唉，理论上讲同构的numa群最为易用，不过成本也是最高的。

说来大家的超级计算机主业一般都在跑fortran，所以异构集群也没你想象的那么麻烦。最大的困难在于编译器而不在最终用户那里。

PS:说异构集群效率低的去看看http://www.green500.org/lists/2011/11/top/list.php
能耗比能上榜的全都是异构的，不用蓝色基因Q、tesla、firesteam基本上榜无望了。

作者: coollab 时间: 2012-5-9 12:10
本帖最后由 coollab 于 2012-5-9 12:12 编辑

Vendicare 发表于 2012-5-9 11:55
你这是闹哪样？谁告诉你CMT会比SMT效率高的？计算机的基础原理搞明白再来发高论吧。

我就这一句话，没有什么应用环境，你就能帮我造一个环境，然后说我瞎扯。我原话也没说SMT，也没说CMT，就能被你扯一顿，真是莫名其妙

作者: Vendicare 时间: 2012-5-9 13:19
本帖最后由 Vendicare 于 2012-5-9 13:23 编辑

coollab 发表于 2012-5-9 12:10
我就这一句话，没有什么应用环境，你就能帮我造一个环境，然后说我瞎扯。我原话也没说SMT，也没说CMT，就 ...

推土机就是典型的CMT处理器，看着说是8核心的其实严格算起来是4核心8线程，每线程固定2ipc。

酷睿是典型的SMT处理器，4核心每个核心4ipc，8个线程每个线程可以动态1~4个IPC。

某些人只看到了单线程任务推土机吃亏了，却想象不到这种处理器在复杂的多线程任务中同样只有吃灰的份。当年的sun sparc就是死抱着CMT技术才被友商给轮了的。

我想说的就是：推土机的多线程性能也别想了，老老实实买酷睿或者xeon才是正道。推土机在复杂多线程应用中也是吃灰得主。

作者: coollab 时间: 2012-5-9 13:26
本帖最后由 coollab 于 2012-5-9 13:26 编辑

Vendicare 发表于 2012-5-9 13:19
推土机就是典型的CMT处理器，看着说是8核心的其实严格算起来是4核心8线程，每线程固定2ipc。

酷睿是典 ...

那么，我想请问两个问题：

1, 推土机设计模块化，每个模块可以“看作”两个核心，虽然共用了一堆东西。按照你说，单核差，多核下也好不到哪里去，那么，AMD应该有预计，单依旧坚持这样设计，是为什么？在网络调配这种很多同时突发并行任务的应用条件下（我这样理解的），8个“物理”线程满载的推土机，依旧会败给四核心、八个“虚拟”线程的英特尔么？

2. 目前有几款HPC，使用AMD的U，如果性能如此差的话，还用来做什么？只是为了价格便宜吗？

作者: Vendicare 时间: 2012-5-9 14:16
本帖最后由 Vendicare 于 2012-5-9 14:34 编辑

coollab 发表于 2012-5-9 13:26
那么，我想请问两个问题：

1, 推土机设计模块化，每个模块可以“看作”两个核心，虽然共用了一堆东西。 ...

问题1：提高处理器的IPC是每个CPU生产商孜孜不倦的最求。此前AMD的IPC最高纪录是羿龙系列的3发射。不考虑执行效率的话，理论性能也要落后于I记。想要突破最快捷的路就是CMT技术。其性能理论峰值并不逊色，在线程严重超载的情况下可以和4IPC的处理器相匹敌（不过考虑分支预测准确率，线程调度效率等问题，这个理论不会来到)。

既然A家原生4ipc的处理器等不到了，那2*2IPC的处理器拿出来充门面总是好的。推土机应该说是硬着头皮上的。FX8150被自家的phenom 1100虐，貌似也是众人皆知的事情了。CMT来的16IPC真心搞不过6核心的18IPC。

问题2：推土机性能真的没法和xeon比，看价格也知道了。你真以为A家是业界最后的良心，所以顶级推土机不过中档xeon E5的价格？一分钱一分货而已。

对于超算来说，一部超算动辄数万块cpu，每块便宜一个几千元到头来就是个惊人的数字啊。用推土机的主因真的是价格便宜。

作者: acqwer 时间: 2012-5-9 14:28

久泉苍月发表于 2012-5-9 10:53
目前tesla的效率有这么高了么？超过50%意味着以后这种异构会成为主流方式啊

50%是CPU+GPU的平均效率，GPU部分的效率只有3成多一点

作者: Vendicare 时间: 2012-5-9 14:30

acqwer 发表于 2012-5-9 14:28
50%是CPU+GPU的平均效率，GPU部分的效率只有3成多一点

真是拍脑袋的高见啊。

作者: acqwer 时间: 2012-5-9 14:32

coollab 发表于 2012-5-9 13:26
那么，我想请问两个问题：

1, 推土机设计模块化，每个模块可以“看作”两个核心，虽然共用了一堆东西。 ...

桌面上面AMD用四模块打Intel的四核心，Server上可是八模块打Intel的六核心

作者: acqwer 时间: 2012-5-9 14:36

Vendicare 发表于 2012-5-9 14:30
真是拍脑袋的高见啊。

http://i.top500.org/system/176929

就用这个做例子，186368个CPU核心，理论值在2100，按75%的效率，能提供1600左右的运算量，剩下的就是GPU的了，效率大概在35%。

现在请阁下给出不拍脑袋的高见吧。

作者: Vendicare 时间: 2012-5-9 14:55
本帖最后由 Vendicare 于 2012-5-9 14:57 编辑

1、Rmax是实际Linpak速度，加速卡是被整体算进来的，如何排除？带宽受限的情况下numa系统性能增长也不是线性的，节点越多性能增长越小。超过15万节点的超算，受限于互联带宽全CPU超算效率一般也都不到75%。

2、你跑linpack测试的时候也不曾抛开加速节点单独跑过，如何证明加速节点效率低？

作者: acqwer 时间: 2012-5-9 15:03

Vendicare 发表于 2012-5-9 14:55
1、Rmax是实际Linpak速度，加速卡是被整体算进来的，如何排除？带宽受限的情况下numa系统性能增长也不是线性 ...

http://www.top500.org/list/2011/11/100
自己看纯CPU的效率排在前面的那些有没有下80%的。

当然，你可以说加了加速卡之后CPU效率大幅下降。

作者: Vendicare 时间: 2012-5-9 15:09

acqwer 发表于 2012-5-9 15:03
http://www.top500.org/list/2011/11/100
自己看纯CPU的效率排在前面的那些有没有下80%的。

那你就去看克雷XT5集群吧，排名第三，效率只有0.74.同样的克雷系统，减少节点效能立刻大大提高。

还是那句话，互联带宽是现代超算最大的技术难关。

作者: defencelsj 时间: 2012-5-9 15:09
提示: 作者被禁止或删除内容自动屏蔽

作者: acqwer 时间: 2012-5-9 15:14

Vendicare 发表于 2012-5-9 15:09
那你就去看克雷XT5集群吧，排名第三，效率只有0.74.同样的克雷系统，减少节点效能立刻大大提高。

还是 ...

http://www.top500.org/system/176819
这个节点数量该低了吧，你来算算加速卡的效率啊？

作者: acqwer 时间: 2012-5-9 15:16

defencelsj 发表于 2012-5-9 15:09
CPU不仅用于中断处理，更多的用于控制GPU。
这两者之间必然有一个最佳平衡点。

那些混合的基本上都是双路CPU，一个加速卡，NV的加速卡有多么吃CPU啊！

作者: mooncocoon 时间: 2012-5-9 15:21

acqwer 发表于 2012-5-9 15:16
那些混合的基本上都是双路CPU，一个加速卡，NV的加速卡有多么吃CPU啊！

这不奇怪，走鹃就专门用Opteron集群做节点通讯处理以便能够让Cell集群发挥更高的效率。大型集群都会消耗相当一部分系统资源用于维系节点的效率，集群越大，树状结构越复杂，消耗在节点通讯和任务平衡分派上的资源也就越多。

作者: jhj9 时间: 2012-5-9 15:39
本帖最后由 jhj9 于 2012-5-9 15:45 编辑

GTX999 发表于 2012-5-9 11:18
也是最难编程，效率最低的，原来新闻也是黑n的。哈哈

你又一如既往的胡编乱造

最难编程，效率最低的大概是A家的Stream SDK

CUDA相对来说，可能是GPGPU里面编程环境最成熟最容易，效率也最高的了

而且N+CUDA就算效率比CPU低，运行性能还是比CPU高很多，CPU没得比啊

作者: NORAWITHMYCALL 时间: 2012-5-9 15:42

Vendicare 发表于 2012-5-9 14:16
问题1：提高处理器的IPC是每个CPU生产商孜孜不倦的最求。此前AMD的IPC最高纪录是羿龙系列的3发射。不考虑 ...

核心越多，越考验管线调配能力，对HPC这类计算机阵列来说，对处理器单体的性能的确可以降低，但是强调集团作战能力，也就是并行运算能力。A一挑一肯定败于I，这点不可否认，不容置疑，但是就这点预算，可以做到一多打少而达到同样的目的，这是未尝不可的叫实际和理想方案。JP的K已经很好的验证了纯CPU阵列的强大，异构要做到如此地步，的确还有很多路要走，不过在成本考量比重很大的计划内，不失为一种比较理想的方案。

作者: GTX999 时间: 2012-5-9 16:56
标题: RE: Cray OLCF捷豹超算即将换装开普勒GPU
本帖最后由 GTX999 于 2012-5-9 16:57 编辑

jhj9 发表于 2012-5-9 15:39
你又一如既往的胡编乱造

最难编程，效率最低的大概是A家的Stream SDK

我们都在说gpu比CPU效率低，你上来就转移到nv gpu比AMD gpu效率高。哈哈，30%是比20%高啊。
j神v5英明

作者: jhj9 时间: 2012-5-9 16:58

GTX999 发表于 2012-5-9 16:56
我们都在说gou比CPU效率低，你上来就转移到nv gpu比AMD gpu效率高。哈哈，30%是比20%高啊。
j神v5英明

效率低怕什么？性能功耗比照样高就行了，哪怕打了3折N卡性能和性能功耗比还是秒掉一切x86 CPU，这还怕什么效率问题？

作者: Vendicare 时间: 2012-5-9 17:12

GTX999 发表于 2012-5-9 16:56
我们都在说gpu比CPU效率低，你上来就转移到nv gpu比AMD gpu效率高。哈哈，30%是比20%高啊。
j神v5英明

到要听听你是如何定义“效率”的。Rmax/Rpeak？

作者: GTX999 时间: 2012-5-9 17:15
标题: RE: Cray OLCF捷豹超算即将换装开普勒GPU

jhj9 发表于 2012-5-9 16:58
效率低怕什么？性能功耗比照样高就行了，哪怕打了3折N卡性能和性能功耗比还是秒掉一切x86 CPU，这还怕什么 ...

tesla 600gfl？ 30%效率是180gfl
power7我记得是200gfl
十核ivb至强也不会比这个低。哈哈
CPU130w完爆tesla225w

作者: G70 时间: 2012-5-9 17:16
提示: 作者被禁止或删除内容自动屏蔽

作者: jhj9 时间: 2012-5-9 17:21

GTX999 发表于 2012-5-9 17:15
tesla 600gfl？ 30%效率是180gfl
power7我记得是200gfl
十核ivb至强也不会比这个低。哈哈

C2070是1030GFlops

作者: Vendicare 时间: 2012-5-9 17:29
本帖最后由 Vendicare 于 2012-5-9 17:30 编辑

GTX999 发表于 2012-5-9 17:15
tesla 600gfl？ 30%效率是180gfl
power7我记得是200gfl
十核ivb至强也不会比这个低。哈哈

你的算法不对的。

以Tesla C2090算：双精度浮点峰值性能665GFlops，单精度浮点峰值性能1331GFlops，单节点CUDA运算效率一般在85%左右徘徊，即单节点实际双精度速度一般在560GFlops左右。这个性能早就是xeon E7的4倍多了，单精度性能更是xeon拍马都追不上。

从近年来的发展趋势看，京这种纯CPU超算不是发展趋势。IBM的未来超算依赖blue gene/Q、Intel的未来超算依赖knights corner MIC、克雷等第三方方案依赖tesla加速卡。XT5到XK6的变化显而易见，纯CPU架构大家已经玩不起了。

作者: GTX999 时间: 2012-5-9 17:37
标题: RE: Cray OLCF捷豹超算即将换装开普勒GPU

jhj9 发表于 2012-5-9 17:21
C2070是1030GFlops[whistling>

单精度 6970 2.7t 1.03t也好意思说。

作者: GTX999 时间: 2012-5-9 17:39
标题: RE: Cray OLCF捷豹超算即将换装开普勒GPU

Vendicare 发表于 2012-5-9 17:29
你的算法不对的。

以Tesla C2090算：双精度浮点峰值性能665GFlops，单精度浮点峰值性能1331GFlops，单 ...

那560gfl经过编程编译的拖累能实现180gfl已经不错了

作者: GTX999 时间: 2012-5-9 17:41
标题: RE: Cray OLCF捷豹超算即将换装开普勒GPU

G70 发表于 2012-5-9 17:16
[sweatingbullets> 只会普通加减乘除的生物好可怕

围观会算群论和黎曼几何的高材生

作者: jhj9 时间: 2012-5-9 17:45

GTX999 发表于 2012-5-9 17:37
单精度 6970 2.7t 1.03t也好意思说。

效率呢？实际10%有没？

天河一号上面的4870x2是为什么被拆掉的啊？

作者: luckissy 时间: 2012-5-9 18:03
GPU优化比较困难啊

作者: G70 时间: 2012-5-9 18:24
提示: 作者被禁止或删除内容自动屏蔽

作者: defencelsj 时间: 2012-5-9 18:31
提示: 作者被禁止或删除内容自动屏蔽

作者: NORAWITHMYCALL 时间: 2012-5-9 19:08

Vendicare 发表于 2012-5-9 17:29
你的算法不对的。

以Tesla C2090算：双精度浮点峰值性能665GFlops，单精度浮点峰值性能1331GFlops，单 ...

未来最主要的趋势，既不是纯CPU阵列，也不是CPU+协处理器（包含GPGPU）的加速运算，而是融合后的CPU+GPU的新产物，可以看成是APU的阶段性终极进化版，且叫他统一处理器吧-Unity Process Unit。

作者: GTX999 时间: 2012-5-9 19:42

G70 发表于 2012-5-9 18:24
空有peak的废物也拿出来说，要是这废物的FLOPS能作准，为啥HPC清一色选TESLA？犯贱？

tesla软件支持好而已

作者: jhj9 时间: 2012-5-9 19:49
本帖最后由 jhj9 于 2012-5-9 19:50 编辑

GTX999 发表于 2012-5-9 19:42
tesla软件支持好而已

垃圾卡软件支持再好也永远达不到理论性能，永远只有比同档N卡低得多的实际表现

双精度性能只是一个方面，谁告诉你HPC计算只看双精度的？真够无知

而且Power7的效率你给出了吗？

作者: GTX999 时间: 2012-5-9 19:57

jhj9 发表于 2012-5-9 19:49
垃圾卡软件支持再好也永远达不到理论性能，永远只有比同档N卡低得多的实际表现

双精度性能只是 ...

和cpu比不过开始转移到和a卡比了好没出息哈哈哈
power7 资料如下 j神这样的技术高手自己去找吧我菜鸟啊

http://www-06.ibm.com/systems/jp ... mance_guide_755.pdf

作者: G70 时间: 2012-5-9 20:01
提示: 作者被禁止或删除内容自动屏蔽

作者: Vendicare 时间: 2012-5-9 20:06

NORAWITHMYCALL 发表于 2012-5-9 19:08
未来最主要的趋势，既不是纯CPU阵列，也不是CPU+协处理器（包含GPGPU）的加速运算，而是融合后的CPU+GPU的 ...

你说的那个未来太虚无飘渺了，到达那个彼端的路上还有无数技术壁垒要攻克。挡在前面的内存编址问题、Amdahl's Law、功耗平衡问题等等都没解决的请胯下，这个模糊的未来就不讨论了吧。APU?说的是骗子，信得是傻子。让最铁的AGUN站出来说说，APU的融合程度高还是SNB的融合程度高？

回到现实，就目前而言，混合架构的超算Rmax/Rpeak都不会太高。因为GPU和CPU在同一个任务中一般不会同时工作。但是这种架构能源效率却极高，可以为人称道。

作者: jhj9 时间: 2012-5-9 20:36

GTX999 发表于 2012-5-9 19:57
和cpu比不过开始转移到和a卡比了好没出息哈哈哈
power7 资料如下 j神这样的技术高手自己 ...

是你吹嘘power7效率高的，你拿不出来数据就是在自打耳光，我有什么义务帮你去找？你逻辑错乱了吧？

作者: GTX999 时间: 2012-5-9 20:49

jhj9 发表于 2012-5-9 20:36
是你吹嘘power7效率高的，你拿不出来数据就是在自打耳光，我有什么义务帮你去找？你逻辑错乱了吧？{:dyi3 ...

晚上休息时间懒得和你扯蛋

作者: G70 时间: 2012-5-9 21:00
提示: 作者被禁止或删除内容自动屏蔽

作者: fengpc 时间: 2012-5-9 21:03
CUDA程序里面大部分代码是在CPU上面跑的，只是那些需要大量重复运算的程序kernal才会通过CPU发到GPU上面执行。现在的GPU是离不开CPU的，只能算是个协处理器

作者: jhj9 时间: 2012-5-9 21:13
本帖最后由 jhj9 于 2012-5-9 22:56 编辑

GTX999 发表于 2012-5-9 20:49
晚上休息时间懒得和你扯蛋

哈哈哈，你给出的那个Power 755是4颗32核，整机功耗2000W，linpack实测性能才819.9GFlops
亏你也有脸给出来
nVidia S2050(双GPU)的linpack实测双精度浮点是656GFlops，功耗1000W

作者: GTX999 时间: 2012-5-9 21:34

jhj9 发表于 2012-5-9 21:13
哈哈哈，你给出的那个Power 755是4核32线程功耗2000W，性能才800+GFlops
亏你也有脸给出来
nVidia M209 ...

j神你想乐死大家 4核32线程哈哈哈
power7是每核心4线程 8核32线程或者4核16线程哪来的 4核32线程

2000w 哈哈单颗power7的tdp在180-200w之间 2000w10个早把你的tesla秒到冥王星了

作者: jhj9 时间: 2012-5-9 21:46
本帖最后由 jhj9 于 2012-5-9 21:54 编辑

GTX999 发表于 2012-5-9 21:34
j神你想乐死大家 4核32线程哈哈哈
power7是每核心4线程 8核32线程或者4核16线程哪来的 4核32 ...

http://www.redbooks.ibm.com/redpapers/pdfs/redp4638.pdf

[attach]1870487[/attach]

打脸啊

4核是指4颗物理核心

btw, 我就是不说清楚看某人出洋相

作者: jhj9 时间: 2012-5-9 21:49

GTX999 发表于 2012-5-9 21:34
j神你想乐死大家 4核32线程哈哈哈
power7是每核心4线程 8核32线程或者4核16线程哪来的 4核32 ...

继续打脸，看看这4颗物理核心的linpack性能

[attach]1870494[/attach]

作者: jhj9 时间: 2012-5-9 21:51

GTX999 发表于 2012-5-9 21:34
j神你想乐死大家 4核32线程哈哈哈
power7是每核心4线程 8核32线程或者4核16线程哪来的 4核32 ...

然后是Power755的整机功耗

[attach]1870495[/attach]

作者: jhj9 时间: 2012-5-9 21:53

GTX999 发表于 2012-5-9 21:34
j神你想乐死大家 4核32线程哈哈哈
power7是每核心4线程 8核32线程或者4核16线程哪来的 4核32 ...

最后看看Nvidia Tesla S2050的2CPU+2GPU整机性能和功耗

[attach]1870498[/attach]

Tesla S2050: 656GFlops/1KW=656GFlops/KW
IBM Power755: 819.9GFlops/1.95KW=420GFlops/KW

IBM Power 755被秒出几条街

作者: GTX999 时间: 2012-5-9 21:57

jhj9 发表于 2012-5-9 21:49
继续打脸，看看这4颗物理核心的linpack性能

4颗 8核32线程power7 提供820GFL的浮点性能
功耗不要看系统的2000w 还有256G内存和其余部分
单颗8核32线程power7 功耗每颗加上6GB内存就算200w 4颗也只有800w
按power7有80%的效率 820*0.9/800=0.9225GLF/w
而tesla 按30%效率算是 665*0.3/225=0.887GLF/w

老黄吹的几倍每瓦性能比呢哈哈哈

作者: G70 时间: 2012-5-9 21:58
提示: 作者被禁止或删除内容自动屏蔽

作者: rockyband 时间: 2012-5-9 21:59

GTX999 发表于 2012-5-9 21:57
4颗 8核32线程power7 提供820GFL的浮点性能
功耗不要看系统的2000w 还有256G内存和其余部分
单颗8核32 ...

败了就败了,还非要把NV自家拉进去?AF们A炮们.不要再脑补了.在这里补成这样,不如去AMD应聘一个保安.成为保安升级核心架构师的神话.

作者: coollab 时间: 2012-5-9 21:59
特斯拉为什么算30％？况且ibm这个也没有80％。

作者: jhj9 时间: 2012-5-9 22:00
本帖最后由 jhj9 于 2012-5-9 22:00 编辑

GTX999 发表于 2012-5-9 21:57
4颗 8核32线程power7 提供820GFL的浮点性能
功耗不要看系统的2000w 还有256G内存和其余部分
单颗8核32 ...

废话，你只有CPU就能跑的？不用主板内存硬盘了？要看当然看能完整使用的整机
你自己给的pdf也是Power 755主机而不是Power7单颗CPU的，不是吗？

Power 755整机接近2000w，而且占用4U机架
S2050整机只有1000w，只需要1U机架
按照空间算，1个Power 755空间可以摆下4个S2050

作者: jhj9 时间: 2012-5-9 22:35

GTX999 发表于 2012-5-9 21:57
4颗 8核32线程power7 提供820GFL的浮点性能
功耗不要看系统的2000w 还有256G内存和其余部分
单颗8核32 ...

你还有点常识没有？
你还有点廉耻没有？
linpack的实际运行性能结果还需要乘系数？
这个数字本身就是实际运行性能，而不是理论性能了
按照理论性能来算，S2050系统665/(515*2+85.12*2)=55%的效率，哪里是35%那么低？

作者: gzpony 时间: 2012-5-9 23:26
怎么还有兴趣想说服一个死不讲理的。任你们说破天，他都吸收不了的。
大家省点力气是正道。

作者: defencelsj 时间: 2012-5-9 23:38
提示: 作者被禁止或删除内容自动屏蔽

作者: GTX999 时间: 2012-5-10 07:47
本帖最后由 GTX999 于 2012-5-10 08:43 编辑

jhj9 发表于 2012-5-9 22:35
你还有点常识没有？
你还有点廉耻没有？
linpack的实际运行性能结果还需要乘系数？

S2050系统里面几块tesla？
跑linpack 4870这种也能跑哈哈
但是实际应用呢？
比如算下神的dna和普通人有啥不同，
有30%效率？

作者: cloudol 时间: 2012-5-10 08:20
现在衡量的linpack和实际性能还是有差别 gpgpu优化linpack比较简单而实际性能和限制问题就会比较大特别是对浮点精度高的任务

作者: jhj9 时间: 2012-5-10 09:03

GTX999 发表于 2012-5-10 07:47
S2050系统里面几块tesla？
跑linpack 4870这种也能跑哈哈
但是实际应用呢？

linpack不是实际计算程序？没有实际运算结果？你看你果然不知羞耻，硬把实际运算性能歪曲成理论性能了

作者: jhj9 时间: 2012-5-10 09:04

cloudol 发表于 2012-5-10 08:20
现在衡量的linpack和实际性能还是有差别 gpgpu优化linpack比较简单而实际性能和限制问题就会比较大特别是 ...

linpack dp本来就是双精度浮点，精度还不够高什么才够高？

作者: cloudol 时间: 2012-5-10 09:06

jhj9 发表于 2012-5-10 09:04
linpack dp本来就是双精度浮点，精度还不够高什么才够高？

单独优化linpack 比实际应用简单的多

这个看看国人就知道用tesla刷记录做政绩不干实事

大部分实事还是要靠xeon

作者: gzpony 时间: 2012-5-10 09:14

cloudol 发表于 2012-5-10 09:06
单独优化linpack 比实际应用简单的多

这个看看国人就知道用tesla刷记录做政绩不干实事

嗯，全世界都有这么个趋势：“ 用tesla刷记录做政绩不干实事”
那么刚好本贴讨论的就是美国政府在“ 用tesla刷记录做政绩不干实事”

NV有前途啊，出政绩产品了。

作者: GTX999 时间: 2012-5-10 09:20
标题: RE: Cray OLCF捷豹超算即将换装开普勒GPU

jhj9 发表于 2012-5-10 09:03
linpack不是实际计算程序？没有实际运算结果？你看你果然不知羞耻，硬把实际运算性能歪曲成理论性能了{:d ...

哈哈。linpack就像跑pi似的，专为他一个程序优化，当然跑的好，如果换成其他复杂点的应用又要逐个优化，这就是tesla的致命伤。哈哈哈。
效率低就是低，永世不得翻身了。哈哈哈

作者: jhj9 时间: 2012-5-10 09:28

GTX999 发表于 2012-5-10 09:20
哈哈。linpack就像跑pi似的，专为他一个程序优化，当然跑的好，如果换成其他复杂点的应用又要逐个优化，这 ...

说得power7的多线程编程不需要优化，不需要单独开发似的，你懂编程吗？
在我面前你还谈什么编程不就是撞枪口？

现在已经有一个效率大于50%的实例了，你这个只会撒谎的骗子已经被打脸

作者: 32nm 时间: 2012-5-10 09:31
敬请期待70亿晶体管的怪物降生吧

作者: jhj9 时间: 2012-5-10 09:36

GTX999 发表于 2012-5-10 09:20
哈哈。linpack就像跑pi似的，专为他一个程序优化，当然跑的好，如果换成其他复杂点的应用又要逐个优化，这 ...

n-body总是实际应用了吧？C2050可以跑612GFlops，理论性能1030GFlops
效率612/1030=59.4%
N卡的CUDA效率果然远远不是废材垃圾A卡可以比的，你的废材垃圾A卡效率才是20%都成问题，被秒得死去活来

作者: GTX999 时间: 2012-5-10 09:39
标题: RE: Cray OLCF捷豹超算即将换装开普勒GPU

jhj9 发表于 2012-5-10 09:28
说得power7的多线程编程不需要优化，不需要单独开发似的，你懂编程吗？
在我面前你还谈什么编程不就是撞 ...

哈哈。CPU优化容易，gpu优化困难，难道谁买了tesla都可以找j神免费优化？
linpack 游戏卡4870*2都能优化哈哈。

作者: GTX999 时间: 2012-5-10 09:41
标题: RE: Cray OLCF捷豹超算即将换装开普勒GPU

jhj9 发表于 2012-5-10 09:36
n-body总是实际应用了吧？C2050可以跑612GFlops，理论性能1030GFlops
效率612/1030=59.4%
N卡的CUDA效率 ...

哈哈哈。tesla和CPU比不过就拿a卡游戏卡来比，tesla太强大了，效率高达59% ！hoho
被10核ivb至强秒到银河系。

作者: jhj9 时间: 2012-5-10 09:44
本帖最后由 jhj9 于 2012-5-10 09:44 编辑

GTX999 发表于 2012-5-10 09:41
哈哈哈。tesla和CPU比不过就拿a卡游戏卡来比，tesla太强大了，效率高达59% ！hoho
被10核ivb至强秒到银河 ...

单块C2050都可以跑出612GFlops，你找个10核ivb来跑跑n-body看看能跑出多少GFlops？
撒谎也不打草稿，A枪被事实踢爆

作者: GTX999 时间: 2012-5-10 09:49
标题: RE: Cray OLCF捷豹超算即将换装开普勒GPU

jhj9 发表于 2012-5-10 09:44
单块C2050都可以跑出612GFlops，你找个10核ivb来跑跑n-body看看能跑出多少GFlops？
撒谎也不打草稿，A ...

单块ivb 10核80w tesla225w
一个顶三块，hoho
一个ivb200gfl 三个600gfl 所谓的几倍能耗比在哪呢

欢迎光临 POPPUR爱换 (https://we.poppur.com/)