POPPUR爱换

标题: NVIDIA:ARM性能先天强过x86 更适合未来高性能运算 [打印本页]

作者: CC9K    时间: 2011-12-8 18:00
标题: NVIDIA:ARM性能先天强过x86 更适合未来高性能运算
本帖最后由 CC9K 于 2011-12-8 18:01 编辑

Nvidia公司宣称ARM CPU性能先天强过x86 CPU,因此更适合用于未来的高性能计算。

  Nvidia Tesla营销总监Sumit Gupta在近期采访中称x86系统唯一的真正优势是能够在微软Windows等系统上运行的更快,但若需在最小功耗下取得最高性能,ARM才是未来的选择,因此它也是超级计算的最佳选择。

  Gupta解释说ARM架构兴起于嵌入式领域,功耗限制很流行,不足1W被认为是正常状态。性能从芯片的概念设计阶段就受到限制,迫使工程师必须在能效比上特别创新。

  而英特尔和AMD的x86架构则从PC的角度进行考虑,机器通常接入电源,没什么严苛的功耗限制。

  “x86最优先考虑的向来是如何在Windows系统上跑得更快,响应未曾预期的任务,例如鼠标点击或键盘敲击”Gupta表示,他指出分支预测和推测执行是x86处理器拥有那么大缓存的重要原因,“对于日常计算来说它棒极了,但并不是高性能计算的理想设备。”

  Nvidia已经在帮助巴塞罗那超级计算机中心(BSC)开发基于Tegra CPU、通过Tesla GPU提供CUDA加速的复合超级计算机,以期实现欧洲勃朗峰计划(EU Mont-Blanc)提出的Exascale级别性能。

  该复合计算机将成为世界首款基于ARM CPU/GPU的超级计算组合。巴塞罗那超级计算机中心的研究人员表示短期目标是在能效比方面取得比今天最节能系统好2-5倍的进步,终极目标是节电15-30倍。

  如果概念可行,Nvidia就能证明自己的观点,不过成功还有数年的距离。与此同时,Nvidia表示将会持续参与HPC社区的开发,以期激活未来ARM架构超级计算机周围的软件生态圈。
作者: raini    时间: 2011-12-8 18:04
笑翻了要!都什么逻辑呀!
作者: wwwz251    时间: 2011-12-8 18:19
  1 CISC(Complex Instruction Set Computer,复杂指令集计算机)

  2 RISC(Reduced Instruction Set Computer,精简指令集计算机)

X86属于1,ARM属于2,就通用计算而言,确实ARM有先天优势。
作者: wxjiank    时间: 2011-12-8 18:32
如果概念可行,Nvidia就能证明自己的观点,不过成功还有数年的距离

嘴炮越打越远啊
作者: 54230859    时间: 2011-12-8 18:53
一定程度上可以这么说 可能以后也将是普通pc的主流
但是近期为时过早
作者: deadmeat    时间: 2011-12-8 19:01
提示: 作者被禁止或删除 内容自动屏蔽
作者: gzpony    时间: 2011-12-8 19:37
观点是正确的,只是目前x86在桌面上有大量现成软件保护,ARM是刚来者。未来5年将会炮火连天。
作者: Prescott    时间: 2011-12-8 20:07
"先天适合HPC的RISC“们在top500上已经被X86干的体无完肤

作者: gtx5    时间: 2011-12-8 20:12
TOP 10 Systems - 11/2011
1K computer, SPARC64 VIIIfx 2.0GHz, Tofu interconnect
2NUDT YH MPP, Xeon X5670 6C 2.93 GHz, NVIDIA 2050   INTEL X86
3Cray XT5-HE Opteron 6-core 2.6 GHz  AMD   X86
4Dawning TC3600 Blade, Intel X5650, NVidia Tesla C2050 GPU  INTEL   X86
5HP ProLiant SL390s G7 Xeon 6C X5670, Nvidia GPU, Linux/Windows   INTEL  X86
6Cray XE6, Opteron 6136 8C 2.40GHz, Custom   AMD  X86
7SGI Altix ICE 8200EX/8400EX, Xeon HT QC 3.0/Xeon 5570/5670 2.93 Ghz, Infiniband   INTEL  X86
8Cray XE6, Opteron 6172 12C 2.10GHz, Custom   AMD   X86
9Bull bullx super-node S6010/S6030
10BladeCenter QS22/LS21 Cluster, PowerXCell 8i 3.2 Ghz / Opteron DC 1.8 GHz, Voltaire Infiniband  AMD  X86


作者: eternal0    时间: 2011-12-8 20:13
gzpony 发表于 2011-12-8 19:37
观点是正确的,只是目前x86在桌面上有大量现成软件保护,ARM是刚来者。未来5年将会炮火连天。

还有一点,日常操作很多都是单线程的,ARM的单线程能力实在太渣,非常影响用户体验。况且PC对功耗没这么敏感,毕竟顶级显卡功耗可是300+的。

同架构的CPU,4G的双核和2G的四核,虽然理论性能一样,但是用起来肯定是前者快。
作者: gzpony    时间: 2011-12-8 20:25
本帖最后由 gzpony 于 2011-12-8 20:26 编辑
eternal0 发表于 2011-12-8 20:13
还有一点,日常操作很多都是单线程的,ARM的单线程能力实在太渣,非常影响用户体验。况且PC对功耗没这么敏 ...

是历史软件中很多都是单线程吧。
新软件除非写的人技术太烂,不然都想办法尽量利用多核多线程的资源。这种情况下,哪怕其他什么事情都没有改变,几年后两种软件的对比比例变化都很大。多线程的利用也早就开始了。


作者: eternal0    时间: 2011-12-8 20:32
gzpony 发表于 2011-12-8 20:25
是历史软件中很多都是单线程吧。
新软件除非写的人技术太烂,不然都想办法尽量利用多核多线程的资源。这 ...

恰恰相反,虽然现在的软件能够使用多线程,但是由于软件比以前更吃资源,某个线程成为瓶颈的情况更加容易发生。
另外,并不是什么算法都能够像破译密码那样完美并行化的,即使是x264这种充分支持多线程的软件,也是线程数越多,同码率下的画质越差。更何况有的算法根本无法并行。
作者: acqwer    时间: 2011-12-8 21:05
黄老板的意思很明确啊:虽然我们未来的产品跑分不错,但是碰到大量分支预测的时候还是会吃瘪。
作者: potomac    时间: 2011-12-8 21:21
提示: 作者被禁止或删除 内容自动屏蔽
作者: raini    时间: 2011-12-8 21:21
eternal0 发表于 2011-12-8 20:32
恰恰相反,虽然现在的软件能够使用多线程,但是由于软件比以前更吃资源,某个线程成为瓶颈的情况更加容易 ...

而且无法并行化的算法是大量存在的,例如很多数值优化的算法
作者: 66666    时间: 2011-12-8 21:47
raini 发表于 2011-12-8 21:21
而且无法并行化的算法是大量存在的,例如很多数值优化的算法

NV说的是HPC环境下,如果一个算法和程序多线程优化其烂无比,那它上HPC也没有意义。

虽然单线程性能很重要,但是在HPC环境下还是更看重多线程性能和效率,这个是要靠软硬件结合。
作者: locddd    时间: 2011-12-9 22:30
ARM很不错的说
作者: elisha    时间: 2011-12-9 23:35
66666 发表于 2011-12-8 21:47
NV说的是HPC环境下,如果一个算法和程序多线程优化其烂无比,那它上HPC也没有意义。

虽然单线程性能很 ...

不是所有东西都能并行的
作者: themis    时间: 2011-12-10 20:47
过个10几20年的
然后出现ARM1 ARM2 ....ARM64 ARM128之类的
考虑到向下兼容

然后就会有人出来发帖说ORM比ARM这个东西好很多
作者: doocoo    时间: 2011-12-10 22:30
本帖最后由 doocoo 于 2011-12-10 22:35 编辑

服务器除了对速度有要求以外,并行运算能力和IO吞吐能力也是重要指标。
服务器是不可能单线程运作的,客户端连接成千上万,需要均衡调度、运算、存储。不能从PC的角度来衡量。比如一个网站,那么多人同时在用,只有一个进程吗?显然不可能。就算只有一个用户,那也涉及到网站、动态网页、数据库、安全……很多个进程。

而超算领域也许连接没有那么多,但基本上都是多线程的,否则也不会用成千上万个CPU了。

所以,在这些领域,根本就不存在什么“多线程优化好不好”的问题,这是必须的。

这些机器的另一个特点就是发热惊人、耗电惊人。所以google要在冰天雪地的芬兰建数据中心,还要用海水降温。

从这些角度上看,黄老板的构想不无道理。
作者: BDFMK2    时间: 2011-12-10 22:37
66666 发表于 2011-12-8 21:47
NV说的是HPC环境下,如果一个算法和程序多线程优化其烂无比,那它上HPC也没有意义。

虽然单线程性能很 ...

比多线程的话,一个节点上,X86能做到单路16核,4路就是64核。

ARM。。。。。。。。。黄老板刚出来的T3才4核!还不能组成多路系统。

如果刨除CPU,只论异构计算,Intel手里的manycore能做到单芯2TFlops的双精度计算,还是x86架构。

intel要想玩,ARM真没戏!


作者: raini    时间: 2011-12-10 23:11
doocoo 发表于 2011-12-10 22:30
服务器除了对速度有要求以外,并行运算能力和IO吞吐能力也是重要指标。
服务器是不可能单线程运作的,客户 ...

还是那个问题,既要车儿跑得快,又要车儿不用油,这是不现实的事。
作者: colo    时间: 2011-12-11 06:45
有時候習慣的力量是巨大的,有些東西即使你知道它很蹩腳,但就是會繼續用下去,比如qwer鍵盤……那種蹩腳的鍵位排列根本不是為了讓你打字更快,只是防止機械式打字機卡鍵而已,雖然現在機械式打字機已經消失多年,但是這種鍵位排序沿用至今

X86在軟件上積累了這麼多年,不是說推倒就推倒的
作者: 66666    时间: 2011-12-11 08:44
BDFMK2 发表于 2011-12-10 22:37
比多线程的话,一个节点上,X86能做到单路16核,4路就是64核。

ARM。。。。。。。。。黄老板刚出来的T ...

tegra3只是个消费级芯片,你拿这个举例也太抬举NV了。消费级别的X86芯片能做到单路多少核?

提升性能并不难,堆1000个X86核心怎么玩都能得到一个很可观的数字,但是论每GFLOPS功耗,成本,intel有多大优势可就要打个大问号。
作者: wwwz251    时间: 2011-12-11 08:45
目前主流x86功耗是arm的40-50倍!
作者: eternal0    时间: 2011-12-11 09:12
colo 发表于 2011-12-11 06:45
有時候習慣的力量是巨大的,有些東西即使你知道它很蹩腳,但就是會繼續用下去,比如qwer鍵盤……那種蹩腳的 ...

确实,iPad上有些程序采用abcd排列的虚拟键盘,用起来反而不习惯了。

不过超算上不用考虑这些的,那些用GPU的超算,代码可比ARM难写多了。
不过如果是ARM+GPU这样的架构,其实ARM只是拿来做IO,没贡献什么运算能力。
作者: spring62    时间: 2011-12-11 09:17
我想知道如此适合高性能计算的RISC,怎么会在TOP 500的HPC里面一再被X86挤占份额
作者: eternal0    时间: 2011-12-11 09:40
spring62 发表于 2011-12-11 09:17
我想知道如此适合高性能计算的RISC,怎么会在TOP 500的HPC里面一再被X86挤占份额

产量小-〉成本高-〉销量低-〉产量小……
作者: Prescott    时间: 2011-12-11 10:26
eternal0 发表于 2011-12-11 09:40
产量小-〉成本高-〉销量低-〉产量小……

怎么会,MIPS出货量可一直不低。

作者: YsMilan    时间: 2011-12-11 10:28
wwwz251 发表于 2011-12-11 08:45
目前主流x86功耗是arm的40-50倍!

原来CPU比的是功耗
作者: sjlhq    时间: 2011-12-11 10:36
wwwz251 发表于 2011-12-11 08:45
目前主流x86功耗是arm的40-50倍!

吹牛吧,ARM据说上了1G功耗是急剧增加,要是ARM能弄个i7性能功率又比INTEL低40倍我就信!
作者: pivk    时间: 2011-12-11 11:42
又想马儿跑又想马儿不吃草,当arm有火星科技吗?真有的话,也是在intel手上,约翰牛就别来凑热闹了,未来的竞争依然是在爸爸国内部召开
作者: BDFMK2    时间: 2011-12-11 12:44
本帖最后由 BDFMK2 于 2011-12-11 12:45 编辑
66666 发表于 2011-12-11 08:44
tegra3只是个消费级芯片,你拿这个举例也太抬举NV了。消费级别的X86芯片能做到单路多少核?

提升性能并 ...

你要看清楚,不是我抬举NV,是黄老板自己太抬举自己了!

不是别人,是黄老板自己把Tegra塞到HPC里去和X86比的!

消费级的CPU当然很少能组成多路系统,但这个限制多数源于商业策略而不是技术层面。因为现在绝大多数的多路CPU使用的芯片与消费级CPU使用的芯片一样,都是从一个晶圆上切割下来的。区别的只是体质和功能的屏蔽而已!

此外,论性能功耗比,ARM更不是X86的对手。一千个节点个X86能做到的事,用ARM可能需要10万个节点才行!虽然ARM每个节点很省点,但考虑到多路并行计算的效率,AMR在分支预测,OOO上的性能差异。在高性能服务器上ARM没有可能超越intel,AMD和IBM。

ARM的优势只在于功耗低,不知何时你产生了ARM性能功耗比高的错觉!

比如
作者: BDFMK2    时间: 2011-12-11 12:51
spring62 发表于 2011-12-11 09:17
我想知道如此适合高性能计算的RISC,怎么会在TOP 500的HPC里面一再被X86挤占份额

现在都是RISC,x86只是多一个decode这一步。
作者: eternal0    时间: 2011-12-11 13:04
本帖最后由 eternal0 于 2011-12-11 13:09 编辑
BDFMK2 发表于 2011-12-11 12:44
你要看清楚,不是我抬举NV,是黄老板自己太抬举自己了!

不是别人,是黄老板自己把Tegra塞到HPC里去和 ...

大概就是这个意思:
1Mbps的宽带100/月(ARM)
100Mbps的宽带20000/月(高性能x86)
于是有人觉得可以拉100根1M的宽带,就能有100M的带宽了,还省钱。似乎把网线、路由器、单线程速度、多线程的损耗都给忘了。
作者: 66666    时间: 2011-12-11 13:11
BDFMK2 发表于 2011-12-11 12:44
你要看清楚,不是我抬举NV,是黄老板自己太抬举自己了!

不是别人,是黄老板自己把Tegra塞到HPC里去和 ...

tegra3那个集群只是一个实验验证性质,NV肯定不会用tegra3来做商业HPC项目。

其次Denver只是软件编译层面兼容ARM指令集,内核微构架跟ARM完全没有任何关系,请别拿ARM现有IP技术水平来衡量Denver的能耗比。

最后NV的HPC设计中Tesla提供绝大部分计算能力,Tesla的计算能耗比远比X86强的多。现在越来越多异质构架超算就是例子。



作者: 66666    时间: 2011-12-11 13:14
BDFMK2 发表于 2011-12-11 12:51
现在都是RISC,x86只是多一个decode这一步。

谁告诉你RISC没有decode的?
作者: BDFMK2    时间: 2011-12-11 13:16
66666 发表于 2011-12-11 13:11
tegra3那个集群只是一个实验验证性质,NV肯定不会用tegra3来做商业HPC项目。

其次Denver只是软件编译层 ...

异构能证明ARM什么?什么都证明不了!
作者: BDFMK2    时间: 2011-12-11 13:22
66666 发表于 2011-12-11 13:14
谁告诉你RISC没有decode的?

x86-decode
作者: 66666    时间: 2011-12-11 13:28
BDFMK2 发表于 2011-12-11 13:16
异构能证明ARM什么?什么都证明不了!

说明HPC未来主要计算能力提升很需要Tesla这类计算卡,堆通用CPU数量已经不是最佳建设HPC途径。

我再强调下NV的HPC计划从头到尾除了软件兼容ARMv7指令集以外跟ARM没有任何关系。以为做个tegra3的实验集群就认为NV HPC直接拿Cortex-A9来做CPU部分,搞笑也不是这样搞法
作者: 蒋PJ    时间: 2011-12-11 13:37
科学通用计算,现在都堆 NV的显卡核心了,包括斯坦福大学。和中国的新型服务器
作者: elisha    时间: 2011-12-11 13:49
蒋PJ 发表于 2011-12-11 13:37
科学通用计算,现在都堆 NV的显卡核心了,包括斯坦福大学。和中国的新型服务器

就几个被nv大吹特吹了而已,其他所有的都是X86
作者: frankincense    时间: 2011-12-11 14:58
spring62 发表于 2011-12-11 09:17
我想知道如此适合高性能计算的RISC,怎么会在TOP 500的HPC里面一再被X86挤占份额

现在的潮流是RISC指令集CISC化,CISC内核RISC化
再纠结什么RISC和CISC已经意义不大
作者: raini    时间: 2011-12-11 19:42
蒋PJ 发表于 2011-12-11 13:37
科学通用计算,现在都堆 NV的显卡核心了,包括斯坦福大学。和中国的新型服务器

那些机器都是傻快而已
作者: BDFMK2    时间: 2011-12-11 21:13
66666 发表于 2011-12-11 13:28
说明HPC未来主要计算能力提升很需要Tesla这类计算卡,堆通用CPU数量已经不是最佳建设HPC途径。

我再强 ...

麦克斯韦?那还算ARM么?我们早说ARM,别扯别的OK!

我不管NV未来的HPC计划如何,我只知道NV现在把一个T3集群吹的天花乱坠,黄老板现在非常搞笑!






欢迎光临 POPPUR爱换 (https://we.poppur.com/) Powered by Discuz! X3.4