POPPUR爱换

标题: NVIDIA 公布 10 TFlops(双精度)芯片 Echelon(针对 ExaFLOPS 时代 HPC) [打印本页]

作者: Edison    时间: 2010-11-18 21:45
标题: NVIDIA 公布 10 TFlops(双精度)芯片 Echelon(针对 ExaFLOPS 时代 HPC)
The result would be a thousand-core graphics chip with each core capable of handling four double precision floating-point operations per clock cycle—the equivalent of 10 teraflops on a chip. A chip with just eight of the cores would someday power a handset, Dally said.

  The Echelon chip packs just twice as many cores as today's high-end Nvidia GPUs. However, today's cores handle just one double precision floating-point operation per cycle, compared to four for the Echelon chip.

  Many of the advances in the chip come from its use of memory. The Echelon chip will use 256 Mbytes of SRAM memory that can be dynamically configured to meet the needs of an application.

  For example, the SRAM could be broken up into as many as six levels of cache, each of a variable size. At the lowest level each core would have its own private cache.

The goal is to get data as close to processing elements as possible to reduce the need to move data around the chip, wasting energy. Thus SMs would have a hierarchy of processor registers that could be matched to locations in cache levels. In addition, the chip would have broadcast mechanisms so that the results of one task could be shared with any nodes that needed that data.

我简述一下:
Echelon 拥有 128 个 SM,每个 SM 有 8 个 "core",共计上千个内核,两倍于目前的 Fermi,但是 Echelon 每个 "core" 的双精度计算能力是 Fermi 的 4 倍!

片上 SRAM 有 256MB,可按应用分配,例如可以分成 6 级 cache,每一级的容量均可不相同,最靠近 SP 的一级可以作为私有内存使用。SM 寄存器层次方面,可以对应 cache 层级所在。

Echelon的广播机制允许 task 的结果能够被任何需要的节点共享。

它将采用 CPU ISA。

作者: gzpony    时间: 2010-11-18 21:47
喔,新东西。貌似很厉害
作者: shu0202    时间: 2010-11-18 21:52
这个“core”和Fermi的哪层结构对应?而且这东西应该是和Game没一点关系了吧?这样大量的模块可以节省出来用于计算核心……
作者: 治病救人    时间: 2010-11-18 21:58
提示: 作者被禁止或删除 内容自动屏蔽
作者: Edison    时间: 2010-11-18 21:58
Echelon 这个时代,你已经很难再说清楚 CPU、GPU 的区别。
作者: potomac    时间: 2010-11-18 22:01
提示: 作者被禁止或删除 内容自动屏蔽
作者: Edison    时间: 2010-11-18 22:03
治病救人 发表于 2010-11-18 21:58
8倍于Fermi 的双精度?厉害

10/0.7 = 14 倍

作者: xmap    时间: 2010-11-18 22:05
Edison 发表于 2010-11-18 21:58
Echelon 这个时代,你已经很难再说清楚 CPU、GPU 的区别。

这样的么?

Echelon的设计上,也支持复杂的条件判定,跳转了么?

作者: 治病救人    时间: 2010-11-18 22:06
提示: 作者被禁止或删除 内容自动屏蔽
作者: Edison    时间: 2010-11-18 22:08
xmap 发表于 2010-11-18 22:05
这样的么?

Echelon的设计上,也支持复杂的条件判定,跳转了么?

它采用 ARMXX ISA。

作者: Al@n    时间: 2010-11-18 22:25
看来NV不想跟AMD玩了~~~!
作者: Edison    时间: 2010-11-18 22:27
治病救人 发表于 2010-11-18 22:06
频率会那么高么?规模比Fermi 大,同频是Fermi 8倍。

201x 年在 many-core 上实现 2.5GHz 应该还是可能的。

作者: 治病救人    时间: 2010-11-18 22:29
提示: 作者被禁止或删除 内容自动屏蔽
作者: Edison    时间: 2010-11-18 22:33
Echelon 针对的 ExaPflops 超级电脑会在 2018 年落成,而此前会在 2014 年的时候弄一个 57 度电的 PFLOPS Rack 做评估,显然不是明年的事情。

根据 Dally 的说法,Echelon 的单个 SM 将会有可能成为该公司下一代移动芯片(Tegra)的基石,至于啥时候就没说了。
作者: boris_lee    时间: 2010-11-18 22:42
众核架构吧。
作者: shu0202    时间: 2010-11-18 22:47
看来NV想利用ARM建立自己的霸主地位……最后又是剩下AMD和Intel在X86狗斗……
作者: xreal    时间: 2010-11-18 22:54
老黄威武
作者: waldo    时间: 2010-11-18 22:57
片上256M sram 就已经不是几年内就能造出来的东西了吧
作者: scim    时间: 2010-11-18 23:17
256M SRAM是有些科幻,就是片外的话成本和连接方式都是非常惊人的。
作者: xreal    时间: 2010-11-18 23:24

2018 skynet
作者: airforce18    时间: 2010-11-18 23:28
不需要外接GDDR吗?  256SRAM就足够存放数据了吗?  不理解了  
作者: eDRAM    时间: 2010-11-18 23:33
本帖最后由 eDRAM 于 2010-11-18 23:38 编辑

256MB SRAM需要多少晶体管?位宽和频率是多少?NVIDIA造出了一个零延迟无需充放电的超级大带宽
作者: hadeszhang    时间: 2010-11-18 23:34
scim 发表于 2010-11-18 23:17
256M SRAM是有些科幻,就是片外的话成本和连接方式都是非常惊人的。

前段时间不是有很多泛A还在说什么256、512的···········
作者: scim    时间: 2010-11-18 23:38
hadeszhang 发表于 2010-11-18 23:34
前段时间不是有很多泛A还在说什么256、512的···········

那是EDRAM吧,没有可比性,占用面积小太多了。

作者: hadeszhang    时间: 2010-11-18 23:38
Edison 发表于 2010-11-18 22:33
Echelon 针对的 ExaPflops 超级电脑会在 2018 年落成,而此前会在 2014 年的时候弄一个 57 度电的 PFLOPS R ...

那么当初NV说的要在2018年前在GPU中集成CPU的计划是否会提前?

有消息称,明年NV家的3代ARM将会是真正的NV的ARM,不知道指的是不是就是这个Echelon的单个SM版本?


谢谢


作者: eDRAM    时间: 2010-11-18 23:39
看来HPC是非常的需要SRAM,NVIDIA做对了。
作者: disruptor    时间: 2010-11-19 09:19
果然nv是打算把arm整合进去,这东西还有用于显示的后端吗
作者: 66666    时间: 2010-11-19 09:25
本帖最后由 66666 于 2010-11-19 09:25 编辑

这东西已经是相当于费米5.0的了,跟我们现在用的产品差异会很大
作者: disruptor    时间: 2010-11-19 09:26
sram和片内的缓存性能差多少?这么大的sram,难道超级计算机里打算把cpu踢出去吗
作者: gzpony    时间: 2010-11-19 09:29
本帖最后由 gzpony 于 2010-11-19 09:31 编辑
disruptor 发表于 2010-11-19 09:19
果然nv是打算把arm整合进去,这东西还有用于显示的后端吗

这东西明显就是只用于HPC吧。当然估计这只是顶端的产品,有可能往下扩展一条新的产品线。考虑到主要是计算为主,不是用来抢显卡的饭碗的,显示也不会输出了。

作者: disruptor    时间: 2010-11-19 09:35
回复 eDRAM 的帖子

如果是sram的话大概需要至少15亿的晶体管,加上ecc,再加上通讯,控制,估计怎么也要20亿左右
作者: mooncocoon    时间: 2010-11-19 09:43
还是跑IO么
什么时候才能OOO啊……
作者: 66666    时间: 2010-11-19 09:44
Edison 发表于 2010-11-18 22:33
Echelon 针对的 ExaPflops 超级电脑会在 2018 年落成,而此前会在 2014 年的时候弄一个 57 度电的 PFLOPS R ...

呵呵,用单个SM来作为tegra的基础,感觉有点cell的味道
作者: foxroz2003    时间: 2010-11-19 10:01
回复 disruptor 的帖子

15亿晶体管最多只能造30M左右的SRAM,要做256M SRAM 至少要128亿晶体管才够~
作者: asdfjkl    时间: 2010-11-19 11:51
回复 foxroz2003 的帖子

你怎么算的? 不是1位的SRAM需要6个晶体管吗? 我和前面那位估计的一致,20亿。

作者: 380    时间: 2010-11-19 11:54
提示: 作者被禁止或删除 内容自动屏蔽
作者: Heitai    时间: 2010-11-19 13:05
提示: 作者被禁止或删除 内容自动屏蔽
作者: foxroz2003    时间: 2010-11-19 13:13
回复 asdfjkl 的帖子

这是sram喔。连intel造core2 4核12mb二缓的cpu,晶体管都要8亿,减去核心部分2亿,那剩下的6亿就是那12mb的sram。按比例算256mb的sram就需要128亿晶体管。
作者: 梦游的猪    时间: 2010-11-19 14:13
估计罩杯得多大啊?
作者: 鱼儿水中游    时间: 2010-11-19 14:23
老黄威武。
作者: 32nm    时间: 2010-11-19 14:45
这256MB的SRAM应该是片外缓存吧~~如果是片内的应该做不到那么大的容量
作者: 32nm    时间: 2010-11-19 15:02
这个echelon是Maxwell的接班人吗?
作者: Edison    时间: 2010-11-19 15:04
maxwell 属于架构代号,对应的产品是 2012-1013 年出来,所以 Echelon 可能是 Maxwell 架构的产品化或者后续产品。
作者: 32nm    时间: 2010-11-19 15:08
eDRAM 发表于 2010-11-18 23:33
256MB SRAM需要多少晶体管?位宽和频率是多少?NVIDIA造出了一个零延迟无需充放电的超级大带宽

SRAM与RAM相比,具有无需刷新,0延迟的优点

作者: disruptor    时间: 2010-11-19 15:09
回复 foxroz2003 的帖子

哦不好意思,这个256M的单位是BYTE,不是bit,那还得在乘以8,差不多要一百多亿
作者: 32nm    时间: 2010-11-19 15:09
真希望以后GEFOREC能和TESLA分开,游戏和专业市场分别开发
作者: Enio    时间: 2010-11-19 15:20
256M SRAM,我是不是该说这玩意纯YY,造不出来
作者: Heitai    时间: 2010-11-19 15:55
提示: 作者被禁止或删除 内容自动屏蔽
作者: 32nm    时间: 2010-11-19 16:25
前段时间不是有个美国专家说FERMI的显存速度不够快拖慢了超级计算机的速度吗?看来NV听见了并迅速做出了反映决定上马256MB SRAM静态存储器
作者: 32nm    时间: 2010-11-19 16:28
显存速度不够?天河一号A不是世界最快

11月9日 《MIT技术评论》的一篇文章指出,中国采用GPU加速的天河一号A超级计算机只是峰值运算速度世界最快,在实际运算中它无法维持长时间的高速计算,而美国的超级电脑却能连续几天高负荷运算。美国国家超级计算机应用中心主任Thom Dunning表示,在GPU上达到峰值速度十分困难。天河一号A采用了7,168颗NVIDIA Tesla M2050 GPU和14,336颗CPU,GPU的瓶颈在于搭配的显存速度不够快,因此GPU在大部分时间总是无所事事。
    GPU速度和显存速度之间存在明显的不匹配情况。即使中国的超级计算机软件工程师能发明新的科学计算软件,在较少访问内存的情况下实现接近峰值的速度,Linpack基准测试也无法清楚指示出它的实际应用性能。由于系统对GPU的依赖,意味着现有的绝大多数超级计算机应用程序都必须重写——这是一项巨大的挑战。■

作者: 66666    时间: 2010-11-19 16:46
这玩意是7,8年以后的事情,7,8年以前HPC用CPU缓存才多大?

别用现在的眼光看未来的问题
作者: disruptor    时间: 2010-11-19 17:01
8年的256msram好像也没啥,按照ticktock的进度制程能有4次提升,那个时候的256mbsram基本相当于现在的16msram,完全可以实现啊
作者: maomaobear    时间: 2010-11-19 17:14
以后超算都用nvidia了?
作者: R620    时间: 2010-11-19 20:17
SRAM片外的话是不是和现在的外部显存一样放在PCB板卡上呢?
作者: Edison    时间: 2010-11-23 13:23
更新一下,Echelon 不是指芯片,而是指 NVIDIA 和其他厂商一起合作的 ExaFLOPS 系统架构代号,这里姑且称这个芯片为 Echelon's GPU,不过要记住这个说法并不准确。

另外按照 NVIDIA 正式提供的文档,这个 GPU 的双精度性能应该是 20TFLOPS。
作者: G81    时间: 2010-11-23 20:45
Edison 发表于 2010-11-23 13:23
更新一下,Echelon 不是指芯片,而是指 NVIDIA 和其他厂商一起合作的 ExaFLOPS 系统架构代号,这里姑且称这 ...

这个代号ECHELON和桌面的GPU(游戏方面)应该没有什么关系吧?

作者: Edison    时间: 2010-11-23 21:50
G81 发表于 2010-11-23 20:45
这个代号ECHELON和桌面的GPU(游戏方面)应该没有什么关系吧?

ECHELON 使用的芯片是 GPU,GPU 的全称是图形处理单元,如果不能跑图形自然不会叫 GPU。

作者: G81    时间: 2010-11-23 22:08
Edison 发表于 2010-11-23 21:50
ECHELON 使用的芯片是 GPU,GPU 的全称是图形处理单元,如果不能跑图形自然不会叫 GPU。

我说的是跟游戏方面没关系,10T的双精度和游戏没什么关系,不会在游戏里呈现出10倍的提升

作者: Edison    时间: 2010-11-23 22:14
那只是你断定以后双精度永远和游戏无关。
作者: G81    时间: 2010-11-23 22:38
Edison 发表于 2010-11-23 22:14
那只是你断定以后双精度永远和游戏无关。

的确是双精度和游戏没关系啊~~单精度对游戏足够了,难道不是吗?

作者: Edison    时间: 2010-12-1 23:14
标题: GPU for Echelon 的每瓦性能将是 Fermi 100 倍
[attach]1437145[/attach]



作者: 大碗喝酒    时间: 2010-12-1 23:15
提示: 作者被禁止或删除 内容自动屏蔽
作者: 狂风漫天    时间: 2010-12-1 23:17
天鼎星科技?
作者: yf2100    时间: 2010-12-1 23:21
关键词:project awarded...

一切都还是浮云
作者: Edison    时间: 2010-12-1 23:23
[attach]1437149[/attach]

NVIDIA 自己的服务器有 4 万个 CPU 内核,其中 3.5 万个被用来设计 GPU,这张幻灯片主要是说 NVIDIA 的服务器中心有 85% 的计算资源是和技术相关。

作者: Edison    时间: 2010-12-1 23:28
NVIDIA 目前正尝试迁移 GPU 仿真软件至 GPU Computing 上,目前看来一台机器就可以完成 50 万晶体管的模拟,未来有望实现在 GPU 上设计 GPU。

[attach]1437151[/attach]

作者: pangauto    时间: 2010-12-1 23:30
听说美国国防部都有赞助
作者: xreal    时间: 2010-12-1 23:33

国防部出钱
作者: spring62    时间: 2010-12-1 23:39
国防部是同时给几家出钱看谁早做出来吧
作者: 狂风漫天    时间: 2010-12-2 00:09
GPU 上设计 GPU----> CPU 上设计 CPU--->机器人设计机器人---->终结者T800-----世界末日的元凶我找到了
作者: crespo021    时间: 2010-12-2 01:02
黄老板V5
作者: hjdl60    时间: 2010-12-2 01:28
"Echelon是非官方承认的美国领导的全球间谍网络,它为监听和传播电子通信操纵一个全自动的系统。"

GPU FOR Echelon是用在这个上面的吗?
作者: SnakeLee    时间: 2010-12-2 07:41
老黄穿越回来的,给力~
天网啥时候启动
作者: yeemartin!    时间: 2010-12-2 08:07
哪里写每瓦性能是fermi的100x了?
作者: 凹特    时间: 2010-12-2 08:36
老黄的PPT提升一倍的太少了,一定要提升数倍才给力。
作者: zxl7288436    时间: 2010-12-2 08:37
100倍···太扯了吧
作者: 66666    时间: 2010-12-2 08:43
GPU上设计GPU,这话听起来怎么怪怪的
作者: 慕尼黑    时间: 2010-12-2 09:08
没说是一张卡吧?可能是个组合体呢?100倍也正常啊
作者: PS5    时间: 2010-12-2 10:57
这个芯片可以玩游戏吗?
作者: PS5    时间: 2010-12-2 11:01
将来可以再GPU上设计GPU,真是个好主意!!支持NV
作者: gzeasy2006    时间: 2010-12-2 11:06
这个东西应该是MAXWELL之后的东西了
作者: gzeasy2006    时间: 2010-12-2 11:08
E大,你还是把这个帖子转入技术区吧~~·放在这里太浪费了
作者: G81    时间: 2010-12-5 19:37
一台计算机才能模拟50万晶体管也太少了吧~30亿晶体管要多少台才能模拟完啊?
作者: 大碗喝酒    时间: 2010-12-6 21:31
提示: 作者被禁止或删除 内容自动屏蔽
作者: 32nm    时间: 2010-12-14 21:27
本帖最后由 32nm 于 2010-12-14 21:42 编辑
Edison 发表于 2010-12-1 23:23
NVIDIA 自己的服务器有 4 万个 CPU 内核,其中 3.5 万个被用来设计 GPU,这张幻灯片主要是说 NVIDIA 的 ...


nvidia自己的服务器有4万个CPU,这4万个CPU是不是英特尔生产的呢?否则nvidia没有道理要迁移GPU设计仿真软件啊~~难道是怕英特尔窃取nvidia的GPU机密?
作者: 高速    时间: 2011-1-19 10:26
出来了就知道了
作者: G81    时间: 2011-1-23 10:02
软件仿真真是很给力啊~
作者: denev2004    时间: 2011-1-27 14:03
每个 "core" 的双精度计算能力是 Fermi 的 4 倍?这可不容易作到啊。
作者: gzeasy2006    时间: 2011-1-29 11:06
denev2004 发表于 2011-1-27 14:03
每个 "core" 的双精度计算能力是 Fermi 的 4 倍?这可不容易作到啊。

这玩意是2018年出的,4倍都算低了

作者: denev2004    时间: 2011-2-15 19:36
gzeasy2006 发表于 2011-1-29 11:06
这玩意是2018年出的,4倍都算低了

但是是每个Core啊,这个ILP级也太高了,好处理么。
作者: devco1982    时间: 2011-2-23 13:40
学习了,Echelon的128个SM都有8个"core",每个"core" 的双精度计算能力是Fermi的4倍!




欢迎光临 POPPUR爱换 (https://we.poppur.com/) Powered by Discuz! X3.4