POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
查看: 12069|回复: 90
打印 上一主题 下一主题

NVIDIA 公布 10 TFlops(双精度)芯片 Echelon(针对 ExaFLOPS 时代 HPC)

[复制链接]
跳转到指定楼层
1#
发表于 2010-11-18 21:45 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
The result would be a thousand-core graphics chip with each core capable of handling four double precision floating-point operations per clock cycle—the equivalent of 10 teraflops on a chip. A chip with just eight of the cores would someday power a handset, Dally said.

  The Echelon chip packs just twice as many cores as today's high-end Nvidia GPUs. However, today's cores handle just one double precision floating-point operation per cycle, compared to four for the Echelon chip.

  Many of the advances in the chip come from its use of memory. The Echelon chip will use 256 Mbytes of SRAM memory that can be dynamically configured to meet the needs of an application.

  For example, the SRAM could be broken up into as many as six levels of cache, each of a variable size. At the lowest level each core would have its own private cache.

The goal is to get data as close to processing elements as possible to reduce the need to move data around the chip, wasting energy. Thus SMs would have a hierarchy of processor registers that could be matched to locations in cache levels. In addition, the chip would have broadcast mechanisms so that the results of one task could be shared with any nodes that needed that data.

我简述一下:
Echelon 拥有 128 个 SM,每个 SM 有 8 个 "core",共计上千个内核,两倍于目前的 Fermi,但是 Echelon 每个 "core" 的双精度计算能力是 Fermi 的 4 倍!

片上 SRAM 有 256MB,可按应用分配,例如可以分成 6 级 cache,每一级的容量均可不相同,最靠近 SP 的一级可以作为私有内存使用。SM 寄存器层次方面,可以对应 cache 层级所在。

Echelon的广播机制允许 task 的结果能够被任何需要的节点共享。

它将采用 CPU ISA。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
2#
发表于 2010-11-18 21:47 | 只看该作者
喔,新东西。貌似很厉害
回复 支持 反对

使用道具 举报

3#
发表于 2010-11-18 21:52 | 只看该作者
这个“core”和Fermi的哪层结构对应?而且这东西应该是和Game没一点关系了吧?这样大量的模块可以节省出来用于计算核心……
回复 支持 反对

使用道具 举报

头像被屏蔽
4#
发表于 2010-11-18 21:58 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

5#
 楼主| 发表于 2010-11-18 21:58 | 只看该作者
Echelon 这个时代,你已经很难再说清楚 CPU、GPU 的区别。
回复 支持 反对

使用道具 举报

potomac 该用户已被删除
6#
发表于 2010-11-18 22:01 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

7#
 楼主| 发表于 2010-11-18 22:03 | 只看该作者
治病救人 发表于 2010-11-18 21:58
8倍于Fermi 的双精度?厉害

10/0.7 = 14 倍
回复 支持 反对

使用道具 举报

8#
发表于 2010-11-18 22:05 | 只看该作者
Edison 发表于 2010-11-18 21:58
Echelon 这个时代,你已经很难再说清楚 CPU、GPU 的区别。

这样的么?

Echelon的设计上,也支持复杂的条件判定,跳转了么?
回复 支持 反对

使用道具 举报

头像被屏蔽
9#
发表于 2010-11-18 22:06 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

10#
 楼主| 发表于 2010-11-18 22:08 | 只看该作者
xmap 发表于 2010-11-18 22:05
这样的么?

Echelon的设计上,也支持复杂的条件判定,跳转了么?

它采用 ARMXX ISA。
回复 支持 反对

使用道具 举报

11#
发表于 2010-11-18 22:25 | 只看该作者
看来NV不想跟AMD玩了~~~!
回复 支持 反对

使用道具 举报

12#
 楼主| 发表于 2010-11-18 22:27 | 只看该作者
治病救人 发表于 2010-11-18 22:06
频率会那么高么?规模比Fermi 大,同频是Fermi 8倍。

201x 年在 many-core 上实现 2.5GHz 应该还是可能的。
回复 支持 反对

使用道具 举报

头像被屏蔽
13#
发表于 2010-11-18 22:29 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

14#
 楼主| 发表于 2010-11-18 22:33 | 只看该作者
Echelon 针对的 ExaPflops 超级电脑会在 2018 年落成,而此前会在 2014 年的时候弄一个 57 度电的 PFLOPS Rack 做评估,显然不是明年的事情。

根据 Dally 的说法,Echelon 的单个 SM 将会有可能成为该公司下一代移动芯片(Tegra)的基石,至于啥时候就没说了。
回复 支持 反对

使用道具 举报

15#
发表于 2010-11-18 22:42 | 只看该作者
众核架构吧。
回复 支持 反对

使用道具 举报

16#
发表于 2010-11-18 22:47 | 只看该作者
看来NV想利用ARM建立自己的霸主地位……最后又是剩下AMD和Intel在X86狗斗……
回复 支持 反对

使用道具 举报

17#
发表于 2010-11-18 22:54 | 只看该作者
老黄威武
回复 支持 反对

使用道具 举报

18#
发表于 2010-11-18 22:57 | 只看该作者
片上256M sram 就已经不是几年内就能造出来的东西了吧
回复 支持 反对

使用道具 举报

19#
发表于 2010-11-18 23:17 | 只看该作者
256M SRAM是有些科幻,就是片外的话成本和连接方式都是非常惊人的。
回复 支持 反对

使用道具 举报

20#
发表于 2010-11-18 23:24 | 只看该作者

2018 skynet
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-2-4 06:46

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表