POPPUR爱换

标题: 竞猜时间：GK110 或者说开普勒最顶级 GPU 的完整计算单元数量是多少？ [打印本页]

作者: Edison 时间: 2010-12-25 22:01
标题: 竞猜时间：GK110 或者说开普勒最顶级 GPU 的完整计算单元数量是多少？

欢迎自由竞猜。

作者: liu330226 时间: 2010-12-25 22:03
选了第一个，应该数量增加没那么快吧

作者: yyzjp 时间: 2010-12-25 22:10
我投了第一个，不过CHO老奸巨猾，上次猜6970我就错了

作者: 6神-kepler 时间: 2010-12-25 22:11
E大看来已经拿到消息了

作者: trevorlee 时间: 2010-12-25 22:12
翻番也很牛了。

作者: ash713 时间: 2010-12-25 22:15
这么快爆料，KEPLER这么快确定？

作者: 6神-kepler 时间: 2010-12-25 22:15
肯定不是1024core了，GF100的每SM里面32CUDA core已经证明不如GF104每SM 48CUDA core。

作者: chrisjason 时间: 2010-12-25 22:17
E大看来已经拿到消息了

作者: yyzjp 时间: 2010-12-25 22:18
请问谁偷了2880 个单元？我的马马啊，疯了？

作者: mooncocoon 时间: 2010-12-25 22:19

6神-kepler 发表于 2010-12-25 22:15
肯定不是1024core了，GF100的每SM里面32CUDA core已经证明不如GF104每SM 48CUDA core。

那跟每SM的SP数量其实没啥直接关系的

作者: 6神-kepler 时间: 2010-12-25 22:23

mooncocoon 发表于 2010-12-25 22:19
那跟每SM的SP数量其实没啥直接关系的

如果是每SM 48 CUDA ，1024根本无法被48整除

作者: gz_easy 时间: 2010-12-25 22:25
我想和投2的xd

，如果对了we get lucky，错了we get fooled。

作者: 6神-kepler 时间: 2010-12-25 22:28

mooncocoon 发表于 2010-12-25 22:19
那跟每SM的SP数量其实没啥直接关系的

我觉得1536有意思，刚好和6970一样，4GPC ，每GPC 8SM，一共32sm，每sm 48个CUDA core和8个SFU

作者: Edison 时间: 2010-12-25 22:31

反正到时候大家就知道哪个是正确的了。

作者: 6神-kepler 时间: 2010-12-25 22:35

Edison 发表于 2010-12-25 22:31
反正到时候大家就知道哪个是正确的了。

能让我们搞一个去掉一个错误的答案的游戏吗

作者: gz_easy 时间: 2010-12-25 22:35

Edison 发表于 2010-12-25 22:31
反正到时候大家就知道哪个是正确的了。

E这话跟没说似的，就如同问开发商产品何时完工，开发商回答：It will be done when it's done.

作者: quanx6 时间: 2010-12-25 22:42
选了第三个

作者: 32nm 时间: 2010-12-25 22:42
为什么E大的猜测里不加上显存位宽和显存频率呢？

作者: mooncocoon 时间: 2010-12-25 22:52

6神-kepler 发表于 2010-12-25 22:23
如果是每SM 48 CUDA ，1024根本无法被48整除

我是在说GF100跟GF104性能跟SM里SP个数的事

作者: 380 时间: 2010-12-25 23:00
提示: 作者被禁止或删除内容自动屏蔽

作者: pharaohs1024 时间: 2010-12-25 23:03
提示: 作者被禁止或删除内容自动屏蔽

作者: pharaohs1024 时间: 2010-12-25 23:05
提示: 作者被禁止或删除内容自动屏蔽

作者: iamspy 时间: 2010-12-25 23:06
我猜1152 CUDA。48X4X6。至于2880显然是去掉的错误答案。不明白为啥有那么多人投。

作者: furt 时间: 2010-12-25 23:12
第一个最符合常理所以首先排除掉.投了第二个

作者: pharaohs1024 时间: 2010-12-25 23:14
提示: 作者被禁止或删除内容自动屏蔽

作者: 骨刺 时间: 2010-12-25 23:23
1536

作者: needfire 时间: 2010-12-26 00:50
很明显24X64=1536

作者: aibo 时间: 2010-12-26 00:54
1536这个数字太有爱了

，忍不住投了一个

作者: spring62 时间: 2010-12-26 01:42
看见1536想起6970，忍不住就点下去了

作者: Kepler680 时间: 2010-12-26 03:13
投错了，应该是1536的，理论400%的GTX560的性能，阉革后1344个SP 的GTX680实测性能相当与GTX560 250-300%之间的性能，相当于GTX580的170-180%.

作者: killpmp 时间: 2010-12-26 11:02

6神-kepler 发表于 2010-12-25 22:28
我觉得1536有意思，刚好和6970一样，4GPC ，每GPC 8SM，一共32sm，每sm 48个CUDA core和8个SFU

如果64个可以不
按你的说法，似乎64个的效率应该比48个还要高

作者: rurouni2 时间: 2010-12-26 11:19
这个竞猜注定将来会引起争议，因为你怎么知道GK100就是开普勒最顶级GPU?说不定将来有GK200，所以要么猜GK100，要么猜最顶级Kepler

作者: cfcnc 时间: 2010-12-26 11:43
我选7，呵呵

作者: Racca 时间: 2010-12-26 11:52
提示: 作者被禁止或删除内容自动屏蔽

作者: xlongx 时间: 2010-12-26 14:09
没人投2304，我决定投一下

作者: gzpony 时间: 2010-12-26 15:54
制程升级到28nm，和40nm的时候比，规模扩大一倍是应该的。也许其他方面的技术成熟些，规模还能略作扩大。

作者: OPPY 时间: 2010-12-26 16:39

gzpony 发表于 2010-12-26 15:54
制程升级到28nm，和40nm的时候比，规模扩大一倍是应该的。也许其他方面的技术成熟些，规模还能略作扩大。

不过功耗估计又得300+瓦了

作者: gzpony 时间: 2010-12-26 16:50

OPPY 发表于 2010-12-26 16:39
不过功耗估计又得300+瓦了

顶级GPU当然是照着功耗的最大限制来设计，所以正常情况下每一代的顶级GPU的功耗应该都会差不多，至少在设计图纸阶段的时候功耗目标是一致的。

作者: wangzhizhi 时间: 2010-12-26 19:09
前六项太保守了，不像NV的风格

作者: 李主任 时间: 2010-12-26 19:49
草，新架构居然叫GK100。。。难道GF100》GK100》GHK100》PHK100？？？

作者: 开普勒 时间: 2010-12-26 21:28
嘻嘻，E大这个投票明显阴人的～～～

作者: xxxyyy 时间: 2010-12-27 00:50
提示: 作者被禁止或删除内容自动屏蔽

作者: goldman948 时间: 2010-12-27 09:10
没有2012所以投了2048

作者: 开普勒 时间: 2010-12-27 13:16

开普勒发表于 2010-12-26 21:28
嘻嘻，E大这个投票明显阴人的～～～

貌似没有一个是正确的。。。

作者: hjdl60 时间: 2010-12-27 23:08
期待2048 cuda core

作者: colorlove 时间: 2010-12-27 23:11
个人认为28nm良率高→24*48=1156SP
良率低→22*48=1056
等到良率提升再出完整版

作者: D65 时间: 2010-12-27 23:40
看选项一定不是1024，第二，三的可能性最大。
我认为这才真的要发飙了1156...

作者: panjanstoneborg 时间: 2010-12-28 03:49
关键是开普勒的变化在哪里
从8800到gtx280都没换名字，这次就换了。除非nv在戏耍大科学家的名字
否则肯定有什么构架上的改进，这比多少core有意思多了。
爆料吧

作者: Edison 时间: 2010-12-28 12:44

panjanstoneborg 发表于 2010-12-28 03:49
关键是开普勒的变化在哪里
从8800到gtx280都没换名字，这次就换了。除非nv在戏耍大科学家的名字
否则肯定 ...

8800 GTX -> GTX280 的代号变化是 Tesla 8 -> Tesla 10 -> Tesla 20。

Code name	Official Name	Nvidia 3D object codename
NV4	Riva TNT, TNT2	NV04_DX5_TEXTURED_TRIANGLE NV04_DX6_MULTITEX_TRIANGLE
NV10	GeForce 256, GeForce 2, GeForce 4 MX	Celsius
NV20	GeForce 3, GeForce 4 Ti	Kelvin
NV30	GeForce 5 / GeForce FX	Rankine
NV40	GeForce 6, GeForce 7	Curie
NV50	GeForce 8, GeForce 9, GeForce 100, GeForce 200, GeForce 300	Tesla
NVC0	GeForce 400	Fermi

物理学家的名字也不是 Tesla 才用上的。

作者: 开普勒 时间: 2010-12-28 12:44
Kepler的架构应该会出乎大多人意料

作者: gz_easy 时间: 2010-12-28 13:23

Edison 发表于 2010-12-28 12:44
8800 GTX -> GTX280 的代号变化是 Tesla 8 -> Tesla 10 -> Tesla 20。

TNT/TNT2同为DX6 GPU，为何codename还分DX5/DX6。

作者: aibo 时间: 2010-12-28 13:49
疑问，kepler会不会放弃“纯”1D？

1D的计算密度太低了。。。

作者: disruptor 时间: 2010-12-28 14:47
2048,开普勒据说有专业计算版本和普通版本两种芯片。去掉rop tmu之流，流处理器在提升工艺的情况下数量翻4倍不成问题哈哈哈哈哈哈

作者: Edison 时间: 2010-12-28 16:49

disruptor 发表于 2010-12-28 14:47
2048,开普勒据说有专业计算版本和普通版本两种芯片。去掉rop tmu之流，流处理器在提升工艺的情况下数量翻4倍 ...

kepler 肯定有集成硬件 TMU，ROP 应该还有，但是绝对不会拆开，ROP 对 GPU 来说在一定程度上就是 IMC

。

作者: R620 时间: 2010-12-28 21:25

Edison 发表于 2010-12-28 16:49
kepler 肯定有集成硬件 TMU，ROP 应该还有，但是绝对不会拆开，ROP 对 GPU 来说在一定程度上就是 IMC [u ...

据说GK110的TELSA和GEFORE版本是同时开发的。

作者: qiuyongwin 时间: 2010-12-29 12:45
数字怪的靠谱

作者: kakaku.bj.cn 时间: 2010-12-29 16:29
实际768个，可惜没这个选项，无法投

作者: Eji 时间: 2011-1-13 00:00
提示
1. Kepler 的性能是約5.7GFLOPS DP per watt
2. 這個不是峰值是持續性能
以下加油。

作者: 治病救人 时间: 2011-1-13 09:08
提示: 作者被禁止或删除内容自动屏蔽

作者: G81 时间: 2011-1-13 20:11

Eji 发表于 2011-1-13 00:00
提示
1. Kepler 的性能是約5.7GFLOPS DP per watt
2. 這個不是峰值是持續性能

峰值是多少呢？还有开扑勒的显存位宽是不是512bit的呢？等待E大的回答

作者: 32nm 时间: 2011-1-14 20:11
说到开普勒，我更期待MAXWELL，那是划时代的产品，双精度性能相比FERMI提升了16倍，黄仁勋如是说：MAXWELL是革命性的产物。

作者: aibo 时间: 2011-1-21 19:51
1024得票最多，不过貌似已经杯具

作者: samsunggram 时间: 2011-1-22 15:03
足本GF104和6970我都猜错，这次不猜还不行吗

我猜2880

作者: zxl7288436 时间: 2011-1-22 15:37
如果有800的选项我一定会选800···

作者: jason_sean 时间: 2011-1-22 19:59
2. 1152 cuda core

384*3GK110 384*2GK116

作者: G81 时间: 2011-1-23 09:45
1152 1536这2个数字最靠谱

作者: 380 时间: 2011-1-23 14:01
提示: 作者被禁止或删除内容自动屏蔽

作者: 380 时间: 2011-1-23 14:05
提示: 作者被禁止或删除内容自动屏蔽

作者: gzeasy2006 时间: 2011-1-23 17:49

Eji 发表于 2011-1-13 00:00
提示
1. Kepler 的性能是約5.7GFLOPS DP per watt
2. 這個不是峰值是持續性能

那fermi的持续性能是约多少DP per watt？

作者: Edison 时间: 2011-1-23 18:50

gzeasy2006 发表于 2011-1-23 17:49
那fermi的持续性能是约多少DP per watt？

在 GTC 2010 当天的直播贴里我转述过黄仁勋对这个指标的描述。

作者: R620 时间: 2011-1-24 11:03

aibo 发表于 2010-12-28 13:49
疑问，kepler会不会放弃“纯”1D？

1D的计算密度太低了。。。

为了把通用计算进行到底，KEPLER肯定还是纯1D

作者: eDRAM 时间: 2011-1-24 12:20
不用猜了，应该就是1536了。

作者: 32nm 时间: 2011-1-24 16:04

380 发表于 2011-1-23 14:05
2048不太现实吧 1536比较靠谱

英雄所见略同哦~我也认为是1536个SP

作者: 380 时间: 2011-1-24 19:05
提示: 作者被禁止或删除内容自动屏蔽

作者: 32nm 时间: 2011-1-28 21:28

380 发表于 2011-1-24 19:05
我靠兄弟07年就注册了32NM 远见啊

我应该一步到位注册1nm就好了。

作者: gzeasy2006 时间: 2011-1-29 11:04

开普勒发表于 2010-12-28 12:44
Kepler的架构应该会出乎大多人意料

kepler的架构应该是费米的规模扩大版

作者: gz_easy 时间: 2011-1-31 17:09
猜测GK110和GF110的关系类似GT200之于G80，此外再增加一些新的特性如D3D11.1。

作者: Edison 时间: 2011-1-31 21:36
目前的 DX11 GPU 存在的问题未必是 DX 本身的扩展上，而是驱动模型。

作者: gz_easy 时间: 2011-1-31 21:44
微软已经准备了WDDM 1.2，应该是与Win8同期。

作者: G81 时间: 2011-1-31 22:36

Edison 发表于 2011-1-31 21:36
目前的 DX11 GPU 存在的问题未必是 DX 本身的扩展上，而是驱动模型。

驱动模型存在问题？此话怎讲？请解释一下？

作者: 547737657 时间: 2011-2-20 20:23
性能是不是给美国国防用的那个32nm的性能接近啊？美国国防的那个GPU是1024个cuda core

作者: makubex1984 时间: 2011-3-15 13:32

我忘记我投的是哪个了

作者: 马儿哒哒 时间: 2011-3-28 04:46
感觉还可以，看看最后结果

作者: insect2006 时间: 2011-3-29 21:32
莫非是下面这个：

NVIDIA获得了美国国防部下属国防高级研究规划局(DARPA)的2500万美元专款支持，用于联合Cray、橡树岭国家实验室、六所美国顶尖大学共同研究基于GPU的百亿亿次(Exascale)高性能计算技术，速度千倍于目前最快的超级计算机系统。很快，NVIDIA就披露了他们的相关规划，项目代号“Echelon”。

NVIDIA架构研发主管Steve Keckler解释说，Echelon芯片的基本组成单位仍是流处理器(SP)，每八个组成一个流式多处理器阵列(SM)，双精度浮点性能大约160GFlops(每秒十亿次运算)；然后128个SM阵列并排，总计就是1024个流处理器，再辅以八个类似CPU的延迟优化核心，共同组成一颗大规模高性能计算芯片。

按照NVIDIA的设计，这样的一颗芯片能够带来20.48TFlops(每秒万亿次运算)的双精度浮点性能，可搭配256GB内存，带宽1.6TB/s。

相比之下，现在的Fermi(费米)架构在512个处理器、1544MHz频率下只有0.79TFlops的双精度浮点性能，这就意味着Echelon芯片必须实现25倍的浮点性能提升。再加上相应原型系统预计2018-2010年才能问世，其核心架构应该是下两代Kepler(开普勒)、Maxwell(麦克斯韦)之后的事儿了。

每颗Echelon芯片可以视为一个节点，进而四颗组成一个模块，然后32个模块再加上路由模块就组成一个机柜，合计性能高达2.56PFlops(每秒千万亿次运算)，内存容量32TB、带宽205TB/s。更进一步，这种机柜还可以继续多个并联，浮点性能自然也是继续直线上升。

NVIDIA同时表示，为了降低如此超大规模芯片的功耗，流处理器必须以不到10皮焦的耗电量处理一次双精度浮点操作，相当于费米架构的二十分之一，同时每个流处理器必须在单个时钟周期内完成四次浮点操作。

更进一步地，NVIDIA计划在芯片内集成1024个可配置的256KB SRAM Bank。如此大容量的片上内存能够尽可能地将数据保留在芯片内部，距离处理单元也尽可能的近，从而避免非常耗电的拾取操作。这些SRAM Bank既可以配置为通用内存池，也可以作为专用缓存。

Echelon现在还只是NVIDIA远景规划图上的一个设想，实现起来还有太多难题要解决，不止有硬件设计上的麻烦，还需要自我感应操作系统、自我感应运行时、位置感应编译器和调试器的软性配合。

有趣的是，美国国防部DARPA也同样找上了Intel，希望其能够从传统CPU的角度出发，同样实现百亿亿次高性能计算。Intel的计划是利用其正在研发的超多核心(MIC)架构，而且已经有了测试样品，甚至会在今年内推出相应的商用产品，似乎更快一步。

作者: gzeasy2006 时间: 2011-7-8 21:45
估计NV会顺应民意搞个1024SP 46.25%

作者: mooncocoon 时间: 2011-7-11 10:09
本帖最后由 mooncocoon 于 2011-7-11 10:10 编辑

阿咧~？改成GK110了？
CHO你又调皮了{lol:]

作者: aibo 时间: 2011-7-11 11:15
额，看来GK100又是一个过渡货色啊

作者: Edison 时间: 2011-7-11 11:31

mooncocoon 发表于 2011-7-11 10:09
阿咧~？改成GK110了？
CHO你又调皮了

一直都是 GK110，你眼花了。

作者: cloudol 时间: 2011-7-11 12:00
很明显GK100回炉砍掉重炼了

作者: mooncocoon 时间: 2011-7-11 12:01

cloudol 发表于 2011-7-11 12:00
很明显GK100回炉砍掉重炼了

地雷云~你该吃中午的药了{titter:]

作者: Edison 时间: 2011-7-11 12:03
本来就没有 GK100 。

作者: fengpc 时间: 2011-7-11 12:42
楼上，GK100都没有，哪来的GK110~~GK110还在火星啊

作者: Edison 时间: 2011-7-11 12:56

fengpc 发表于 2011-7-11 12:42
楼上，GK100都没有，哪来的GK110~~GK110还在火星啊

不管你说什么，反正我对个中事情不会告诉你。

作者: fengpc 时间: 2011-7-11 20:37

Edison 发表于 2011-7-11 12:56
不管你说什么，反正我对个中事情不会告诉你。

的确看错了，正解是GK110

作者: zjycgs 时间: 2011-7-13 18:31
说不定只有768也是有可能的

作者: mm5678 时间: 2011-7-18 19:49
提示: 作者被禁止或删除内容自动屏蔽

作者: 32nm 时间: 2011-7-23 18:29
如果真是768的话，NV就没脸了

作者: eDRAM 时间: 2011-7-23 18:38
个人估计1152和1536的可能性最大，应该跑不出这2个规格

作者: mm5678 时间: 2011-7-24 22:47
提示: 作者被禁止或删除内容自动屏蔽

作者: 掘地武者 时间: 2012-1-2 11:41
2012了，帖子是2010的，这么久了连点消息都没有

欢迎光临 POPPUR爱换 (https://we.poppur.com/)