POPPUR爱换

标题: 竞猜时间:GK110 或者说开普勒最顶级 GPU 的完整计算单元数量是多少? [打印本页]

作者: Edison    时间: 2010-12-25 22:01
标题: 竞猜时间:GK110 或者说开普勒最顶级 GPU 的完整计算单元数量是多少?


欢迎自由竞猜。

作者: liu330226    时间: 2010-12-25 22:03
选了第一个,应该数量增加没那么快吧
作者: yyzjp    时间: 2010-12-25 22:10
我投了第一个,不过CHO老奸巨猾,上次猜6970我就错了
作者: 6神-kepler    时间: 2010-12-25 22:11
E大看来已经拿到消息了
作者: trevorlee    时间: 2010-12-25 22:12
翻番也很牛了。
作者: ash713    时间: 2010-12-25 22:15
这么快爆料,KEPLER这么快确定?
作者: 6神-kepler    时间: 2010-12-25 22:15
肯定不是1024core了,GF100的每SM里面32CUDA core已经证明不如GF104每SM 48CUDA core。
作者: chrisjason    时间: 2010-12-25 22:17
E大看来已经拿到消息了
作者: yyzjp    时间: 2010-12-25 22:18
请问谁偷了2880 个单元? 我的马马啊,疯了?
作者: mooncocoon    时间: 2010-12-25 22:19
6神-kepler 发表于 2010-12-25 22:15
肯定不是1024core了,GF100的每SM里面32CUDA core已经证明不如GF104每SM 48CUDA core。

那跟每SM的SP数量其实没啥直接关系的

作者: 6神-kepler    时间: 2010-12-25 22:23
mooncocoon 发表于 2010-12-25 22:19
那跟每SM的SP数量其实没啥直接关系的

如果是每SM 48 CUDA ,1024根本无法被48整除
作者: gz_easy    时间: 2010-12-25 22:25
我想和投2的xd,如果对了we get lucky,错了we get fooled。
作者: 6神-kepler    时间: 2010-12-25 22:28
mooncocoon 发表于 2010-12-25 22:19
那跟每SM的SP数量其实没啥直接关系的

我觉得1536有意思,刚好和6970一样,4GPC ,每GPC 8SM,一共32sm,每sm 48个CUDA core和8个SFU
作者: Edison    时间: 2010-12-25 22:31
反正到时候大家就知道哪个是正确的了。
作者: 6神-kepler    时间: 2010-12-25 22:35
Edison 发表于 2010-12-25 22:31
反正到时候大家就知道哪个是正确的了。

能让我们搞一个去掉一个错误的答案的游戏吗
作者: gz_easy    时间: 2010-12-25 22:35
Edison 发表于 2010-12-25 22:31
反正到时候大家就知道哪个是正确的了。

E这话跟没说似的,就如同问开发商产品何时完工,开发商回答:It will be done when it's done.
作者: quanx6    时间: 2010-12-25 22:42
选了第三个
作者: 32nm    时间: 2010-12-25 22:42
为什么E大的猜测里不加上显存位宽和显存频率呢?

作者: mooncocoon    时间: 2010-12-25 22:52
6神-kepler 发表于 2010-12-25 22:23
如果是每SM 48 CUDA ,1024根本无法被48整除

我是在说GF100跟GF104性能跟SM里SP个数的事

作者: 380    时间: 2010-12-25 23:00
提示: 作者被禁止或删除 内容自动屏蔽
作者: pharaohs1024    时间: 2010-12-25 23:03
提示: 作者被禁止或删除 内容自动屏蔽
作者: pharaohs1024    时间: 2010-12-25 23:05
提示: 作者被禁止或删除 内容自动屏蔽
作者: iamspy    时间: 2010-12-25 23:06
我猜1152 CUDA。48X4X6。至于2880显然是去掉的错误答案。不明白为啥有那么多人投。
作者: furt    时间: 2010-12-25 23:12
第一个最符合常理 所以首先排除掉.投了第二个
作者: pharaohs1024    时间: 2010-12-25 23:14
提示: 作者被禁止或删除 内容自动屏蔽
作者: 骨刺    时间: 2010-12-25 23:23
1536
作者: needfire    时间: 2010-12-26 00:50
很明显24X64=1536
作者: aibo    时间: 2010-12-26 00:54
1536这个数字太有爱了,忍不住投了一个
作者: spring62    时间: 2010-12-26 01:42
看见1536想起6970,忍不住就点下去了
作者: Kepler680    时间: 2010-12-26 03:13
投错了,应该是1536的,理论400%的GTX560的性能,阉革后1344个SP 的GTX680实测性能相当与GTX560 250-300%之间的性能,相当于GTX580的170-180%.
作者: killpmp    时间: 2010-12-26 11:02
6神-kepler 发表于 2010-12-25 22:28
我觉得1536有意思,刚好和6970一样,4GPC ,每GPC 8SM,一共32sm,每sm 48个CUDA core和8个SFU

如果64个可以不
按你的说法,似乎64个的效率应该比48个还要高

作者: rurouni2    时间: 2010-12-26 11:19
这个竞猜注定将来会引起争议,因为你怎么知道GK100就是开普勒最顶级GPU?说不定将来有GK200,所以要么猜GK100,要么猜最顶级Kepler
作者: cfcnc    时间: 2010-12-26 11:43
我选7,呵呵
作者: Racca    时间: 2010-12-26 11:52
提示: 作者被禁止或删除 内容自动屏蔽
作者: xlongx    时间: 2010-12-26 14:09
没人投2304,我决定投一下
作者: gzpony    时间: 2010-12-26 15:54
制程升级到28nm,和40nm的时候比,规模扩大一倍是应该的。也许其他方面的技术成熟些,规模还能略作扩大。
作者: OPPY    时间: 2010-12-26 16:39
gzpony 发表于 2010-12-26 15:54
制程升级到28nm,和40nm的时候比,规模扩大一倍是应该的。也许其他方面的技术成熟些,规模还能略作扩大。

不过功耗估计又得300+瓦了
作者: gzpony    时间: 2010-12-26 16:50
OPPY 发表于 2010-12-26 16:39
不过功耗估计又得300+瓦了

顶级GPU当然是照着功耗的最大限制来设计,所以正常情况下每一代的顶级GPU的功耗应该都会差不多,至少在设计图纸阶段的时候功耗目标是一致的。
作者: wangzhizhi    时间: 2010-12-26 19:09
前六项太保守了,不像NV的风格
作者: 李主任    时间: 2010-12-26 19:49
草,新架构居然叫GK100。。。难道GF100》GK100》GHK100》PHK100???
作者: 开普勒    时间: 2010-12-26 21:28
嘻嘻,E大这个投票明显阴人的~~~
作者: xxxyyy    时间: 2010-12-27 00:50
提示: 作者被禁止或删除 内容自动屏蔽
作者: goldman948    时间: 2010-12-27 09:10
没有2012所以投了2048
作者: 开普勒    时间: 2010-12-27 13:16
开普勒 发表于 2010-12-26 21:28
嘻嘻,E大这个投票明显阴人的~~~

貌似没有一个是正确的。。。
作者: hjdl60    时间: 2010-12-27 23:08
期待2048 cuda core
作者: colorlove    时间: 2010-12-27 23:11
个人认为28nm良率高→24*48=1156SP
良率低→22*48=1056
等到良率提升再出完整版
作者: D65    时间: 2010-12-27 23:40
看选项一定不是1024,第二,三的可能性最大。
我认为这才真的要发飙了1156...
作者: panjanstoneborg    时间: 2010-12-28 03:49
关键是开普勒的变化在哪里
从8800到gtx280都没换名字,这次就换了。除非nv在戏耍大科学家的名字
否则肯定有什么构架上的改进,这比多少core有意思多了。
爆料吧
作者: Edison    时间: 2010-12-28 12:44
panjanstoneborg 发表于 2010-12-28 03:49
关键是开普勒的变化在哪里
从8800到gtx280都没换名字,这次就换了。除非nv在戏耍大科学家的名字
否则肯定 ...

8800 GTX -> GTX280 的代号变化是 Tesla 8 -> Tesla 10 -> Tesla 20。

Code name
Official Name
Nvidia 3D object codename

NV4
Riva TNT, TNT2
NV04_DX5_TEXTURED_TRIANGLE
NV04_DX6_MULTITEX_TRIANGLE

NV10
GeForce 256, GeForce 2, GeForce 4 MX
Celsius

NV20
GeForce 3, GeForce 4 Ti
Kelvin

NV30
GeForce 5 / GeForce FX
Rankine

NV40
GeForce 6, GeForce 7
Curie

NV50
GeForce 8, GeForce 9, GeForce 100, GeForce 200, GeForce 300
Tesla

NVC0
GeForce 400
Fermi

物理学家的名字也不是 Tesla 才用上的。

作者: 开普勒    时间: 2010-12-28 12:44
Kepler的架构应该会出乎大多人意料
作者: gz_easy    时间: 2010-12-28 13:23
Edison 发表于 2010-12-28 12:44
8800 GTX -> GTX280 的代号变化是 Tesla 8 -> Tesla 10 -> Tesla 20。

TNT/TNT2同为DX6 GPU,为何codename还分DX5/DX6。
作者: aibo    时间: 2010-12-28 13:49
疑问,kepler会不会放弃“纯”1D?

1D的计算密度太低了。。。
作者: disruptor    时间: 2010-12-28 14:47
2048,开普勒据说有专业计算版本和普通版本两种芯片。去掉rop tmu之流,流处理器在提升工艺的情况下数量翻4倍不成问题哈哈哈哈哈哈
作者: Edison    时间: 2010-12-28 16:49
disruptor 发表于 2010-12-28 14:47
2048,开普勒据说有专业计算版本和普通版本两种芯片。去掉rop tmu之流,流处理器在提升工艺的情况下数量翻4倍 ...

kepler 肯定有集成硬件 TMU,ROP 应该还有,但是绝对不会拆开,ROP 对 GPU 来说在一定程度上就是 IMC  

作者: R620    时间: 2010-12-28 21:25
Edison 发表于 2010-12-28 16:49
kepler 肯定有集成硬件 TMU,ROP 应该还有,但是绝对不会拆开,ROP 对 GPU 来说在一定程度上就是 IMC  [u ...

据说GK110的TELSA和GEFORE版本是同时开发的。
作者: qiuyongwin    时间: 2010-12-29 12:45
数字怪的靠谱

作者: kakaku.bj.cn    时间: 2010-12-29 16:29
实际768个,可惜没这个选项,无法投
作者: Eji    时间: 2011-1-13 00:00
提示
1. Kepler 的性能是約5.7GFLOPS DP per watt
2. 這個不是峰值是持續性能
以下加油。
作者: 治病救人    时间: 2011-1-13 09:08
提示: 作者被禁止或删除 内容自动屏蔽
作者: G81    时间: 2011-1-13 20:11
Eji 发表于 2011-1-13 00:00
提示
1. Kepler 的性能是約5.7GFLOPS DP per watt
2. 這個不是峰值是持續性能

峰值是多少呢?还有开扑勒的显存位宽是不是512bit的呢? 等待E大的回答

作者: 32nm    时间: 2011-1-14 20:11
说到开普勒,我更期待MAXWELL,那是划时代的产品,双精度性能相比FERMI提升了16倍,黄仁勋如是说:MAXWELL是革命性的产物。
作者: aibo    时间: 2011-1-21 19:51
1024得票最多,不过貌似已经杯具
作者: samsunggram    时间: 2011-1-22 15:03
足本GF104和6970我都猜错,这次不猜还不行吗

我猜2880
作者: zxl7288436    时间: 2011-1-22 15:37
如果有800的选项我一定会选800···
作者: jason_sean    时间: 2011-1-22 19:59
2.  1152 cuda core

384*3GK110   384*2GK116
作者: G81    时间: 2011-1-23 09:45
1152    1536这2个数字最靠谱
作者: 380    时间: 2011-1-23 14:01
提示: 作者被禁止或删除 内容自动屏蔽
作者: 380    时间: 2011-1-23 14:05
提示: 作者被禁止或删除 内容自动屏蔽
作者: gzeasy2006    时间: 2011-1-23 17:49
Eji 发表于 2011-1-13 00:00
提示
1. Kepler 的性能是約5.7GFLOPS DP per watt
2. 這個不是峰值是持續性能

那fermi的持续性能是约多少DP per watt?
作者: Edison    时间: 2011-1-23 18:50
gzeasy2006 发表于 2011-1-23 17:49
那fermi的持续性能是约多少DP per watt?

在 GTC 2010 当天的直播贴里我转述过黄仁勋对这个指标的描述。

作者: R620    时间: 2011-1-24 11:03
aibo 发表于 2010-12-28 13:49
疑问,kepler会不会放弃“纯”1D?

1D的计算密度太低了。。。

为了把通用计算进行到底,KEPLER肯定还是纯1D
作者: eDRAM    时间: 2011-1-24 12:20
不用猜了,应该就是1536了。
作者: 32nm    时间: 2011-1-24 16:04
380 发表于 2011-1-23 14:05
2048不太现实吧  1536比较靠谱

英雄所见略同哦~我也认为是1536个SP
作者: 380    时间: 2011-1-24 19:05
提示: 作者被禁止或删除 内容自动屏蔽
作者: 32nm    时间: 2011-1-28 21:28
380 发表于 2011-1-24 19:05
我靠 兄弟07年就注册了32NM 远见啊

我应该一步到位注册1nm就好了。
作者: gzeasy2006    时间: 2011-1-29 11:04
开普勒 发表于 2010-12-28 12:44
Kepler的架构应该会出乎大多人意料

kepler的架构应该是费米的规模扩大版

作者: gz_easy    时间: 2011-1-31 17:09
猜测GK110和GF110的关系类似GT200之于G80,此外再增加一些新的特性如D3D11.1。
作者: Edison    时间: 2011-1-31 21:36
目前的 DX11 GPU 存在的问题未必是 DX 本身的扩展上,而是驱动模型。
作者: gz_easy    时间: 2011-1-31 21:44
微软已经准备了WDDM 1.2,应该是与Win8同期。
作者: G81    时间: 2011-1-31 22:36
Edison 发表于 2011-1-31 21:36
目前的 DX11 GPU 存在的问题未必是 DX 本身的扩展上,而是驱动模型。

驱动模型存在问题?此话怎讲?请解释一下?
作者: 547737657    时间: 2011-2-20 20:23
性能是不是给美国国防用的那个32nm的性能接近啊?美国国防的那个GPU是1024个cuda core
作者: makubex1984    时间: 2011-3-15 13:32
我忘记我投的是哪个了
作者: 马儿哒哒    时间: 2011-3-28 04:46
感觉还可以,看看最后结果
作者: insect2006    时间: 2011-3-29 21:32
莫非是下面这个:

NVIDIA获得了美国国防部下属国防高级研究规划局(DARPA)的2500万美元专款支持,用于联合Cray、橡树岭国家实验室、六所美国顶尖大学共同研究基于GPU的百亿亿次(Exascale)高性能计算技术,速度千倍于目前最快的超级计算机系统。很快,NVIDIA就披露了他们的相关规划,项目代号“Echelon”。

NVIDIA架构研发主管Steve Keckler解释说,Echelon芯片的基本组成单位仍是流处理器(SP),每八个组成一个流式多处理器阵列(SM),双精度浮点性能大约160GFlops(每秒十亿次运算);然后128个SM阵列并排,总计就是1024个流处理器,再辅以八个类似CPU的延迟优化核心,共同组成一颗大规模高性能计算芯片。

按照NVIDIA的设计,这样的一颗芯片能够带来20.48TFlops(每秒万亿次运算)的双精度浮点性能,可搭配256GB内存,带宽1.6TB/s。

相比之下,现在的Fermi(费米)架构在512个处理器、1544MHz频率下只有0.79TFlops的双精度浮点性能,这就意味着Echelon芯片必须实现25倍的浮点性能提升。再加上相应原型系统预计2018-2010年才能问世,其核心架构应该是下两代Kepler(开普勒)、Maxwell(麦克斯韦)之后的事儿了。

每颗Echelon芯片可以视为一个节点,进而四颗组成一个模块,然后32个模块再加上路由模块就组成一个机柜,合计性能高达2.56PFlops(每秒千万亿次运算),内存容量32TB、带宽205TB/s。更进一步,这种机柜还可以继续多个并联,浮点性能自然也是继续直线上升。

NVIDIA同时表示,为了降低如此超大规模芯片的功耗,流处理器必须以不到10皮焦的耗电量处理一次双精度浮点操作,相当于费米架构的二十分之一,同时每个流处理器必须在单个时钟周期内完成四次浮点操作。

更进一步地,NVIDIA计划在芯片内集成1024个可配置的256KB SRAM Bank。如此大容量的片上内存能够尽可能地将数据保留在芯片内部,距离处理单元也尽可能的近,从而避免非常耗电的拾取操作。这些SRAM Bank既可以配置为通用内存池,也可以作为专用缓存。

Echelon现在还只是NVIDIA远景规划图上的一个设想,实现起来还有太多难题要解决,不止有硬件设计上的麻烦,还需要自我感应操作系统、自我感应运行时、位置感应编译器和调试器的软性配合。

有趣的是,美国国防部DARPA也同样找上了Intel,希望其能够从传统CPU的角度出发,同样实现百亿亿次高性能计算。Intel的计划是利用其正在研发的超多核心(MIC)架构,而且已经有了测试样品,甚至会在今年内推出相应的商用产品,似乎更快一步。

作者: gzeasy2006    时间: 2011-7-8 21:45
估计NV会顺应民意搞个1024SP  46.25%
作者: mooncocoon    时间: 2011-7-11 10:09
本帖最后由 mooncocoon 于 2011-7-11 10:10 编辑

阿咧~?改成GK110了?
CHO你又调皮了{lol:]

作者: aibo    时间: 2011-7-11 11:15
额,看来GK100又是一个过渡货色啊
作者: Edison    时间: 2011-7-11 11:31
mooncocoon 发表于 2011-7-11 10:09
阿咧~?改成GK110了?
CHO你又调皮了

一直都是 GK110,你眼花了。

作者: cloudol    时间: 2011-7-11 12:00
很明显GK100回炉砍掉重炼了
作者: mooncocoon    时间: 2011-7-11 12:01
cloudol 发表于 2011-7-11 12:00
很明显GK100回炉砍掉重炼了

地雷云~你该吃中午的药了{titter:]
作者: Edison    时间: 2011-7-11 12:03
本来就没有 GK100 。
作者: fengpc    时间: 2011-7-11 12:42
楼上,GK100都没有,哪来的GK110~~GK110还在火星啊
作者: Edison    时间: 2011-7-11 12:56
fengpc 发表于 2011-7-11 12:42
楼上,GK100都没有,哪来的GK110~~GK110还在火星啊

不管你说什么,反正我对个中事情不会告诉你。

作者: fengpc    时间: 2011-7-11 20:37
Edison 发表于 2011-7-11 12:56
不管你说什么,反正我对个中事情不会告诉你。

的确看错了,正解是GK110
作者: zjycgs    时间: 2011-7-13 18:31
说不定只有768也是有可能的
作者: mm5678    时间: 2011-7-18 19:49
提示: 作者被禁止或删除 内容自动屏蔽
作者: 32nm    时间: 2011-7-23 18:29
如果真是768的话,NV就没脸了
作者: eDRAM    时间: 2011-7-23 18:38
个人估计1152和1536的可能性最大,应该跑不出这2个规格
作者: mm5678    时间: 2011-7-24 22:47
提示: 作者被禁止或删除 内容自动屏蔽
作者: 掘地武者    时间: 2012-1-2 11:41
2012了,帖子是2010的,这么久了连点消息都没有




欢迎光临 POPPUR爱换 (https://we.poppur.com/) Powered by Discuz! X3.4