POPPUR爱换

标题: GK110 设计师透露的信息：性能比GK104 高了近一倍 [打印本页]

作者: stanwich 时间: 2012-5-18 17:41
标题: GK110 设计师透露的信息：性能比GK104 高了近一倍
http://news.mydrivers.com/1/228/228390.htm

亮点：
1. 性能比GK104高了70%以上。 --- AMD 颤抖吧。。

2. NV 早在7年前就开始Keplar的研发和设计。--- NV有远见。

3. GK110难产的主要原因是软件设计（Hyper-Q， Dynamic Parallelism技术）和台积电。--- NV的软件实力。

==========================================================================

作为GTC 2012大会的一部分，最后的一天还有个采访活动，接受采访的是GK110的两位设计师，Jonah Albums是GPU工程部门的高级副总裁，John Danskin则是负责GPU架构的副总裁。

GK110设计师Jonah Albums(左)、John Danskin(右)

以下就是德国Heise网站带来的报道，问答形式，内容很劲爆，提问的一方没什么客套，植入主题，回答的一方“太极推手”防守严密，从中能得到多少收获就看自己的理解了。
问：GK110性能比GK104强多少？
Albums：我们已经公布了GK110的规格，但是最终的频率之类的还没有定，这是项目开发中很自然的事。问题是，功能单元的数量还是显存位宽会影响产品的性能？基于这些因素，你们可以期待性能提升50%，而SGEMM之类对计算性能敏感的应用中，性能几乎与功能单元的数目成正比。(GK110有15组SMX单元，这么说性能比8组SMX的GK104可以高出近一倍了？)
问：也是就说，GK110的性能优势在50-70%左右？
Albums：这是一般的情况，如果是在充分利用了Hyper-Q、Dynamic Parallelism以及双精度运算的HPC应用中，这个(性能提升)比列还会更高。
问：Kepler开发了多长时间了？
Albums：这个取决于你问的是谁了。我是在G80架构完成之后开始Kepler项目的，大约是7年前了，直到三年前NVIDIA才开始有大批人手加入这个团队的。
问：为什么GK110架构要等到年底才能发布，比GK104晚了这么久?
Danskin：这个问题很难回答。GK104功能更少，而且主要针对显卡而非计算应用，它必须要及时发布。另一方面，GK110是一款大核心架构，台积电在流片和制造过程中要扮演更大的角色。(台积电又中枪了，不过这么复杂的芯片确实是个问题)
Albums：GK110这样庞大的芯片不可能在新架构的同时再使用新工艺，还需要等28nm工艺更加成熟。
问：研发GK110架构最大的挑战是什么？
Albums：很明显，就是新开发的Hyper-Q和Dynamic Parallelism技术。
Danskin：由于GPU需要自动刷新线程，Dynamic Parallelism技术实际上非常复杂，Hyper-Q对有些人很有意义，更容易实现而且会带来更好的性能。Dynamic Parallelism可以简化写代码的过程，这在以往是不可能的，对我们而言它是最重要的功能。
问：NVIDIA增强了GK110的双精度浮点性能，它是靠几个单精度核心联合工作实现的吗？
Danskin：GK110有独立的双精度运算单元。
问：这是GK110为什么占用这么多核心的原因？
Ablbums：实际上(双精度单元)占用的并不多，主要还是SMX单元增多带来的，另一个占面积较大的功能是ECC校验单元。
问：GK110的双精度性能是单精度的1/3，为什么不是1/2？
Danskin：由于架构不同，1/2的比列很难实现。
Albums：简单来说那样做需要更多的资源，我们要重新考虑寄存器之类的设计。
Danskin：还有就是每瓦性能比的问题，我们认为目前的(1/3)比列是合适的。
问：GK110为什么使用384-bit位宽而非512-bit？
Danskin：使用512-bit位宽也会导致功耗及其他代价升高，GK110使用384-bit位宽则可以在性能和代价中保持平衡。
问：目前的GK110只使用了13-14组SMX单元，未来是否会有开启完整15组SMX单元的产品？
Albums：某种意义上说，很有可能。
问：GK110的硬件编码单元与GK104有什么提升吗？
Ablums：GK110的硬件编码单元跟GK104是一样的。
问：你们认为未来的GPU开发最困难的挑战是什么？
Danskin：最大的挑战是功耗。回顾一下过往的历程，我们以及AMD都是一样的：更高的性能，更高的功耗。现在一切都改变了，功耗是明显的分界线。另外，如以往走过的相似，先进的制造技术有利于改善(功耗)问题。
Albums：主要挑战还是每瓦性能比，图形芯片设计中必须考虑这个因素。

作者: jhj9 时间: 2012-5-18 17:51
啥也不用说了，GK104作为中端一不小心秒了A家的旗舰核心

作者: rSKip 时间: 2012-5-18 17:54
(2880*782)/(1536*1006)=1.4575049702 782这个频率实在不行啊还得再高点儿

作者: mooncocoon 时间: 2012-5-18 17:56
最关键性的问题是1.33k per ALU寄存器密度的确认，这个才是核心内容。
以他们的回答方式，应该说成是在1.33k per ALU的密度上NV现在的水平只能做到1/3速DP，虽然这是一个相当火星的数字，但我还是想知道有没有可能进一步提升……

性能功耗比的获取点就是这里，所以这里对NV的未来很重要的。NVIDIA开始强调性能功耗比，应该也是最终获得当前这个寄存器层面的关键性突破之后的事了。

作者: badchris 时间: 2012-5-18 17:56
提示: 作者被禁止或删除内容自动屏蔽

作者: Edison 时间: 2012-5-18 17:59

mooncocoon 发表于 2012-5-18 17:56
最关键性的问题是1.33k per ALU寄存器密度的确认，这个才是核心内容。
以他们的回答方式，应该说成是在1.3 ...

per ALU 有啥意义，per thread 才有意义。

作者: mooncocoon 时间: 2012-5-18 18:02
还有一个比较关键的东西，就是不知道强调性能功耗比会不会成为一把双刃剑……NV今天的突破最关键的地方是在GT200~GF100之间以不惜代价的经验收集为目的获得的。强调性能功耗比固然对新技术和突破有催生作用，但如果今后过度的强调性能功耗比，从而在被一代产品上都形成一道枷锁，最后让设计者缩手缩脚不敢尝试可能会带来更新突破但试验和经验收集代价较大的想法和方向，以至于无法在获得GT200~GF100这样的经验收集场并因此错失更新技术诞生的机会，那就坏事了……

作者: mooncocoon 时间: 2012-5-18 18:03
本帖最后由 mooncocoon 于 2012-5-18 18:07 编辑

Edison 发表于 2012-5-18 17:59
per ALU 有啥意义，per thread 才有意义。

per ALU的意义就是晶体管总数啊，不计代价的上per ALU总量的话，“就算你不多做些什么”per Thread跟着也能上，但你受得了这晶体管代价么？

作者: jhj9 时间: 2012-5-18 18:11

rSKip 发表于 2012-5-18 17:54
(2880*782)/(1536*1006)=1.4575049702 782这个频率实在不行啊还得再高点儿

C2050/C2070这些的频率也不行，所以嘛……

作者: bobcat 时间: 2012-5-18 18:12
标题: ..
本帖最后由 bobcat 于 2012-11-1 15:54 编辑

...........................

作者: Edison 时间: 2012-5-18 18:12
没有一篇处理器架构论文会有所谓的 max register per ALU，你自己对这个东西不熟悉，就不要创造一些你自己都不明白的对比单位了。

作者: defencelsj 时间: 2012-5-18 18:12
提示: 作者被禁止或删除内容自动屏蔽

作者: sucKing 时间: 2012-5-18 18:17
坐等月神火星论

作者: mooncocoon 时间: 2012-5-18 18:21
本帖最后由 mooncocoon 于 2012-5-18 18:28 编辑

Edison 发表于 2012-5-18 18:12
没有一篇处理器架构论文会有所谓的 max register per ALU，你自己对这个东西不熟悉，就不要创造一些你自己都 ...

这里对比的不是max register “for” ALU，而是按per ALU计算之后所可以获知的晶体管负担。我们可以直接用per ALU的register数量来更直观的去反映全部ALU团簇所背负的寄存器晶体管资源。或者翻转过来确定架构为实现某个性能目标所需要达到的register密度。同样的性能目标下，register密度越低的显然晶体管负担也就越轻。
而且对register的操作方式确定之后，我们也可以用这种方式来界定提升per Thread性能所需的register数量的抬升幅度，一举两得的。

我不知道我表达清楚了没有，反正我感觉你好像跟我说的不是一码事，你在说性能，而我则在说为实现性能所背负的某些负担……

作者: 扫帚 时间: 2012-5-18 18:24

bobcat 发表于 2012-5-18 18:12
这个报道没有说清楚两人的关系。 Jonah Albums是NV整个GPU部门的大头头. 你看他的年龄了吗？对，他是负责 ...

这么说也有失准确, Jonah只是hardware gpu其中的一个svp, 但不是唯一的svp, hw gpu直接report老黄不止他一个人. 更不要说还有software那边gpu的老板了. 而John是向Jonah report的.

另外人家的姓是Alben

作者: GTX999 时间: 2012-5-18 18:26

近一倍是通用计算游戏50%已经是超常发挥

作者: 结果 时间: 2012-5-18 18:26
早出早降价，其他都是假的

作者: Elwin 时间: 2012-5-18 19:13
关键他说了更高的双精度比例不是不能实现，而是受到客观条件上的限制

作者: BDFMK2 时间: 2012-5-18 19:15
问：为什么GK110架构要等到年底才能发布，比GK104晚了这么久?
Danskin：这个问题很难回答。GK104功能更少，而且主要针对显卡而非计算应用，它必须要及时发布。另一方面，GK110是一款大核心架构，台积电在流片和制造过程中要扮演更大的角色。(台积电又中枪了，不过这么复杂的芯片确实是个问题)

作者: 御风子 时间: 2012-5-18 19:23
好东西，等铺货正常了收一枚，刚好应对“显卡危机3”，不知还会不会危机重演。。

作者: jhj9 时间: 2012-5-18 19:33
本帖最后由 jhj9 于 2012-5-18 19:33 编辑

BDFMK2 发表于 2012-5-18 19:15
问：为什么GK110架构要等到年底才能发布，比GK104晚了这么久?
Danskin：这个问题很难回答。GK104功能更少， ...

为什么Tesla K10却诞生了呢？
是无心插柳柳成荫，还是天生丽质难自弃？

N家不针对计算应用的核心，都被计算应用的客户抢着买，逼着出通用计算卡
A家号称大幅提高通用计算能力的卡，却没有计算应用的客户问津
这是怎样的一种状况啊？

作者: NORAWITHMYCALL 时间: 2012-5-18 19:44

BDFMK2 发表于 2012-5-18 19:15
问：为什么GK110架构要等到年底才能发布，比GK104晚了这么久?
Danskin：这个问题很难回答。GK104功能更少， ...

这是NV近乎官方的正面回应，说的很明白，不光是台积电的工艺的成熟性，更是考验NV自身理论设计的可操作性和实际性能。

作者: BDFMK2 时间: 2012-5-18 19:47

jhj9 发表于 2012-5-18 19:33
为什么Tesla K10却诞生了呢？
是无心插柳柳成荫，还是天生丽质难自弃？
N家不针对计算应 ...

J大神，请问
Tesla K10被人抢着买的出处？以及Tatiti没有计算应用的客户问津的出处？

有源头么？不会你的嘴就是源头吧？

作者: 66666 时间: 2012-5-18 20:05

Elwin 发表于 2012-5-18 19:13
关键他说了更高的双精度比例不是不能实现，而是受到客观条件上的限制

说白了不就是功耗限制，无数次历史经验经验证明，真正成功的技术都不是当时最先进而是当时性价比最高的技术。以intel的能力造一个双精度2T的处理器一点都不难，难的是怎么能推广怎么能赚钱而不是白白往水里扔钞票。

作者: jhj9 时间: 2012-5-18 20:09
本帖最后由 jhj9 于 2012-5-18 20:19 编辑

BDFMK2 发表于 2012-5-18 19:47
J大神，请问
Tesla K10被人抢着买的出处？以及Tatiti没有计算应用的客户问津的出处？

http://roll.sohu.com/20120518/n343481402.shtml

斯文本科技大学已经表示明显的购买意向，而且SGI还专门在第一时间针对Telsa K10制作出基线服务器，以及推出SGI GPU Starter Kit，包含20个Telsa K10 GPU。

要是没人要，SGI疯了才去投入人力物力开发出对应的集群套装。

另外，还有：http://news.mydrivers.com/1/227/227485.htm

“由于Kepler的GPU架构部分每个Cycle的SP FLOP（浮点操作）由64提升至96，有调查统计相当一部分用户不介意双精度浮点运算能力因此盼望基于Kepler的Tesla产品早日上市。当然也有不少HPC用户可能会选择等待GK110核心的产品。”

至于Tahiti没人要，那是显而易见，我没听到任何Tahiti的计算机集群套装消息，也没有听到哪个大型计算中心打算用Tahiti搭建超级计算机的消息。
也许是我孤陋寡闻吧，那你说得出有几个大型计算中心要用Tahiti来搭建超级计算吗？

作者: NORAWITHMYCALL 时间: 2012-5-18 20:10

66666 发表于 2012-5-18 20:05
说白了不就是功耗限制，无数次历史经验经验证明，真正成功的技术都不是当时最先进而是当时性价比最高的技 ...

技术化作实际产能才能赚得包括商业在内利益，这点个人是同意的。个人之所以佩服IBM，就是其老是搞点目前根本不能获得实际产能的前沿技术，说白了就是往里面倒贴钱，虽然可以看作其的高瞻远瞩或者更远的战略目的，但是目前来说这块除了倒贴还是倒贴，唯一附带的就是获得点倒贴大量钱带来的实践经验和教训。

作者: 扫帚 时间: 2012-5-18 20:17

NORAWITHMYCALL 发表于 2012-5-18 20:10
技术化作实际产能才能赚得包括商业在内利益，这点个人是同意的。个人之所以佩服IBM，就是其老是搞点目前根 ...

虽然我也很钦佩IBM多种前沿性研究. 但是既然作为商业公司, IBM的管理层是要向股东负责的, 所以不可能做完完全全贴钱的买卖, 个人狭隘的认为这些前沿研究有利于树立良好的企业形象从而为他的产品提高附加价值...

作者: NORAWITHMYCALL 时间: 2012-5-19 15:21

扫帚发表于 2012-5-18 20:17
虽然我也很钦佩IBM多种前沿性研究. 但是既然作为商业公司, IBM的管理层是要向股东负责的, 所以不可能做完 ...

事实上，IBM并不是不赚钱，因为他的主营业务是专业整体方案的打包出售，而且这块带来的利润应该说是相对丰厚的，所以他才能有资金去搞那些倒贴钱的项目。个人佩服的是，他在持续的用一部分利润是完成这样些倒贴钱的项目，这点还是值得尊敬的，毕竟很多企业除了赚钱之外没有其他的贡献。

作者: ptmd 时间: 2012-5-19 15:41
本帖最后由 ptmd 于 2012-5-19 15:42 编辑

jhj9 发表于 2012-5-18 20:09
至于Tahiti没人要，那是显而易见，我没听到任何Tahiti的计算机集群套装消息，也没有听到哪个大型计算中心打算用Tahiti搭建超级计算机的消息。
也许是我孤陋寡闻吧，那你说得出有几个大型计算中心要用Tahiti来搭建超级计算吗？

GCN-driven 的FireStream 还没有要发布的迹像，FirePro 也是。

作者: cool_exorcist 时间: 2012-5-19 16:23
SGI Expands Rackable Server Line to Support New NVIDIA Tesla K10 GPUs

http://www.sgi.com/company_info/ ... s/2012/may/gpu.html

作者: 水星思路 时间: 2012-5-20 05:31

NORAWITHMYCALL 发表于 2012-5-19 15:21
事实上，IBM并不是不赚钱，因为他的主营业务是专业整体方案的打包出售，而且这块带来的利润应该说是相对丰 ...

这没什么可佩服的。一个公司赚钱赚多了自然而然会去做些蛋疼的事情。

AT&T 当年垄断通讯市场赚钱跟挖沙子一样容易，所以才有那个闲钱去搞贝尔实验室。被强拆了之后现在的贝尔早不如以往。诺基亚也做过很多有趣的研究，现在也都无所谓了。Google 也是，微软也是，IBM 也没什么不一样，说到底都是钱太多了就想出来赌一睹。告诉我你在尊敬些什么？尊敬人家蛋疼？

作者: bobcat 时间: 2012-5-20 07:04

水星思路发表于 2012-5-20 05:31
这没什么可佩服的。一个公司赚钱赚多了自然而然会去做些蛋疼的事情。

AT&T 当年垄断通讯市场赚钱跟挖沙 ...

是哈，这些傻13的公司搞什么扯淡的R&D啊，没影没性一切都是云烟。还是投资房地产比较实在，像山西煤矿老板，买些地皮盖些房子，再修个高院墙，雇佣几百个家丁保姆，多惬意啊。

作者: Racca 时间: 2012-5-20 09:14
提示: 作者被禁止或删除内容自动屏蔽

作者: 水星思路 时间: 2012-5-20 09:55

Racca 发表于 2012-5-20 09:14
IBM的百年基业里贴钱给Research(注意是R, 不是R&D)贴了50年以上, 包括濒临破产
的日子里都没有轻言放弃, ...

来源？

另外苹果发家之前我可不敢想他会出来搞 llvm 搞 Webkit 搞 OpenCL，现在还要搞硅晶。

自己情绪化就算了，说出来的话里面什么“苹果就是一公关公司”这样愚蠢的东西我就当没听见了。

作者: 水星思路 时间: 2012-5-20 10:05

bobcat 发表于 2012-5-20 07:04
是哈，这些傻13的公司搞什么扯淡的R&D啊，没影没性一切都是云烟。还是投资房地产比较实在，像山西煤矿 ...

我倒不是说做 R&D 没用，不过做 R&D 几乎都是富可敌国的大企业才会真正去做，而且你也很少能看到哪个富可敌国的大企业不去做科研的。理想不能说没有商业目的你也不能否认，但是说到底无论企业还是院校能去做研发那都是一个钱的问题。你有钱你就可以去做，你没有钱你就不能做。我看不出这有什么可佩服的。

放眼望去 IBM 不是唯一一个在做的，而 IBM 跟其他在投钱做 Research 的公司有什么区别呢？就我看来没什么区别。就算是当年的 AT&T 也是以 300% 的暴利来支持贝尔实验室，虽然是出来了很多受用万年的东西，那说到底还是利用垄断位置榨取了美国人民的收入换来的。IBM 也没什么区别。最近美国政府给 IBM 投资两亿多做 Bluewater，结果人家合同都签了说不做就不做了，说到底还是个钱的问题。都是商业机构，我不知道那个叫 NORAWITHMYCALL 的在佩服个啥。

作者: Edison 时间: 2012-5-20 10:22
大家不要走题。

作者: sunstarmoon 时间: 2012-5-20 10:49
256-bit位宽都可以成为GK104的瓶颈了，规模两倍于104的GK110只有384-bit位宽真的没问题吗

作者: mooncocoon 时间: 2012-5-20 11:00

sunstarmoon 发表于 2012-5-20 10:49
256-bit位宽都可以成为GK104的瓶颈了，规模两倍于104的GK110只有384-bit位宽真的没问题吗

以目前这种在shared/cache里做atomic比显存里还慢的状态，我觉得NV先把这一块料理利落了再考虑显存带宽的事也不迟。

作者: panjanstoneborg 时间: 2012-5-20 14:17

mooncocoon 发表于 2012-5-20 11:00
以目前这种在shared/cache里做atomic比显存里还慢的状态，我觉得NV先把这一块料理利落了再考虑显存带宽的 ...

这种资料是怎么得来的啊
论文还是实测?我也想测测看

作者: mooncocoon 时间: 2012-5-20 15:01

panjanstoneborg 发表于 2012-5-20 14:17
这种资料是怎么得来的啊
论文还是实测?我也想测测看

GPCBenchmark或者CUDA SDK都可以测，比如说Histogram。
几乎所有的涉及直方图的操作都会有原子操作的问题，不过目前我接触到的软件中只有GPCBenchmark有各种细项数据显示，惨不忍睹……

作者: panjanstoneborg 时间: 2012-5-20 17:55

mooncocoon 发表于 2012-5-20 15:01
GPCBenchmark或者CUDA SDK都可以测，比如说Histogram。
几乎所有的涉及直方图的操作都会有原子操作的问题 ...

histogram也可以用sdk里的例子吧
关键是怎么知道是在cache里操作的还是在global mem里操作的

作者: mooncocoon 时间: 2012-5-20 18:06
本帖最后由 mooncocoon 于 2012-5-20 18:06 编辑

panjanstoneborg 发表于 2012-5-20 17:55
histogram也可以用sdk里的例子吧
关键是怎么知道是在cache里操作的还是在global mem里操作的

GPCBenchmark的直方图会分开进行测试并显示结果的。

作者: lik 时间: 2012-5-21 07:28

jhj9 发表于 2012-5-18 19:33
为什么Tesla K10却诞生了呢？
是无心插柳柳成荫，还是天生丽质难自弃？
N家不针对计算应 ...

Gk104做Tesla产品主要是为了在Gk110出来之前对付Ivy Bridge.

作者: ramiel 时间: 2012-8-3 00:35
NV这次难产是自己设计问题，关制程毛事？目测下一代照样输，海岛能灭掉它

作者: 正宗3332243 时间: 2012-8-3 00:41
GK104已经让AMD内牛满面了

作者: CNBETA 时间: 2012-8-3 00:43

ramiel 发表于 2012-8-3 00:35
NV这次难产是自己设计问题，关制程毛事？目测下一代照样输，海岛能灭掉它

哎呦喂，真不愧是睁眼瞎

作者: MIKU版刀锋 时间: 2012-8-3 00:43

ramiel 发表于 2012-8-3 00:35
NV这次难产是自己设计问题，关制程毛事？目测下一代照样输，海岛能灭掉它

下一代照样输？那你的意思是这一代开普勒输了？呵呵，能别说反话吗

作者: MIKU版刀锋 时间: 2012-8-3 01:00

MIKU版刀锋发表于 2012-8-3 00:43
下一代照样输？那你的意思是这一代开普勒输了？呵呵，能别说反话吗

就7900这次和680,670对比，销量一塌糊涂，谁输了一目了然

作者: nom8393 时间: 2012-8-3 01:05

ramiel 发表于 2012-8-3 00:35
NV这次难产是自己设计问题，关制程毛事？目测下一代照样输，海岛能灭掉它

YY脑补帝，别再丢人了好吗？

作者: nBAN 时间: 2012-8-3 08:29
本帖最后由 nBAN 于 2012-8-3 08:30 编辑

nom8393 发表于 2012-8-3 01:05
YY脑补帝，别再丢人了好吗？

gk110领先无双精度gk104近一倍？别再yy了好吗？

欢迎光临 POPPUR爱换 (https://we.poppur.com/)