POPPUR爱换

标题: 我接受了一个事实，那就是我在过去半年多的时间里数学水平还不及小学1年级…… [打印本页]

作者: mooncocoon 时间: 2012-5-17 18:47
标题: 我接受了一个事实，那就是我在过去半年多的时间里数学水平还不及小学1年级……
本帖最后由 mooncocoon 于 2012-5-17 19:02 编辑

2048*4096*32*6*1.25，我特么竟然能算成2亿……连10都数不到，只能数到9的我还是自杀算了……

我现在接受NV打下飞碟的事实了，1.33k per ALU的密度就能实现1/3速的DP，Tesla和Fermi上NV做的事远远超过了我的预期啊。
AMD，你需要赶紧想办法好好消化消化这十数亿晶体管，甚至今后会变成数十亿晶体管的负担了……

CHO我错了，你的图没错，SMX Pro里的寄存器就是那个数，是我SB了结果从最开始就错了。我一直以为双方存在的只是代差，结果没想到差距竟然已经达到了这种令人匪夷所思的地步……
还好我一直没写定量的数字，只是定性的讨论了意义，要不文章就要闹大笑话了

作者: loverlong 时间: 2012-5-17 18:51
。。。。。。。。。。月月你这是在挑某些人的g点。

作者: GTX999 时间: 2012-5-17 19:00
二盘菜这么有自知之明

作者: SnakeLee 时间: 2012-5-17 19:13
大概意思看懂了

接下来那谁怎么办呢...

作者: mooncocoon 时间: 2012-5-17 19:16
本帖最后由 mooncocoon 于 2012-5-17 19:19 编辑

SnakeLee 发表于 2012-5-17 19:13
大概意思看懂了接下来那谁怎么办呢...

我不知道，我到现在都还完全不能接受如此巨大的差距……这不是一星半点，也不是零点几帧或者几个百分点的跑分，这特么是十几甚至几十亿白花花的晶体管啊

作者: qwased 时间: 2012-5-17 19:25

不能反应到游戏性能上的改进，对我们来说没啥用

作者: xiaxin222a 时间: 2012-5-17 20:40
AMD怎么办系列

作者: 深谷白云 时间: 2012-5-17 20:43
虽然看不懂LZ在说什么，但是看上去很厉害的样子

作者: rSKip 时间: 2012-5-17 21:00
本帖最后由 rSKip 于 2012-5-17 21:25 编辑

realworldtech这张图感觉不错第二组数据
[attach]1880371[/attach]

作者: 围观 时间: 2012-5-17 21:00
又开始反讽了.

作者: sucKing 时间: 2012-5-17 21:02
本帖最后由 sucKing 于 2012-5-17 21:04 编辑

自慰贴？

作者: Edison 时间: 2012-5-17 21:13

rSKip 发表于 2012-5-17 21:00
rtw这张图感觉不错第二组数据

这个表格其实也是有些语焉不详的地方，因为 GK104 或者说 SM3.0 的 max register per work-item 应该是 63，而不是 128。

作者: defencelsj 时间: 2012-5-17 21:23
提示: 作者被禁止或删除内容自动屏蔽

作者: soloparadise 时间: 2012-5-17 21:30
看来某月又要被喷了！

作者: mooncocoon 时间: 2012-5-17 21:55
本帖最后由 mooncocoon 于 2012-5-17 22:41 编辑

我下午是真的出了一身的汗，算错的太大了，以至于错误地估计了双方的晶体管负担以及形势……

GT200~GF100为NV换来的不仅仅是4年的时间和简单的经验，这经验的价值甚至已经大到了可以让GK104拥有了乐观估计多达15亿晶体管的富余量，扣除双方的实际晶体管总数差异，NV手头还可以有最多达8亿的余量用来强化它想强化的任何地方。所以，GK104现在的性能完全是情理之中的。
整个Kepler架构中最科幻的部分不是什么Pre-scheduling，不是什么GPU Boost，而是寄存器……单纯从吞吐而不是效率的角度出发，以1.33k per ALU这个密度的寄存器数量来实现1/3速的DP吞吐，这意味着NVIDIA在GK110上理论上拥有了20亿晶体管的余量可以用来榨取性能功耗比，换个角度来说，就是如果在即将到来的GCN2.0中无法实现本质性的突破的话，想要实现相同的DP总量，AMD必须背上这“多余”的20亿晶体管的寄存器负担，也就是可能要在最糟糕的情况下付出总规模超过80亿晶体管的代价。除非AMD能够找到在48CU左右的规模上实现925MHz的频率……

上面的数字可能会因为各种粗糙的估计而出现偏差，但应该大错不错，拿来定性还是够用了的。

5870造的最大的孽，快要跑出来了……如果GCN2.0没能脱离节奏失当导致的经验缺失，进而无法获得必要的突破的话，Tahiti进攻HPC领域的尝试可能会变得极度困难……

AMD面前的路基本上只有一条——赌工艺。收窄规模同时赌上了高频就有生路，1.4T的DP可以是40CU@1110，规模55亿即可控制住，可以是48CU@925，规模可以控制在70亿附近，56CU@800,80亿也许可以控制住，如果最终赌不到比NV更好的频率的话，后果就严重了。
40CU好达成，但图形性能会受到较大地影响，56CU的图形性能比较容易让人接受但代价很大……究竟何去何从，就看AMD自己的选择了。

作者: CC9K 时间: 2012-5-17 22:42
7870*2@1G需要70亿晶体管么？

作者: defencelsj 时间: 2012-5-17 22:51
提示: 作者被禁止或删除内容自动屏蔽

作者: badchris 时间: 2012-5-17 22:52
提示: 作者被禁止或删除内容自动屏蔽

作者: burntank 时间: 2012-5-17 23:09
提示: 作者被禁止或删除内容自动屏蔽

作者: mooncocoon 时间: 2012-5-17 23:13
本帖最后由 mooncocoon 于 2012-5-17 23:17 编辑

burntank 发表于 2012-5-17 23:09
你的意思是AMD要造继R600后第二快核心面积超过400MM的芯片吗?
貌似AMD近5年来还木有设计超过400MM的经验 ...

这就是D线之殇……可制造性勾勒的D线已经把AMD围在334+33.4平方毫米以下的区间里了，想要踩出去是非常困难的。
40CU的小芯片可以更容易的达成DP目标，但图形性能进步会相对较小。56CU的芯片在可制造性以及图形层面比较折中，但代价已经进入到较大的地步了。TSMC的20nm原则上在今年年末之前不会正式投产，所以怎么取舍，只能看AMD自己的了。

作者: xboxzx 时间: 2012-5-17 23:13

burntank 发表于 2012-5-17 23:09
你的意思是AMD要造继R600后第二快核心面积超过400MM的芯片吗?
貌似AMD近5年来还木有设计超过400MM的经验 ...

GK110那么大，现在NV能耗比上来，不做大芯片怎么办

作者: shiningwd 时间: 2012-5-17 23:17

CC9K 发表于 2012-5-17 22:42
7870*2@1G需要70亿晶体管么？

56E晶体管，不过规模翻倍频率也能翻倍？

作者: mooncocoon 时间: 2012-5-17 23:19

shiningwd 发表于 2012-5-17 23:17
56E晶体管，不过规模翻倍频率也能翻倍？

你俩看贴都这么不仔细么……

作者: burntank 时间: 2012-5-17 23:27
提示: 作者被禁止或删除内容自动屏蔽

作者: burntank 时间: 2012-5-17 23:29
提示: 作者被禁止或删除内容自动屏蔽

作者: CC9K 时间: 2012-5-17 23:43
本帖最后由 CC9K 于 2012-5-17 23:46 编辑

不是吞吐量不重要么？不是双精度不重要么？不是6M寄存器空间的不值钱玩意儿么？双精度这种可有可无的东西，一下子又变成AMD的命根了？大ZOL不是早就判了Tahiti通用运算完败于GK104么？双精度再高100倍都没用了，哪还有资格拿出来跟GK110玩HPC市场？

作者: mooncocoon 时间: 2012-5-18 00:01
本帖最后由 mooncocoon 于 2012-5-18 00:13 编辑

CC9K 发表于 2012-5-17 23:43
不是吞吐量不重要么？不是双精度不重要么？不是6M寄存器空间的不值钱玩意儿么？双精度这种可有可无的东西， ...

这里讨论的是HPC领域，Tahiti架构改进的意义以及AMD的渴望能否得到满足。跟之前制作文章时提及的民用以及SP有直接的联系么？吃面放醋不代表所有面都要放醋，你要用醋拌炸酱面我不拦着，但你指责我在教做炸酱面的文章里不让放醋，是不是有点欢乐多啊。
各种欢乐中最欢乐的一部分还在于——你就一定点都没看出来现在NV已经处在一个怎样玩DP的状态了么？

DX11时代拎不清通用计算和图形计算的关联，民用领域拎不清DP和SP的轻重，到了HPC领域又跑来说“我说的”民用无用所以特用也无用，看个感慨帖子竟然连人家要感慨的是什么都分不清就出来义愤填膺，怎么你们的节奏总是能如此欢乐地拧上一下，而且还能这么爽朗的不加思索的做帽子给别人扣啊

作者: shiningwd 时间: 2012-5-18 00:03

mooncocoon 发表于 2012-5-17 23:19
你俩看贴都这么不仔细么……

我回的是那人说7870X2....自然56E。。

作者: 1394 时间: 2012-5-18 00:44
提示: 作者被禁止或删除内容自动屏蔽

作者: CC9K 时间: 2012-5-18 00:49
本帖最后由 CC9K 于 2012-5-18 00:53 编辑

mooncocoon 发表于 2012-5-18 00:01
这里讨论的是HPC领域，Tahiti架构改进的意义以及AMD的渴望能否得到满足。跟之前制作文章时提及的民用以及 ...

您也清楚民用领域与HPC的不同

想必您也清楚Tahiti作为AMD新架构中所必须扮演的角色，和不同于民用市场所必需付出的额外资源，Pitcairn的效率也并不算低，而Tahiti的资源分配并不是作为以游戏卡为目标的最合理水平的，拿来和GK104来证明其“黑科技”？

作者: SpitDragon 时间: 2012-5-18 03:31
莫名其妙点到“烂贴”那个按钮了，小月月您别伤心…

作者: bobcat 时间: 2012-5-18 04:37
本帖最后由 bobcat 于 2012-11-1 15:55 编辑

.......................

作者: mooncocoon 时间: 2012-5-18 07:53

CC9K 发表于 2012-5-18 00:49
您也清楚民用领域与HPC的不同

想必您也清楚Tahiti作为AMD新架构中所必须扮演的角色，和不同于民用市场 ...

你怎么还是这么拧吧啊？我都说过一遍了，难道你就一丁点都没看出来nv现在处在一个怎样玩DP的状态么？GK110用背Tahiti背的那些负担么？为什么它不用背了啊？
你究竟是以怎样的立场说出“你也清楚！；”。“”％＆【】＆〗”这句话的啊……

作者: wgqg 时间: 2012-5-18 08:02
好像很厉害的样子

作者: CC9K 时间: 2012-5-18 11:03

mooncocoon 发表于 2012-5-18 07:53
你怎么还是这么拧吧啊？我都说过一遍了，难道你就一丁点都没看出来nv现在处在一个怎样玩DP的状态么？GK11 ...

原来您真的不清楚呢，还是继续装傻呢？

拿GK104和Tahiti比晶体管面积，然后“惊叹”NV火星科技

拿GK110和Tahiti比DP，然后“惊叹”NV火星科技

作者: gtx5 时间: 2012-5-18 11:05

CC9K 发表于 2012-5-18 11:03
原来您真的不清楚呢，还是继续装傻呢？

拿GK104和Tahiti比晶体管面积，然后“惊叹”NV火星科技

你知道得太多了

作者: mooncocoon 时间: 2012-5-18 11:07

CC9K 发表于 2012-5-18 11:03
原来您真的不清楚呢，还是继续装傻呢？

拿GK104和Tahiti比晶体管面积，然后“惊叹”NV火星科技

唉……我尽力了，既然你选择关上门视而不见并且装作是别人对你关上了门的话，你继续这么无视我问你的问题吧，继续无视我的回答和文章吧。

愿你有美好的一天

作者: CC9K 时间: 2012-5-18 11:15
本帖最后由 CC9K 于 2012-5-18 11:16 编辑

到底是谁无视谁啊？

您先引用我的话，却言其他强调DP优势

我不否认NV目前的优势，但无视我说的一个基本事实：

您所赞叹的NV火星科技之神奇，只是因为您田忌赛马的结果

您是装傻呢？还是装傻呢？还是装傻呢？

作者: jhj9 时间: 2012-5-18 11:20

CC9K 发表于 2012-5-18 11:03
原来您真的不清楚呢，还是继续装傻呢？

拿GK104和Tahiti比晶体管面积，然后“惊叹”NV火星科技

敢对比一下GK104和GK110在提升SP数量的同时，改善DP性能几乎没有增加多少晶体管的事实吗？

作者: mooncocoon 时间: 2012-5-18 11:26
本帖最后由 mooncocoon 于 2012-5-18 11:27 编辑

CC9K 发表于 2012-5-18 11:15
到底是谁无视谁啊？

您先引用我的话，却言其他强调DP优势

赛马？谁无视谁？
1.33k per ALU的密度是什么意思你懂么？你究竟看过没看过这贴到底要干什么？会算数么？知道这帖子我在说什么么？知道2048*4096*32*6*1.25是什么含义么？

你不知道，你根本不知道。

不知道可以讨论，不知道可以思考，不知道可以查询

而你干了什么？

田忌赛马？言其他？HD7800？GK104不该跟Tahiti比？

这些跟这帖子有一皮克的联系么？

发这些东西，然后倒打一耙变成了我言其他，到底谁在言其他！

看来我不该最后给你献上祝福的，你不值得祝福。

作者: mooncocoon 时间: 2012-5-18 11:28
本帖最后由 mooncocoon 于 2012-5-18 11:32 编辑

CC9K 发表于 2012-5-18 11:15
到底是谁无视谁啊？

您先引用我的话，却言其他强调DP优势

再跟你说一遍，仔细看看我提的那些问题！当你明白了寄存器密度的含义，知道了这贴究竟在干什么，你就会发现自己提出GK104跟Tahiti之间的那些问题是多麽的愚蠢和自讨苦吃了。

如果你真的明白我在说些什么，你压根就不会提这些不搭界的问题。

尽管我觉得你不值得祝福，但我还是会以祝福来结束我们之间没有任何意义的谈话——
愿你有你希望的每一天。

作者: xiaochengaza 时间: 2012-5-18 16:21
。。。。。。。。虽然什么都不懂，但是觉得楼主好厉害的样子

作者: 餐具 时间: 2012-5-18 17:04
。。。。。。。。虽然什么都不懂，但是觉得楼主好厉害的样子

作者: darkangel308 时间: 2012-5-18 17:45
这个......不就是增加独立的双精度浮点单元么，难道GCN不能加么......

作者: squall119 时间: 2012-5-18 17:48
月MM高潮了

作者: inSeek 时间: 2012-5-18 17:52

darkangel308 发表于 2012-5-18 17:45
这个......不就是增加独立的双精度浮点单元么，难道GCN不能加么......

双精度速度的实现不单单是DP单元的数量更重要的是寄存器。而现在AMD的情况是，需要花更多的寄存器来实现和NV一样的性能。

至于GK104，其实GK110和GK104的寄存器密度（寄存器量/ALU数量）是一样的，104之所以DP性能低主要是DP单元数量被降的太多。但其实这单元不算占面积的。之所以NV还是没有放上去很多，还是和NV对104的定位有关。游戏卡那就把所有不相关的东西干掉，极力强调性能功耗比。

作者: inSeek 时间: 2012-5-18 17:52
月虫居然又认真了- -

作者: darkangel308 时间: 2012-5-18 17:59

inSeek 发表于 2012-5-18 17:52
双精度速度的实现不单单是DP单元的数量更重要的是寄存器。而现在AMD的情况是，需要花更多的寄存器来实现 ...

GK104就没有独立的DP单元吧

作者: inSeek 时间: 2012-5-18 18:36

darkangel308 发表于 2012-5-18 17:59
GK104就没有独立的DP单元吧

对没专门的DP单元，GK104 的DP用ALU跑的

作者: mooncocoon 时间: 2012-5-18 18:41

inSeek 发表于 2012-5-18 18:36
对没专门的DP单元，GK104 的DP用ALU跑的

也有，有1/8于GK110的FMA

作者: jhj9 时间: 2012-5-18 18:44
本帖最后由 jhj9 于 2012-5-18 18:54 编辑

CC9K 发表于 2012-5-18 00:49
您也清楚民用领域与HPC的不同

想必您也清楚Tahiti作为AMD新架构中所必须扮演的角色，和不同于民用市场 ...

Tahiti在非民用市场依然是废材
AMD在错误的道路上越走越远而已

Folding@home、nbody里面你看看7970比6970提高了多少？680比580又提高了多少？

680的双精度是被砍很多，但是单精度能力是如此的强，以至于在部分Tesla用户的要求下，Tesla K10都出现了。这些用户不那么需要双精度，而对GK104的单精度通用计算能力趋之若骛。

作者: jhj9 时间: 2012-5-18 18:47

darkangel308 发表于 2012-5-18 17:45
这个......不就是增加独立的双精度浮点单元么，难道GCN不能加么......

那你怎么不认为A家可以干脆就出一个堆满了双精度浮点单元的计算卡呢？
这样的通用计算能力就能强大起来吗？

作者: NORAWITHMYCALL 时间: 2012-5-18 19:01

CC9K 发表于 2012-5-18 00:49
您也清楚民用领域与HPC的不同

想必您也清楚Tahiti作为AMD新架构中所必须扮演的角色，和不同于民用市场 ...

28亿晶体管数量就图形性能来说接近上代对手旗舰30亿晶体管数量的性能，已经说明Pitcairn执行效率并不低，虽然是制程上的优势但是晶体管数量还是比对手低，不能完全看作是制程上的优势。

作者: NORAWITHMYCALL 时间: 2012-5-18 19:11

jhj9 发表于 2012-5-18 18:47
那你怎么不认为A家可以干脆就出一个堆满了双精度浮点单元的计算卡呢？
这样的通用计算能力就能强大起来吗 ...

同理，N搞出高单精度的计算卡又能如何呢。尺有所短寸有所长用户最终要的还是符合现实需求的应用计算性能，需要单精度高则应用单精度高，需要双精度高则应用双精度高，这才是正确的方向，偏哪里都是错误的。

作者: defencelsj 时间: 2012-5-18 19:14
提示: 作者被禁止或删除内容自动屏蔽

作者: lukwp97 时间: 2012-5-18 19:18

NORAWITHMYCALL 发表于 2012-5-18 19:01
28亿晶体管数量就图形性能来说接近上代对手旗舰30亿晶体管数量的性能，已经说明Pitcairn执行效率并不低， ...

頻率呢

作者: inSeek 时间: 2012-5-18 19:20
本帖最后由 inSeek 于 2012-5-18 19:24 编辑

mooncocoon 发表于 2012-5-18 18:41
也有，有1/8于GK110的FMA

但是神奇的是白皮书的框图上确实没有画出DP单元...1/8FMA？SFU负责的那部分？

作者: NORAWITHMYCALL 时间: 2012-5-18 19:35

defencelsj 发表于 2012-5-18 19:14
28亿晶体管性能就接近上代对手旗舰30亿？
我们又来比一比SP跟DP怎么样？
7870领先的只有功耗而已，你知 ...

DP和SP，和图形性能有什么关系，你是看不懂吗，还是故意找茬，如果是后者，个人不会就此问题进行下一步讨论。

作者: NORAWITHMYCALL 时间: 2012-5-18 19:41

lukwp97 发表于 2012-5-18 19:18
頻率呢[titter>

频率不是晶体管数目所决定的，这点首先要明白，而是晶体管的内部结构，什么是频率，电流通过晶体管造成的晶体管谐振，不是电流通过的速度，这是物理特性决定的。制程能改变数量，内部结构，不是制程本身能改变的，而是各种其他工艺的使用。

作者: 扫帚 时间: 2012-5-18 20:03

NORAWITHMYCALL 发表于 2012-5-18 19:01
28亿晶体管数量就图形性能来说接近上代对手旗舰30亿晶体管数量的性能，已经说明Pitcairn执行效率并不低， ...

制程提升带来的频率提升你不要考虑进去吗?

作者: NORAWITHMYCALL 时间: 2012-5-18 20:05

扫帚发表于 2012-5-18 20:03
制程提升带来的频率提升你不要考虑进去吗?

个人上面发了一段关于频率的相关原理，你没有看吗。制程进步直接带来不了频率的提升。

作者: 扫帚 时间: 2012-5-18 20:13

NORAWITHMYCALL 发表于 2012-5-18 20:05
个人上面发了一段关于频率的相关原理，你没有看吗。制程进步直接带来不了频率的提升。

十分不解为什么你会说制程不能带来频率提升这样的话, 你的意思是说制程是工艺的子集咯?

作者: NORAWITHMYCALL 时间: 2012-5-18 20:17

扫帚发表于 2012-5-18 20:13
十分不解为什么你会说制程不能带来频率提升这样的话, 你的意思是说制程是工艺的子集咯?

就总体来说，工艺包含制程，制程只是工艺的一个方面。

作者: 扫帚 时间: 2012-5-18 20:18

NORAWITHMYCALL 发表于 2012-5-18 20:17
就总体来说，工艺包含制程，制程只是工艺的一个方面。

你这么说的话比较好理解了, 但是貌似前面的人所说的"制程"代表的就是整个围绕制程的工艺.

作者: NORAWITHMYCALL 时间: 2012-5-18 20:20

扫帚发表于 2012-5-18 20:18
你这么说的话比较好理解了, 但是貌似前面的人所说的"制程"代表的就是整个围绕制程的工艺.

这是以偏概全的说法。

作者: 扫帚 时间: 2012-5-18 20:25

NORAWITHMYCALL 发表于 2012-5-18 20:20
这是以偏概全的说法。

咬文嚼字当然可以这么说, 比如人们常说的486其实就是cpu, 但是大多人却把他的定义扩展为"使用80486芯片的电脑". 两种说法我都接受, 但是我个人认为你的这种精确的说法和大众的定义相悖, 下次讲之前说明一下比较利于减轻混淆

作者: NORAWITHMYCALL 时间: 2012-5-18 20:34

扫帚发表于 2012-5-18 20:25
咬文嚼字当然可以这么说, 比如人们常说的486其实就是cpu, 但是大多人却把他的定义扩展为"使用80486芯片的 ...

总体来说，晶体管计算机科学，主要涵盖3大领域，数学，电学，材料科学，每个领域都是堪称天才的人搞的，普通人看到那些专业的东西真有如天书，稍许懂点，也就只能简单表达了。
http://www.doc88.com/p-115612981069.html
这是晶体管频率的一点专业人士认为相对浅显的科普知识。

作者: defencelsj 时间: 2012-5-18 21:04
提示: 作者被禁止或删除内容自动屏蔽

作者: darkangel308 时间: 2012-5-18 23:38

jhj9 发表于 2012-5-18 18:47
那你怎么不认为A家可以干脆就出一个堆满了双精度浮点单元的计算卡呢？
这样的通用计算能力就能强大起来吗 ...

不要激动，我只想说，提到双精度浮点性能不需要什么火星科技而已

作者: fineday 时间: 2012-5-19 12:10

darkangel308 发表于 2012-5-18 23:38
不要激动，我只想说，提到双精度浮点性能不需要什么火星科技而已

的确是这样，但是问题的关键在于需要付出多大的代价。实际上LZ所关心的重点在于NV用三分之一的寄存器资源实现了对手三分之二的DP性能，这意味着未来AMD如果要维持与NV同样的性能，需要多付出接近于半个GPU总晶体管规模的制造代价，这会造成可制造性的下降。而NV这边选择的空间就大了很多，就是这样一个情况。

作者: gzeasy2006 时间: 2012-5-21 09:41
gk110去除dp单元去除ecc单元还能剩下多少晶体管？

作者: gzeasy2006 时间: 2012-5-22 20:36
如果GK110做成显卡会不会去掉DP单元,去掉ECC单元呢？

欢迎光临 POPPUR爱换 (https://we.poppur.com/)