POPPUR爱换

标题: 我接受了一个事实,那就是我在过去半年多的时间里数学水平还不及小学1年级…… [打印本页]

作者: mooncocoon    时间: 2012-5-17 18:47
标题: 我接受了一个事实,那就是我在过去半年多的时间里数学水平还不及小学1年级……
本帖最后由 mooncocoon 于 2012-5-17 19:02 编辑

2048*4096*32*6*1.25,我特么竟然能算成2亿……连10都数不到,只能数到9的我还是自杀算了……

我现在接受NV打下飞碟的事实了,1.33k per ALU的密度就能实现1/3速的DP,Tesla和Fermi上NV做的事远远超过了我的预期啊。
AMD,你需要赶紧想办法好好消化消化这十数亿晶体管,甚至今后会变成数十亿晶体管的负担了……


CHO我错了,你的图没错,SMX Pro里的寄存器就是那个数,是我SB了结果从最开始就错了。我一直以为双方存在的只是代差,结果没想到差距竟然已经达到了这种令人匪夷所思的地步……
还好我一直没写定量的数字,只是定性的讨论了意义,要不文章就要闹大笑话了

作者: loverlong    时间: 2012-5-17 18:51
。。。。。。。。。。月月你这是在挑某些人的g点。
作者: GTX999    时间: 2012-5-17 19:00
二盘菜这么有自知之明
作者: SnakeLee    时间: 2012-5-17 19:13
大概意思看懂了 接下来那谁怎么办呢...
作者: mooncocoon    时间: 2012-5-17 19:16
本帖最后由 mooncocoon 于 2012-5-17 19:19 编辑
SnakeLee 发表于 2012-5-17 19:13
大概意思看懂了 接下来那谁怎么办呢...


我不知道,我到现在都还完全不能接受如此巨大的差距……这不是一星半点,也不是零点几帧或者几个百分点的跑分,这特么是十几甚至几十亿白花花的晶体管啊

作者: qwased    时间: 2012-5-17 19:25
不能反应到游戏性能上的改进,对我们来说没啥用
作者: xiaxin222a    时间: 2012-5-17 20:40
AMD怎么办系列
作者: 深谷白云    时间: 2012-5-17 20:43
虽然看不懂LZ在说什么,但是看上去很厉害的样子
作者: rSKip    时间: 2012-5-17 21:00
本帖最后由 rSKip 于 2012-5-17 21:25 编辑

realworldtech这张图感觉不错 第二组数据
[attach]1880371[/attach]
作者: 围观    时间: 2012-5-17 21:00
又开始反讽了.
作者: sucKing    时间: 2012-5-17 21:02
本帖最后由 sucKing 于 2012-5-17 21:04 编辑

自慰贴?   
作者: Edison    时间: 2012-5-17 21:13
rSKip 发表于 2012-5-17 21:00
rtw这张图感觉不错 第二组数据

这个表格其实也是有些语焉不详的地方,因为 GK104 或者说 SM3.0 的 max register per work-item 应该是 63,而不是 128。


作者: defencelsj    时间: 2012-5-17 21:23
提示: 作者被禁止或删除 内容自动屏蔽
作者: soloparadise    时间: 2012-5-17 21:30
看来某月又要被喷了!
作者: mooncocoon    时间: 2012-5-17 21:55
本帖最后由 mooncocoon 于 2012-5-17 22:41 编辑

我下午是真的出了一身的汗,算错的太大了,以至于错误地估计了双方的晶体管负担以及形势……

GT200~GF100为NV换来的不仅仅是4年的时间和简单的经验,这经验的价值甚至已经大到了可以让GK104拥有了乐观估计多达15亿晶体管的富余量,扣除双方的实际晶体管总数差异,NV手头还可以有最多达8亿的余量用来强化它想强化的任何地方。所以,GK104现在的性能完全是情理之中的。
整个Kepler架构中最科幻的部分不是什么Pre-scheduling,不是什么GPU Boost,而是寄存器……单纯从吞吐而不是效率的角度出发,以1.33k per ALU这个密度的寄存器数量来实现1/3速的DP吞吐,这意味着NVIDIA在GK110上理论上拥有了20亿晶体管的余量可以用来榨取性能功耗比,换个角度来说,就是如果在即将到来的GCN2.0中无法实现本质性的突破的话,想要实现相同的DP总量,AMD必须背上这“多余”的20亿晶体管的寄存器负担,也就是可能要在最糟糕的情况下付出总规模超过80亿晶体管的代价。除非AMD能够找到在48CU左右的规模上实现925MHz的频率……

上面的数字可能会因为各种粗糙的估计而出现偏差,但应该大错不错,拿来定性还是够用了的。

5870造的最大的孽,快要跑出来了……如果GCN2.0没能脱离节奏失当导致的经验缺失,进而无法获得必要的突破的话,Tahiti进攻HPC领域的尝试可能会变得极度困难……

AMD面前的路基本上只有一条——赌工艺。收窄规模同时赌上了高频就有生路,1.4T的DP可以是40CU@1110,规模55亿即可控制住,可以是48CU@925,规模可以控制在70亿附近,56CU@800,80亿也许可以控制住,如果最终赌不到比NV更好的频率的话,后果就严重了。
40CU好达成,但图形性能会受到较大地影响,56CU的图形性能比较容易让人接受但代价很大……究竟何去何从,就看AMD自己的选择了。

作者: CC9K    时间: 2012-5-17 22:42
7870*2@1G需要70亿晶体管么?
作者: defencelsj    时间: 2012-5-17 22:51
提示: 作者被禁止或删除 内容自动屏蔽
作者: badchris    时间: 2012-5-17 22:52
提示: 作者被禁止或删除 内容自动屏蔽
作者: burntank    时间: 2012-5-17 23:09
提示: 作者被禁止或删除 内容自动屏蔽
作者: mooncocoon    时间: 2012-5-17 23:13
本帖最后由 mooncocoon 于 2012-5-17 23:17 编辑
burntank 发表于 2012-5-17 23:09
你的意思是AMD要造继R600后第二快核心面积超过400MM的芯片吗?
貌似AMD近5年来还木有设计超过400MM的经验 ...

这就是D线之殇……可制造性勾勒的D线已经把AMD围在334+33.4平方毫米以下的区间里了,想要踩出去是非常困难的。
40CU的小芯片可以更容易的达成DP目标,但图形性能进步会相对较小。56CU的芯片在可制造性以及图形层面比较折中,但代价已经进入到较大的地步了。TSMC的20nm原则上在今年年末之前不会正式投产,所以怎么取舍,只能看AMD自己的了。


作者: xboxzx    时间: 2012-5-17 23:13
burntank 发表于 2012-5-17 23:09
你的意思是AMD要造继R600后第二快核心面积超过400MM的芯片吗?
貌似AMD近5年来还木有设计超过400MM的经验 ...

GK110那么大,现在NV能耗比上来,不做大芯片怎么办
作者: shiningwd    时间: 2012-5-17 23:17
CC9K 发表于 2012-5-17 22:42
7870*2@1G需要70亿晶体管么?

56E晶体管,不过规模翻倍频率也能翻倍?
作者: mooncocoon    时间: 2012-5-17 23:19
shiningwd 发表于 2012-5-17 23:17
56E晶体管,不过规模翻倍频率也能翻倍?

你俩看贴都这么不仔细么……
作者: burntank    时间: 2012-5-17 23:27
提示: 作者被禁止或删除 内容自动屏蔽
作者: burntank    时间: 2012-5-17 23:29
提示: 作者被禁止或删除 内容自动屏蔽
作者: CC9K    时间: 2012-5-17 23:43
本帖最后由 CC9K 于 2012-5-17 23:46 编辑

不是吞吐量不重要么?不是双精度不重要么?不是6M寄存器空间的不值钱玩意儿么?双精度这种可有可无的东西,一下子又变成AMD的命根了?大ZOL不是早就判了Tahiti通用运算完败于GK104么?双精度再高100倍都没用了,哪还有资格拿出来跟GK110玩HPC市场?
作者: mooncocoon    时间: 2012-5-18 00:01
本帖最后由 mooncocoon 于 2012-5-18 00:13 编辑
CC9K 发表于 2012-5-17 23:43
不是吞吐量不重要么?不是双精度不重要么?不是6M寄存器空间的不值钱玩意儿么?双精度这种可有可无的东西, ...

这里讨论的是HPC领域,Tahiti架构改进的意义以及AMD的渴望能否得到满足。跟之前制作文章时提及的民用以及SP有直接的联系么?吃面放醋不代表所有面都要放醋,你要用醋拌炸酱面我不拦着,但你指责我在教做炸酱面的文章里不让放醋,是不是有点欢乐多啊。
各种欢乐中最欢乐的一部分还在于——你就一定点都没看出来现在NV已经处在一个怎样玩DP的状态了么?

DX11时代拎不清通用计算和图形计算的关联,民用领域拎不清DP和SP的轻重,到了HPC领域又跑来说“我说的”民用无用所以特用也无用,看个感慨帖子竟然连人家要感慨的是什么都分不清就出来义愤填膺,怎么你们的节奏总是能如此欢乐地拧上一下,而且还能这么爽朗的不加思索的做帽子给别人扣啊

作者: shiningwd    时间: 2012-5-18 00:03
mooncocoon 发表于 2012-5-17 23:19
你俩看贴都这么不仔细么……

我回的是那人说7870X2....自然56E。。
作者: 1394    时间: 2012-5-18 00:44
提示: 作者被禁止或删除 内容自动屏蔽
作者: CC9K    时间: 2012-5-18 00:49
本帖最后由 CC9K 于 2012-5-18 00:53 编辑
mooncocoon 发表于 2012-5-18 00:01
这里讨论的是HPC领域,Tahiti架构改进的意义以及AMD的渴望能否得到满足。跟之前制作文章时提及的民用以及 ...

您也清楚民用领域与HPC的不同

想必您也清楚Tahiti作为AMD新架构中所必须扮演的角色,和不同于民用市场所必需付出的额外资源,Pitcairn的效率也并不算低,而Tahiti的资源分配并不是作为以游戏卡为目标的最合理水平的,拿来和GK104来证明其“黑科技”?
作者: SpitDragon    时间: 2012-5-18 03:31
莫名其妙点到“烂贴”那个按钮了,小月月您别伤心…
作者: bobcat    时间: 2012-5-18 04:37
本帖最后由 bobcat 于 2012-11-1 15:55 编辑

.......................
作者: mooncocoon    时间: 2012-5-18 07:53
CC9K 发表于 2012-5-18 00:49
您也清楚民用领域与HPC的不同

想必您也清楚Tahiti作为AMD新架构中所必须扮演的角色,和不同于民用市场 ...

你怎么还是这么拧吧啊?我都说过一遍了,难道你就一丁点都没看出来nv现在处在一个怎样玩DP的状态么?GK110用背Tahiti背的那些负担么?为什么它不用背了啊?
你究竟是以怎样的立场说出“你也清楚!;”。“”%&【】&〗”这句话的啊……
作者: wgqg    时间: 2012-5-18 08:02
好像很厉害的样子
作者: CC9K    时间: 2012-5-18 11:03
mooncocoon 发表于 2012-5-18 07:53
你怎么还是这么拧吧啊?我都说过一遍了,难道你就一丁点都没看出来nv现在处在一个怎样玩DP的状态么?GK11 ...

原来您真的不清楚呢,还是继续装傻呢?

拿GK104和Tahiti比晶体管面积,然后“惊叹”NV火星科技

拿GK110和Tahiti比DP,然后“惊叹”NV火星科技
作者: gtx5    时间: 2012-5-18 11:05
CC9K 发表于 2012-5-18 11:03
原来您真的不清楚呢,还是继续装傻呢?

拿GK104和Tahiti比晶体管面积,然后“惊叹”NV火星科技

你知道得太多了
作者: mooncocoon    时间: 2012-5-18 11:07
CC9K 发表于 2012-5-18 11:03
原来您真的不清楚呢,还是继续装傻呢?

拿GK104和Tahiti比晶体管面积,然后“惊叹”NV火星科技

唉……我尽力了,既然你选择关上门视而不见并且装作是别人对你关上了门的话,你继续这么无视我问你的问题吧,继续无视我的回答和文章吧。

愿你有美好的一天
作者: CC9K    时间: 2012-5-18 11:15
本帖最后由 CC9K 于 2012-5-18 11:16 编辑

到底是谁无视谁啊?

您先引用我的话,却言其他强调DP优势

我不否认NV目前的优势,但无视我说的一个基本事实:

您所赞叹的NV火星科技之神奇,只是因为您田忌赛马的结果

您是装傻呢?还是装傻呢?还是装傻呢?


作者: jhj9    时间: 2012-5-18 11:20
CC9K 发表于 2012-5-18 11:03
原来您真的不清楚呢,还是继续装傻呢?

拿GK104和Tahiti比晶体管面积,然后“惊叹”NV火星科技

敢对比一下GK104和GK110在提升SP数量的同时,改善DP性能几乎没有增加多少晶体管的事实吗?
作者: mooncocoon    时间: 2012-5-18 11:26
本帖最后由 mooncocoon 于 2012-5-18 11:27 编辑
CC9K 发表于 2012-5-18 11:15
到底是谁无视谁啊?

您先引用我的话,却言其他强调DP优势


赛马?谁无视谁?
1.33k per ALU的密度是什么意思你懂么?你究竟看过没看过这贴到底要干什么?会算数么?知道这帖子我在说什么么?知道2048*4096*32*6*1.25是什么含义么?

你不知道,你根本不知道。

不知道可以讨论,不知道可以思考,不知道可以查询

而你干了什么?

田忌赛马?言其他?HD7800?GK104不该跟Tahiti比?

这些跟这帖子有一皮克的联系么?

发这些东西,然后倒打一耙变成了我言其他,到底谁在言其他!

看来我不该最后给你献上祝福的,你不值得祝福。
作者: mooncocoon    时间: 2012-5-18 11:28
本帖最后由 mooncocoon 于 2012-5-18 11:32 编辑
CC9K 发表于 2012-5-18 11:15
到底是谁无视谁啊?

您先引用我的话,却言其他强调DP优势


再跟你说一遍,仔细看看我提的那些问题!当你明白了寄存器密度的含义,知道了这贴究竟在干什么,你就会发现自己提出GK104跟Tahiti之间的那些问题是多麽的愚蠢和自讨苦吃了。

如果你真的明白我在说些什么,你压根就不会提这些不搭界的问题。

尽管我觉得你不值得祝福,但我还是会以祝福来结束我们之间没有任何意义的谈话——
愿你有你希望的每一天。

作者: xiaochengaza    时间: 2012-5-18 16:21
。。。。。。。。虽然什么都不懂,但是觉得楼主好厉害的样子
作者: 餐具    时间: 2012-5-18 17:04
。。。。。。。。虽然什么都不懂,但是觉得楼主好厉害的样子
作者: darkangel308    时间: 2012-5-18 17:45
这个......不就是增加独立的双精度浮点单元么,难道GCN不能加么......
作者: squall119    时间: 2012-5-18 17:48
月MM高潮了
作者: inSeek    时间: 2012-5-18 17:52
darkangel308 发表于 2012-5-18 17:45
这个......不就是增加独立的双精度浮点单元么,难道GCN不能加么......

双精度速度的实现不单单是DP单元的数量 更重要的是寄存器。而现在AMD的情况是,需要花更多的寄存器来实现和NV一样的性能。

至于GK104,其实GK110和GK104的寄存器密度(寄存器量/ALU数量)是一样的,104之所以DP性能低主要是DP单元数量被降的太多。但其实这单元不算占面积的。之所以NV还是没有放上去很多,还是和NV对104的定位有关。游戏卡那就把所有不相关的东西干掉,极力强调性能功耗比。
作者: inSeek    时间: 2012-5-18 17:52
月虫居然又认真了- -
作者: darkangel308    时间: 2012-5-18 17:59
inSeek 发表于 2012-5-18 17:52
双精度速度的实现不单单是DP单元的数量 更重要的是寄存器。而现在AMD的情况是,需要花更多的寄存器来实现 ...

GK104就没有独立的DP单元吧
作者: inSeek    时间: 2012-5-18 18:36
darkangel308 发表于 2012-5-18 17:59
GK104就没有独立的DP单元吧

对 没专门的DP单元,GK104 的DP用ALU跑的
作者: mooncocoon    时间: 2012-5-18 18:41
inSeek 发表于 2012-5-18 18:36
对 没专门的DP单元,GK104 的DP用ALU跑的

也有,有1/8于GK110的FMA
作者: jhj9    时间: 2012-5-18 18:44
本帖最后由 jhj9 于 2012-5-18 18:54 编辑
CC9K 发表于 2012-5-18 00:49
您也清楚民用领域与HPC的不同

想必您也清楚Tahiti作为AMD新架构中所必须扮演的角色,和不同于民用市场 ...


Tahiti在非民用市场依然是废材
AMD在错误的道路上越走越远而已

Folding@home、nbody里面你看看7970比6970提高了多少?680比580又提高了多少?


680的双精度是被砍很多,但是单精度能力是如此的强,以至于在部分Tesla用户的要求下,Tesla K10都出现了。这些用户不那么需要双精度,而对GK104的单精度通用计算能力趋之若骛。

作者: jhj9    时间: 2012-5-18 18:47
darkangel308 发表于 2012-5-18 17:45
这个......不就是增加独立的双精度浮点单元么,难道GCN不能加么......

那你怎么不认为A家可以干脆就出一个堆满了双精度浮点单元的计算卡呢?
这样的通用计算能力就能强大起来吗?

作者: NORAWITHMYCALL    时间: 2012-5-18 19:01
CC9K 发表于 2012-5-18 00:49
您也清楚民用领域与HPC的不同

想必您也清楚Tahiti作为AMD新架构中所必须扮演的角色,和不同于民用市场 ...

28亿晶体管数量就图形性能来说接近上代对手旗舰30亿晶体管数量的性能,已经说明Pitcairn执行效率并不低,虽然是制程上的优势但是晶体管数量还是比对手低,不能完全看作是制程上的优势。
作者: NORAWITHMYCALL    时间: 2012-5-18 19:11
jhj9 发表于 2012-5-18 18:47
那你怎么不认为A家可以干脆就出一个堆满了双精度浮点单元的计算卡呢?
这样的通用计算能力就能强大起来吗 ...

同理,N搞出高单精度的计算卡又能如何呢。尺有所短寸有所长用户最终要的还是符合现实需求的应用计算性能,需要单精度高则应用单精度高,需要双精度高则应用双精度高,这才是正确的方向,偏哪里都是错误的。
作者: defencelsj    时间: 2012-5-18 19:14
提示: 作者被禁止或删除 内容自动屏蔽
作者: lukwp97    时间: 2012-5-18 19:18
NORAWITHMYCALL 发表于 2012-5-18 19:01
28亿晶体管数量就图形性能来说接近上代对手旗舰30亿晶体管数量的性能,已经说明Pitcairn执行效率并不低, ...

頻率呢
作者: inSeek    时间: 2012-5-18 19:20
本帖最后由 inSeek 于 2012-5-18 19:24 编辑
mooncocoon 发表于 2012-5-18 18:41
也有,有1/8于GK110的FMA

但是神奇的是 白皮书的框图上确实没有画出DP单元...1/8FMA?SFU负责的那部分?

作者: NORAWITHMYCALL    时间: 2012-5-18 19:35
defencelsj 发表于 2012-5-18 19:14
28亿晶体管性能就接近上代对手旗舰30亿?
我们又来比一比SP跟DP怎么样?
7870领先的只有功耗而已,你知 ...

DP和SP,和图形性能有什么关系,你是看不懂吗,还是故意找茬,如果是后者,个人不会就此问题进行下一步讨论。
作者: NORAWITHMYCALL    时间: 2012-5-18 19:41
lukwp97 发表于 2012-5-18 19:18
頻率呢[titter>

频率不是晶体管数目所决定的,这点首先要明白,而是晶体管的内部结构,什么是频率,电流通过晶体管造成的晶体管谐振,不是电流通过的速度,这是物理特性决定的。制程能改变数量,内部结构,不是制程本身能改变的,而是各种其他工艺的使用。
作者: 扫帚    时间: 2012-5-18 20:03
NORAWITHMYCALL 发表于 2012-5-18 19:01
28亿晶体管数量就图形性能来说接近上代对手旗舰30亿晶体管数量的性能,已经说明Pitcairn执行效率并不低, ...

制程提升带来的频率提升你不要考虑进去吗?
作者: NORAWITHMYCALL    时间: 2012-5-18 20:05
扫帚 发表于 2012-5-18 20:03
制程提升带来的频率提升你不要考虑进去吗?

个人上面发了一段关于频率的相关原理,你没有看吗。制程进步直接带来不了频率的提升。
作者: 扫帚    时间: 2012-5-18 20:13
NORAWITHMYCALL 发表于 2012-5-18 20:05
个人上面发了一段关于频率的相关原理,你没有看吗。制程进步直接带来不了频率的提升。

十分不解为什么你会说制程不能带来频率提升这样的话, 你的意思是说制程是工艺的子集咯?
作者: NORAWITHMYCALL    时间: 2012-5-18 20:17
扫帚 发表于 2012-5-18 20:13
十分不解为什么你会说制程不能带来频率提升这样的话, 你的意思是说制程是工艺的子集咯?

就总体来说,工艺包含制程,制程只是工艺的一个方面。
作者: 扫帚    时间: 2012-5-18 20:18
NORAWITHMYCALL 发表于 2012-5-18 20:17
就总体来说,工艺包含制程,制程只是工艺的一个方面。

你这么说的话比较好理解了, 但是貌似前面的人所说的"制程"代表的就是整个围绕制程的工艺.
作者: NORAWITHMYCALL    时间: 2012-5-18 20:20
扫帚 发表于 2012-5-18 20:18
你这么说的话比较好理解了, 但是貌似前面的人所说的"制程"代表的就是整个围绕制程的工艺.

这是以偏概全的说法。
作者: 扫帚    时间: 2012-5-18 20:25
NORAWITHMYCALL 发表于 2012-5-18 20:20
这是以偏概全的说法。

咬文嚼字当然可以这么说, 比如人们常说的486其实就是cpu, 但是大多人却把他的定义扩展为"使用80486芯片的电脑". 两种说法我都接受, 但是我个人认为你的这种精确的说法和大众的定义相悖, 下次讲之前说明一下比较利于减轻混淆
作者: NORAWITHMYCALL    时间: 2012-5-18 20:34
扫帚 发表于 2012-5-18 20:25
咬文嚼字当然可以这么说, 比如人们常说的486其实就是cpu, 但是大多人却把他的定义扩展为"使用80486芯片的 ...

总体来说,晶体管计算机科学,主要涵盖3大领域,数学,电学,材料科学,每个领域都是堪称天才的人搞的,普通人看到那些专业的东西真有如天书,稍许懂点,也就只能简单表达了。
http://www.doc88.com/p-115612981069.html
这是晶体管频率的一点专业人士认为相对浅显的科普知识。
作者: defencelsj    时间: 2012-5-18 21:04
提示: 作者被禁止或删除 内容自动屏蔽
作者: darkangel308    时间: 2012-5-18 23:38
jhj9 发表于 2012-5-18 18:47
那你怎么不认为A家可以干脆就出一个堆满了双精度浮点单元的计算卡呢?
这样的通用计算能力就能强大起来吗 ...

不要激动,我只想说,提到双精度浮点性能不需要什么火星科技而已
作者: fineday    时间: 2012-5-19 12:10
darkangel308 发表于 2012-5-18 23:38
不要激动,我只想说,提到双精度浮点性能不需要什么火星科技而已

的确是这样,但是问题的关键在于需要付出多大的代价。实际上LZ所关心的重点在于NV用三分之一的寄存器资源实现了对手三分之二的DP性能,这意味着未来AMD如果要维持与NV同样的性能,需要多付出接近于半个GPU总晶体管规模的制造代价,这会造成可制造性的下降。而NV这边选择的空间就大了很多,就是这样一个情况。
作者: gzeasy2006    时间: 2012-5-21 09:41
gk110去除dp单元 去除ecc单元 还能剩下多少晶体管?
作者: gzeasy2006    时间: 2012-5-22 20:36
如果GK110做成显卡会不会去掉DP单元,去掉ECC单元呢?




欢迎光临 POPPUR爱换 (https://we.poppur.com/) Powered by Discuz! X3.4