POPPUR爱换

标题: 关于G80架构的一个问题 [打印本页]

作者: eeerrr    时间: 2007-5-29 09:10
标题: 关于G80架构的一个问题
既然G80是设计为完全标量运算的模式,为什么还要分为4组?不分组效率不是更高吗?
作者: mooncocoon    时间: 2007-5-29 10:01
模块化
实际上这还不是最低层的模块:)
作者: eeerrr    时间: 2007-5-30 12:46
标题: 回复 #2 mooncocoon 的帖子
为了模块化也不应该过于牺牲效率
作者: 来不及思考    时间: 2007-5-30 13:16
提示: 作者被禁止或删除 内容自动屏蔽
作者: mooncocoon    时间: 2007-5-30 13:22
我意思是“区域”,不知道楼主是不是同样的意思……
作者: iCer    时间: 2007-5-30 13:32
方便阉割成低端 不用重新设计
作者: eeerrr    时间: 2007-5-30 14:05
标题: 回复 #4 来不及思考 的帖子
128sp分4组,4*32架构
作者: fineday    时间: 2007-5-30 14:08
那个是制造层面的
作者: 来不及思考    时间: 2007-5-30 14:40
提示: 作者被禁止或删除 内容自动屏蔽
作者: mooncocoon    时间: 2007-5-30 14:45
他指这个~?
作者: 来不及思考    时间: 2007-5-30 14:47
提示: 作者被禁止或删除 内容自动屏蔽
作者: Edison    时间: 2007-5-30 15:07
g80的标量设计体现在每个SP都有独立的控制器、寄存器堆,向量指令会被拆分成若干条指令以轮流的方式在同一个SP上执行。

分组主要是可以简化上游控制电路,例如一个SM执行同一类型的shader指令。

对称的画法可以让架构图更加美观,把4个sfu画成同一个是因为sfu上的mul指令执行需要4个周期,但是这不代表SP是4个一组的。

简单地来说就是:

G80=8TPC

TPC=2SM

SM=8SP

SP=MAD+SFU
作者: 来不及思考    时间: 2007-5-30 15:27
提示: 作者被禁止或删除 内容自动屏蔽
作者: eeerrr    时间: 2007-5-30 16:22
以前不是有个phk G80的架构图,的确分了4组,一组32个sp,似乎不是为了美观
作者: 来不及思考    时间: 2007-5-30 16:24
提示: 作者被禁止或删除 内容自动屏蔽
作者: 来不及思考    时间: 2007-5-30 16:30
提示: 作者被禁止或删除 内容自动屏蔽
作者: eeerrr    时间: 2007-5-30 17:15
标题: 回复 #16 来不及思考 的帖子
不是记错了,phk的图根本不是这么回事,不过相信你的图更有权威性
作者: wowli741    时间: 2009-4-19 23:13
不懂哦,诶
作者: dajun    时间: 2009-4-20 16:15
正好想知道这个问题
作者: ic.expert    时间: 2009-4-20 19:36
lz说分组估计是说32thread分4组吧?我来解释一下,从SW角度来说,分组是为了给你点限制,让你在防存的时候尽量一起执行仿存指令,从而高效利用BUS。至于HW角度,对于SW工程师来说理解这个问题估计比较困难,500字以内解释不清楚。
作者: Eji    时间: 2009-4-20 20:30
這個限制是為了配合硬體設計,畢竟G80它底層是4D SIMD unit的綁定,所以這些和issue time slot關係比較大。
作者: 克之    时间: 2009-4-27 13:55
我上来学习。。。好高深,看不大懂
作者: gamevip    时间: 2009-4-29 01:19
我上来学习。。。好高深,看不大懂.看高手们讲解。
作者: complexmind    时间: 2009-5-6 09:46
這個限制是為了配合硬體設計,畢竟G80它底層是4D SIMD unit的綁定,所以這些和issue time slot關係比較大。
Eji 发表于 2009-4-20 08:30 PM

能请E大说具体些么?小弟想知道,4D变成1D*4是在编译器上实现的还是在硬件上提供了将多个1D打包装入4D一起运算来实现逻辑上的1D*4?那么不同指令之间的延迟怎么解决呢?
肯请E大不吝赐教,谢谢!
作者: Edison    时间: 2009-5-6 11:51
其实 G80 或者 GT200 的 front-end 细节大家知道的并不多,只是从执行的效果来看,可以看作是 scalar 的效果。
作者: complexmind    时间: 2009-5-6 12:51
其实 G80 或者 GT200 的 front-end 细节大家知道的并不多,只是从执行的效果来看,可以看作是 scalar 的效果。
Edison 发表于 2009-5-6 11:51 AM

那这样说的话,G80所谓的标量设计就全是逻辑层面的东西,也就是说,只是程序员看到的结构,而真正的硬件实现的方法是4D SIMD,这也正是英伟达设计的巧妙之处了吧?感觉这个具体操作方法可是商业机密了,呵呵
作者: ic.expert    时间: 2009-5-6 20:23
那这样说的话,G80所谓的标量设计就全是逻辑层面的东西,也就是说,只是程序员看到的结构,而真正的硬件实现的方法是4D SIMD,这也正是英伟达设计的巧妙之处了吧?感觉这个具体操作方法可是商业机密了,呵呵
complexmind 发表于 2009-5-6 12:51


这个解释也初学者很合适:〉
相当于一种封装。不过要是把4D改成8D,那就圆满了。至少在图形模型下这个解释没有问题。

在CUDA模式下,还需要更深入的理解。




欢迎光临 POPPUR爱换 (https://we.poppur.com/) Powered by Discuz! X3.4