POPPUR爱换

标题: 关于G80架构的一个问题 [打印本页]

作者: eeerrr 时间: 2007-5-29 09:10
标题: 关于G80架构的一个问题
既然G80是设计为完全标量运算的模式，为什么还要分为4组？不分组效率不是更高吗？

作者: mooncocoon 时间: 2007-5-29 10:01
模块化
实际上这还不是最低层的模块:)

作者: eeerrr 时间: 2007-5-30 12:46
标题: 回复 #2 mooncocoon 的帖子
为了模块化也不应该过于牺牲效率

作者: 来不及思考 时间: 2007-5-30 13:16
提示: 作者被禁止或删除内容自动屏蔽

作者: mooncocoon 时间: 2007-5-30 13:22
我意思是“区域”，不知道楼主是不是同样的意思……

作者: iCer 时间: 2007-5-30 13:32
方便阉割成低端不用重新设计

作者: eeerrr 时间: 2007-5-30 14:05
标题: 回复 #4 来不及思考的帖子
128sp分4组，4*32架构

作者: fineday 时间: 2007-5-30 14:08
那个是制造层面的

作者: 来不及思考 时间: 2007-5-30 14:40
提示: 作者被禁止或删除内容自动屏蔽

作者: mooncocoon 时间: 2007-5-30 14:45
他指这个~？

作者: 来不及思考 时间: 2007-5-30 14:47
提示: 作者被禁止或删除内容自动屏蔽

作者: Edison 时间: 2007-5-30 15:07
g80的标量设计体现在每个SP都有独立的控制器、寄存器堆，向量指令会被拆分成若干条指令以轮流的方式在同一个SP上执行。

分组主要是可以简化上游控制电路，例如一个SM执行同一类型的shader指令。

对称的画法可以让架构图更加美观，把4个sfu画成同一个是因为sfu上的mul指令执行需要4个周期，但是这不代表SP是4个一组的。

简单地来说就是：

G80=8TPC

TPC=2SM

SM=8SP

SP=MAD+SFU

作者: 来不及思考 时间: 2007-5-30 15:27
提示: 作者被禁止或删除内容自动屏蔽

作者: eeerrr 时间: 2007-5-30 16:22
以前不是有个phk G80的架构图，的确分了4组，一组32个sp，似乎不是为了美观

作者: 来不及思考 时间: 2007-5-30 16:24
提示: 作者被禁止或删除内容自动屏蔽

作者: 来不及思考 时间: 2007-5-30 16:30
提示: 作者被禁止或删除内容自动屏蔽

作者: eeerrr 时间: 2007-5-30 17:15
标题: 回复 #16 来不及思考的帖子
不是记错了，phk的图根本不是这么回事，不过相信你的图更有权威性

作者: wowli741 时间: 2009-4-19 23:13
不懂哦，诶

作者: dajun 时间: 2009-4-20 16:15
正好想知道这个问题

作者: ic.expert 时间: 2009-4-20 19:36
lz说分组估计是说32thread分4组吧？我来解释一下，从SW角度来说，分组是为了给你点限制，让你在防存的时候尽量一起执行仿存指令，从而高效利用BUS。至于HW角度，对于SW工程师来说理解这个问题估计比较困难，500字以内解释不清楚。

作者: Eji 时间: 2009-4-20 20:30
這個限制是為了配合硬體設計，畢竟G80它底層是4D SIMD unit的綁定，所以這些和issue time slot關係比較大。

作者: 克之 时间: 2009-4-27 13:55
我上来学习。。。好高深，看不大懂

作者: gamevip 时间: 2009-4-29 01:19
我上来学习。。。好高深，看不大懂.看高手们讲解。

作者: complexmind 时间: 2009-5-6 09:46

這個限制是為了配合硬體設計，畢竟G80它底層是4D SIMD unit的綁定，所以這些和issue time slot關係比較大。
Eji 发表于 2009-4-20 08:30 PM

能请E大说具体些么？小弟想知道，4D变成1D*4是在编译器上实现的还是在硬件上提供了将多个1D打包装入4D一起运算来实现逻辑上的1D*4？那么不同指令之间的延迟怎么解决呢？
肯请E大不吝赐教，谢谢！

作者: Edison 时间: 2009-5-6 11:51
其实 G80 或者 GT200 的 front-end 细节大家知道的并不多，只是从执行的效果来看，可以看作是 scalar 的效果。

作者: complexmind 时间: 2009-5-6 12:51

其实 G80 或者 GT200 的 front-end 细节大家知道的并不多，只是从执行的效果来看，可以看作是 scalar 的效果。
Edison 发表于 2009-5-6 11:51 AM

那这样说的话，G80所谓的标量设计就全是逻辑层面的东西，也就是说，只是程序员看到的结构，而真正的硬件实现的方法是4D SIMD，这也正是英伟达设计的巧妙之处了吧？感觉这个具体操作方法可是商业机密了，呵呵

作者: ic.expert 时间: 2009-5-6 20:23

那这样说的话，G80所谓的标量设计就全是逻辑层面的东西，也就是说，只是程序员看到的结构，而真正的硬件实现的方法是4D SIMD，这也正是英伟达设计的巧妙之处了吧？感觉这个具体操作方法可是商业机密了，呵呵
complexmind 发表于 2009-5-6 12:51

这个解释也初学者很合适：〉
相当于一种封装。不过要是把4D改成8D，那就圆满了。至少在图形模型下这个解释没有问题。

在CUDA模式下，还需要更深入的理解。

欢迎光临 POPPUR爱换 (https://we.poppur.com/)