NVIDIA Fermi GF100 及 GF1XX 架构讨论

complexmind · 发表于 2010-8-9 21:42

本帖最后由 complexmind 于 2010-8-9 22:11 编辑

看了各位高手（主要是P大和RacingPHT）的发言，有几个想法和大家分享一下，如有不对还请各位各位高手指教：
产生GPU的初衷就是根据3D绘图运算的特点来优化与订制硬件实现机器结构来达到晶体管比CPU较少或者比CPU结构简单易于制造的情况下依然能跑图形计算比CPU高数个数量级。
3D绘图计算的特点是：1.部分计算算法是相对固定的：如三角形setup，光栅化
                              2.各个像素之间的计算是相关性很弱
于是有了传统的GPU构架主题思想：
   相对固定的前端
   利用高度并行性来掩盖单线程的缓慢与相对较慢的Cache或者memory读写速度
但是并行度提升到一定的程度的时候，对性能的提升就到达了瓶颈了，并且提升并行度并不能提升所有任务的执行速度，所以对GPU通用性能帮助不大，于是NV在费米的设计思想上就相对传统GPU做出变更：
   提升ＧＰＵ的单线程性能，适当调整对并行度的追求，以期达到均衡
   我这里说“调整”对平行度的最求，指NV没有片面最求同时并行线程数，其实费米的并行能力比上代强大了很多
   所以现在GPU越来越像CPU了，想原来在GeForce256时代就有个好像叫iceboy的公司在GPU内集成Cache被评论十分激进= =|||
   我个人觉得GPU的结构就决定它是用针对特定的任务订制硬件构架，牺牲硬件通用性来换取特定任务的高性能，就像DSP一样，所以归根结底只能是协处理器的归宿，而取代CPU不太可能。虽然现在半导体制造技术比以往强大，但是在同一制造工艺的基础上对特定任务通用硬件不可能比专用硬件跑得快，通用性和性能就是矛盾的，所以GPU的通用性之路我持悲观态度。
   第二对费米支持C++的问题上我有点迷惑，按理说高级语言的支持和硬件的结构相关性不是很大吧？按一般教科书上的说法两者不是在一个层次上的东西。是不是说对特定的某些硬件有些高级语言的编译器无法编写出来？也就是说，硬件的“通用性”要提升到一定程度才能支持某些具有高级语言特点的语言，编写这些语言的编译器才是可能的？
   小弟才疏学浅，本来想学电子的可是最后学的光电专业，所以很多不明白的地方，希望大虾能不吝赐教！

glpgyf · 发表于 2010-9-21 21:07

大家有没有实际应用通用计算的，感觉怎么样啊？

Edison · 发表于 2010-9-21 23:18

大家有没有实际应用通用计算的，感觉怎么样啊？
glpgyf 发表于 2010-9-21 21:07

http://forum.beyond3d.com/showthread.php?t=58195

lik · 发表于 2010-9-22 12:31

所谓的支持C++主要是指dynamic address binding, 就是说函数调用时跳转的地址是动态决定, 而不是编译器决定的. 这个主要是为了支持C++的多态, 比如你可以再定义函数的时候传一个父类的对象, 然后调用父类的member function, 但是具体运行的时候传进去的对象可以是子类也可以是父类的, 调用的member function可以是子类的也可以的父类的. 具体程序执行的时候跳转的地址是动态决定. Fermi有这样的dynamic address binding的能力. 此前的GPU都没有.

haotia · 发表于 2010-9-30 19:17

能否说一下104的情况，GPC与100相比有些什么具体不同。

Edison · 发表于 2010-9-30 20:26

能否说一下104的情况，GPC与100相比有些什么具体不同。
haotia 发表于 2010-9-30 19:17

GPC 的功能一样呀，都是一个 GPC 对应一个三角形的渲染，只是包含于 GPC 的 Streaming Multiprocessor 内的 SP 数量规模增加了 50%，而且引入了双发射，可以从同一个 warp 内抓出不相干的指令并行执行。

Edison · 发表于 2010-10-23 19:19

你们说得很高深,我只能学习了. 我想问,即使你编译成了通过GPU跑的程序代码,调入也是通过CPU啊,而CPU不能执 ...
蒙大拿发表于 2010-10-23 18:41

CUDA kernel 是递交给 GPU 执行而不是 CPU.

Edison · 发表于 2011-3-29 17:49

去年的 HPG10 上，有一篇名为 “Hardware Implementation of Micropolygon Rasterization with Motion and Defocus Blur” 的论文，对硬件光栅化处理进行了不少有趣的探讨，其中的 ”NOBLUR rasterization unit” 可以在较低的电力消耗和面积占用下达到非常高的吞吐率。

Current GPUs rasterize micropolygons (polygons approximately one pixel in size) inefficiently. Additionally, they do not natively support triangle rasterization with jittered sampling, defocus, or motion blur. We perform a microarchitectural study of fixed-function micropolygon rasterization using custom circuits. We present three rasterization designs: the first optimized for triangle micropolygons that are not blurred, a second for stochastic rasterization of micropolygons with motion and defocus blur, and third that is a hybrid combination of the two.

Our designs achieve high area and power efficiency by using low-precision operations and rasterizing pairs of adjacent triangles in parallel. We demonstrate optimized designs synthesized in a 45 nm process showing that a micropolygon rasterization unit with a throughput of 3 billion micropolygons per second would consume 2.9 W and occupy 4.1 mm2 which is 0.77% of the die area of a GeForce GTX 480 GPU.

http://graphics.stanford.edu/papers/hwrast/hw_rast_hpg10.pdf

Edison · 发表于 2011-7-2 19:16

对 Fermi 的 SM 微架构在性能/耗电方面的极深入测试，可以看作是官方数据了：
http://cva.stanford.edu/publications/2011/gebhart-isca-2011.pdf

帐号		自动登录	找回密码
密码			注册

NVIDIA Fermi GF100 及 GF1XX 架构讨论

浏览过的版块