NVIDIA系列连载四：GTX200核心大透视

iverlin · 发表于 2009-8-8 14:10

GTX200核心支持业界最先进的功耗控制技术 　　N卡从不片面追求高频率，即便工艺上较为落后，但功耗控制一直都做得不错，比如7900GTX的功耗远低于X1900XTX，8800GTX的功耗低于HD2900XT，8600GT稍低于HD2600XT/HD3650，8800GT和9600GT稍低于HD3870（以上均指满负载功耗，即TDP）。
　　● AMD率先支持GPU芯片级节能技术：

HD3870的待机功耗比86GT/26XT还低！

　　不过，在最新的HD3000系列显卡中，AMD首次将笔记本显卡节能技术PowerPlay植入了台式GPU中，使得A卡的在空闲、低负载模式下的功耗大幅降低。虽然PowerPlay技术对于3D满负载模式下的功耗无能为力，但毕竟电脑并不总是处在游戏状态，节能技术对于绝大多数用户来说都非常实用，而且也符合绿色环保的概念，因此A卡备受好评。
　　● NVIDIA另辟蹊径，Hybrid Power将显卡功耗降为零：
　　其实N卡也有自己的节能技术，那就是具有革命意义的Hybrid Power，通过使用nForce780a/750a等芯片组内部的集成显卡，HybridPower能够在2D模式下彻底关闭独立显卡，将显卡的功耗直接降为零！而在3D游戏模式时，可以在短时间内恢复显卡，不用重新启动系统就能进入全速3D状态。

9800GTX搭配780a SLI芯片组，开启Hybrid Power后的功耗相当于没插显卡

　　虽然具有革命意义的Hybrid Power技术非常强大，但它的局限性也很明显：仅支持9800GX2和9800GTX这两款高端显卡，仅支持NVIDIA的新一代AMD平台芯片组，暂时无法使用在Intel平台，这对于追求高性能的玩家来说，确实是个遗憾。

● GTX200核心架构图：并行计算架构和图形处理架构的统一体

　　● GTX280和GTX260显卡规格表

　　接下来就对GTX200核心的各个模块和技术参数进行全面讲解，如果有不太理解的地方，可以回过头来参照本页的图表。

GTX200核心大幅扩充流处理器
　　首先来看看GTX200核心的细节部分，和上代的G80/G92相比，几乎所有的微架构都作了调整，并大幅扩充规模：

　　G80/G92拥有128个流处理器，这些流处理器分为8组TPC（线程处理器簇），每组16个SP（流处理器），这16个SP又分为两组SM（多核流处理器），SM是不可拆分的最小单元，是8核心设计。因此G8X系列规格最低的显卡就是8个流处理器的8400GS和8400M G（笔记本显卡）。

　　GTX200将TPC数量从8个扩充至10个，而且在每个TPC内部，SM从2个增加到3个，SM依然是8核心设计。如此一来，GTX200核心的流处理器数量就是，8×3×10=240个，几乎是G80的两倍！
　　纹理单元部分，GTX200的每个TPC内部拥有8个TF，这样总共就是8×10=80个纹理单元。这里GTX200的纹理过滤单元和定址单元的数量是相等的，而G80的纹理定址单元只有纹理过滤单元的一半（事实上G92核心中TA和TF数量就相等了）。

　　● GTX200核心微架构改进
　　GTX200核心在流处理器、纹理单元数量上的扩充是很容易理解的，其实除了扩充规模之外，在架构的细微之处还有不少的改进，这些都有助于提高新核心在未来游戏或通用计算中的执行效能：
　　1. 每个SM可执行线程上限提升：G80/G92核心每个SM（即不可拆分的8核心流处理器）最多可执行768条线程，而GTX200核心的每个SM提升至1024条，而且GTX200拥有更多的SM，芯片实力达到原来的2.5倍！

　　2.每个SM的指令寄存器翻倍：GTX200与G80核心在SM结构上基本相同的，但功能有所提升，在执行线程数增多的同时，NVIDIA还将每个SM中间的Local Memory容量翻倍（从16K到32K）。LocalMemory用于存储SM即将执行的上千条指令，容量增大意味着可以存储更多的指令、超长的指令、或是各种复杂的混合式指令，这对于提高SM的执行效能大有裨益。

双倍寄存器的优势：代表DX10性能的3DMarkVantage得分直接提升15%

　　当前和未来的DX10游戏，越来越多的使用复杂的混合式Shader指令，一旦排队中的超长指令溢出或者在N个周期内都排不上队，那么就会造成效率下降的情况，此时双倍寄存器容量的优势就体现出来了。由于Local Memory并不会消耗太多晶体管，因此将其容量翻倍是很合算的。

iverlin · 发表于 2009-8-8 14:11

　　GTX200核心不惜成本启用512Bit显存 　　无论CPU还是GPU，在核心处理能力大幅增强的同时，对于外部总线的带宽也提出了更高要求，512Bit显存控制器被启用。
　　● AMD的512Bit环形总线显存控制器
　　首颗使用512Bit显存的GPU是AMD的R600，可惜这颗GPU的效能太差，根本用不到512Bit显存的海量带宽，通过其后续产品RV670核心的性能来看，512Bit相对256Bit的优势微乎其微，以至于AMD在下一代GPU中都放弃使用512Bit设计。

R600的内部1024Bit、外部512Bit环形总线架构

　　AMD使用的是环形总线（RingBus），显存控制器并不会直接从显存颗粒中读写数据，而是只把数据放在环形总线之中，然后程序自行通过环站取回所需数据包，从而减轻控制器复杂度和压力。但这种结构会使单个的存取操作的延迟变大，但总体来说能够提高大规模数据读取的命中率。
　　环形总线有很多优势，位宽扩充相对容易、PCB布线相对容易、显存频率可以轻松达到很高，但却又不得不面对延迟增加和效率降低的问题，位宽越大效率就越低，至少我们没有在R600身上看出512Bit环形总线能比256Bit强多少。

　　● NVIDIA的512Bit交叉总线显存控制器
　　NVIDIA方面，大家都知道G92核心未能超越G80，原因主要就出在显存位宽上面，G92虽然拥有更高的频率、更强的纹理单元，但是256Bit无论如何都无法超越384Bit，9800GTX只是勉强接近于8800GTX的性能，高带宽在DX10游戏和开高倍AA的情况下有着决定性作用！

G80的6个ROPs和6个64Bit显存控制器

　　而NVIDIA则是沿用了传统的交叉式总线（Crossbar），每组显存控制器都与光栅单元（ROP）和纹理缓存（L2）绑定，从G70到G80增加了两个64Bit控制器，这就构成了64×6=384Bit位宽。

GTX200核心的8个ROPs和8个64Bit显存控制器

　　现在从G80到GTX200，NVIDIA又增添了2个64Bit控制器，这就组成了64×8=512Bit位宽。Crossbar相比RingBus的优势就是数据存取延迟低，但是遇到大规模数据传输时，为了提高命中率就必须把控制器设计的相当复杂，由此导致晶体管开销很大：

显存控制器在GTX200核心中所占据的芯片面积仅次于流处理器

　　NVIDIA从G70的256Bit、到G80的384Bit、再到GTX200的512Bit，是一个循序渐进的过程，位宽越高设计难度和晶体管开销就越大，因此必须权衡付出的成本代价及性能收益、根据现有的制作工艺来决定是否使用512Bit控制器。
　　现在随着DX10游戏对带宽的要求日益苛刻，高位宽所获得的性能提升也很显著，因此在新一代GPU设计时，NVIDIA不惜成本启用了512Bit显存控制器，用以消除性能瓶颈。
　　数量和规格上的扩充是一目了然的，不过GTX200核心不止是堆积晶体管和扩充规模而已，在一些技术细节部分，GTX200的改进也很明显。

　　GTX200图形架构细节方面的改进
　　为了能够更加胜任于未来的DX10游戏，NVIDIA针对图形渲染的三大重要环节进行了改良：几何着色、纹理单元和光栅单元。
　　● 改进几何着色性能
　　几何着色（GeometryShader）是DX10的新增的着色器，它允许GPU来动态的生成和销毁几何图元数据，通过和新的数据流输出功能配合使用，许多以前无法实时使用的算法现在都可以在GPU中使用了。相比以往由CPU来处理简单的几何坐标变换，现在DX10渲染的效能增加不少（相同画质下DX10的效率高与DX9C），而且图形变换也可以做的更加复杂。
　　G8X相对于R6XX系列有着绝对的性能优势，但是它有个致命的缺点就是几何着色效能一般，这也成为ATI攻击NVIDIA的重要把柄，记得当时ATI在其内部演示PPT中指出，R600的理论几何着色性能可达G80的好几倍！

Geometry Shader性能

　　由于第一批DX10游戏对于几何着色的使用还不够广泛，因此G8X的弱点并没有体现出来，不过NVIDIA官方还是承认自己在几何着色方面确实不如ATI做的好。通过Rightmark 3D理论测试可以看出，HD3870的几何着色性能就要比8800GTX强不少，HD3870X2则更加强大。
　　在GTX200核心中，NVIDIA主要通过改进数据流输出（Stream Output）及帧缓冲（Frame BufferMemory）的方式，有效地提高了几何着色器的效能。数据流输出也是DX10新增的特性，它允许数据从顶点着色器或几何着色器中直接被传入帧缓冲，这种输出可以被传回渲染流水线重新处理，当几何着色器与数据流输出结合使用时，GPU不仅可以处理新的图形算法，还可以提高一般运算和物理运算的效率。GTX200的帧缓冲达到了G80的6倍之多，由此可以允许更多的数据往返于着色器之间，避免重复性的数据处理，提升执行效能。
　　● 纹理单元进一步增强，但所占比率下降
　　G92核心总共拥有64个TA和64个TF（G80是32TA、64TF），而GTX200拥有80个TA和80个TF，数量上的增加只是表象，实际上最关键之处就是流处理器与纹理单元的比率：

　　G92与GTX200核心每个TPC拥有的纹理单元数目相同，但每个TPC所包括的流处理器数量增加了50%，如此一来流处理器与纹理单元的比率直接从2:1上升至3:1。这与ATI前两年所鼓吹的“3:1架构”不谋而合，虽然两家产品的架构相差十万八千里，但针对游戏的渲染模式作出调整的方针是一致的。
　　虽然纹理单元比例下降了，但GTX200核心的每个纹理单元的效能却增加了，通过优化指令执行的调度机制，在实际游戏中打开高倍各向异性纹理过滤时，GTX200的效率要比G9X高22%左右。
　　● 光栅单元规模增大，高倍抗锯齿成为可能
　　G8X/G9X的ROP单元可以说是革命性的，它首次对8xMSAA（多重采样抗锯齿）提供支持，当然还支持最高精度的SSAA（超级采样抗锯齿）和TSAA（透明抗锯齿），此外NVIDIA独创的CSAA（覆盖采样抗锯齿）让人眼前一亮，它能够以接近4xMSAA效能实现8xCSAA甚至16xCSAA的精度，让游戏画质得到了近乎免费的提升。

失落星球、冲突世界、英雄连等许多游戏都直接支持高倍CSAA

　　近两年时间过去了，现在我们可以发现绝大多数新出的游戏（尤其是DX10游戏）都内置了对CSAA技术的支持，玩家可以在普通MSAA的基础上选择性能损失很小、但精度提升很大的CSAA。相比之下对手ATI所倡导的CFAA（可编程过滤抗锯齿）由于自身问题（边缘模糊）几乎被玩家所无视，也没有任何游戏对CFAA提供内置支持。
　　不过G8X/G9X存在的问题就是8xMSAA的效率不高，在8xMSAA基础上衍生出来的两种CSAA（8xQAA和16xQAA）效率自然更差，在很多复杂游戏中几乎没有实用性。为此在GTX200这一代GPU中，NVIDIA将ROP规模从24个扩充至32个，单个ROP在执行8xMSAAZ轴取样操作时的速度可达上代的两倍，由此使得高倍AA的效能得到了明显改善，加之显存容量的带宽增加不少，现在的旗舰显卡可以在很多主流DX10游戏中开启8xMSAA（或8xQAA、16xQAA）流畅运行！
　　GTX200并行计算架构方面的改进
　　● 提高双指令执行（Dual-Issue）效率
　　
　　在每个SM（多核流处理器）内部，除了包括8个流处理器之外，还有包括1个SFU（Special Function Unit，特殊功能单元），这个处理单元可以用来辅助SP处理特殊的函数运算、插值属性的顶点+像素着色、执行浮点乘法运算指令（MUL）。
　　GTX200核心的每个流处理器都能够单独的执行一条乘加指令（Multiplu-Add，也就是同时执行一条乘法和一条加法指令），与此同时SFU还能够在相同的时钟周期执行另外一条乘法指令，相当于每个流处理器都能同时执行3条指令！
　　如此一来，GTX200的浮点运算能力计算公式为：流处理器数×指令数×频率＝240×3×1296=933GFLOPS。我们知道，G80/G92刚发布时并不支持Dual-Issue，所以其浮点运算能力仅为128×2×1350=346GFLOPS，后来NVIDIA为其追加了Dual-Issue支持，理论浮点运算能力就达到了518GFLOPS。
　　不过Dual-Issue对于3D游戏的贡献非常微小，只是在特殊条件下比如通用计算时才会有显著的改善。此次NVIDIA将GTX200核心设计成为图形渲染架构和并行计算架构的统一体，对于Dual-Issue的效率进一步优化，达到了93%-94%之高，这样的双指令执行效率可以让GTX200的实际性能无限接近于理论值！
　　● 支持双精度64Bit浮点运算
　　IEEE754标准硬性要求支持单精度32Bit浮点，双精度64Bit浮点也是标准之一但只是可选，但双精度64Bit浮点运算正是高精度科学计算（如工程分析、财政计算、计算机模拟）梦寐以求的功能。GTX200提供了对双精度的支持，显然更有利于进军通用计算领域，向传统集群式CPU超级计算机发起挑战！

　　GTX200核心的每一个SM都包括了一个双精度64Bit浮点运算单元，这样GTX200就相当于一个30核心的双精度64Bit处理器，但GPU的频率要比CPU低很多，因此GTX200的理论64Bit浮点运算能力大概与Intel顶级八核心至强处理器相当。
　　双精度的运算量是单精度的八倍，因此理论浮点运算能力只有原来的1/8，GTX280的双精度64Bit浮点运算能力大概在90GFLOPS左右。

　　GTX200核心支持业界最先进的功耗控制技术
　　N卡从不片面追求高频率，即便工艺上较为落后，但功耗控制一直都做得不错，比如7900GTX的功耗远低于X1900XTX，8800GTX的功耗低于HD2900XT，8600GT稍低于HD2600XT/HD3650，8800GT和9600GT稍低于HD3870（以上均指满负载功耗，即TDP）。
　　● AMD率先支持GPU芯片级节能技术：

HD3870的待机功耗比86GT/26XT还低！

　　不过，在最新的HD3000系列显卡中，AMD首次将笔记本显卡节能技术PowerPlay植入了台式GPU中，使得A卡的在空闲、低负载模式下的功耗大幅降低。虽然PowerPlay技术对于3D满负载模式下的功耗无能为力，但毕竟电脑并不总是处在游戏状态，节能技术对于绝大多数用户来说都非常实用，而且也符合绿色环保的概念，因此A卡备受好评。
　　● NVIDIA另辟蹊径，Hybrid Power将显卡功耗降为零：
　　其实N卡也有自己的节能技术，那就是具有革命意义的Hybrid Power，通过使用nForce780a/750a等芯片组内部的集成显卡，HybridPower能够在2D模式下彻底关闭独立显卡，将显卡的功耗直接降为零！而在3D游戏模式时，可以在短时间内恢复显卡，不用重新启动系统就能进入全速3D状态。

9800GTX搭配780a SLI芯片组，开启Hybrid Power后的功耗相当于没插显卡

　　虽然具有革命意义的Hybrid Power技术非常强大，但它的局限性也很明显：仅支持9800GX2和9800GTX这两款高端显卡，仅支持NVIDIA的新一代AMD平台芯片组，暂时无法使用在Intel平台，这对于追求高性能的玩家来说，确实是个遗憾。

iverlin · 发表于 2009-8-8 14:12

本帖最后由 iverlin 于 2009-8-8 14:16 编辑

　　● GTX200加入芯片级节能技术，待机功耗仅25W！
　　新一代GTX200系列显卡自然能够支持Hybrid Power节能技术，除此之外，NVIDIA还在芯片设计之初就考虑到了节能的需要，加入了类似于PowerPlay的笔记本显卡节能技术，大幅降低了显卡在中低负载模式下的功耗。

能耗管理

　　不管CPU还是GPU，芯片级节能技术的原理其实都差不多，主要方式有：降低频率、降低芯片电压、动态关闭闲置的功能模块、使部分晶体管处在深度休眠状态等。

　　和AMD的PowerPlay技术相比，NVIDIA GTX200的节能技术更加智能，它并不存在固定的2D/3D频率，而是由GPU根据3D负载自行判定，频率可以在较大的范围内无极变速，即便是在3D模式下也能关闭部分模块，从而做到物尽其用，将浪费减至最低。
　　通过NVIDIA官方公布的数据来看，8800Ultra的待机功耗高达60W，而GTX280待机功耗只有25W，甚至比中端主流9600GT/8600GTS的待机功耗还要低！要知道GTX200是一颗拥有14亿晶体管的怪兽核心，其功耗控制如此完美，令人叹为观止！
　　● GTX280显卡在四种典型工作模式下的功耗：

Hybrid Power模式：0W
2D/待机模式：25W
高清硬解码模式：35W
3D游戏模式：236W（TDP，峰值）

　　当然，GTX280显卡的TDP还是非常恐怖的，比225W的HD2900XT还要高，不过考虑到GTX280极其强悍的性能，为此付出236W的代价也是值得的。NVIDIA表示，虽然GTX280的设计功耗再创新高，但显卡的每瓦性能也超过了所有前辈，达到了预期的效果。

iverlin · 发表于 2009-8-10 09:56

没人顶~~~~自己顶

chenle · 发表于 2009-8-10 09:59

俺来顶一下

帐号		自动登录	找回密码
密码			注册

NVIDIA系列连载四：GTX200核心大透视

浏览过的版块