|
在底层单元的设计上,NV公司的G80系列应对措施是选择了基于1D标量运算的Scalar ALU来替代传统的Vector ALU。虽然1D的标量单元在利用率上不会出现矢量单元的闲置,但要达到4D SIMD运算单元的运算能力,运算单元的数量和频率都需要提升。也就是说,如果同频的Shader单元,4个1D和1个4D才能基本形成均势。
可以简单的计算一下R600和G80的运算能力,R600具备64个4D+1D的SIMD单元,如果它运行在750MHz下,那么它的理论吞吐能力为:750MHz*64个*((1+2)*4)FLlops=576Flops/s,而目前的G80DE MIME架构的频率为1450MHz,那么它的理论吞吐能力为:1350MHz*128个*((1+2)*1)=518.4Flops/s。
从目前的CUDA上的信息来看,G80的Scaler做MUL+MAD运算还不完美,如此看来G80的理论运算能力还要打点折扣,那么即使R600的Co-Issue失效,面对G80,R600在Shader的运算能力上仍旧具有相当大的优势。64*4的架构面对128*1的架构,在目前的显卡应用中显得更加务实,这就是R600坚持继续使用较为传统的矢量运算单元(G80为标量)的原因。
在晶体管的使用上,G80的架构看起来就没那么务实,4个1D的ALU不要要使用4个独立的发射端口,控制和辅助资源也同时需要4份,这比R600的1个4D+1D的矢量运算单元开销高出不少。换言之,同样性能下,R600所需要的晶体管更少,或者说使用同样多的晶体管,在Shader Power上R600会更为强大! |
|