本帖最后由 贵甲 于 2009-11-1 12:19 编辑
既然edsion大文早已出,我这文存在的价值其实不大,很大程度也都是ppt的内容,但对于部分用自己的观点进行了扩展。
AMD自从R600的失败后,从RV670开始剑走偏逢玩起小核心策略,RV670 VS G92、RV770 VS GT200虽然在绝对性能上不及Nvidia的产品,但在产品的性能/成本比上给Nvidia造成不少麻烦,在大家都以为GT200是Nvidia的最后一代大核心GPU产品之时,Nvidia的CEO黄仁勋在今年9月30日举办的GTC大会上正式公布了GT200的下一代架构Fermi,其依然继续顽固的沿用老的大核心策略,拥有超过30忆晶体管,使得其在规模上远远超过RV870的21亿。通常在架构设计上没有很大失误的化,性能同规模基本是成正比的,Fermi超过Rv870没有什么悬念,不过对于性能/规模比颇为出色的RV870,想要在性能/成本比上超越并不简单。当然其在架构方面同之前的G80和G80的延续GT200也发生了较大的变化,我们需要注意以下几点:
除了单纯的将Shader规模扩大,从GT200的240组扩大到512个以外,还强调其为CUDA Core,而不再是仅仅单纯的Shader,这也是进一步强调Fermi的通用运算能力。
RV770由于激进甚至冒险的采用DDR5显存提高了频率,使得达到相同带宽可以用更少的带宽位数,相应的简化了GPU结构,在成本上获得了优势,而Fermi也将采用DDR5规格显存,但其在带宽上同时也由256bit扩充到384bit,整体带宽将会十分恐怖。虽然RV770在DDR5时引入就调增加了VRAM ECC,但从GPU架构从寄存器,到缓存、再到显存全面加入ECC校验,Fermi还是GPU中的第一例,要求高可靠性的特殊用户也可以更为放心由Fermi构架的HPC和工作站,而不用担心数据出错。
之前G80和GT200每个SM有16KB的共享存储空间,而在Fermi架构这个空间加到大到64KB(16KB共享存储空间+48KB L1 Cache,可配置),此外还有共享768KB L2 Cache,L2 Cache分成6组128KB分别对应6组GDDR5内存控制器,这样的设计进一步提升了缓存的命中率,而不用频繁的访问DRAM,达到进一步减小访问延迟和提升带宽的目的。
RV770的浮点运算能力高达1Tflops,超过了GT200,但这仅仅是单精度浮点运算能力,而双精度浮点运算能力要大打折扣,其在实际应用单精度限制较多。因此Fermi重点提升了双精度的浮点运算能力,达到GT200的八倍,这对通用计算好处颇多,这样提升较为有意义,而不像国内某些HPC使用RV770,单纯提升理论运算能力和Linpack性能,而缺乏实用价值。浮点运算能力的提升在很大程度是得益于前面提到的L1和L2 Cahe所带来的带宽提升和延迟的降低。
并行核心程序执行(ConcurrentKernel Execution),可以允许程序将多个不同原版顺序执行的kenels为整个GPU进行优化,使得在多个不同的任务在GPU并行执行。这样的特性对于3D好处并不大,因为3D应用本身的并行度讲很高,CKE而对通用计算较为有意义。
CUDA现在在C以外更增加了对C++的支持,这在一定程度继续扩展了CUDA的应用范围,也进一步的降低了开发门槛,使得其对于程序员更为友好,使得CUDA会得到更为充分的利用。
前面我们已经过多的提及Nvidia自己的CUDA,Fermi在除了提升本身的CUDA性能和功能以外,也很好的提供了对通用标准OpenCL和DirectX11里的Direct Compute的支持。其实OpenCL和Direct Compute在规划之初很大程度就参考了CUDA规范,线程块、共享储存器、全局储存器等程序模型都颇为接近,因此从根本以CUDA为核心的Fermi对于OpenCL和Direct Compute的执行效能也不用怀疑。
其实从Fermi的以上改进,我们可以发现Nvidia不再只是局限于娱乐级显卡市场,在产品研发上更为注重通用计算领域,试图染指超算市场,从后继的橡树岭Fermi采购和黄仁勋北京CUDA卓越中心之行进可以初见端倪。Tesla不再仅仅只是娱乐显卡的副产品,而Nvidia在自身企业定位上也随之发生一些改变,不再将自己定位于出卖GPU设计的硬件厂商,而更多的作为软件和硬件结合的提供商,同企业用户和个人用户站在一起,为其提供通用计算、专业设计或者娱乐方面的解决方案。对于务实的企业用户而言,仅需要花费1/10的成本组建超算是颇为划算的,并且对于企业Tesla是生产工具可以创造价值,而不像Geforce只是玩具,因此可以接受更高的价格,也意味着可以跟Nvidia带来更为丰厚的回报。如天河一号一个项目将采购了至少2560块的R700,价格单块按3500计算,单比合同金额近高达896万元,算上备件和技术支持,AMD在单个企业项目收入就过千万,虽然R700架构并不合适通用技术,选择Tesla才是更加选择,但这也足以说明HPC市场之所在,对于Nvidia而言无疑是巨大的诱惑。
虽然在目前Fermi并没有被提及游戏性能以及游戏方面DX11策略,我想这不是nvidia没有东西可谈,而只是在这个真空期避免助长竞争对手DX11气势的策略,凭借the way构建的同开发商良好关系,我觉得这个问题并不用我们来担心。
|