|
就在Intel和AMD为CPU+GPU融合技术而开展新一轮争霸赛的时候,英伟达?(NVIDIA?)却另辟蹊径,通过移动处理器Tegra 2一举拿下了Android平台(智能手机+平板电脑)34.4%的市场份额,据分析第二季度市占率有望扩大至48.6%。而传统的X86处理器在平板领域的市占率还不足5%。 在移动领域辉煌的表现让英伟达股价大幅飙升,但这并不意味着英伟达将放弃PC市场。由于没有处理器产品及相关技术授权,让英伟达在PC领域屡受挫折,但没有人能阻止英伟达的野心,事实上早在三年前英伟达就已经启动了CPU研发计划,而Tegra的卓越表现以及微软Windows 8将支持ARM架构处理器的消息,更是让英伟达看到了希望,打败X86的机会终于要来了……
英伟达首个通用CPU开发计划"Project Denver"不仅对于CPU+GPU混合加速计算是一个里程碑,同时对于GPU计算(GPU Computing)能力的突破也是不可或缺的存在。英伟达内部人士透露,其实Project Denver在距今3年半前已经开始初步谋划,初始目的是为了提高GPU的并行计算性能,以及更好对GPU内部指令进行排列管理,需要更强大的处理器,因此开始初步研究CPU的开发。不过途中突然生变:微软下一代操作系统Windows 8宣布支持ARM架构处理器,英伟达也随之对计划作出改变。
2011年7月下旬在东京六本木举行的GTC Workshop Japan 2011大会上,英伟达日本分公司的馬路徹做了名为GPU架构和GPU计算入门的演讲,其中说明了GPU计算能力的现状。
馬路徹表示,“由于GPU本身的架构,半导体集成度的增加主要提高的是并行计算性能。即使是现在每年性能提高幅度也有74%左右。”此外,GPU和CPU并行处理性能差也将越拉越大,以浮点运算计,2001年的显示核心浮点性能是当时CPU的30倍,而这一差距在今日已经拉大到1000倍,今后也将继续扩大下去。
自从英伟达支持DX10的统一渲染架构G80核心发布以来,半导体工艺的进步使得GPU内置的核心(流处理器)数量越来越多,GPU基础架构改良速度对比CPU也越来越快。GPU的通用计算能力在这几年来得到很大提高。
因为GPU起初是为图形处理设计,对指令集的依存度很低,即使再多线程数量也仍然能保持并行处理性能维持在高水平不变。举例来说,对于3D角色的反射光计算,每个多边形反射光计算中法线处理互不相干,因此多边形数量再多也不会造成瓶颈,GPU的运算能力可以充分发挥。
因此,科学运算中最适合利用GPU强大的并行计算能力,馬路徹表示,英伟达近年来所力推的Tesla加速卡就是例子,同时取得了很多成果。
英伟达在G80架构中首次在芯片和流处理器(SM)级别都加入了线程管理机能"Thread Scheduler",此后随着图形核心的发展,在Fermi架构上Thread Scheduler进化为"Gigathread Engine",使得并行运算性能进一步得到大幅提高。
但是,在CUDA Core数量最大已经达到512个的况下,如果再增加势必会给线程管理模块部分带来更高负荷,甚至有发热过高烧毁的危险。因此,为了使GPU的并行计算性能维持优势,需要搭载更加强力的线程控制及管理模块,Project Denver正是为此诞生。
英伟达负责产品市场部门的执行副总裁Ujesh Desai确认了Project Denver从三年前就已经开始开发,目标是实现CPU和GPU的统合。
受微软宣布下代操作系统Windows 8将正式支持ARM架构的影响,英伟达原本的ARM核心CPU业务范围也将扩大。在3月召开的投资者会议Financial Analyst Day 2011上,英伟达总裁兼CEO黄仁勋宣布,Denver的核心将使用未来的Tegra处理器。
虽然黄仁勋的说法摆在那里,不过看起来Project Denver和Tegra的关系不是那么简单:英伟达移动业务总经理Micheal Rayfield称:“Project Denver和Tegra毫无关系”。他说:“用于移动业务的Tegra最注重目标是省电性能,将不会冒进,沿着ARM提供的Roadmap进行SoC开发。”“Kal-El将是Cortex-A9架构四核处理器,Wayne也自然会沿用下一架构。”表明了Wayne将使用Cortex-A15架构。
英伟达首席科学家Bill Dally在SC10大会上的演讲内容中透露,Echelon为128个SM模块和Project Denver的基础名为Latency Processor的8个CPU核心所组成,其中每个SM模块含有8个CUDA Core和独立的L0 Cache。据此计算,Echelon芯片整体含有8*128=1024个CUDA Core。
此外,黄仁勋也曾经发表过关于Project Denver性能的评论,他在GPU Technology Conference 2010会议上曾经表示,将GPU和现有的ARM架构CPU(Cortex-A9)整合后,整数运算性能将是原有的3-4倍。如果这里整合产物指的是Project Denver,那么它的性能将是下代ARM Cortex A-15的2倍以上。如果此目标真能实现,那么英伟达将在ARM阵营内争夺主导权的战斗中占据上风,Project Denver也将圆满完成目标
|
|