POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
查看: 1375|回复: 2
打印 上一主题 下一主题

打倒X86!NVIDIA的CPU+GPU战略全解析

[复制链接]
跳转到指定楼层
1#
发表于 2011-9-15 20:38 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
就在Intel和AMD为CPU+GPU融合技术而开展新一轮争霸赛的时候,英伟达?(NVIDIA?)却另辟蹊径,通过移动处理器Tegra 2一举拿下了Android平台(智能手机+平板电脑)34.4%的市场份额,据分析第二季度市占率有望扩大至48.6%。而传统的X86处理器在平板领域的市占率还不足5%。  在移动领域辉煌的表现让英伟达股价大幅飙升,但这并不意味着英伟达将放弃PC市场。由于没有处理器产品及相关技术授权,让英伟达在PC领域屡受挫折,但没有人能阻止英伟达的野心,事实上早在三年前英伟达就已经启动了CPU研发计划,而Tegra的卓越表现以及微软Windows 8将支持ARM架构处理器的消息,更是让英伟达看到了希望,打败X86的机会终于要来了……
  英伟达首个通用CPU开发计划"Project Denver"不仅对于CPU+GPU混合加速计算是一个里程碑,同时对于GPU计算(GPU Computing)能力的突破也是不可或缺的存在。英伟达内部人士透露,其实Project Denver在距今3年半前已经开始初步谋划,初始目的是为了提高GPU的并行计算性能,以及更好对GPU内部指令进行排列管理,需要更强大的处理器,因此开始初步研究CPU的开发。不过途中突然生变:微软下一代操作系统Windows 8宣布支持ARM架构处理器,英伟达也随之对计划作出改变。
  2011年7月下旬在东京六本木举行的GTC Workshop Japan 2011大会上,英伟达日本分公司的馬路徹做了名为GPU架构和GPU计算入门的演讲,其中说明了GPU计算能力的现状。
  馬路徹表示,“由于GPU本身的架构,半导体集成度的增加主要提高的是并行计算性能。即使是现在每年性能提高幅度也有74%左右。”此外,GPU和CPU并行处理性能差也将越拉越大,以浮点运算计,2001年的显示核心浮点性能是当时CPU的30倍,而这一差距在今日已经拉大到1000倍,今后也将继续扩大下去。
  自从英伟达支持DX10的统一渲染架构G80核心发布以来,半导体工艺的进步使得GPU内置的核心(流处理器)数量越来越多,GPU基础架构改良速度对比CPU也越来越快。GPU的通用计算能力在这几年来得到很大提高。
  因为GPU起初是为图形处理设计,对指令集的依存度很低,即使再多线程数量也仍然能保持并行处理性能维持在高水平不变。举例来说,对于3D角色的反射光计算,每个多边形反射光计算中法线处理互不相干,因此多边形数量再多也不会造成瓶颈,GPU的运算能力可以充分发挥。
  因此,科学运算中最适合利用GPU强大的并行计算能力,馬路徹表示,英伟达近年来所力推的Tesla加速卡就是例子,同时取得了很多成果。
  英伟达在G80架构中首次在芯片和流处理器(SM)级别都加入了线程管理机能"Thread Scheduler",此后随着图形核心的发展,在Fermi架构上Thread Scheduler进化为"Gigathread Engine",使得并行运算性能进一步得到大幅提高。
  但是,在CUDA Core数量最大已经达到512个的况下,如果再增加势必会给线程管理模块部分带来更高负荷,甚至有发热过高烧毁的危险。因此,为了使GPU的并行计算性能维持优势,需要搭载更加强力的线程控制及管理模块,Project Denver正是为此诞生。
  英伟达负责产品市场部门的执行副总裁Ujesh Desai确认了Project Denver从三年前就已经开始开发,目标是实现CPU和GPU的统合。
  受微软宣布下代操作系统Windows 8将正式支持ARM架构的影响,英伟达原本的ARM核心CPU业务范围也将扩大。在3月召开的投资者会议Financial Analyst Day 2011上,英伟达总裁兼CEO黄仁勋宣布,Denver的核心将使用未来的Tegra处理器。
  虽然黄仁勋的说法摆在那里,不过看起来Project Denver和Tegra的关系不是那么简单:英伟达移动业务总经理Micheal Rayfield称:“Project Denver和Tegra毫无关系”。他说:“用于移动业务的Tegra最注重目标是省电性能,将不会冒进,沿着ARM提供的Roadmap进行SoC开发。”“Kal-El将是Cortex-A9架构四核处理器,Wayne也自然会沿用下一架构。”表明了Wayne将使用Cortex-A15架构。
  英伟达首席科学家Bill Dally在SC10大会上的演讲内容中透露,Echelon为128个SM模块和Project Denver的基础名为Latency Processor的8个CPU核心所组成,其中每个SM模块含有8个CUDA Core和独立的L0 Cache。据此计算,Echelon芯片整体含有8*128=1024个CUDA Core。
  此外,黄仁勋也曾经发表过关于Project Denver性能的评论,他在GPU Technology Conference 2010会议上曾经表示,将GPU和现有的ARM架构CPU(Cortex-A9)整合后,整数运算性能将是原有的3-4倍。如果这里整合产物指的是Project Denver,那么它的性能将是下代ARM Cortex A-15的2倍以上。如果此目标真能实现,那么英伟达将在ARM阵营内争夺主导权的战斗中占据上风,Project Denver也将圆满完成目标
2#
发表于 2011-9-15 22:43 | 只看该作者
黄大炮说话好像一向都不靠谱
回复 支持 反对

使用道具 举报

3#
发表于 2011-9-16 15:53 | 只看该作者
反正增加竞争是好事
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-7-6 10:33

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表