|
The RV770 Story: Documenting ATI's Road to Success 翻译版
前言,这篇文章翻译自AnandTech的一篇文章,原文链接在
http://www.anandtech.com/video/showdoc.aspx?i=3469
Hi Anand,
你和carrell的会面预约在明天下午三点,地点是ATI的Santa Clara办公室五楼大厅。他会告诉你那些770幕后的事情。
Chris
这封邮件来至于Chris Hook,AMD的公关。在ATI被收购之前,我和他在一起工作了好几年。
当我步出ATI Santa Clara办公室的电梯时,我听到背后有人叫我名字。我回过头去却发现谁也不认识。不过这很正常,因为我是上了年纪的人啦,在这个行业里已经干了12年。谢天谢地Carrell Killerbrew根据一张照片认出了我。至于他是根据哪张照片认出我的,我不知道。可能AMD保留了Derek,Gary和我的照片,并把他们贴在墙上用于发泄怒气。
我们往前走,进了一个小房间,里面有一张桌子几把椅子,桌子中央有一个麦克风。屋里除了我,还有Carrell Killebrew,Eric Demers, Mike Schmit和Mark Leather(牛人云集啊,基本都是AMD的院士,可见这位Anand老兄面子很大)。这些人中的大部分我都没有见过,但是听过他们的名字。AMD和被收购之前的ATI,在有些事情上做得很差,比如让我们和他们最聪明的人交流这一点上。最好情况下我们能和technical marketing的人交流,但是很少有机会能和主架构师或者院士打交道。但是今天,在这个房间里,我发现我和AMD和一群院士,一群最聪明的人在一起。
以前和我们谈论GPU的都是市场部的那帮人,说话通常是市场部的那付腔调。他们对付媒体的流程通常是这样的:放些幻灯片,大侃游戏是多么重要,然后会谈论些架构上的东西,放一些通常我们并不关心的性能数据,最后作个总结。这种方式相当老套。Carrell,却不一样。Carrell Killebrew是RV770项目的领导者。他正是你期望的那类人:领导一群工程师开发GPU。Carrell作了开场白,他说今天所有的谈话都会被记录在案,他假设所有人对这一点都没有异议。他问我我想谈什么,他给我了一些话题以供选择,比如GPU未来的趋势,GPU的架构,用GPU来实现视频的转码等等。或者他和其他人,可以谈谈RV770背后的故事。Carrell最后提出的话题引起了我的兴趣,我从来没有想象过这一点。当RV770在夏天发布的时候,我们想当然的认为这是款很好的产品,它搅乱了NV的架构体系,给了我们在$200和$300美金价位最有价值的产品。那时我们探寻了Readeon 4800系列的架构和性能,但是只花了一页的篇幅来讨论AMD的小核心(small-die)策略。AMD过去8年中一直致力于制造越来越大的GPU。但是在RV770上,AMD反其道而行之,但是那时我居然没有注意这一点。我随意的提到这一点,谈论了下这个策略和NV的策略的不同之处,但是我没有深入进去。
通常情况下,类似AMD这样的制造商告诉我他们做了什么事,我通常都会问“为什么”。当Intel向我介绍Nehalem的cache架构,我问他们为什么要这样设计并稍后发布了我的心得。对4800系列的每一个方面,我们也做了同样的事。Derek Wilson和我花了几个小时给AMD打电话发邮件,我们试图把我们的脑袋包裹起来,以便我们可以用自己的观点来评价RV770的架构。但我们都忽略了最重要的一点:设计GPU的策略。这篇文章我写得很艰难,没有图表,没有架构可以分析。我只是坐在这间房子里,听这些人谈话,这些人在两个小时时间里和我分享过去三年他们干的事情。我想把文章写得客观中立,我希望我会,因为在那个房间里和他们的交流是我跟AMD或者ATI最好的一次交流。
序幕:让全世界为之一振的枪声(The Shot Heard Around the World,不知道怎么翻译,汗)
让我们回到2001年,那时ATI还是独立的公司,正在设计R300(Readeon9700 Pro)。那时NVDIA正统领着市场,ATI还不能推翻NV的王位。最初的Radeon是不错的,但是糟糕的驱动限制了其性能的发挥。Radeon8500不能击败NV的GeForce4,Ti4200赢得了主流市场,Ti4600占据了高端的王位。那时ATI正在讨论Radeon和Radeon8500,公司内部认为要赢得市场,就必须赢得光环效应。如果ATI可以制造出最快的GPU,就能增加品牌认知度并培育品牌忠诚度,不只是卖出高端的GPU芯片,低端GPU的芯片的销售也能因此受益。但是最重要的一点是:那时高端产品的售价是$399--记住这一点。ATI里的每一个人都在思考他们必须设计最快的GPU,击败NV,所以Radeon 8500的继任者是一个大家伙。Radeon 8500采用0.15微米工艺,大概有六千万个晶体管。R300仍然采用0.15微米工艺,但是有1.1亿个晶体管,芯片面积基本是Radeon 8500的两倍。GeForce4大概有6300万个晶体管。即使NV也不敢在150nm的工艺上造如此大的芯片。因此GF4的继任者准备采用130nm的工艺。我们都知道接下来的故事,R300最终被命名为ATI Radeon 9700 Pro,蹂躏了GF4。正如Intel用Conroe蹂躏了AMD一样。R300的成功坚定了ATI的策略:为了击败NV,芯片面积要不断增大。以后每一代的GPU都要更大更快。GPU的战争开始了。
重新评估策略:2005年设计RV770
记住导致成功的因素比记住成功更重要。2005年ATI的处境和当初设计R300的时候相似。R300的成功是因为ATI重新评估了制造GPU的策略。在那个时候,ATI决定造一颗大芯片来赢得高端,并将其转化为每一个价格区间都有竞争力的产品。值得一提的是R300的持续成功还部分归因于NVIDIA在GeForce FX上的失败。这是ATI上演的完美风暴。ATI造了一颗最大的GPU,NV在其后的一段时间里无法回应。正如Intel在试图疯狂提高P4的频率时撞上了功耗墙。但是2005年时,ATI开始发现GPU过于庞大了。设计周期越来越长,芯片面积不断增长。制造如此大的GPU已经不是那么合算了。
ATI认为一颗非常大的GPU,如果没有使用repair structures和harvesting(两种技术我稍后会讨论)的话,只有30%是可用的。意即:对一片晶圆而言,每100个GPU只有30%是功能完好,可以零售的。制造如此复杂的电路成本是非常昂贵的,那些fab的设备造价很容易就达到数十亿美金。所以不能让如此多的晶圆被浪费。谢天谢地有技术可以让30%可用变成90%可用。第一种技术称之为可修复性(repairablility)。其思想非常简单:设计冗余单元。如果芯片某个功能单元包含10个流处理器,实际上要设计11个流处理器。如果有瑕疵出现那么我们可以启用那个备用的流处理器。这种技术通常也用在片上内存(on-die memory)的设计上。这样当某一部分出现问题时,不会导致整个功能单元不能用。但是这个地方通常有个折中,如果你设计了太多的冗余单元,那么你就面临着芯片面积太大的风险,并且这些增大的面积对实际性能毫无贡献。但是如果你设计的冗余单元不够,那么你的良品率就不足。第二种技术称之为Harversting,所有人肯定都很熟悉。其思想是:假设一片晶圆上功能完好的芯片只有很少一部分,但是我们并不丢掉那些有瑕疵的芯片,我们关闭某些功能单元,然后把他们当做低端芯片卖。例如,如果你设计某个功能单元包含了10个流处理器,预期只有30%的产品是10个流处理器都可用,50%的产品可用其中的8个。那么你可以把8个流处理器可用的芯片当做稍微低端的芯片卖。因此这种方法使得一片晶圆上80%的芯片都可用,如果可能的话,你还可以屏蔽更多的流处理器单元,使得接近100%的芯片都可用。良率会随着时间改善,如果你一直依赖于Harversting,那么这种方法最终会损害你的财务表现。在上面的例子中,随着良率的改善,越来越多的芯片10流处理器可用,但是你还是只能当成8流处理器卖。某种意义上说,值一块钱的东西你卖八毛钱。当然你也可以设计8流处理器的新版本,但是这会耗费额外的时间、金钱和工程师资源。GT200系列就是采用Harversting技术的典型。GeForce GTX 260就是GTX280的Harversting版本。随着良率的改善,NV推出了GeForce GTX 260 Core 216。但是要注意并没有为GT200系列设计任何的冗余单元。因此GT200系列的芯片上最多有240个流处理器,如果240个流处理器不能用的话,那么就当成GTX260或者core 216卖。与之形成鲜明对比的是RV770系列,两个版本的RV770功能单元的规格都是一致的,所不同的只有频率和功耗的不同。从芯片的角度来看,ATI不必通过卖缩减版本的产品来保证良率。注意,一家公司是否采用harvesting技术并不会影响终端用户。在这种情况下,GeForce GTX 260 Core 216实际上对终端用户是有利的,因为它具有和4870同样的价值。但是它无助于改善NV的财务表现,如果一家公司长期依赖于harvesting策略的话,最终是要付出代价的。但是我怀疑NV会在事情变坏之前用55nm的GT200版本使自己全身而退。ATI并不想设计一颗GPU过度依赖于靠repair和harvesting来提高良率。于是一个杀手级的论断出炉:造这样一颗大的GPU并非最符合客户利益。
旁注:设计GPU
在我们深入那些艰深的话题之前,有必要理清头绪。ATI设计RV770花了3年,这意味着始于2005年。从芯片流片成功到最后的产品上市,中间需花费一年时间。另外的一年或是一年半的时间用于设计架构。我现在在Santa Clara碰面的这帮人正在讨论设计2012年的产品。我们正在讨论4 TFlops性能的产品,4倍RV770的性能。今天做出的决定会影响三年后的产品,某种意义上说,这是一场巨大的猜谜游戏。ATI不知道NV在2012年推出什么样的产品,NV也不知道ATI会怎么干。两家公司只是单纯的试图设计出对客户而言最好的GPU,希望自己的设计能在性能,架构和功耗间找到完美的平衡。让我举个例来让你认识到设计时的讨论有多激烈,Carrell,花了三周时间,每天晚上花三个小时来讨论多少冗余单元应该放到RV770里。为RV770设计冗余单元给ATI的挑战比以前的还要大,因为ATI不得不面临芯片面积有限制这个事实。只是简单的增加冗余单元,随之而来芯片面积也增加,这样并不能奏效。RV770里的冗余单元并不能增加性能,只会增加芯片面积。如果对一颗已经很大的芯片而言,这点面积的增加不算啥,但是对一颗瞄准性能级市场,芯片面积被严格限制的产品而言,这是一个巨大的挑战。
设计一颗适合主流大众的GPU
下图是AMD在他的财政分析日上公开的图。
对桌面CPU市场而言,性能级产品只占7%左右。虽然这一部分贡献了大量的营收,但是市场的大头是主流级的产品。ATI在2005年就意识到这一点。高端的GPU变得越来越昂贵。R300上市价格是$399,但是随后我们看到$499, $599, $600的GPU。越来越高的价格是由于越来越大的芯片面积,以及采用类似harvesting这样技术,保证不论GPU有多大,营收是稳定的。售价$399的R300同主流级的产品价格是足够接近的,这使得ATI能够花几个月缩减它的规模来占领其他市场区间。但是现在,缩减高端GPU的规模来占领主流级市场所花费的时间已经增加到了6-9个月。到现在为止,我们仍然看不到采用GT200架构的中端产品。NV把GTX280的发布价格定在$600,然后花9个月时间制造出价值$200的中端衍生品,这在ATI看来是在伤害消费者的利益(doing the market a disservice)。现在是时候来重新审视这个策略了。ATI不再想重新裁剪高端GPU的规模来制造中端CPU,他们想设计一款在$200-$300价格区间中最有价值的产品。要这么做就不得不推翻原来的策略,并且希望NV在某种程度上不要采用同样的策略。
打赌, NV会采用这样的策略吗 |
|