POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
查看: 33616|回复: 217
打印 上一主题 下一主题

GTX480年内难产,NVIDIA费米面临推倒重来

[复制链接]
跳转到指定楼层
#
发表于 2010-2-24 16:34 | 只看该作者 回帖奖励 |正序浏览 |阅读模式
转自PCONLINE。http://itbbs.pconline.com.cn/diy/11045561.html
有消息说,NVIDIA即将在3月27日再一次发布他们由来已久的费米GF100(GTX480)显卡。这个让我们等待了有半年之久的显卡究竟是什么原因不断跳票呢?现在就让我们一起来了解一下GF100的近况——虽然最新流片的GF100从台积电回来已经几个星期了,但是前景仍不容乐观。
  首先,我们在今年1月底得到消息,NVIDIA开始生产A3版GF100。尽管NVIDIA开始从台积电批量接收A3芯片,但是他们没有为此高兴,原因很简单,A3版GF100芯片尽管工作频率只有600MHz,但是发热量已经达到极限的一半,并且其中为顶级产品准备的A3版GF100 SP数量只有448个。最重要的是,台积电的GF100芯片产率百分比还维持在个位数。
  更为微妙的是,尽管GF100芯片已经降频并削减了流处理器数量,但是芯片良率还是无法提升。更糟糕的是,如此之低的良率有可能让GF100最终推倒重来,完全重新设计。
  NVIDIA目前的首要任务就是提升GF100芯片的良率。如果你还记得,我们之前曾经说过,第一次流片的GF100发热量巨大,良率极低,一片晶圆上的416个芯片当中只能挑选出7颗正常工作的芯片,也就是说GF100的良率低于2%。
  GF100出现如此巨大的问题,可以追溯到之前他们在解决问题上的所作所为。GF100目前3个步进都被称为金属层流片,比完整的基础层改进流片成本更低,速度更快,大约两个月到看到结果。一个完整的基础层重新流片时间超过一个季度,有可能超过6个月完成,费用超过100万美元。金属层流片通常以更大的数字代表流片版本,比如A1到A2,而基础层重新流片通常以字母变化代表不同版本,比如A3到B1,NVIDIA通常以A1代表芯片首次流片,因此目前A3版本是代表GF100第3次金属层流片。
  金属层流片往往解决逻辑问题,比如1 + 1 = 3这类的错误,而不是解决芯片功耗或产率问题。大多产率问题往往涉及芯片采用的制造工艺,以及芯片工作频率的既定指标和设计规则等等。因此,金属层流片可以看作是芯片流片的简化版本,不牵扯到功耗或良率问题。
  NVIDIA在去年9月初得到第一批流片的GF100芯片,第一批流片的GF100时钟速度为500MHz,芯片生产良率百分比徘徊在惊人的个位数,并且发热量极大。
  第二次流片的A2版GF100,工作频率有所提升,但是芯片良率仍然低得吓人,并且A2版GF100流片交付日期逾期一个月左右,所以你可以确信GF100芯片生产仍旧相当困难。这让包括NVIDIA在内的任何芯片公司都无法容忍。
  SemiAccurate网站在去年圣诞节已经听说NVIDIA收到A3版流片样品,A3版没有改善芯片时钟速度。这并不奇怪,因为 NVIDIA使用了错误的工具,即修改金属层来修复时钟速度和功耗问题。A3版芯片工作热量也非常大。因此,在去年3月了解到GF100设计架构之后,我们一直坚持GF100“无法生产”这种观点,如果NVIDIA要让GF100可以生产,那么必须推倒现在的GF100架构,重新设计GF100。
  为什么GF100境遇如此悲惨?答案很简单,NVIDIA没有为GF100生产做好准备。NVIDIA公司根本没有做生产前的充足试验和有条不紊的深谋远虑。和ATI进行对比,我们可以看ATI采用HD4770(RV740芯片)来试验台积电40纳米工艺,并且从中总结经验教训,这种学习和汲取最终反馈到Radeon HD 5000系列GPU当中,因此5000系列GPU现在的良率完全在AMD可以接受的范围之内。
  NVIDIA公司在2009年第一季度计划了四款40纳米GPU产品-G212,G214,G216和G218,它们分别是55纳米 G200b,G92b,G94和G96的40纳米马甲版。 G212向40纳米迈进的情况非常糟糕,已经胎死腹中。G214的情况也好不到哪里去,为了配合40纳米大规模的生产,流处理器数量不得不从128个削减到96个,并且改名为G215,并终于在2009年11月批量投产,最终上市名称改为GT240,G216最终名称改为GT220, G218上市最终名称改为G210。这些产品从规划到上市过程当中,都有无数次改名运动,其中部分产品现在居然改名为300系列,NVIDIA从没有给出过这样命名的原因。
  NVIDIA G215,G216和G218图形芯片各自的芯片面积大约是139平方毫米,100平方毫米和57平方毫米。 这些芯片面积都非常小,而高端55纳米的G200b芯片面积超过480 平方毫米,更早的65纳米G200芯片面积超过575平方毫米。
  ATI早在2009年4月就开始大批量出货面积为137平方毫米的GPU芯片。NVIDIA公司在40nm工艺上遇到严重问题,因此去年8月才开始向OEM厂商出货40纳米G216和G218芯片,之后NVIDIA花费几个月时间,才开始向零售渠道出货40纳米G215图形芯片。
类似图形芯片之间有粗略的产率对比计算方法,即芯片面积之比的平方,比如200平方毫米芯片的产率是100平方毫米芯片产率的1/4,50平方毫米芯片产率是100平方毫米芯片产率的4倍。图形芯片设计公司会为每一款芯片设计冗余结构,以修复制造过程当中的某些类型的错误,但这种冗余结构设计也有限制。
  每个冗余设计都增加了芯片的设计面积,因此提升芯片成本。半导体制造是一个复杂的权衡过程,需要考虑到冗余面积成本与产率问题。如果你计划得当,你可以用非常小的冗余面积得到非常高的芯片产率。
  去年春天和夏天,ATI已经向外界通报,他们在Radeon HD 5000系列芯片制造上吸取了RV740芯片制造的经验教训,这是一次非常富有成效的学习经验。其中深藏不露的秘密就是吸取了40纳米工艺在RV740芯片互连金属层之间的问题。另外,他们也了解到台积电40纳米工艺,在芯片晶体管构建上差异度非常大,特别是晶体管通道长度上。
  既然Anandtech网站在Radeon HD 5000系列历史文章当中谈到这两个秘密,现在继续保密也毫无意义。这两个秘密也改变了晶体管的设计和布局,以减轻台积电40纳米工艺的差异度。并且它们消耗的冗余面积也比较大,对芯片功耗也有负面影响,但是这都是向40纳米进化必须付出的代价。
  另一方面,NVIDIA公司在40纳米工艺上没有做足功课。SemiAccurate网站数次获悉,NVIDIA解决这些的问题的方法是向台积电相关人士“尖叫”宣泄情绪,而不是积极改变芯片设计。
  当NVIDIA公司发现问题并希望在GF100上进行修补的时候,为时已晚。除非台积电制造工艺出现奇迹,否则基本上来看,GF100设计是注定要失败。
  可能有人要问为什么? GF100芯片面大约550平方毫米,比我们之前报道的略大。 NVIDIA公司在100平方毫米芯片上遇到问题,在139平方毫米芯片遇到三个月的严重延误,的产量问题,并取消任何较大面积的芯片设计。NVIDIA 没有像ATI一样做足40纳米功课,现在却试图以40纳米生产550平方毫米的GF100芯片。
  基本的数学计算表明,GF100面积4倍于G215,它们之间在芯片结构上有某些类似,所以你可以预料GF100产率约为G215的1/16, G215本身产率就不高,但即使G215的产率为99%,你也可以预期GF100产率百分比只有个位数。
  修复这些问题需要NVIDIA公司做ATI之前做过的功课,即改变芯片设计以适应台积电40纳米工艺。这个过程需要很长的工程设计时间和基础层重新流片,并可能需要针对旗舰产品进行一次金属层重新流片。如果一切顺利,NVIDIA还需要6个月才能带来GF100的完美版。
  虽然这对NVIDIA来说是一件坏事,而且有可能让让GF100胎死腹中。但以目前情况来看,GF100实际上变得更糟,该芯片现在尺寸巨大,并且发热量也很大。业内人士告诉SemiAccurate,在2010 CES上展示的GF100显卡功耗280瓦。 NVIDIA公司在GF100第一次流片之前,就知道芯片将消耗巨大的电力这一情况,但它强调作为通用计算用途,GF100显卡功耗并未超出225瓦大关。
  为了解决这一问题,NVIDIA的工程师告诉 SemiAccurate,NVIDIA决定让GF100芯片运行在一个非常低的电压,即1.05v,相比之下,ATI Cypress(HD 5800系列)工作电压在1.15V,TDP功耗在188W瓦,费米GF100的既定TDP功耗为225瓦,GF100每0.01v电压提升会导致工作电流50%的提升,简而言之,NVIDIA日后如果要选择提升GF100工作电压,将带来更大的功耗和发热量。
  我们之前已经谈到台积电40纳米工艺有很大可变性和差异度。即有电流“泄漏”问题存在,这意味着和Cypress(HD 5800系列)以及工作频率更低的样品芯片相比,GF100零售版将消耗更多电力。这种问题的传统缓解办法是提升电压,让发生问题的晶体管正常工作,但这也使得晶体管泄漏更多电流,泄漏越多,芯片的发热量也越大。
  温度更高的晶体管泄漏也比温度较低的晶体管更多,所以芯片就进入1个由泄漏导致的高温循环,让泄漏问题越来越恶化。这种恶性循环的解决办法之一,就是在显卡上采用更加强悍的散热器和散热风扇,但这样将提升显卡成本,并且增加噪音。NVIDIA史上的GeForce 5800就是这种恶性循环的典型案例。
  台积电40纳米这种问题,意味着有大量分散的薄弱的晶体管分布于芯片当中,并导致想当程度的漏电问题。如果NVIDIA提升电压,那么他们也同时大规模提升芯片的功耗。如果不提升电压,那么大量脆弱的晶体管基本上不工作,意味着芯片实际上是“破损”或“缺陷” 的,这两个目标相互对立,而NVIDIA现在低电压,高电流的政策只会让问题加速恶化。
  如果这还不够糟糕,消息来源告诉 SemiAccurate说,台积电40nm工艺非常热敏感。晶体管漏电问题随温度提升成正比增加,激烈程度远远超过以前的工艺。如果你超过某一临界温度,漏电的快速上升令人震惊。
  NVIDIA可采用的另一种方法是屏蔽那些过于脆弱的晶体管,保持电压不变。不幸的是,GF100在架构上的设计,让这个变通方法非常棘手。费米GF100架构上由16个组的32个着色单元组成,构成全部512个着色器。从各方面来看,如果你要屏蔽脆弱的晶体管,你被迫去屏蔽整个1组32个着色单元,由于脆弱晶体管分散在整个图形芯片当中,因此,屏蔽2组晶体管,把意味着你失去64个着色器,这种级别的着色器丢失,是NVIDIA无法承受的。
  就当前的A3版本来说,消息来源告诉我们,NVIDIA不得不在两个方面进行“修复”,即至少关闭2组着色器,丢失64个着色器,并加大电压。这使得GPU在消耗更多电力的同时,丢失至少12.5%的预期性能。如果你在一台个人电脑当中使用这种芯片那无所谓,但是如果在超级计算机当中,成百上千大量使用这种芯片,这意味着计算性能的大量丢失。
  因为GF100功耗巨大且和晶体管薄弱,费米GF100根本不会运行在高工作频率。去年3月,消息人士告诉SemiAccurate,预期的时钟频率为主频750MHz,sp频率1500MHz。既然你只能提升电压凸现奇迹,因此我们听到了 A3版GF100只有600MHz,sp频率只有1200MHz,而且是关闭2组着色器(64个着色器)之后的结果。
217#
发表于 2010-3-27 12:09 | 只看该作者
我可以开挖了吗?这帖子一个月都没到就成了坟
回复 支持 反对

使用道具 举报

216#
发表于 2010-3-5 23:43 | 只看该作者
简单嘛,电压从0.01伏提高到0.02伏,功耗是原来的4倍,电流提高应该超过50%了吧
anolen01 发表于 2010-3-5 15:24



    原来费米只要0.01V就可以运行了啊?
回复 支持 反对

使用道具 举报

215#
发表于 2010-3-5 15:24 | 只看该作者
0.01v电压变动可以动50%电流的函数你给我找找
skywalker_hao 发表于 2010-3-5 14:03


简单嘛,电压从0.01伏提高到0.02伏,功耗是原来的4倍,电流提高应该超过50%了吧
回复 支持 反对

使用道具 举报

214#
发表于 2010-3-5 15:16 | 只看该作者
确实很专业,直接对物理定律做出重大修改的文章,怎么可能不专业
skywalker_hao 发表于 2010-3-5 14:05



    你一定要习惯,作者是严格遵循哥本哈根的
以观察者的观测为基准进行坍缩板结的时间函数是量子行为的根源,换句话说,这个世界都是观察者导致的,自然观察者要怎样就怎样啦,这位作者是个极为严肃的观察者,改个物理定律算啥
回复 支持 反对

使用道具 举报

213#
发表于 2010-3-5 14:05 | 只看该作者
文章很专业,我也很早预感到费米不行,和当初肥龙一代出来的时候类似
marcobai 发表于 2010-3-5 13:28

确实很专业,直接对物理定律做出重大修改的文章,怎么可能不专业
回复 支持 反对

使用道具 举报

212#
发表于 2010-3-5 14:03 | 只看该作者
没记错的话,功耗是频率的函数,是电压平方的函数
anolen01 发表于 2010-3-5 13:46


0.01v电压变动可以动50%电流的函数你给我找找
回复 支持 反对

使用道具 举报

211#
发表于 2010-3-5 13:46 | 只看该作者
仔细看了一遍文章,发现当初没认真看文章实在太可惜了
如此有喜感的文章还能被到处转

抽一句话看 ...
skywalker_hao 发表于 2010-3-5 10:43


没记错的话,功耗是频率的函数,是电压平方的函数
回复 支持 反对

使用道具 举报

210#
发表于 2010-3-5 13:28 | 只看该作者
文章很专业,我也很早预感到费米不行,和当初肥龙一代出来的时候类似
回复 支持 反对

使用道具 举报

209#
发表于 2010-3-5 10:43 | 只看该作者
仔细看了一遍文章,发现当初没认真看文章实在太可惜了
如此有喜感的文章还能被到处转

抽一句话看看

费米GF100的既定TDP功耗为225瓦,GF100每0.01v电压提升会导致工作电流50%的提升,简而言之,NVIDIA日后如果要选择提升GF100工作电压,将带来更大的功耗和发热量。
回复 支持 反对

使用道具 举报

208#
 楼主| 发表于 2010-3-5 09:14 | 只看该作者
nvidia千万别倒。。。万年天价卡时代不好玩~
回复 支持 反对

使用道具 举报

207#
发表于 2010-3-3 17:36 | 只看该作者
哪里有酱油卖啊?
回复 支持 反对

使用道具 举报

206#
发表于 2010-3-3 15:55 | 只看该作者
这还怎么挖,难产已经是事实了.......难道你认为NV去年就打算今年3月才发布费米吗??




...
AMOLED 发表于 2010-3-3 15:36


lz的文章是说gtx480在(2010)年内难产,必须重新设计吧?
2009年的难产已经没有什么好说的.
回复 支持 反对

使用道具 举报

205#
发表于 2010-3-3 15:51 | 只看该作者
皑皑。。。。继续等待
回复 2# max2cd
回复 支持 反对

使用道具 举报

kaneisme 该用户已被删除
204#
发表于 2010-3-3 15:32 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

203#
发表于 2010-3-3 14:06 | 只看该作者
费米难产已是既成事实了

现在关注的已经不是难产,而是会不会早夭甚至死胎
刘硕鼠 发表于 2010-3-3 13:55



    等待挖坟
回复 支持 反对

使用道具 举报

202#
发表于 2010-3-3 13:55 | 只看该作者
费米难产已是既成事实了

现在关注的已经不是难产,而是会不会早夭甚至死胎
回复 支持 反对

使用道具 举报

201#
发表于 2010-3-3 13:35 | 只看该作者
小丁一下 兰  州杯具帝
回复 支持 反对

使用道具 举报

200#
发表于 2010-3-3 13:22 | 只看该作者
fermi现在难产
回复 支持 反对

使用道具 举报

199#
发表于 2010-3-3 12:19 | 只看该作者
不管文章是不是真的  反正费米是难产肯定了  一再推迟发布  A的58XX已经远远领先了  等费米出来估计A的68XX都快出来了
回复 支持 反对

使用道具 举报

198#
发表于 2010-3-3 11:43 | 只看该作者
顶顶更健康
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-7-30 03:13

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表