POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
查看: 5115|回复: 22
打印 上一主题 下一主题

NVIDIA公开Fermi GF100游戏架构!GeForce GTX 480中文解析!

  [复制链接]
跳转到指定楼层
1#
发表于 2010-1-18 19:08 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 Hyins 于 2010-2-3 18:54 编辑

官方详细介绍:
http://www.nvidia.cn/object/gf100_cn.html

GF100白皮书:
http://www.nvidia.cn/object/IO_86775.html
http://www.nvidia.cn/object/IO_86776.html

不违规搭车宣传下:NVIDIA FANS高级群79567440

根据目前透露出来的信息 应该是再一次完胜AMD
http://we.pcinlife.com/thread-1312773-1-1.html

以下文章转自驱动之家的上方文Q:

2009年十一期间,NVIDIA第一次向我们展示了代号Fermi的全新图形架构,不过几乎完全是关于通用计算的,展示了NVIDIA开辟新领域的决心。到了今年初的CES 2010上,NVIDIA终于首次公开拿出了Fermi架构高端型号GF100,展示立体多屏环绕技术3D Vision Surround的同时,内部运行了几个新的演示DEMO。

今天,NVIDIA终于公开了Fermi GF100在游戏的架够方面的诸多特性,这才是普通消费者最为关心的,也是我们要和大家分享的。



不过我们仍未看到最终零售版的GF100显卡,不少关键的核心参数也暂时缺失,所以如果你急切地想知道下边这些内容,抱歉要失望了。

Fermi芯片至今仍未开始真正的批量生产,而核心面积在很大程度上决定着良品率,良品率又是时钟频率的前提,功耗和性能又都是建立在频率基础上,它们又都是价格的组成要素。当然了,GF100必须要比Radeon HD 5870速度更快,而且领先幅度要尽量高;功耗和价格也已经不可避免地要更高,只看能控制到什么程度了。
下边是2009年9月1日拍摄的Fermi GF100内核照片:


一、GF100游戏架构的两颗新心脏
我们已经知道,GF100采用台积电40nm工艺制造,集成大约30亿个晶体管,包含512个流处理器(SP),或者按照NVIDIA官方的说法是CUDA核心。32个这种核心组成一个流式多处理器阵列(SM),然后再四个组成一个图形处理集群(GPC)。GF100就是这样的三层分级架构:4个GPC、16个SM、512个SP
此外GF100还有64个纹理寻址单元、256个纹理过滤单元、48个ROP单元,显存位宽384-bit,搭配GDDR5颗粒。核心/Shader/显存频率都没有定夺,显存容量也尚待确定。

GF100GTX 295GTX 2859800 GTX+
流处理器5122 x 240240128
纹理寻址/过滤单元64/2562 x 80 / 8080 / 8064 / 64
ROP单元482x 283216
核心频率?576MHz648MHz738MHz
Shader频率?1242MHz1476MHz1836MHz
显存频率? GDDR5999MHz GDDR31242MHz GDDR31100MHz GDDR3
显存带宽384-bit2 x 448-bit512-bit256-bit
显存容量?2 x 896MB1GB512MB
晶体管3B2 x 1.4B1.4B754M
制造工艺TSMC 40nmTSMC 55nmTSMC 55nmTSMC 55nm
价格$?$500$400$150 - 200



先看一下NVIDIA最新公布的比较详尽的GF100架构图,接下来我们就详细阐述其中的几个重点之处。



NVIDIA声称Fermi GF100是一个全新架构并非没有道理。不但是通用计算方面,游戏方面它也发生了翻天覆地的变化,几乎每一个原有模块都进行了重组:有的砍掉了,有的转移了,有的增强了,还有新增的光栅引擎(Raster Engine)和多形体引擎(PolyMorph Engine)


光栅引擎严格来说光栅引擎并非全新硬件,只是此前所有光栅化处理硬件单元的组合,以流水线的方式执行边缘/三角形设定(Edge/Triangle Setup)、光栅化(Rasterization)、Z轴压缩(Z-Culling)等操作,每个时钟循环周期处理8个像素。GF100有四个光栅引擎,每组GPC分配一个,整个核心每周期可处理32个像素。


多形体引擎则要负责顶点拾取(Vertex Fetch)、细分曲面(Tessellation)、视口转换(Viewport Transform)、属性设定(Attribute Setup)、流输出(Stream Output)等五个方面的处理工作,DX11中最大的变化之一细分曲面单元(Tessellator)就在这里。GF100中有16个多形体引擎,每组SM一个,亦即每组GPC四个。


多形体引擎绝非几何单元改头换面、增强15倍而已,它融合了之前的固定功能硬件单元,使之成为一个有机整体。虽然每一个多形体引擎都是简单的顺序设计,但16个作为一体就能像CPU那样进行乱序执行(OoO)了,也就是趋向于并行处理。NVIDIA还特地为这些多形体引擎设置了一个专用通信通道,让它们在任务处理中维持整体性。
当然,这种变化复杂得要命,也消耗了NVIDIA工程师无数的精力、资源和时间。事实上可以这么说,多形体引擎正是GF100核心最大的变化所在,也是它无法在去年及时发布的最大原因。NVIDIA产品营销副总裁Ujesh Desai说过这么一句话:设计这么大的GPU实在是太TMD难了。其实,他指的并不是30亿个晶体管。
这么做也是不得已而为之。考虑到细分曲面单元的几何复杂性,固定功能流水线已经不适用,整个流水线都需要重新平衡。通过多形体引擎的并行设计,几何硬件不再受任何固定单元流水线的局限,可以根据芯片尺寸弹性伸缩。和之前的GT200/G92以及AMD相比,GF100走上了另一条路,而且颇有要做CPU的架势。


在每一组SM阵列里,纹理单元、一二级缓存、ROP单元和各个单元的频率也都完全不同于以往。每组SM里四个纹理单元,合伙使用12KB一级纹理缓存,并和整个芯片共享768KB二级缓存。每个纹理单元每周期可计算一个纹理寻址、拾取四个纹理采样,并支持DX11新的压缩纹理格式。
ROP单元总共48个,分为六组,分别搭配一个64-bit显存通道。所有ROP单元和整个芯片共享768KB二级缓存(GT200里是独享)。
除了ROP单元和二级缓存,几乎其他所有单元的频率都和Shader频率(NVIDIA暂称之为GPC频率)关联在一起:一级缓存和Sahder单元本身是全速,纹理单元、光栅引擎、多形体引擎则都是一半。对于GF100来说,想超频的话很多地方都要重新来过了。



二、NVIDIA为何如此关注几何性能
在微软DX11规范的严格限制下,留给NVIDIA(还有AMD)自由发挥的空间并不大:不遵从当然不行,完全照搬就缺乏特色,自行其事又可能只是无用功。最终,NVIDIA选择了在速度上做文章。
从NV30 GeForce FX 5800到GT200 GeForce GTX 280,NVIDIA显卡的几何性能只提高了不到3倍,而Shader性能提升了150多倍,但仅仅是从GT200到GF100,几何性能的增长倍数就达到了8x。
有了如此强大的几何性能,NVIDIA就可以使用细分曲面和置换贴图创建更复杂的人物、物体和场景,并保持和对手同样水平的性能,所以才有了16个多形体引擎和4个光栅引擎。
细分曲面是AMD DX11产品的宣传重点,但NVIDIA要做得复杂得多,而且理论上说效果更出色。接下来NVIDIA要做的就是让游戏开发商充分挖掘GF100架构的潜力,在保证性能的基础上做出更精致的游戏画面。


细分曲面渲染过程示意图


NVIDIA水面细分曲面DEMO


NVIDIA头发细分曲面DEMO



三、更好的画质:
1、抖动采样(Jittered Sampling)
DX11详细定义了显卡需要提供的特性,但对渲染后端的工作涉及甚少,所以NVIDIA做了多形体引擎,还有抖动采样。
抖动采样不是新技术,长期用于阴影贴图和各种后期处理,通过对临近纹素(Texel/纹理上的像素点)进行采样来创建更柔和的阴影边缘。它的缺点也是非常消耗资源。
DX9/10上抖动采样是分别拾取每一个纹素,DX10.1开始改用Gather4指令,NVIDIA则在硬件上使用单独一条矢量指令。NVIDIA自己的测试显示,这么做的性能大约是非矢量执行的两倍
对游戏开发商来说,这意味着消耗的硬件资源更少;对游戏玩家来说,则意味着更好的画质。


2、抗锯齿加速
和AMD一样,NVIDIA也对ROP单元做出了调整,以减少在MSAA(多重采样抗锯齿)下的性能损失,还有更多ROP单元来改善性能。
根据NVIDIA提供的数据,在《鹰击长空》里,8x/4x MSAA模式下GF100的性能分别是GeForce GTX 285的2.33倍和1.61倍

2#
 楼主| 发表于 2010-1-18 19:12 | 只看该作者
本帖最后由 Hyins 于 2010-1-18 20:24 编辑

3、CSAA改进
CSAA全称Coverage Sample Anti-Aliasing,意思是覆盖采样抗锯齿
CSAA是在G80 GeForce 8800 GTX上引入的,当时最高支持16x,如今不但提高到了32x,而且将色彩取样和覆盖取样分离开来,在32x CSAA中分别有8个和24个,无论性能还是画质都有明显提升。NVIDIA宣称,GF100 CSAA从8x到32x的平均性能损失只有区区7%。
在GF100上,Alpha to Coverage可以使用全部采样点(最多32个),而且有33个透明级别,透明多重采样抗锯齿(TMAA)的质量也因此得到了改进。


限于篇幅,具体的技术细节这里就不赘述了,只看看NVIDIA提供的一些对比效果图:



四、游戏计算(Compute for Gaming)
随着通用计算的盛行,专业领域和民用领域都前途无量,NVIDIA CUDA并行计算架构就会在GF100中继续发扬光大,而且用途更加广泛,单就游戏而言也是多方面的。
首先,CUDA架构的实现途径就多种多样,CUDA C、CUDA C++、OpenCL、DirectCompute、PhysX、OptiX Ray-Tracing等等不一而足。这其中既有NVIDIA自己似有的开发方式,也有开放的业界标准规范,开发商可以自由选择。


在游戏中,NVIDIA CUDA计算架构可以执行画质处理、模拟、混合渲染等等,实现景深、模糊、物理、动画、人工智能、顺序无关透明(OIT)、柔和阴影贴图、光线追踪、立体像素渲染等大量画面效果。

下边试举几例:


《Metro 2033》里的景深效果


《Dark Void》里的PhysX物理效果


光线追踪演示DEMO


NVIDIA还宣称,GF100的游戏计算性能相比GT200有了大幅提高,比如PhysX流体DEMO演示程序3.0倍、《Dark Void》游戏物理2.1倍、光线追踪3.5倍、人工智能3.4倍。

五、立体多屏环绕技术3D Vision Surround
NVIDIA在CES上就展示了这种技术,我们也做过详细介绍。它不是GF100的专利,在GT200上也可以实现,只不过是现在才提出来,可以看作是对AMD ATI Eyefinity技术的回应。
ATI Eyefinity可以支持六屏输出,而3D Vision Surround最多只能达到三屏但它支持3D立体效果,是3D Vision技术的扩展增强版。AMD方面也在积极开发3D立体技术,但目前还没有与ATI Eyefinity相结合的消息,所以这方面NVIDIA暂时拥有独特的优势。
遗憾的是,AMD Radeon HD 5000系列能单卡支持六屏输出,NVIDIA GF100却仍然只能同时驱动两台显示器,三台或者更多的话就需要两块GF100组建SLI系统。这样一来,双卡系统的性能当然会好很多,但成本也急剧增加。
但也正因为不是GF100架构的全新技术,GT200 GeForce GTX 200系列同样可以支持3D Vision Surround。事实上,NVIDIA在CES上展示的系统使用的就是两块GeForce GTX 285。
显示设备支持方面,3D立体系统需要三台同样支持3D Vision技术的液晶显示器、投影仪或者DLP,单个分辨率最高1920×1080;如果是非立体系统(此时叫作NVIDIA Surround),任何普通显示设备均可,单个分辨率最高2560×1600。
顺便说,它也支持边框纠正管理。
接下来的问题就是:这种系统的性能如何?程序和游戏兼容性又怎样?



六、结语
总结一下Fermi GF100在游戏的架够方面的四大灵魂之处:Γ/b]
1、强劲的几何性能,最高八倍于GT200。
2、非凡的画质,最高32x CSAA和最快三倍的阴影贴图。
3、革命性的GPU游戏计算,物理、人工智能和光线追踪性能提速最多四倍。
4、有史以来最高性能的GPU,在8xAA高分辨率下性能最高是GT200的两倍。

最后我们简单看看NVIDIA的一个重点演示DEMO:“Supersonic Sled”。它基于二十世纪五十年的美国空军试验模拟而来,在一辆轨道滑车上捆绑了一个火箭,沿铁轨高速飞驰。
这里用到了细分曲面DirectComputePhysX等多项技术,还支持3D Vision Surround,效果非常华丽,充分展示了GF100强大的游戏计算能力。



看静止的截图当然不过瘾,下边就有一段22秒钟的视频录像:
http://images.anandtech.com/reviews/video/NVIDIA/GF100/GF100_Architecture_WMFG_R1.wmv



在拿到GF100显卡实物之前,关于Fermi架构我们能说的基本上也就这些了。从NVIDIA公布的这些资料看,GF100毫无疑问在专业和民用两个领域都会成为新的怪物级产品,彪悍的GPGPU通用计算和游戏几何性能令人激动。
不过GF100到底会有多快?功耗和发热量能否让人接受?价格又是几何?这些更实际的问题仍然没有答案,也还要再等至少两个月才会真正揭晓。到时候AMD已经在DX11世界里寂寞了长达半年之久,NVIDIA又能否力挽狂澜、绝境重生呢?



Fermi 核心的 Tesla






NVIDIA(英伟达™)下一代GeForce精视™GPU(图形处理器)

下一代NVIDIA(英伟达™)GeForce精视™GPU(图形处理器)即将问世,这款GPU专为顶级游戏体验而打造。

即将发布的产品代号为GF100的新一代GeForce精视™可为用户带来无可匹敌的3D真实感,完美的Microsoft DirectX 11图形效果,以及逼真化境的NVIDIA(英伟达™)3D 立体幻镜™游戏体验——性能超群! 没错,这款产品的确非常值得期待。

无与伦比的性能与质量


GF100拥有30亿个晶体管、比上一代GPU多一倍的CUDA核心数量、高速GDDR5显存接口以及对DirectX 11的完全支持,这款产品专为开创性的图形性能而设计。凭借革命性的全新可扩展几何学流水线以及增强型抗锯齿功能,GF100不仅能够实现无与伦比的性能,而且能够呈现出令人叹为观止的图像质量。


NVIDIA PolyMorph引擎:镶嵌技术(Tessellation)的黄金标准
凭借PolyMorph引擎,GF100实现了全球首款可扩展几何学流水线,该流水线在单颗GPU中...

更快、更高质量的抗锯齿
GF100采用了一种全新的32倍速抗锯齿模式以呈现更高的图像质量。而在抗锯齿与分辨率均有所提升的情况下...

游戏专用的世界级计算架构

下一代游戏将不仅仅需要快速渲染三角形与像素,它们还需要GPU能够计算物理效果、模拟人工智能以及渲染先进的影院级特效。GF100 GPU中的下一代NVIDIA英伟达™CUDA™架构能够满足所有这些要求。


实时物理效果
GF100计算架构旨在将NVIDIA英伟达™PhysX技术提升到全新高度,利用湍流以...

先进的影院级特效
下一代CUDA架构可加快先进游戏特效的速度,以获得更加绚丽、更加逼真视觉效果。

光线追踪:游戏的未来
GF100首次为消费级市场带来了交互式光线追踪,它让用户看到了游戏...

完全身临其境

立即感受这一超乎想象、最令人身临其境的PC游戏体验吧。通过利用NVIDIA(英伟达™)SLI配置中多颗GF100 GPU的处理能力,NVIDIA(英伟达™)3D立体幻镜™ Surround能够实现令人瞠目结舌的全新级别3D立体游戏体验,可连接3台显示器来扩大实际显示面积,从而获得“身在游戏当中”的顶级感受 。 下一代GeForce(精视™)GPU拥有惊人的图形处理能力,能够在3台显示器上以3D立体的形式运行游戏,高清分辨率最高可达1920x1080。还没有准备好进入三维世界?没关系,GF100在非立体显示器上还支持NVIDIA(英伟达™)Surround™。
回复 支持 反对

使用道具 举报

3#
发表于 2010-1-18 19:23 | 只看该作者
功耗高不高。
回复 支持 反对

使用道具 举报

4#
发表于 2010-1-18 19:29 | 只看该作者
估计游戏性能不久也会被爆出来了
回复 支持 反对

使用道具 举报

5#
发表于 2010-1-18 19:34 | 只看该作者
出货就买两个!
就等费米翻身啦!
回复 支持 反对

使用道具 举报

kaneshiro 该用户已被删除
6#
发表于 2010-1-18 19:44 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

7#
发表于 2010-1-18 19:57 | 只看该作者
4、有史以来最高性能的GPU,在8xAA高分辨率下性能最高是GT200的两倍。那就是比285SLI还快20-30%?
回复 支持 反对

使用道具 举报

8#
发表于 2010-1-18 20:11 | 只看该作者
太狠了,进来膜拜下。
回复 支持 反对

使用道具 举报

9#
 楼主| 发表于 2010-1-18 20:26 | 只看该作者
无责任猜测,6月HD6XXX就可以纸面发布了。。
gaint 发表于 2010-1-18 19:51


能不能超过Fermi还是问题
回复 支持 反对

使用道具 举报

10#
发表于 2010-1-18 20:42 | 只看该作者
Nvidia 还是很强的
回复 支持 反对

使用道具 举报

11#
发表于 2010-1-18 20:52 | 只看该作者
那个小火车,是真正第一次接近电影级了。
头发也相当震撼,第一次有飘得这么自然的秀发。

我只信赖绿色装的飘柔。
回复 支持 反对

使用道具 举报

12#
发表于 2010-1-18 21:23 | 只看该作者
nv最近动作有点慢
回复 支持 反对

使用道具 举报

13#
发表于 2010-1-18 21:30 | 只看该作者
上官文Q的东西,不看也罢。
回复 支持 反对

使用道具 举报

14#
发表于 2010-1-18 21:44 | 只看该作者
越来越板砖了
回复 支持 反对

使用道具 举报

15#
发表于 2010-1-18 21:45 | 只看该作者
henhao  henqiangda
回复 支持 反对

使用道具 举报

16#
发表于 2010-1-18 23:38 | 只看该作者
游戏几何性能
DX11到了NV这里,都成了NV的发明了···
rh123 发表于 2010-1-18 19:29



   

火药是中国人发明的,但最后呢?

谁都知道DX11里面最大的改变就是细分曲面,人家也没说这是NV的发明,只是说NV的速度更快。
回复 支持 反对

使用道具 举报

17#
发表于 2010-1-19 06:00 | 只看该作者
牛x,不服不行,当然最好赶快出媒体测试!
回复 支持 反对

使用道具 举报

18#
发表于 2010-1-19 06:28 | 只看该作者
说的天花乱坠 就是没有实卡
回复 支持 反对

使用道具 举报

19#
发表于 2010-1-19 07:05 | 只看该作者
老黄突然间说了:现在DX11突然又变得有用了
回复 支持 反对

使用道具 举报

20#
发表于 2010-1-19 07:44 | 只看该作者
这篇文怎么这么像出自:
http://www.anandtech.com/video/showdoc.aspx?i=3721
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-7-25 18:04

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表