POPPUR爱换

标题: NVIDIA 下一代 GPU Fermi (GF100) 架构规格曝光 本站报道发布 [打印本页]

作者: Edison    时间: 2009-9-30 18:43
标题: NVIDIA 下一代 GPU Fermi (GF100) 架构规格曝光 本站报道发布
按照 NVIDIA 这次透露的初步资料,第一款实现 Fermi 的 GPU 将会有 512 个 CUDA 内核,一个 CUDA 内核每个周期可以一个 Thread 的一条浮点指令或者整数指令;这些 CUDA 内核以 32 个为一组组成一个 SM,Fermi GPU 上共计有 16 个 SM。
GPU 上有六块 64-bit 内存分区,共计提供 384-bit 内存数据总线,可以支持多达 6GB 甚至更多的 GDDR5 内存。



更多内容请点阅本站报道:

http://www.pcinlife.com/article/graphics/2009-09-29/1254197427d834.html



更深入的报道:
http://www.realworldtech.com/pag ... 93009110932&p=5
作者: HuaErZ    时间: 2009-9-30 18:46
看样子通用计算能力大幅增强了.
作者: zlnnt    时间: 2009-9-30 18:51
最大6G显存,看来会有3G的桌面版吧
作者: defia    时间: 2009-9-30 18:54
唔 还是8个流处理器共享1个16k的shared memory
unified cache mermoy是啥玩意..以前的texure cache?
作者: Edison    时间: 2009-9-30 19:00
唔 还是8个流处理器共享1个16k的shared memory


不是这样的。。。
作者: zlnnt    时间: 2009-9-30 19:03
什么时候有详细报道
作者: sewsew    时间: 2009-9-30 19:03
看不懂,占个位置先
作者: xxx2006    时间: 2009-9-30 19:04
看来这卡主打通用计算啊
作者: Eji    时间: 2009-9-30 19:07
half speed DP還蠻猛的老實說....不過我比較搞不清楚的是32sp + 16KB x4 share memory(等同64KB)
這有點放大warp,減少同步需求的感覺。而且可以混大小warp提高靈活度,但是真的要global sync還是得靠768KB L2。

另外一個有去的問題是,現在打算是幾個cluster來搭幾個TMU當一個core?
我猜是2Cluster搭4quad TMU...
作者: westlee    时间: 2009-9-30 19:09
提示: 作者被禁止或删除 内容自动屏蔽
作者: Edison    时间: 2009-9-30 19:10
那块 64KB 的东西有两种用法:)
作者: 什么?    时间: 2009-9-30 19:11
本帖最后由 什么? 于 2009-9-30 19:17 编辑

按照G80架构来说1M L1 ,512SP,那么64个SM,每个SM内有16K shared memory。。。

但是half speed DP是否表明一个SM内仅有2个1D ALU。4个SM公用一个16K shared memory或以此倍增:8个SM公用64Kshared memor
作者: Edison    时间: 2009-9-30 19:14
CS 5.0 的要求是 32KB shared register,Fermi 当然不仅仅是 16KB了。
作者: gz_easy    时间: 2009-9-30 19:22
可以这样看吗:G80是16x8 cluster=128SP,GF100是32x16 cluster=512SP,4倍关系;G80有681M transistors,GF100有3.0 billion transistors,约4.4倍,除去固定单元等transistor开销,增加的transistor大部分用到SP增量。
作者: airforce18    时间: 2009-9-30 20:16
我希望工艺完美版本能把512BIT给弄回来
作者: 大草原赶羚羊    时间: 2009-9-30 20:20
我希望工艺完美版本能把512BIT给弄回来
airforce18 发表于 2009-9-30 20:16




gt400...用512?..我猜的
作者: 红发IXFXI    时间: 2009-9-30 20:27
又改名字了?GF100?
作者: 武尊神    时间: 2009-9-30 20:32
CHO一直说没有GT300和G300,ls就是你这种人不看他说的话
作者: bigpao007    时间: 2009-9-30 20:36
问下  这个

* Half Speed IEEE 754 Double Precision


是啥?
作者: 武尊神    时间: 2009-9-30 20:37
字面上看是半速IEEE754标准双精度,IEEE754是IEEE二进制浮点数算术标准
作者: bruss    时间: 2009-9-30 20:43
占楼围观
作者: digitalera    时间: 2009-9-30 20:51
那什么时候GO了
作者: D65    时间: 2009-9-30 20:56
G80,G92,GF100这不很正常吗?
GTX280,GTX380也未尝不可。叫G300...真的是误传了。
作者: xxx2006    时间: 2009-9-30 21:03
产品叫gtx380
作者: zlnnt    时间: 2009-9-30 21:12
30亿个晶体管,牛,要是能找intel代工该有多好,出个32nm的怪兽卡
作者: cctvgxtv    时间: 2009-9-30 21:18
提示: 作者被禁止或删除 内容自动屏蔽
作者: aibo    时间: 2009-9-30 21:21
不知道单sp的效率咋样
作者: xiaolongzi    时间: 2009-9-30 21:31
不错~~性能应该完胜GTX295~~就是6G显存比较恐怖~~
作者: asd1508    时间: 2009-9-30 21:44
E大的部分我早曝光了,至于游戏性能,显卡危机在1920下特定时候可以上60了,这是一大进步
作者: huaxi    时间: 2009-9-30 21:45
这么大的玩意儿,不知道用什么散热
作者: asd1508    时间: 2009-9-30 21:46
温度控制的很好,芯片不是很大,板型基本接近280系列,功耗散热基本类似,不错的卡
作者: gz_easy    时间: 2009-9-30 21:49
我期盼GF100单GPU,Crysis @1920x1200, VH, 8x AA/16x AF, 最小FPS >40。
作者: 武尊神    时间: 2009-9-30 21:49
GT200的面积不是更大,你怕什么,GT260 14亿晶体管,576MM2的面积,功耗要比HD4870 9.56亿晶体管,256MM2面积还要小,AMD能把功耗做到这地步也算强了
双55NM GT200B核心的GTX295,28亿晶体管,接近1000MM2的面积,功耗远小于19亿晶体管,500MM2的HD4870 X2
作者: snoky    时间: 2009-9-30 21:50
看不懂也觉得强大。。
作者: 武尊神    时间: 2009-9-30 21:52
AMD什么时候在功耗上占据过优势,只有区区几款,在apro的嘴里马上变成了AMD显卡省电
记住,不管是以前还是现在,都是AMD的大部分东西更耗电,从GF7开始就已经很明显的事情了
别忘记了X16X0,X1800,X1900,HD2900,HD3870 X2,HD48X0对比对手同等级产品功耗上的压倒性高出
作者: 大草原赶羚羊    时间: 2009-9-30 21:57
本帖最后由 大草原赶羚羊 于 2009-9-30 23:14 编辑
E大的部分我早曝光了,至于游戏性能,显卡危机在1920下特定时候可以上60了,这是一大进步
asd1508 发表于 2009-9-30 21:44


这是相当恐怖的....

如果gt300 crysis 24寸 VH 下能有60fps...

不管0aa 2aa 4aa 8aa...等等等等..

那可以说相当甚至超越285 T-SLI..oc..

http://hi.baidu.com/%B4%F3%B2%DD%D4%AD%B8%CF%C1%E7%D1%F2/album/item/d4febf1e51455e40f724e44e.html

crysis 中,NV的多卡效率可是相当好..

如果GT300真有以上说的效能在孤岛..那A卡..即使5870单卡..多卡..都不妙..

不过...我觉得有点夸张了...等实际出来在说吧
作者: jocover    时间: 2009-9-30 22:09
double提升好大呀
作者: mooncocoon    时间: 2009-9-30 22:15
本帖最后由 mooncocoon 于 2009-9-30 22:17 编辑

768KB L2 unified cache memory
…………

Half Speed IEEE 754 Double Precision

……………………

怪……怪物……XD
作者: 0阿诺0    时间: 2009-9-30 22:17
功耗要是这样的话  又多种选择了 实在不喜欢功耗太高的卡
作者: Edison    时间: 2009-9-30 22:17
虽然纸面上说是 1:2,但是我这里倒是认为实际上是 1:4 :p
作者: zlnnt    时间: 2009-9-30 22:25
E大的部分我早曝光了,至于游戏性能,显卡危机在1920下特定时候可以上60了,这是一大进步
asd1508 发表于 2009-9-30 21:44

特定指的是什么?
作者: bessel    时间: 2009-9-30 22:28
oh.
啥时候出详细报道?
虽然纸面上说是 1:2,但是我这里倒是认为实际上是 1:4 :p
Edison 发表于 2009-9-30 22:17

作者: 我有3个马甲    时间: 2009-9-30 22:28
GF100 VS RV870 = G80 VS R600?
作者: 大草原赶羚羊    时间: 2009-9-30 22:31
NONONO


prankfree 发表于 2009-9-30 22:29


猛料?......

看来单卡crysis 24寸 vh 2aa 60fps没办法了....
作者: boris_lee    时间: 2009-9-30 22:33
被CHO欺骗感情了。。。
口口声声说木有GT300
作者: qb兔子    时间: 2009-9-30 22:49
潜力贴留名。
作者: jrivers    时间: 2009-9-30 22:52
NV什么时候发布产品呢~?
作者: tiger21    时间: 2009-9-30 22:56
标题: GT300 规格泄密 ................ 30-9-09
nVidia GT300's Fermi architecture unveiled: 512 cores, up to 6GB GDDR5 9/30/2009 by: Theo Valich - Get more from this author
Just like we disclosed in the first article "nVidia GT300specifications revealed – it's a cGPU!", nVidia GT300 chip is acomputational beast like you have never seen before. In fact, we wouldgo as far out and state that this is as closest as GPU can be to a CPUin the whole history of graphics technology. Now, time will tellwhatever GT300 was the much needed revolution.

Beside the regular NV70 and GT300 codenames [codename for the GPU],nVidia's insiders called the GPU architecture - Fermi. Enrico Fermi wasan Italian physicist who is credited with the invention of nuclearreactor. That brings us to one of codenames we heard for one of theGT300 board itself - "reactor".
When it comes to boards themselves, you can expect to seeconfigurations with 1.5, 3.0 GB and 6GB of GDDR5 memory, but more onthat a little bit later.

GPU specifications
This is the meat part you always want to read fist. So, here it how it goes:

3.0 billion transistors
40nm TSMC
384-bit memory interface
512 shader cores [renamed into CUDA Cores]
32 CUDA cores per Shader Cluster
1MB L1 cache memory [divided into 16KB Cache - Shared Memory]
768KB L2 unified cache memory
Up to 6GB GDDR5 memory
Half Speed IEEE 754 Double Precision

As you can read for yourself, the GT300 packs three billion transistorsof silicon real estate, packing 16 Streaming Multiprocessor [new namefor former Shader Cluster] in a single chip. Each of these sixteenmultiprocessors packs 32 cores and this part is very important - wealready disclosed future plans in terms to this cluster in terms offuture applications. What makes a single unit important is the factthat it can execute an integer or a floating point instruction perclock per thread.

TSMC was in charge of manufacturing the three billion transistormammoth, but it didn't stop there. Just like the G80 chip, nVidia GT300packs six 64-bit memory controllers for a grand total of 384-bit,bringing back the odd memory capacity numbers. The memory controller isa GDDR5 native controller, which means it can take advantage ofbuilt-in ECC features inside the GDDR5 SDRAM memory and moreimportantly, GT300 can drive GDDR5 memory in the same manner as AMD canwith its really good Radeon HD 5800 series. The additional two memoryinterfaces will have to wait until 28nm or 22nm full node shrinks, ifwe get to them with an essentially unchanged architecture. You canexpect that the lower-end variants of GT300 architecture will pack lessdense memory controller for more cost efficiency, especially on thememory side.

GPGPU is dead, cGPU lives!
Just like we reported earlier, GT300 changed the way how the GPU isfunctioning. If we compare it to the old GT200 architecture,comparisons are breathtaking. Fermi architecture operates at 512 FusedMultiply-Add [FMA] operations per clock in single precision mode, or256 FMA per clock if you're doing double precision.
The interesting bit is the type of IEEE formats. In the past, nVidiasupported IEEE 754-1985 floating point arithmetic, but with GT300,nVidia now supports the latest IEEE 754-2008 floating-point standard.Just like expected, GT300 chips will do all industry standards -allegedly with no tricks.

A GPU supports C++ natively?
Ferni architecture natively supports C [CUDA], C++, DirectCompute,DirectX 11, Fortran, OpenCL, OpenGL 3.1 and OpenGL 3.2. Now, you'veread that correctly - Ferni comes with a support for native executionof C++. For the first time in history, a GPU can run C++ code with nomajor issues or performance penalties and when you add Fortran or C tothat, it is easy to see that GPGPU-wise, nVidia did a huge job.

To implement ISA inside the GPU took a lot of bravery, and with GT200project over and done with, the time came right to launch a chip thatwould be as flexible as developers wanted, yet affordable.

In a nuts**, this is just baseline information about what nVidia isgoing to introduce in the next couple of weeks. Without any doubt, wecan see that nVidia reacted to Larrabee by introducing a part that isextremely efficient, natively support key industry standards and moreimportantly, doesn't cost an arm and a leg.

The line-up is consisted out of high-end consumer part [GeForce],commercial [Quadro] and scientific [Tesla]. You can expect memory sizesfrom 1.5GB for consumer GeForce 380 to 6GB for commercial Quadro andTesla parts.
作者: feel囝    时间: 2009-9-30 23:01
頂完再看~~~~~
作者: iamspy    时间: 2009-9-30 23:02
L1是1个TPC独占64K L2是16TPC共享768K?

Half Speed IEEE 754 Double Precision这个能翻译下吗?
作者: arnew    时间: 2009-9-30 23:06
L1是1个TPC独占64K L2是16TPC共享768K?

Half Speed IEEE 754 Double Precision这个能翻译下吗?
iamspy 发表于 2009-9-30 23:02

意思是,双精度可以达到单精度的一半速度。
作者: 55555555    时间: 2009-9-30 23:06
nVidia 想干嘛?
Fermi architecture natively supports C [CUDA], C++, DirectCompute, DirectX 11, Fortran, OpenCL, OpenGL 3.1 and OpenGL 3.2. Now, you’ve read that correctly – Fermi comes with a support for native execution of C++. For the first time in history, a GPU can run C++ code with no major issues or performance penalties and when you add Fortran or C to that, it is easy to see that GPGPU-wise, nVidia did a huge job.

作者: qb兔子    时间: 2009-9-30 23:08
本帖最后由 qb兔子 于 2009-9-30 23:11 编辑

这则消息的来源是哪里?GTC官方新闻稿还是媒体爆料?

若是前者,主动吹风可是十分罕见的。
作者: mooncocoon    时间: 2009-9-30 23:09
Fermi comes with a support for native execution of C++.

…………………………

怪……怪物……XD
我今天已經不會說別的話了……
作者: xxx2006    时间: 2009-9-30 23:10
本帖最后由 xxx2006 于 2009-9-30 23:11 编辑

6G显存!!!不会上市9999元吧
作者: boris_lee    时间: 2009-9-30 23:15
解释还是编译
作者: 天下18    时间: 2009-9-30 23:18
提示: 作者被禁止或删除 内容自动屏蔽
作者: ktv123    时间: 2009-9-30 23:20
6GB 这个 会不会 有点 过了  这要何等功耗 何等价格啊
作者: xxx2006    时间: 2009-9-30 23:22
拥有Larrabee的一部分?
作者: 55555555    时间: 2009-9-30 23:24
1T的双精度?确实是怪物啊。
天下18 发表于 2009-9-30 23:18

更怪物的是它支持原生C++
作者: feel囝    时间: 2009-9-30 23:25
支持c++??
沒看錯吧??
第一個支持c++的gpu嗎??
nv到底想干什麽?做cpu??
作者: Edison    时间: 2009-9-30 23:30
只是 Co-Processor 而已啦。
作者: 什么?    时间: 2009-9-30 23:34
maybe someday,cGPU is dead, x86GPU lives!
作者: yokuz2    时间: 2009-9-30 23:36
提示: 作者被禁止或删除 内容自动屏蔽
作者: bird11530000    时间: 2009-9-30 23:37
连L1和L2缓存都有了,好家伙......
作者: xxx2006    时间: 2009-9-30 23:44
4级都未过的人汗一下ls有些人的英文, 直接把6GB前面的up to省略了?
yokuz2 发表于 2009-9-30 23:36


貌似也可以翻译成升级到6G显存
作者: VGASOS    时间: 2009-9-30 23:50
對這代的NV期待更多的用途 讓顯示卡不再只是玩遊戲吧
而是有更多的功能 更強的性能 當然還有更便宜的價格 雖然最後一個是不可能的
作者: tony0706    时间: 2009-9-30 23:51
有的看了

占位慢慢看
作者: NV60    时间: 2009-10-1 00:04
太强了,N卡要完胜了,作为N饭我很自豪
作者: sleepyboy    时间: 2009-10-1 00:12
内容少啊,不解渴~
作者: cxj3000    时间: 2009-10-1 00:13
这个native C++支持到底是什么情况,这个很感兴趣啊, 能编译成纯GPU运行的machine code吗?
需要程序员做什么优化吗?
作者: speedsteed    时间: 2009-10-1 00:29
NONONO


prankfree 发表于 2009-9-30 22:29

够猛
如果属实,AMD真的是栽了个大跟头。
作者: 骨刺    时间: 2009-10-1 00:45
牛逼啊 ~~NV这一年研发部门埋头苦干啊
作者: D65    时间: 2009-10-1 00:55
我个人的观点是这样的,这卡没跑的时候,NV自己心里也没底,虽然设计参数摆在那里,谁也不能保证成绩就一定能达标。所以前段时间A饭很嚣张。个别喝高了的, YY GTX380造不出来...

显然目前成绩很满意,明天肯定会很高调。但老黄一定不会渲染地球了,放心,因为Futuremark已经在渲染地球了。呵呵。
作者: koppie    时间: 2009-10-1 00:55
不知道这个东西在GPU本职工作上表现如何?


更怪物的是它支持原生C++
55555555 发表于 2009-9-30 23:24

作者: phehoo    时间: 2009-10-1 01:25
如果真6G显存的话,GT300就真成垃圾了。所有人都必须换64位系统。32位的永远都别想用。
作者: 嗜血老汉    时间: 2009-10-1 01:27
标题: NVIDIA GT300规格终曝光 流处理器、显存惊人(中文的)
终于,NVIDIA DX11图形芯片GT300的规格参数浮出水面了,不出所料地强大,很多地方都超出了预期。
GT300,或称G300,内部代号Fermi(费米),按照历史传统又称NV70,最高端型号GF100——不管叫什么,规格如下:
- 制造工艺:台积电40nm
- 晶体管:30亿个
- 流处理器:512个(32×16)
- 一级缓存:1MB
- 二级统一缓存:768KB
- 显存位宽:384-bit
- 显存容量:1.5/3/6GB GDDR5
- 浮点精度:半速IEEE754双精度

GT200拥有240个流处理器,而GT300一举增加到了512个,并分成16组SM(Streaming Multiprocessor),每组32个流处理器。
GT300集成了六个64-bit显存控制器,合计规格384-bit,低于GT200 512-bit,但搭配速度更快的GDDR5显存,容量上消费级桌面卡GeForce (380?)主要是1.5GB,专业卡Quadro和Tesla上则会配备惊人的3/6GB GDDR5。
GT300还改变了GPU功能执行方式,单精度模式下每个时钟循环均可执行512个积和熔加运算(Fused Multiply-Add/FMA),双精度下则是256个。
IEEE浮点算法格式方面,NVIDIA过去支持的是IEEE754-1985,现在GT300则升级到了最新的IEEE754-2008。虽然具体的浮点运算能力还不清楚,但非常有希望摆脱近年来始终不如对手的尴尬。
除此之外,GT300架构原生支持C(CUDA)、C++、DirectCompute、DirectX 11、Fortran、OpenCL、OpenGL 3.1/3.2等一系列技术标准,尤其是C++,这是GPU历史上第一次能够顺利运行这种代码,再加上C、Fortran就可以看出NVIDIA在通用计算方面的雄心壮志了。
NVIDIA CEO黄仁勋将在GPU技术大会上首次公开展示GT300显卡原型,时间是太平洋时间30日下午一点,北京时间1日凌晨五点。让我们拭目以待。
作者: boris_lee    时间: 2009-10-1 01:32
maybe someday,cGPU is dead, x86GPU lives!
什么? 发表于 2009-9-30 23:34

anyway ,it's none of radeon's business
作者: boris_lee    时间: 2009-10-1 01:33
如果真6G显存的话,GT300就真成垃圾了。所有人都必须换64位系统。32位的永远都别想用。
phehoo 发表于 2009-10-1 01:25

需要配置6G版本GT300的人。内存一般不会低于16G的
作者: 風的綫條    时间: 2009-10-1 01:35
C++是亮点
作者: vincewang    时间: 2009-10-1 01:36
接口换了没?
作者: kingetsu    时间: 2009-10-1 01:40
准备好米等着费吧
作者: phehoo    时间: 2009-10-1 01:42
想代替CPU?太无聊了GT300。看看如果不装个CPU,光它自己能运行windows不?搞笑。
作者: 侏罗纪跑步龙    时间: 2009-10-1 01:42
太美好了。。
作者: yokuz2    时间: 2009-10-1 01:43
提示: 作者被禁止或删除 内容自动屏蔽
作者: boris_lee    时间: 2009-10-1 01:46
支持合并
作者: boris_lee    时间: 2009-10-1 01:47
想代替CPU?太无聊了GT300。看看如果不装个CPU,光它自己能运行windows不?搞笑。
phehoo 发表于 2009-10-1 01:42

road runner里都有那么多opteron ......
作者: lamami    时间: 2009-10-1 01:47

支持C++, 哈哈,  看来可以搞个玩玩了
作者: 骨刺    时间: 2009-10-1 01:53
硬件已经完成 就看软件配套了

NV的驱动一直表现不错 继续下去哟
作者: Iota    时间: 2009-10-1 01:58
好多人YY啊
作者: 惧内也是种美德    时间: 2009-10-1 02:05
有C++爽死了,意思说很多程序都可以加速???

意思说上TFlops的性能可以(部分)叠加到系统里?(加到计算性能不是画面)
作者: opeth    时间: 2009-10-1 05:01
原生支持C++。。。。。这点强大得令人颤抖
作者: 55555555    时间: 2009-10-1 07:54
http://pcper.com/article.php?aid=789

上图片。
Dieshot


Architecture








Memory Subsystem Innovations


GigaThread Scheduler


sample



作者: 55555555    时间: 2009-10-1 08:00
看黄仁勋的表情对这个卡很有爱。
这个卡个头也不大啊。
作者: jhj9    时间: 2009-10-1 08:03
如果真6G显存的话,GT300就真成垃圾了。所有人都必须换64位系统。32位的永远都别想用。
phehoo 发表于 2009-10-1 01:25


显存一般不由CPU直接控制,CPU读写内存和读写显存的方式不同,所以显存容量读写应该不受32位操作系统限制

你想想看,显卡的显存带宽一般都是128位、256位、384位甚至512位了
作者: boris_lee    时间: 2009-10-1 08:08
管在此后不久 3D Labs 公司提出了 VPU 的概念,并且 ATI 也曾经跟风过 VPU 一段时间,但是现在包括 AMD、Intel,他们已经完全接纳了 GPU 这个称呼,现在提起 VPU,更容易让人想起的是 VPU Recover 的 GPU 重置现象。

太狠了.......
作者: tony0706    时间: 2009-10-1 08:09
半夜发的猛料没赶上
早上起来慢慢看
作者: boris_lee    时间: 2009-10-1 08:14
    * 第二代并行线程执行(PTX)ISA


       4. 透过 Predication(论断)提升性能

这个一般翻译为预测吧......
作者: Edison    时间: 2009-10-1 08:21
预测是 Prediction。
作者: 55555555    时间: 2009-10-1 08:22
白皮书放出了。
http://www.nvidia.com/content/PD ... ctureWhitepaper.pdf




欢迎光临 POPPUR爱换 (https://we.poppur.com/) Powered by Discuz! X3.4