POPPUR爱换

标题: R800和GF100的缓存层次结构对比 [打印本页]

作者: Asuka 时间: 2010-4-8 11:42
标题: R800和GF100的缓存层次结构对比
图片点击放大，感谢小云的图

文章预计明天或者后天发

[attach]1255815[/attach]

[attach]1255816[/attach]

作者: cloudol 时间: 2010-4-8 11:44
看cache架构就知道两者的差距

作者: 红发IXFXI 时间: 2010-4-8 12:13
期待版主精彩文章。。。

作者: 懒猫小双 时间: 2010-4-8 13:15
看不懂，等具体分析

作者: 鱼儿水中游 时间: 2010-4-8 13:22
看不懂，等具体分析

作者: Edison 时间: 2010-4-8 13:34
register file 是在 SM 或者 SIMD Core 一级上共享的。

作者: yamhill 时间: 2010-4-8 13:40
支持技术党

作者: kaven 时间: 2010-4-8 13:43
R800看上去有通用计算能力了，费米不再孤单，R800也有cache了，注定也是大核心

作者: Asuka 时间: 2010-4-8 14:21

回复 Heidfeld

GPGPU远没有到可以大规模应用的地步, 那些设计明显的超前了.
Nehalem架构还在大量抄袭Alpha 21364的设计, 前后差了十几年的东西.

没人说要原地踏步, 只是nVidia的设计明显的不合时宜. 多了50%的晶体管才这点性能提升.
只要RV870加强Tessellator的性能, 再稍微提下频率, GF100就几乎必败. 而AMD/ATi为此付出的代价将是相当的小.

"超前"在计算机行业不是褒义词, 是贬义词来的. 这一行讲究的是平衡, 妥协的艺术. 讲究的是不要撞墙.
Pentium4, Cell之类的还历历在目, Larrabee也是撞墙了. GF100没那么严重, 但也是明显的失衡了. 离撞上功耗墙也就一步之遥, 良品率嘛, 不仅没有一个真正意义上的"良品", 就算是成品率据报道也不足20%. 不关市场表现如何, 都已经是失败的了. 你争也没有用.

当然Fermi的衍生品或许会很成功, 就如R600的衍生品一样, 只是没有任何实物, 没理由去瞎猜
brl 发表于 2010-4-8 14:09

你大多数数据都是错误的

作者: Asuka 时间: 2010-4-8 14:22

R800看上去有通用计算能力了，费米不再孤单，R800也有cache了，注定也是大核心
kaven 发表于 2010-4-8 13:43

R800已经发布了呀

作者: Asuka 时间: 2010-4-8 14:22

register file 是在 SM 或者 SIMD Core 一级上共享的。
Edison 发表于 2010-4-8 13:34

修改了，其实逻辑结构图小云没画错，容量有问题

作者: Asuka 时间: 2010-4-8 14:27

期待版主精彩文章。。。
红发IXFXI 发表于 2010-4-8 12:13

文章是小云写的，我给他提供一些参考

作者: CRAZY88 时间: 2010-4-8 15:09
我能看出区别就是GF100的L2 Cache 兼顾了R870 中 constant cache，L2 texture cache， global data share 和 Memory export buffer 4个部分的功能，能够为这4个功能灵活的分配L2 Cache的空间。不知还有没有其他好处。

作者: Asuka 时间: 2010-4-8 15:14

我能看出区别就是GF100的L2 Cache 兼顾了R870 中 constant cache，L2 texture cache， global data share 和 ...
CRAZY88 发表于 2010-4-8 15:09

注意箭头，那才是本质区别

作者: fmsdc313 时间: 2010-4-8 15:28

注意箭头，那才是本质区别
Asuka 发表于 2010-4-8 15:14

感觉g100真正像是一个通用处理器了，不像rv870箭头到处都是，反而更像cpu

作者: 梦游的猪 时间: 2010-4-8 15:34
A版赶快发文章啊！

作者: thr33 时间: 2010-4-8 15:46
费米设计的再像cpu又怎么样
注定会失败

作者: gz_easy 时间: 2010-4-8 15:47
看箭头，GF100的L1和L2 cache间可以双向操作；而L2 cache会去自动同步DRAM窗口中的内容。
CPU就是这样的。

作者: CRAZY88 时间: 2010-4-8 15:50
还有GF100的每个SM中多了一个L1Cache，不知道和share memory 功能上有多大的区别。

作者: p4northwood 时间: 2010-4-8 15:53
看到箭头才知道

作者: fmsdc313 时间: 2010-4-8 16:00
nv的问题是设计的好却没真正提升竞争力，是不是像ati的细分曲面一样也要经历一个潜伏期呢

作者: vrml 时间: 2010-4-8 18:40
AMD 的读和写的cache是分开的？ constant cache 是 read only, export memory buffer 是cache还是？ write only？太多疑问。

作者: mooncocoon 时间: 2010-4-9 09:27

回复 Heidfeld

数据不准并不代表论点不准, 我从没宣称过数据精确. 况且我能错的不过两三个数字而已. 你可是整个论点都是错的.
GF100 Larrabee Cell P4 R600之流撞墙的撞墙夭折的夭折, 这是事实. 你想推翻那是没指望的. 理念先进的Alpha团队也不过落得了被收购的下场, 这也是事实. R600之后的衍生品670-870几乎代代成功. G80则是马甲遍地毫无可伸缩性--当然我不否认其商业成功.
brl 发表于 2010-4-9 09:11

错误的数据可以得出正确的结论

R600是工艺撞墙才死的

RV670很成功

G80毫无可伸缩性

……

百十来个字就蕴含了这么爆炸性的力量，这个世界怎么了……

作者: anolen01 时间: 2010-4-9 09:28
G80架构还是有伸缩性的，不过基本都是阉割运算单元，不像R600能翻好几倍

作者: toshibacom 时间: 2010-4-9 09:34

G80架构还是有伸缩性的，不过基本都是阉割运算单元，不像R600能翻好几倍
anolen01 发表于 2010-4-9 09:28

找你这么说，G80基本都是阉割运算单元，那就是G80只有缩，何来伸？

作者: anolen01 时间: 2010-4-9 09:54

错误的数据可以得出正确的结论

R600是工艺撞墙才死的

RV670很成功

G80毫无可伸缩性

… ...
mooncocoon 发表于 2010-4-9 09:27

月神怎么也喜欢断章取义添油加醋啊，人家可没说R600“工艺”撞墙，RV670“很”成功

作者: anolen01 时间: 2010-4-9 09:57

找你这么说，G80基本都是阉割运算单元，那就是G80只有缩，何来伸？
toshibacom 发表于 2010-4-9 09:34

兴许是非不能也，实不为也。G200不就是G80到GF100变身前的过渡阶段嘛，运算单元也翻倍了。

作者: Asuka 时间: 2010-4-9 10:00

回复 Heidfeld

数据不准并不代表论点不准, 我从没宣称过数据精确. 况且我能错的不过两三个数字而已. ...
brl 发表于 2010-4-9 09:11

错误的数据得不出正确的结论

你前面回复中这个结论就明显是错误的

没人说要原地踏步, 只是nVidia的设计明显的不合时宜. 多了50%的晶体管才这点性能提升.
只要RV870加强Tessellator的性能, 再稍微提下频率, GF100就几乎必败. 而AMD/ATi为此付出的代价将是相当的小.

brl 发表于 2010-4-8 14:09

从中可以看出你对GPU架构缺乏了解

作者: Asuka 时间: 2010-4-9 10:07

AMD 的读和写的cache是分开的？ constant cache 是 read only, export memory buffer 是cache还是？ write only？太多疑问。

vrml 发表于 2010-4-8 18:40

constant cache在前端，肯定不能写

export memory buffer没有详细信息，我觉得它就是一个进行DRAM不规则写操作时的合并缓存

根据AMD的资料，RV870在执行计算时是没有"cache"这个概念的

作者: tomsmith123 时间: 2010-4-9 10:13
回复 26# CRAZY88
L1 是可以自定义shared memory 和cache 的比例。

作者: HD6870 时间: 2010-4-9 12:32
说实话，这样做没什么意义，一个半年就可以换的东西没必要提什么先进性。能拿出来卖的都肯定不是最先进的架构了。

作者: anolen01 时间: 2010-4-9 12:42

在这添油加醋的分明就是你呀！
Heidfeld 发表于 2010-4-9 10:04

哦，耳机老弟可以指明一下我哪里添油加醋？

作者: luanchuifeng 时间: 2010-4-9 15:33
构架再先进也只有看下一代了这一代GF100是失败的 DX10没优势 DX11的游戏没优势唯独几个demo优势明显地铁2003 大家一起悲剧外带高功耗高热量高成本还是期待费米构架的第二代产品吧

作者: vrml 时间: 2010-4-9 16:06

constant cache在前端，肯定不能写

export memory buffer没有详细信息，我觉得它就是一个进行DRAM不 ...
Asuka 发表于 2010-4-9 10:07

也就是说AMD在执行计算（非图形）任务时是没有cache的？如果export memory buffer只是用来合并写操作，那么它什么时候flush到DRAM中？这个时候他会不会invalidate constant cache 中的值。如果不得话，constant cache中的值就和DRAM中的值不一致了，如何解决？

作者: skywalker_hao 时间: 2010-4-9 18:46

理论再多都是白搭，实际效果呢？
ttl 发表于 2010-4-9 15:55

实际效果应该也还可以的
只不过是等应用广泛的时候这玩意儿早就过时了

作者: jump_sun 时间: 2010-4-9 19:49
简单的把fermi当作GPU去看未免有侮辱的嫌疑~~~

fermi必将是里程碑式的产品~~~第一个有能力将RT带入realtime时代的架构~~~这个是未来互动式图形运算的必然技术~~~但它的运算规则已经超越了传统的3D绘制范畴~~~用今天的眼光和测试结果去衡量得不到正确的结论~~~

另外~~~竟然有人说提升Tessellation性能就如何如何~~~国内媒体谈及DX11必然谈及Tessellation~~~貌似这就是DX11的全部~~~貌似有了Tessellation就能让画质翻天覆地变化~~~可笑之极~~~我大胆预言~~~整个DX11时代~~~你甚至很难看到一个画面效果超越Crysis的游戏~~~欢迎挖坟~~~

Tessellation国内媒体称呼叫曲面细分~~~我都不知道这个词是怎么来的~~~那张显卡硬件支持nurbs绘制?没有曲面何来细分~~~换句话说细分又是另一种图形绘制标准~~~这两种都算不得多边形建模范畴内~~~还是老老实实的叫它在专业领域中被叫了几十年的"镶嵌"吧~~~

Tessellation其实就是一个图形绘制的中间步骤~~~它大体上是为了置换之类的效果做的前期准备~~~一个低面数的模型~~~要想通过置换达到高面数模型的效果~~~就必须提前产生足够多的多边形用以形变~~~产生效果的是置换而非Tessellation~~~只有Tessellation仅仅是相当于一次高级smooth而已~~~

当Tessellation自动产生了足够多的多边形后~~~你至少可以通过两种手段去控制它增加的多边形~~~一种是通过程序控制~~~比如很多demo里演示过的流体表面~~~通过程序去拟真是最方便的~~~另一种是通过贴图控制~~~比如你在heaven中看到的地面房屋墙壁这些~~~而贴图控制又可以有很多种~~~最佳的就像是做发现贴图一样~~~先建立高细节模型~~~然后烘焙出置换贴图~~~这种就比较复杂~~~另一种就是从彩色贴图中直接提取alpha通道去控制~~~一般而言地面之类的多用这种~~~快速而效果也可接受~~~

不过话说回来~~~这些操作也都未必是那么容易和能得到理想的效果~~~全在游戏制作方的能力和态度~~~没有这个为前提~~~Tessellation就是高级的smooth而已~~~任何都不代表~~~

再说回DX11~~~CS的意义远比Tessellation大的多~~~当API准备好了~~~fermi的设计如何算超前~~~NVIDIA是个有远见的公司~~~为了的realtime交互式图形绘制~~~走RT+光栅渲染的综合道路是必然的~~~这里要说明~~~就如同我不愿意神话Tessellation一样~~~RT也是没必要神话的~~~只要在需要它效果的时候采用才是正确和高效的~~~真正的电影级渲染也非全画面RT~~~有了这层判断~~~我们就能理解NVIDIA为什么提早将MentalImage收购~~~如果不知道这个公司的话自己去查~~~着重注意它旗下的MentalRay渲染器~~~RT类渲染器发展了几十年~~~统统是基于CPU的运算架构~~~几乎是不可能再做什么GPU移植了~~~所以CUDA CS甚至Stream才是它登场的前提~~~这些技术无一不是把GPU当作CPU来使用~~~或者某位说的GPGPU~~~

结论也就出来了~~~fermi只可能是里程碑~~~不是什么不切实际的超前设计~~~

作者: HD6870 时间: 2010-4-9 20:02

楼上的太高潮了吧？实时光线追踪还早着呢，到那时费米这个架构可能连低端都不用了。。。

作者: jump_sun 时间: 2010-4-9 20:09
楼上的注意我行文中的措辞~~~全面RT是不现实~~~我讲的是RT+光栅~~~只有在必须RT才能表现效果的部分才用~~~真正的电影级制作也远远不是全部RT~~~甚至业内另一大扛鼎级渲染器RM也是很晚才支持RT~~~

而RT也非很多人想象中的那么恐怖~~~很多效果即使现在的CPU都可以做到realtime~~~极度耗费运算资源的那些效果可以通过参数的设定等手段尽量降低要求~~~甚至有些效果因为CUDA CS等的出现~~~可以如同电影制作一样~~~post render中合成而不一定要用RT去做~~~但这都是将GPU当作CPU去用的~~~fermi无论怎么看设计思路都是没错的~~~

重要的是趋势~~~fermi是沿着趋势做~~~

作者: HD6870 时间: 2010-4-9 20:17

估计十天半个月的出不来吧你说的那种游戏，等到出来了，可能都到了费米2和r1k上场了。。。

作者: jump_sun 时间: 2010-4-9 20:20
具体到这类游戏什么时候能出来~~~我确实不知道~~~但是不能否认的是NVIDIA现在走出的这一步是正确的~~~它做好了准备~~~

作者: DasBoot 时间: 2010-4-9 20:35
是该有个人们的教材，不过假设有大多数人也丝毫不去关心这类东西

作者: 1369995985 时间: 2010-4-9 20:44
说一千道一万，费米的功耗天生就是个杯具~

作者: defv4 时间: 2010-4-9 21:14
我根本就不明白这是什么。。难道就是肥米很耗电很热的原因吗？

作者: noytong 时间: 2010-4-9 21:23
路过帮顶

作者: los_parrot 时间: 2010-4-9 22:11
fermi做为微构架肯定是很猛的，但是做为产品的gtx480/470就不是了。

gpu领域的换代速度是1年到18个月。amd的rv870比fermi的实际产品早了8个多月，也就是说，过几天才正式上市的480/470做为旗舰，在性能没有巨大优势的情况下，大概4个月内就要面对amd的nextgen产品。

如果tsmc的32nm没有取消，nV恐怕会付出极大的代价。现在各种消息说amd会用40nm制程推出一个半代构架。保守估计，图形领域赢过nV没有问题。如果按流言所说前端大改，后端不变，gpgpu这个遮羞布还能不能保住也是个问题。而即使amd不发布任何新产品，rv870系列在成本上也具备优势，用到tsmc的28nm ready问题也不大(但是将无法扩大市场占有率)。

而fermi,在这么巨大的规模下扩张会很困难。缩减规模，在单位晶体管性能上面一样没有优势。在28nm之前nv几乎毫无办法。

作者: yamhill 时间: 2010-4-9 22:37
所谓缓存……不是摆那里就能用的……

作者: rickerlian 时间: 2010-4-9 23:00
rv870的simd core的gds无法于主存产生映射关系，也就是说其容量只能受硬件限制，固定在64k
而femi的gpc可通过L1，L2与主存产生映射，实现rv870的gds，且容量等于主存。
---------------------
一个可能的操作，例如要在所有运算单元内共享某些数据，rv870要通过读主存，写gds操作，而femi只需在主存指定某段数据是共享数据即可。femi这种结构具有线性内存地址的特点，而rv870由于gds跟主存的区别是做不到这一点的
-----------------------
rv870的gds更似是一种为了实现某些标准而硬加上去的一块赘肉，可以遇见ati未来的设计会参考femi，用主存来实现gds，这样可以提高效率（当然配合read/write cache）

---------------------
当所有cache都是read/write的时候：
我有一个问题，无论femi还是rv870都有所谓的local data share，这个是用来干什么的，为什么不用主存配合L1 cache来模拟（也就是说lds的大小只受主存大小影响，但性能受L1 cache大小影响），这样可以更容易地管理及访问主存，无须顾及硬件结构。如果单单是为了顾及效率，我认为没有必要存在local data share，lds如果用主存配合L1 cache来模拟，虽然可能会出现像cpu那样访问不同大小的数据有级数差别的延时，但这正是性能划分的手段，例如L1 cache有16k 32k这样的划分。

以上愚见

作者: sasan210 时间: 2010-4-9 23:35
通用计算规模化？

作者: Edison 时间: 2010-4-9 23:47
local data share 还是有必要的，毕竟 L1 cache 的实现成本要比 scratchpad memory 高，而且显式的片上近程存储在性能上的帮助非常大。

其实和 L1 cache 相比，L2 cache 的 R/W 实现对 Fermi 的意义要大得多。

作者: ifu 时间: 2010-4-9 23:53

注意箭头，那才是本质区别
Asuka 发表于 2010-4-8 15:14

无非是没有L2写cache, 从图上看R800的local memory之类还占优呢
要挑战CPU这两个都差得远

作者: ifu 时间: 2010-4-9 23:54

回复 Asuka

这么看就直观了
Register (Read/Write)

Rv870 256KB x2 ，GF100 128KBx4x4

LDS+GD ...
纳尼？发表于 2010-4-9 21:03

rv870部分算错了,没看见simd0...19么
双核轮害人啊

作者: yeemartin! 时间: 2010-4-10 10:50

是直观了
GF100的先进性远超RV870毋庸置疑
Heifield 发表于 2010-4-9 22:47

貌似先进的代价很大。

作者: 32nm 时间: 2010-4-10 12:26
只是希望FERMI的512SP完整版能快点出

作者: Asuka 时间: 2010-4-10 15:57

也就是说AMD在执行计算（非图形）任务时是没有cache的？如果export memory buffer只是用来合并写操作，那么它什么时候flush到DRAM中？这个时候他会不会invalidate constant cache 中的值。如果不得话，constant cache中的值就和DRAM中的值不一致了，如何解决？
vrml 发表于 2010-4-9 16:06

constant会和DRAM保持一致，AMD没有说是怎么同步的

但是根据AMD官方的资料，Compute unit和global memory之间是没有cache的.......... 中间那段黄色的global mem cache本身就在DRAM里面....

[attach]1257463[/attach]

作者: Asuka 时间: 2010-4-10 16:23

看这图的话，除了缓存的大小，如果AMD把Memoryexportbuffer和GDS整合进L2实现R/W，那又能和Fermi玩了。。。 ...
纳尼？发表于 2010-4-9 21:12

对于现在的GPU而言，片上存储器大小不是主要因素。存储器层次结构才是最重要的部分

RV870的问题在于它的存储结构依然属于比较传统的GPU形式，它的L1和L2对于程序而言是不透明的，也不能写，存取对象只能是tex。且所有片上存储器的Load、Store操作地址没有统一

严格来说，RV870的缓存不能称为缓存，叫做高速片上内存更合适，它并没有真正意义上的“层级cache”，这种架构很难适应复杂计算

GF100在GPU上首次引入了一个真正的缓存架构，L1/L2可以为任意客户端请求进行读写，内容可以是纹理，也可以是数据，PTX 2.0统一了所有片上L/S的地址，提供了真正的缓存控制指令，对应用程序透明。应该说，这是第一个能够比较顺利执行各种各样计算的GPU

顺便说一句，RV870的GPR相比GF100，仍然是比较不足的，因为5D SIMD和1D Sclar之间理论GPR需求本身就差5倍，RV870至少要保持GPR容量与SP数量呈正比，面对GF100才不至于吃亏，而从上面的数据来看，RV870是做不到这一点的。
另外，在极端情况下，即使GF100的GPR溢出，依然有L1 Cache可以补（GF100的L1延迟是非常非常短的），而RV870在GPR溢出后性能会比较悲惨。

作者: Asuka 时间: 2010-4-10 16:24
本帖最后由 Asuka 于 2010-4-10 16:26 编辑

无非是没有L2写cache, 从图上看R800的local memory之类还占优呢
要挑战CPU这两个都差得远
ifu 发表于 2010-4-9 23:53

RV870没有严格意义上的cache，这是它与GF100最本质上的差别

另外，从每FLOPS计算能力所分配到的片上存储器容量、带宽角度来衡量，RV870实在非常可怜

作者: Edison 时间: 2010-4-10 17:17
fermi 的 l1 cache 在一致性的实现上也不是完全的，有可能出现 loosy 的问题。

作者: Edison 时间: 2010-4-10 17:42
GDS 是用来实现 thread group（这是 dc 的术语，等同 opencl 里的 work group、cuda 里的 thread block）之间的同步加速，size 只有 64KB，目前为止，我所知道的只有 CAL 能使用这个东西。

作者: los_parrot 时间: 2010-4-10 18:02
gf100的图,L2跟内存是连在一起的,中间的MC是怎样的?gpc要通过L2去访问gobal memory?

作者: Asuka 时间: 2010-4-10 18:23

学习了，另外请教Rv870的GDS是其什么作用的？从结构上看就想fermi上的L1，只不过没有与L2互联，这个为Mem ...
纳尼？发表于 2010-4-10 17:24

简单的说，线程块间的数据共享

注意：严格的说，LDS、GDS、Shared memory都不属于cache，它们应该被叫做片上高速内存

作者: Asuka 时间: 2010-4-10 18:25
如果对存储器层次架构做一个总结的话，AMD不彻底重新设计，在计算领域是没有竞争力的

但对于游戏图形而言，NV和AMD架构上区别造成的影响却不大

作者: Asuka 时间: 2010-4-10 18:31

gf100的图,L2跟内存是连在一起的,中间的MC是怎样的?gpc要通过L2去访问gobal memory?
los_parrot 发表于 2010-4-10 18:02

SM(GPR) <————> L1 <————> L2 <————> MC(DRAM)

从左至右，每一层存储器都是下一层的子集，就是所谓的多级缓存结构

作者: llkkoo007 时间: 2010-4-10 18:46
看清楚了

作者: shadewither 时间: 2010-4-10 19:03
作为看惯了x86 mpu的人，总觉得gf100的缓存好吝啬
尤其是L2和scratchpad

作者: Asuka 时间: 2010-4-10 19:04

作为看惯了x86 mpu的人，总觉得gf100的缓存好吝啬
尤其是L2和scratchpad
shadewither 发表于 2010-4-10 19:03

安腾和Power表示，x86的缓存容量属于儿童玩具

作者: Asuka 时间: 2010-4-10 19:06
GF100是典型的流式多处理器，应用环境和CPU交集很少

作者: shadewither 时间: 2010-4-10 19:06

安腾和Power表示，x86的缓存容量属于儿童玩具
Asuka 发表于 2010-4-10 19:04

white elephant不说，power的那种缓存性能……

作者: Asuka 时间: 2010-4-10 19:06

white elephant不说，power的那种缓存性能……
shadewither 发表于 2010-4-10 19:06

P7很变态呀

作者: shadewither 时间: 2010-4-10 19:12

P7很变态呀
Asuka 发表于 2010-4-10 19:06

l3也就4M/core，nehalem也有2-3了

作者: Asuka 时间: 2010-4-10 19:16

l3也就4M/core，nehalem也有2-3了
shadewither 发表于 2010-4-10 19:12

不能这样比呀，CPU整个体系可以说跟着"Cache hit"进行的布局，而GPU的整个体系都是为了"Cache miss"设计的

作者: shadewither 时间: 2010-4-10 19:36
回复 93# Asuka
请教一下,为什么fermi的功耗会那么大
从规格上来看不至于啊

作者: spinup 时间: 2010-4-10 19:39

回复 Asuka
请教一下,为什么fermi的功耗会那么大
从规格上来看不至于啊
shadewither 发表于 2010-4-10 19:36

个人觉得fermi的功耗应该与工艺选择有更大关系。

作者: los_parrot 时间: 2010-4-10 19:42

SM(GPR) L1 L2 MC(DRAM)

从左至右，每一层存储器都是下一层的子集，就是所谓的多级缓存结构
Asuka 发表于 2010-4-10 18:31

L2后面是MC的话，灵活性并没有提高多少啊。如果gpc可以直接通过MC读写内存的话，这个L2才有实用价值。

作者: spinup 时间: 2010-4-10 19:48

如果对存储器层次架构做一个总结的话，AMD不彻底重新设计，在计算领域是没有竞争力的

但对于游戏图形而言 ...
Asuka 发表于 2010-4-10 18:25

nvidia是希望gpu包打天下的，而amd的态度则很明确：fusion。按amd的意思，他们要做的远不是Llano那样集成gpu的cpu，未来说不定会出现集成cpu的gpu。

如果cpu能接手部分工作，gpu用更复杂的设计来通用化就未必那么必要了

作者: Asuka 时间: 2010-4-10 20:01

回复 Asuka
请教一下,为什么fermi的功耗会那么大
从规格上来看不至于啊
shadewither 发表于 2010-4-10 19:36

总结就是6个字：

T S M C 无能

作者: Asuka 时间: 2010-4-10 20:02

个人觉得fermi的功耗应该与工艺选择有更大关系。
spinup 发表于 2010-4-10 19:39

汗，从奔腾pro到现在，绝大多数经典处理器都采用的架构被您一杆子打翻了

老兄去搜索下cache在PC体系结构中的作用

作者: shadewither 时间: 2010-4-10 20:08

总结就是6个字：

T S M C 无能
Asuka 发表于 2010-4-10 20:01

理解了

作者: yamhill 时间: 2010-4-11 13:31

貌似TSMC是性价比最高的……

作者: Asuka 时间: 2010-4-11 13:55

那你觉得明知TSMC*无*能*还要去撞墙的NV就很有才? 这什么逻辑? 典型的护崽?
败就败了, suck up and move on, 又不是没有下一回了. 又不是方向错了.
那10k的量作为旗舰还是能撑上一阵子的. 市场惯性也不是一朝一夕就能扳回来的.

brl 发表于 2010-4-11 12:55

不是明知

100nm以下的半导体没有明知

作者: Asuka 时间: 2010-4-11 13:56

我不知道你怎么得出我的结论是错误的这种结果的, 莫非您认为GF100没有撞墙? 它作为一款GPU不是很失败?
...RV8xx系补补几何单元用来对抗GTX4xx绰绰有余, 有什么不对. 架构落后是落后, 消费者不需要知道这些.
Unigine再强, 16个单元那么高的频率, 才能领先人家一个单元, 不也只能说效率低下么. 比ATi的SP对NV的SP效率还低下.
brl 发表于 2010-4-11 12:38

所以才说你不懂

作者: Edison 时间: 2010-4-11 16:19
来看看没有使用 tessellation 但是应用了 compute shader 的游戏 battlefield：

另一个例子，采用 compute shader 前后后 stalker cop 的性能表现：

在 DX11 时代，Compute Shader （也就是部分人认为没有意义的 GPGPU）的对游戏性能影响还是相当明显的。

作者: HD6870 时间: 2010-4-11 17:01
其实gpgpu这个概念没什么意义。除非能做成独立cpu。要不以后只要能完美支持dc和opcl的都算gpgpu。适应标准的卡才能生存下去。现在amd在这方面虽然比nv晚了一些，但是当dc和opcl大规模应用的时候，可能amd恰好能赶上。。。那么现在的落后其实就无所谓了。因为还没大规模应用。

作者: gzeasy2006 时间: 2010-4-11 21:07
真希望索尼的PS4是power7+费米3的架构

作者: gzeasy2006 时间: 2010-4-11 21:16
本帖最后由 gzeasy2006 于 2010-4-11 21:17 编辑

[attach]1258649[/attach][attach]1258649[/attach][attach]1258649[/attach]

http://www.【请勿利用PCINLIFE资源打广告，谢谢合作】.com/10053.html

http://www.【请勿利用PCINLIFE资源打广告，谢谢合作】.com/10053.html

http://www.【请勿利用PCINLIFE资源打广告，谢谢合作】.com/10053.html

作者: Edison 时间: 2010-4-11 21:17

gzeasy2006 发表于 2010-4-11 21:16

建议使用 poco.cn 作为图床。

作者: gzeasy2006 时间: 2010-4-11 21:18

建议使用 poco.cn 作为图床。
Edison 发表于 2010-4-11 21:17

什么意思？请解释一下

作者: chm128256_1 时间: 2010-4-11 21:30

不是明知

100nm以下的半导体没有明知
Asuka 发表于 2010-4-11 13:55

既然100nm以下的半导体没有明知，那你就没资格说TSMC*无*能*

作者: Asuka 时间: 2010-4-11 21:34

既然100nm以下的半导体没有明知，那你就没资格说TSMC*无*能*
chm128256_1 发表于 2010-4-11 21:30

好吧，你的语文老师无能

作者: gzeasy2006 时间: 2010-4-11 22:00
当TSMC进入22纳米或者20纳米时代会有第二代高-K金属栅极的技术加入吗？

作者: gzeasy2006 时间: 2010-4-11 22:03

那你觉得明知TSMC*无*能*还要去撞墙的NV就很有才? 这什么逻辑? 典型的护崽?
败就败了, ** and mo ...
brl 发表于 2010-4-11 12:55

觉得TSMC无能可以叫IBM代工啊，IBM以前就做过NV40啊

作者: skywalker_hao 时间: 2010-4-11 22:28

觉得TSMC无能可以叫IBM代工啊，IBM以前就做过NV40啊
gzeasy2006 发表于 2010-4-11 22:03

恐怕，你付得起的IBM代工，最后是交给GF的

作者: mooncocoon 时间: 2010-4-11 22:44

当TSMC进入22纳米或者20纳米时代会有第二代高-K金属栅极的技术加入吗？
gzeasy2006 发表于 2010-4-11 22:00

rodamap上有，但是很明确是单组份的Hf氧化物，而且即便如此，说老实话论文也是几乎未见……
大家现在的兴趣都在大马士革栅极上，多组元high-k的资源在各家哪里都有了些许的下降
最后，我也不认为连Gate-first+ILD都搞不定同时自己现在的CMP还有一裤裆问题的TSMC有能力搞定Gate-last+CMP并最终完全掌控Gate-last，躲开深埋却遇到平整度，这不是按下葫芦起来瓢么，再说转向Gate-last还需要对Layout部分进行重新设计……
谁知道呢，也许TSMC可以让我意外一次也说不定呢

作者: Asuka 时间: 2010-4-11 22:48

惊喜的发现5850的compute shader性能超过与他相同图形性能的GTX285。

是否表明AMD 5系的GPGPU能力超过了G200？
纳尼？发表于 2010-4-11 22:36

STALKER主要负载还是图形部分

纯计算的话，不容乐观

[attach]1258719[/attach]

[attach]1258720[/attach]

作者: yamhill 时间: 2010-4-11 22:53

5870比4890倒是强了那么多？
明日香发表于 2010-4-11 22:49

5870的苦力数远远多于4890

作者: Edison 时间: 2010-4-11 22:57

惊喜的发现5850的compute shader性能超过与他相同图形性能的GTX285。

是否表明AMD 5系的GPGPU能力超过 ...
纳尼？发表于 2010-4-11 22:36

5800 的 Directcompute 性能是比 GTX 285 快，很多 GT200 上实现的技术，5800 也做了，没做的则受到 Directcompute 11.0 约束着，加上 raw power 的关系，所以可以在这个 API 下跑得更快。

作者: 020301583 时间: 2010-4-11 23:04
反正我看不懂啦

作者: chm128256_1 时间: 2010-4-12 00:31

好吧，你的语文老师无能
Asuka 发表于 2010-4-11 21:34

好吧，你的语文和逻辑老师都无能！
我实在无法降低到某一层次了！

作者: los_parrot 时间: 2010-4-12 00:32
480的这个786kb L2实际上包括了纹理,顶点,指令,数据的缓存.到底是给统一化了可以自由定义,还是只是宣传需要全给画成1个L2?

GDDR的工作方式跟主内存差距那么大,L2具体如何工作呢?

作者: yamhill 时间: 2010-4-12 00:38
我要看下限！

我要看下限！

--------------------------------

话说……480啥时候能到GZ各米人手中啊……

作者: Asuka 时间: 2010-4-12 01:44
本帖最后由 Asuka 于 2010-4-12 01:45 编辑

480的这个786kb L2实际上包括了纹理,顶点,指令,数据的缓存.到底是给统一化了可以自由定义,还是只是宣传需要全给画成1个L2?

GDDR的工作方式跟主内存差距那么大,L2具体如何工作呢?

los_parrot 发表于 2010-4-12 00:32

是统一的

GF100的L2工作模式有些类似CPU的L2/L3

内存和缓存的区别请搜索DRAM、SRAM

欢迎光临 POPPUR爱换 (https://we.poppur.com/)