POPPUR爱换

标题: 我也说说TBDR与Deferred Shading [打印本页]

作者: Vendicare 时间: 2013-1-10 09:30
标题: 我也说说TBDR与Deferred Shading
本帖最后由 Vendicare 于 2013-1-10 15:46 编辑

看见有人争论PowerVR和G70的优劣，其中扯到了TBDR技术。虽然怎么说都有点关公战秦琼的意思，不过我还是忍不住也来谈谈TBDR和Deferred shading两者的区别和优劣。

Tile-based Deferred Rendering是个很老很老的东西了。借助别人说过100遍的话：

传统的3D显示芯片处理过程是先进行几何运算，然后读取、生成纹理等操作，然后通过深度测试决定像素是否可见，之后将可见像素进行必要的处理后输出到Framebuffer显存上，之后由RAMDAC读取显存经过数模转换输出到显示器上。这个过程中有一大缺点就是无论像素是否可见，都必须经过渲染，这将浪费大量填充率和带宽，这被称为overdraw。

　　为了解决这一矛盾，PowerVR的TBR在几何运算后，将屏幕的像素分成了很多矩形小块，先经过每个小块的深度测试，测试小块是否可见决定小块中的像素是否应当被渲染，之后将需要被渲染的再交给渲染管线去处理，之后输出。这样一来，不可见的像素已经提前被剔去不用被渲染，很大程度上节省了带宽，减少了渲染管线的压力。

本质上TBDR就是一种Deferred shading然而TBDR有很多问题。

首先深度测试必须有人来做。不管是显卡还是CPU要想在渲染前检测景深肯定要进行计算，这部分计算的开销要么产生性能损失，要么产生电路开销。而且场景越复杂开销越惊人。（CPU蛋疼）

其次，为了检测像素是否被遮挡，state load非常频繁。而state load不利于访存，如果场景中多边形变多而且互相间关系复杂，TBDR造成的访存需求会成倍上升。带宽这东西绝大多数时间都是珍贵的，所以TBR技术一开始就没能跨过这道门槛。（带宽蛋疼）

TBDR要求需要将模型存进scene buffer里，对于现在游戏场景中随便就几千万个三角形的建模规模，要想保证不发生缓存溢出，基本上必须在显卡上集成个16M的SRAM才差不多有戏。这个晶体管数量随便就干翻HD4000了（夸张的说法，未考证，欢迎踢爆）。（缓存蛋疼）

使用TBDR的时候不能改变PS的Z值，这阻碍了很多光照特效的使用。要想作出好的效果就要不停地Disable buffered shading。编程开发工作量巨大无比。（程序员蛋疼）

最后回到主要矛盾上来，TBDR的主要受益人其实是TMU、其次是PS单元。然而TMU在很久很久以前就已经不是显卡的瓶颈了，统一渲染以后PS单元也可以灵活调配了。更为关键的是nvidia强推的Multi-Pass技术流行，这玩意在桌面领域迅速让TBDR完全没有任何存在的理由。在90年代末期的3D时代中，由于大家还在着力解决温饱问题，TBDR对于简单场景中运算资源的节约还是比较受人欢迎的。一如高粱这种农作物，当人民解决温饱问题后，没有人会再去缅怀高粱。PowerVR退出桌面是历史的选择，随着移动SOC处理能力的激进发展TBDR退出手机领域也只是时间问题。

Deferred Shading待续

作者: Xenomorph 时间: 2013-1-10 10:41
真打算每天1主题吗？加油~话说昨天那个“沉默倡议”有点水吖……

作者: huangpobu 时间: 2013-1-10 14:43
本帖最后由 huangpobu 于 2017-3-4 18:15 编辑

zishubuding

作者: efficient3d 时间: 2013-1-10 14:57
学习一下！没想到当年的PowerVR的技术现在还在讨论。这个技术当年也只提到可以减小显存带宽开销，但是随着计算机图形技术的发展是不是还是那么有用就不知道了。其实从GF3、Radeon开始，NV与ATI各自都有自己的类似技术，大大减少了对显存带宽的依赖。当年最主要的测试是同分辨率下16bit与32bit色深的性能损失情况，以前GF2时代这个差值是很可观的，GF3之后就再也没有专门测试过。

作者: 66666 时间: 2013-1-10 15:37
本帖最后由 66666 于 2013-1-10 15:37 编辑

huangpobu 发表于 2013-1-10 14:43
我说说我的理解，不一定对，大家可以讨论下。

首先的的确确是关公战秦琼，我的帖子第一点第一行加粗的字 ...

你就在那扯淡吧，powerVR是分块渲染，实际上每一块显示区域里面多边形数量都不一样，甚至差异很大（从几千到几十万乃至上百万）。做小很容易溢出，如果从显存总线走的话TBDR的高效率立马破产，做大了晶体管成本大家都知道很昂贵而且也会影响到shader部分占比重。

TBDR作为一个过渡的3D妥协技术在某些场合下确实效率很高，但是跟3D技术发展完全就是背道而驰。

作者: huangpobu 时间: 2013-1-10 15:44
本帖最后由 huangpobu 于 2017-3-4 18:16 编辑

66666 发表于 2013-1-10 15:37
你就在那扯淡吧，powerVR是分块渲染，实际上每一块显示区域里面多边形数量都不一样，甚至差异很大（从几千 ...

zishubuding

作者: 66666 时间: 2013-1-10 15:49

huangpobu 发表于 2013-1-10 15:44
你就在那扯淡吧，每一个Tile差别很大用得着你说？如果你继续使用这种风格的言辞，我也会毫不客气用同样风 ...

说到底TBDR就是一个低级3D技术阶段的花招而已，3D游戏发展越快TBDR就露陷的越快，别扯什么低功耗，谢谢。

作者: huangpobu 时间: 2013-1-10 15:52
本帖最后由 huangpobu 于 2013-1-10 15:52 编辑

66666 发表于 2013-1-10 15:49
说到底TBDR就是一个低级3D技术阶段的花招而已，3D游戏发展越快TBDR就露陷的越快，别扯什么低功耗，谢谢。 ...

说到底顺序发射窄前端就是一个低级指令级并行阶段的花招而已，CPU发展越快顺序发射窄前端就露陷越快，别扯什么低功耗，谢谢。

大家全部把Atom给扔了吧。

作者: 66666 时间: 2013-1-10 15:55

huangpobu 发表于 2013-1-10 15:52
说到底顺序发射窄前端就是一个低级指令级并行阶段的花招而已，CPU发展越快顺序发射窄前端就露陷越快，别扯 ...

你说的一点不错，所以intel新一代ATOM又改回了OOOE，IBM的power系列也是如此。

不合乎时代潮流的技术必然会被淘汰

作者: huangpobu 时间: 2013-1-10 15:58

66666 发表于 2013-1-10 15:55
你说的一点不错，所以intel新一代ATOM又改回了OOOE，IBM的power系列也是如此。

不合乎时代潮流的技术必 ...

不合乎时代潮流的技术必然会淘汰，我无论何时都没有否认过这一点。

我也说了将来的图形渲染几何负载上升，TBDR没有应对办法自然会劣势。

那么您是否觉得从一开始Intel Austin团队就是一群弱智，居然弄顺序发射Atom？

作者: Vendicare 时间: 2013-1-10 16:02
本帖最后由 Vendicare 于 2013-1-10 16:03 编辑

huangpobu 发表于 2013-1-10 14:43
我说说我的理解，不一定对，大家可以讨论下。

首先的的确确是关公战秦琼，我的帖子第一点第一行加粗的字 ...

Deffered shading还没写，所以不要以为我打算批TBDR捧延迟渲染哈。中间有事出去忙了，回头再写。

关于缓存的问题，16MB是大了点，这是个理想状态。但是实际上要把TBDR在桌面上很好的用起来，缓存大小和这个没有数量级上的区别。原因如下：

1、TBDR不同于CPU上的缓存，其要为GPU片上数以百计的shader服务。而CPU上纵使现在缓存命中率高达98%、纵使现在的CPU每核心至少也能分到1M的缓存，提高缓存容量依然能够获得明显的性能提升。缓存大了肯定好

2、TBDR过程中多数都是随机访存，缓存替换算法想提高命中率很难。

3、如果命中率低到一定程度，那么采用TBDR的速度就会绝对下降了。因为每次Rendering前进行判断的时间将足矣让你完成渲染工作。

-------------总的来说，对于简单的3D模型TBDR是有益的。但是在现今的模型复杂度下，TBDR比较鸡肋。

作者: 66666 时间: 2013-1-10 16:03
本帖最后由 66666 于 2013-1-10 16:04 编辑

huangpobu 发表于 2013-1-10 15:58
不合乎时代潮流的技术必然会淘汰，我无论何时都没有否认过这一点。

我也说了将来的图形渲染几何负载上 ...

你这话深得我心，不错intel之前ATOM设计团队就是弱智，要不然上网本不会死的这么快这么彻底。

再补充一句，全美达也是弱智

作者: huangpobu 时间: 2013-1-10 16:03

66666 发表于 2013-1-10 15:55
你说的一点不错，所以intel新一代ATOM又改回了OOOE，IBM的power系列也是如此。

不合乎时代潮流的技术必 ...

将来的rendering architecture想要实现cinamatic级别的画质，必然不同于现在。通用计算能力要更强，架构也要大改。

所以我也很想听一听您对不合乎时代潮流的开普勒是如何评价的。

另外借用隔壁帖某仁兄的话，我感觉您似乎完全没有把手持计算设备的图形市场放在眼里，如果您能拿mali或者其他架构来跟PowerVR做同一起跑线的对比，而不是拿奔驰车跟载重卡车比速度，根本没有这么多事情。

作者: aibo 时间: 2013-1-10 16:09
看大有人说G70的功耗

我翻了一下，看到7900GT的功耗，内牛满面啊
http://www.xbitlabs.com/articles ... force7900gtx_6.html

作者: 66666 时间: 2013-1-10 16:10

huangpobu 发表于 2013-1-10 16:03
将来的rendering architecture想要实现cinamatic级别的画质，必然不同于现在。通用计算能力要更强，架构也 ...

现在所有DX11游戏都或多或少的用到Compute Shader，通用计算能力高低看DX11游戏平均成绩就知道开普勒是不是不合潮流。

其次我在刚才那贴里面已经跟你说的很清楚了，我只关系谁实力强谁技术更先进，仅此而已。手持设备市场能卖的出去首先是靠集成度，其次靠价格，最后才是所谓性能功耗。现在手持市场大家包括intel和NV玩的都是主流市场淘汰的玩意，站在一个全是废物的基础上谈真是浪费时间浪费精力。

作者: huangpobu 时间: 2013-1-10 16:21

Vendicare 发表于 2013-1-10 16:02
Deffered shading还没写，所以不要以为我打算批TBDR捧延迟渲染哈。中间有事出去忙了，回头再写。

关于 ...

唔。

1. 同样的道理也适用于z-cache，texture cache，等等一系列GPU cache. 这些也都要为大规模的shader服务。而且Tile过后局部性肯定有提升，流水线后端的处理会更快。

2. Tile过程中的内存访问模式我不太清楚。针对你主帖说的跨tile的三角形读取多次的问题，在cache加一个标记应该可以多次复用，避免多次访问内存。（这只是一个想法，具体效果如何要做评估才知道）。随机访存的话只要随机跳跃的步长在block size以内也能接受吧？（脑补的）。这些问题其实跟IMR或者DS面临的问题一样，实际工程中会有对应的办法解决或者缓解。

3. 同意。

现在的手机\平板上我认为TBDR是合适的，场景复杂度再上涨就吃亏，看那些厂家如何应对。

作者: 66666 时间: 2013-1-10 16:23

aibo 发表于 2013-1-10 16:09
看大有人说G70的功耗

我翻了一下，看到7900GT的功耗，内牛满面啊

说出来就不好玩了，这种小学等级的计算题居然有人还真不会做

作者: huangpobu 时间: 2013-1-10 16:31

66666 发表于 2013-1-10 16:10
现在所有DX11游戏都或多或少的用到Compute Shader，通用计算能力高低看DX11游戏平均成绩就知道开普勒是不 ...

争了这么久我已经理解您喜欢高性能、前瞻性的东西。按照定律推算手持市场要发展十年（性能翻6~8倍甚至更多）才能入您的法眼，然而届时我不知道您的眼光是不是又变得更高了。您是做移动图形开发对性能极度不满呢，还是做桌面图形的想找低端的东西秀一下优越感？总之给我的感觉非常不好。

另外手持设备市场我不认为功耗应该排最后。事实上我觉得这些因素都很重要，难以排出放之四海而皆准的座次。

作者: magicyang87 时间: 2013-1-10 16:42

aibo 发表于 2013-1-10 16:09
看大有人说G70的功耗

我翻了一下，看到7900GT的功耗，内牛满面啊

考虑制程的进步再去除片上电路显存之类的功耗应该会降低很多吧

作者: Xenomorph 时间: 2013-1-10 16:52

aibo 发表于 2013-1-10 16:09
看大有人说G70的功耗

我翻了一下，看到7900GT的功耗，内牛满面啊

7900GT、7950GT、7900GTX都是完整规格的G71。7800GTX才是G70的。G71的功耗很不错吖……

作者: 66666 时间: 2013-1-10 17:16
本帖最后由 66666 于 2013-1-10 17:17 编辑

huangpobu 发表于 2013-1-10 16:31
争了这么久我已经理解您喜欢高性能、前瞻性的东西。按照定律推算手持市场要发展十年（性能翻6~8倍甚至更多 ...

你想多了，我的意思是一个失败的技术还再去谈优劣有什么意义？就好像ATOM功耗低，但谁会去论证ATOM构架的优劣？必然会被淘汰的东西。

手机平板是消费电子，消费电子的吸引力不是靠的芯片有多牛逼，运算速度有多快，而是看应用体验和服务。就这几年很难有公司跟苹果抗衡，功耗当然很重要但是android系统真心不是一个很适合低功耗环境的系统，跟IOS的节能效率比起来差的太远。对于NV来说I500的重要性远远超过tegra4，I500不成功tegra业务肯定撑不过三年，如果I500性能和功耗达到某公司的预期的话，tegra就是狗屎也能大卖。

现在一个LTE 4G基带+射频芯片价格是tegra3的三倍还多

作者: Vendicare 时间: 2013-1-10 18:20

huangpobu 发表于 2013-1-10 16:03
将来的rendering architecture想要实现cinamatic级别的画质，必然不同于现在。通用计算能力要更强，架构也 ...

开普勒其实并不是一个成功的架构35亿晶体管的GK104战胜30亿晶体管的GTX580更多的是靠超强的TMU和ROP。

由于GTE效能不济，3倍的SP米有换来应有的性能。

作者: G70 时间: 2013-1-10 18:27
提示: 作者被禁止或删除内容自动屏蔽

作者: G70 时间: 2013-1-10 18:28
提示: 作者被禁止或删除内容自动屏蔽

作者: loverlong 时间: 2013-1-10 18:30
尼玛内牛满面啊，自从cho走了以后，好久没看到技术讨论了。

作者: Xenomorph 时间: 2013-1-10 18:35

Vendicare 发表于 2013-1-10 18:20
开普勒其实并不是一个成功的架构35亿晶体管的GK104战胜30亿晶体管的GTX580更多的是靠超强的TMU和ROP。

...

感觉Kepler架构都是赢在Texture性能。不过ROP的效率也有改进吧，例如GK104在高分辨率高AA下衰减速率比GF110、GF114更慢。不过什么时候才能到AMD的水平吖……依稀记得HD4890那16个ROP在高负载下扫掉32个ROP的GTX285，无语了……

作者: huangpobu 时间: 2013-1-10 19:54
本帖最后由 huangpobu 于 2013-1-11 01:06 编辑

感谢f0f0f0的指正，这楼里面错用了数据，删掉避免误导别人。

作者: huangpobu 时间: 2013-1-10 19:56

66666 发表于 2013-1-10 16:03
你这话深得我心，不错intel之前ATOM设计团队就是弱智，要不然上网本不会死的这么快这么彻底。

再补充一 ...

那么我可不可以问一下您自己相比Austin团队那群弱智。。。。。。。。。。。

按您这样说，反正我弱智不如。

作者: Vendicare 时间: 2013-1-10 20:11

huangpobu 发表于 2013-1-10 19:54
"手机平板是消费电子，消费电子的吸引力不是靠的芯片有多牛逼，运算速度有多快，而是看应用体验和服务。" ...

我想说：这么比较没什么参考意义.........

作者: huangpobu 时间: 2013-1-10 20:11
本帖最后由 huangpobu 于 2013-1-10 20:12 编辑

Vendicare 发表于 2013-1-10 20:11
我想说：这么比较没什么参考意义.........

我也这样想，我很早就说了奔驰车和载重卡车没办法比较什么的。如果不是咄咄相逼，我懒得去比。

作者: SpitDragon 时间: 2013-1-10 20:23

huangpobu 发表于 2013-1-10 19:54
[quote]66666 发表于 2013-1-10 16:23 http://en.wikipedia.org/wiki/GeForce_600_Series

最新的开普勒桌 ...

一个外行人问一下，能否这样直接用除法？

作者: huangpobu 时间: 2013-1-10 20:26

SpitDragon 发表于 2013-1-10 20:23
一个外行人问一下，能否这样直接用除法？

严格来说是不行的。但是厂商宣传时就是这么除的，我只是被逼干了一模一样的事情。

作者: huangpobu 时间: 2013-1-10 20:34
本帖最后由 huangpobu 于 2017-3-4 18:17 编辑

66666 发表于 2013-1-10 17:16
你想多了，我的意思是一个失败的技术还再去谈优劣有什么意义？就好像ATOM功耗低，但谁会去论证ATOM构架的 ...

zishubuding

作者: Vendicare 时间: 2013-1-10 20:36

huangpobu 发表于 2013-1-10 20:11
我也这样想，我很早就说了奔驰车和载重卡车没办法比较什么的。如果不是咄咄相逼，我懒得去比。

我觉得tbdr和功耗没必然联系，而且我又觉得按照目前的势头，不出3年手机领域也不用tbr了。

作者: westlee 时间: 2013-1-10 21:06
提示: 作者被禁止或删除内容自动屏蔽

作者: huangpobu 时间: 2013-1-10 21:16

Vendicare 发表于 2013-1-10 20:36
我觉得tbdr和功耗没必然联系，而且我又觉得按照目前的势头，不出3年手机领域也不用tbr了。

你不是认为TBDR可能导致访内存更多么？如果访内存更多而不是cache就是一个功耗上的劣势。

我看了一下SIGGRAPH 2012的讲座，第一场的嘉宾是ARM的，说移动GPU带宽仍然不够，一来必须采用某种方式的延迟渲染，二来需要使用Tiling来聚合内存访问。

作者: huangpobu 时间: 2013-1-10 21:22

westlee 发表于 2013-1-10 21:06
汗，第一代i7漏电严重，单线程下很多单元只不过在打酱油。

4核心火力全开也就100w，这时候的性能……
...

第一代i7漏电严重，Atom也一样，它们使用同种工艺制造。

”单线程下很多单元只不过在打酱油“ ？拜托，连乱序的i7都打酱油，顺序执行的Atom打酱油只会更严重。而且你没有看图下的说明吗？i7只开了一个核心，这个比对已经是尽量公平的了。

你贴的那个图没有说明我看不明白。

作者: eDRAM 时间: 2013-1-10 21:22

Vendicare 发表于 2013-1-10 18:20
开普勒其实并不是一个成功的架构35亿晶体管的GK104战胜30亿晶体管的GTX580更多的是靠超强的TMU和ROP。

...

应该不是GTE效能不济吧~~主要是GK104流处理器的频率太低了 GTX580的流处理器主频都跑到1.6Ghz以上的 GK104也就是1Ghz左右太低了

作者: huangpobu 时间: 2013-1-10 21:24
[attach]2143768[/attach]

移动平台的主要GPU架构。大家都不一样，每种都有道理，呵呵。

作者: Vendicare 时间: 2013-1-10 21:26

huangpobu 发表于 2013-1-10 21:16
你不是认为TBDR可能导致访内存更多么？如果访内存更多而不是cache就是一个功耗上的劣势。

我看了一下S ...

额，我觉得你看问题极端了。

tbr本身会产生额外的运算和访存，但是如果能奸杀渲染运算的话也不会额外的费电。再说sram工作起来也不省电阿。

作者: huangpobu 时间: 2013-1-10 21:31

Vendicare 发表于 2013-1-10 21:26
额，我觉得你看问题极端了。

tbr本身会产生额外的运算和访存，但是如果能奸杀渲染运算的话也不会额外的 ...

SRAM当然不是省油的灯，但是也可以通过很多手段优化，比如我说的way-predicted，一下子砍个70%功耗。（当然我不知道这个东西能不能跟multi-bank合用，脑部的），比访内存省电啊。

架构层面上的权衡就是这样，有时候你看这个东西能省电，但是导致另外一个不省电的副作用，关键就看架构师怎么去取舍。

作者: Vendicare 时间: 2013-1-10 21:39

huangpobu 发表于 2013-1-10 21:31
SRAM当然不是省油的灯，但是也可以通过很多手段优化，比如我说的way-predicted，一下子砍个70%功耗。（当 ...

不过看目前的移动gpu发展速度，Tbr出局只是时间问题了，而且不会很久

作者: Vendicare 时间: 2013-1-10 21:52

eDRAM 发表于 2013-1-10 21:22
应该不是GTE效能不济吧~~主要是GK104流处理器的频率太低了 GTX580的流处理器主频都跑到1.6Ghz以上的 GK10 ...

各种因素都有，但是频率是开普勒省电的关键。提频之后也没法消灭580 tri ski

作者: huangpobu 时间: 2013-1-10 22:26

Vendicare 发表于 2013-1-10 21:39
不过看目前的移动gpu发展速度，Tbr出局只是时间问题了，而且不会很久

呵呵，TBR也出局就意味着目前只有NV一家在架构上的选择是对的。

作者: f0f0f0 时间: 2013-1-10 23:31
本帖最后由 f0f0f0 于 2013-1-10 23:37 编辑

huangpobu 发表于 2013-1-10 19:54
[quote]66666 发表于 2013-1-10 16:23 http://en.wikipedia.org/wiki/GeForce_600_Series

最新的开普勒桌 ...

anandtech这个测的是GPU部分的功耗吧，首先这个功耗测试能不能代表TDP？至少如果是桌面显卡的话不能只测一个游戏得到的功耗就说这是这个显卡的TDP了。另外那个195瓦是GTX 680的整卡TDP，要比的话至少找到GK104-400-A2的核心TDP吧。算性能的时候已经换算到533MHz下的表现了，而功耗已经是按照Intel 32nm制程下来算的了吧。
还有一点，只看单精度浮点能不能就代表显卡性能？如果以此为标准的衡量显卡性能的话，以前HD 4850就比GTX 285强，现在HD 7970就比GTX 680强16%以上，不同厂家的显卡性能不好这么对比吧。

作者: huangpobu 时间: 2013-1-10 23:42

f0f0f0 发表于 2013-1-10 23:31
anandtech这个测的是GPU部分的功耗吧，首先这个功耗测试能不能代表TDP？至少如果是桌面显卡的话不能只测一 ...

我以前发帖的时候就说了，这个功耗肯定不能代表TDP，所以这个测试我从开始就说了，不公平。对PowerVR和Kepler都不公平，而且理论浮点性能和实际也是两回事情，更加公平的测试是直接测渲染分数，但是我没有找到。

作者: f0f0f0 时间: 2013-1-11 00:04
本帖最后由 f0f0f0 于 2013-1-11 00:26 编辑

huangpobu 发表于 2013-1-10 23:42
我以前发帖的时候就说了，这个功耗肯定不能代表TDP，所以这个测试我从开始就说了，不公平。对PowerVR和Ke ...

我想说的是你这个对比方法对GK104-400-A2更加不公平……
首先是用整卡TDP代替GPU核心TDP，比如一块主板加上一颗CPU和内存，测出的功耗总不能说是CPU的功耗吧。
GK104-400-A2核心的TDP，在GTX 680发布前，这个论坛有人贴过一张图，说实话我找不到那个帖子了，而且找到了也不能证明其真实性，记得当时那帖子说的是115瓦。
我也觉得无论功耗还是性能都不是一个数量级的芯片不好直接对比能耗比，但是首先频率和性能不是线性关系，其次功耗和性能更加不是，如果pvr的显卡要达到GK104-400-A2的性能水平，恐怕不是直接用pvr的功耗乘以理论单精度浮点性能的倍数就行的。
至少功耗差了一到两个数量级的芯片对比能耗比，对高功耗芯片来说不公平，这个你之前在提到atom和i7的时候也说过。
假如用之前那个115瓦来算的话，对比结果是28.2GFlops（GK104-400-A2） vs 24GFlops（PowerVR SGX545），GK104-400-A2还略占优势，当然前者是tsmc的28nm HP制程，后者是Intel 32nm HKMG（low power？）制程，至于这两种制程孰优孰劣就是另一个问题了。
====================================================================================搜了一下，找到当初说115瓦的那个帖子了，不过图片已经X了：http://we.pcinlife.com/forum.php ... 9953&fromuid=346110

作者: huangpobu 时间: 2013-1-11 00:50
本帖最后由 huangpobu 于 2013-1-11 01:17 编辑

[quote]f0f0f0 发表于 2013-1-11 00:04 http://www.bjorn3d.com/2010/11/nvidia-geforce-gtx-580-gf110/#.UO7vdncUGM4

我那一楼里算错了，感谢指正，已经纠正了。

作者: huangpobu 时间: 2013-1-11 00:59
本帖最后由 huangpobu 于 2013-1-11 02:05 编辑

以前的帖子里我强调过GFLOPS除以TDP这样的比较方式不准，如果有人有实测功耗，请告诉我。

http://www.bjorn3d.com/2010/11/nvidia-geforce-gtx-580-gf110/#.UO7vdncUGM4

这里面说GTX580的效能相比GTX 480提升了差不多1.35

那个白皮书里面有图，GTX680相对GTX580提升了1.6左右，那么合起来最终结果是提升了2.15倍。

GTX 480的核心功耗是167W（数据出自《量化研究方法》英文第五版P325），峰值计算速度是1345GFLOPS.

换算下来是8.05GFLOPS/watt，乘以提升倍数是大概17.388 GFLOPS/watt ?

那么这样推算的话GTX680的核心功耗大概在168W附近。我之前算错的原因是轻信了wikipedia的数据，wikipedia算错了，如果除以全卡功耗，GTX680的能耗比只有15附近，除以GPU chip power才是17.388.

作者: huangpobu 时间: 2013-1-11 01:16
本帖最后由 huangpobu 于 2013-1-11 01:23 编辑

我的浏览器似乎出了问题，一编辑帖子就会变成排版全乱掉的形式，请各位见谅。

作者: f0f0f0 时间: 2013-1-11 01:56

huangpobu 发表于 2013-1-11 00:59
非常感谢指正，我刚才看了那个白皮书的后半段，发现所谓的GPU功耗还是指全卡功耗，195W应该是全卡功耗。
...

那个白皮书里1.6倍的能耗比用来对比的是实际游戏性能，不是理论单精度浮点。不能直接拿实测游戏能耗比的结果和理论单精度浮点性能的能耗比对比啊。而且实测游戏的能耗比很难说清的，这家网站测出来的功耗小一点，平均性能测的高一点，能耗比和另一家网站的结果就差远了……
看这里关于TDP的内容的话
http://www.anandtech.com/show/5840/gtc-2012-part-1-nvidia-announces-gk104-based-tesla-k10-gk110-based-tesla-k20
K10是225瓦，如果这样推算理论单精度浮点性能的能耗比就是另一个结果了
关于K10和M2090理论单精度浮点的性能
http://www.nvidia.com/object/tesla-servers.html
NV官网没有找到K10的TDP，但是GTX 690的TDP是300瓦，K10的TDP只会更低
http://www.geforce.com/hardware/desktop-gpus/geforce-gtx-690/specifications
另外虽然还没找过具体规格，但是那6Gbps的2GB GDDR5和显卡PCB上一堆原件我觉得27瓦真的不够。

作者: huangpobu 时间: 2013-1-11 02:14

f0f0f0 发表于 2013-1-11 01:56
那个白皮书里1.6倍的能耗比用来对比的是实际游戏性能，不是理论单精度浮点。不能直接拿实测游戏能耗比的结 ...

的确是不能这样比，但是现在是半夜两点，我搜来的数据只能做到这样了。

请那位说Austin团队是弱智的超神级图形架构师来做一做这个小学生算术题吧。

作者: huangpobu 时间: 2013-1-11 02:41
只测试核心功耗，很少有人有AnandTech那样的条件，所以在整个网上除了AnandTech没有别的地方见到过实测核心功耗。

但是如果只凭实测核心功耗，也有问题，这样的话独立GPU白白享受了GDDR5提供的极高的显存带宽而算功耗的时候却不用付出任何代价，SOC里面的GPU只能共享读写带宽。

要比拼架构优劣，除了像《量化研究方法》上那样抓到那么好的机会以外，其他的真的很难很难比，比较现实的应该是比试平台功耗和性能。

作者: huangpobu 时间: 2013-1-11 03:14
泡坛子被女朋友骂了，不能再玩了，若有冒犯向各位道歉，我主动删帖了，88.

以后若有空可能会回来。

作者: f0f0f0 时间: 2013-1-11 09:11
本帖最后由 f0f0f0 于 2013-1-11 09:45 编辑

这对比的只是理论单精度浮点性能，还没算实际能发挥多少，就算显存带宽减半，只要GPU核心频率不变也并不影响GK104-400-A2的理论单精度浮点性能，PowerVR SGX545也一样，就算配上独立显存，他的理论单精度浮点指标也不会增加。

作者: 66666 时间: 2013-1-11 09:41
本帖最后由 66666 于 2013-1-11 09:41 编辑

huangpobu 发表于 2013-1-11 02:14
的确是不能这样比，但是现在是半夜两点，我搜来的数据只能做到这样了。

请那位说Austin团队是弱智的超 ...

你这理论胡扯淡到了极点，不同构架的浮点峰值能等同3D渲染功耗的效能比？

HD5系理论单精度峰值远远超过费米，实际DX11游戏性能惨不忍睹。

谈了半天你连最基本的东西都搞不清楚，还好意思在这谈3D图形的性能功耗比真是233到家了。

TPU每一次评测都有显卡功耗比测试，你自己去看看人家是拿什么做评测的。即使是K20这类专业加速卡，不同计算类型的功耗比都是不一样的。要不然GPGPU发展这么多年依然有很大限制，即使是所谓理论峰值远远超过多核CPU

作者: 66666 时间: 2013-1-11 09:48

huangpobu 发表于 2013-1-10 19:56
那么我可不可以问一下您自己相比Austin团队那群弱智。。。。。。。。。。。

按您这样说，反正我弱 ...

作为一个ATOM曾经的用户，这样的狗屎的体验感让我觉得做这个产品的人就是弱智。

你是不是弱智跟我有什么关系？能长期用ATOM做一般桌面应用的人我倒是很佩服，比P4双核都慢的玩意。

作者: westlee 时间: 2013-1-11 19:13
提示: 作者被禁止或删除内容自动屏蔽

作者: eDRAM 时间: 2013-1-11 21:11

Vendicare 发表于 2013-1-10 21:52
各种因素都有，但是频率是开普勒省电的关键。提频之后也没法消灭580 tri ski

GK110也不一定能灭掉580 TRI SLi ，更何况是GK104

作者: huangpobu 时间: 2013-1-13 07:58

66666 发表于 2013-1-11 09:41
你这理论胡扯淡到了极点，不同构架的浮点峰值能等同3D渲染功耗的效能比？

HD5系理论单精度峰值远远超过 ...

您的理论更加胡扯淡到了极点，不同构架的浮点峰值能等同3D渲染功耗的效能比这种弱智般的言论不用您这个天神级architecture来强调，我懒得看您扯淡，麻烦您上数据。

您连G70\Kepler眼下根本装不进手持设备这种基本事实都一再忽视，还扯什么蛋的高性能？Kepler装进iPhone里能顶屁用？

您这个天神级architect怎么不代替那个弱智austin团队来在当时的工艺器件条件下设计一个满足一切constraint的乱序CPU？

作者: huangpobu 时间: 2013-1-13 08:02

66666 发表于 2013-1-11 09:41
你这理论胡扯淡到了极点，不同构架的浮点峰值能等同3D渲染功耗的效能比？

HD5系理论单精度峰值远远超过 ...

请这位天神级架构师仔细看看我每一楼的回复。

我强调了一遍又一遍 TDP / GFLOPS 不是公平的比较方式，我是出于没有可用数据才这么比。而您还视而不见，我只能说要不是视力有问题，要不就是人品有问题故意抹黑。

请问这样的言辞风格您喜欢么？

作者: huangpobu 时间: 2013-1-13 08:06
本帖最后由 huangpobu 于 2017-3-4 18:19 编辑

zishubuding

作者: huangpobu 时间: 2013-1-13 08:20

westlee 发表于 2013-1-11 19:13
P4 670达到n230一倍以上的性能没啥问题吧。

那张图是xbit做的测试，+12v cpu是主板向cpu部分的 ...

《量化研究方法》上的对比是用平均功耗来比的，atom 230跑测试的平均功耗在4W附近，i7-920在43w附近，二者制程都是45nm.

我已经把作者比对的结论贴在版面上33楼，结论用加粗的文字标识了。我相信看懂那一段浅显的英文对你来说不成问题，事实上那段结论也不是《量化研究方法》两位大牛作者的个人看法，我看过的其他论文也是这么说。

作者: huangpobu 时间: 2017-3-4 17:51

huangpobu 发表于 2013-1-10 14:43
我说说我的理解，不一定对，大家可以讨论下。

首先的的确确是关公战秦琼，我的帖子第一点第一行加粗的字 ...

zishubuding

欢迎光临 POPPUR爱换 (http://we.poppur.com/)