POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
楼主: Vendicare

我也说说TBDR与Deferred Shading

[复制链接]
发表于 2013-1-10 21:31 | 显示全部楼层
Vendicare 发表于 2013-1-10 21:26
额,我觉得你看问题极端了。

tbr本身会产生额外的运算和访存,但是如果能奸杀渲染运算的话也不会额外的 ...

SRAM当然不是省油的灯,但是也可以通过很多手段优化,比如我说的way-predicted,一下子砍个70%功耗。(当然我不知道这个东西能不能跟multi-bank合用,脑部的),比访内存省电啊。

架构层面上的权衡就是这样,有时候你看这个东西能省电,但是导致另外一个不省电的副作用,关键就看架构师怎么去取舍。
回复 支持 反对

使用道具 举报

 楼主| 发表于 2013-1-10 21:39 来自手机 | 显示全部楼层
huangpobu 发表于 2013-1-10 21:31
SRAM当然不是省油的灯,但是也可以通过很多手段优化,比如我说的way-predicted,一下子砍个70%功耗。(当 ...

不过看目前的移动gpu发展速度,Tbr出局只是时间问题了,而且不会很久
回复 支持 反对

使用道具 举报

 楼主| 发表于 2013-1-10 21:52 来自手机 | 显示全部楼层
eDRAM 发表于 2013-1-10 21:22
应该不是GTE效能不济吧~~主要是GK104流处理器的频率太低了 GTX580的流处理器主频都跑到1.6Ghz以上的 GK10 ...

各种因素都有,但是频率是开普勒省电的关键。提频之后也没法消灭580 tri ski
回复 支持 反对

使用道具 举报

发表于 2013-1-10 22:26 | 显示全部楼层
Vendicare 发表于 2013-1-10 21:39
不过看目前的移动gpu发展速度,Tbr出局只是时间问题了,而且不会很久

呵呵,TBR也出局就意味着目前只有NV一家在架构上的选择是对的。

点评

移動GPU本來就是類似于在桌面GPU  发表于 2013-1-10 22:55
回复 支持 反对

使用道具 举报

发表于 2013-1-10 23:31 | 显示全部楼层
本帖最后由 f0f0f0 于 2013-1-10 23:37 编辑
huangpobu 发表于 2013-1-10 19:54
[quote]66666 发表于 2013-1-10 16:23 http://en.wikipedia.org/wiki/GeForce_600_Series

最新的开普勒桌 ...

anandtech这个测的是GPU部分的功耗吧,首先这个功耗测试能不能代表TDP?至少如果是桌面显卡的话不能只测一个游戏得到的功耗就说这是这个显卡的TDP了。另外那个195瓦是GTX 680的整卡TDP,要比的话至少找到GK104-400-A2的核心TDP吧。算性能的时候已经换算到533MHz下的表现了,而功耗已经是按照Intel 32nm制程下来算的了吧。
还有一点,只看单精度浮点能不能就代表显卡性能?如果以此为标准的衡量显卡性能的话,以前HD 4850就比GTX 285强,现在HD 7970就比GTX 680强16%以上,不同厂家的显卡性能不好这么对比吧。



回复 支持 反对

使用道具 举报

发表于 2013-1-10 23:42 | 显示全部楼层
f0f0f0 发表于 2013-1-10 23:31
anandtech这个测的是GPU部分的功耗吧,首先这个功耗测试能不能代表TDP?至少如果是桌面显卡的话不能只测一 ...

我以前发帖的时候就说了,这个功耗肯定不能代表TDP,所以这个测试我从开始就说了,不公平。对PowerVR和Kepler都不公平,而且理论浮点性能和实际也是两回事情,更加公平的测试是直接测渲染分数,但是我没有找到。
回复 支持 反对

使用道具 举报

发表于 2013-1-11 00:04 | 显示全部楼层
本帖最后由 f0f0f0 于 2013-1-11 00:26 编辑
huangpobu 发表于 2013-1-10 23:42
我以前发帖的时候就说了,这个功耗肯定不能代表TDP,所以这个测试我从开始就说了,不公平。对PowerVR和Ke ...

我想说的是你这个对比方法对GK104-400-A2更加不公平……
首先是用整卡TDP代替GPU核心TDP,比如一块主板加上一颗CPU和内存,测出的功耗总不能说是CPU的功耗吧。
GK104-400-A2核心的TDP,在GTX 680发布前,这个论坛有人贴过一张图,说实话我找不到那个帖子了,而且找到了也不能证明其真实性,记得当时那帖子说的是115瓦。
我也觉得无论功耗还是性能都不是一个数量级的芯片不好直接对比能耗比,但是首先频率和性能不是线性关系,其次功耗和性能更加不是,如果pvr的显卡要达到GK104-400-A2的性能水平,恐怕不是直接用pvr的功耗乘以理论单精度浮点性能的倍数就行的。
至少功耗差了一到两个数量级的芯片对比能耗比,对高功耗芯片来说不公平,这个你之前在提到atom和i7的时候也说过。
假如用之前那个115瓦来算的话,对比结果是28.2GFlops(GK104-400-A2) vs 24GFlops(PowerVR SGX545),GK104-400-A2还略占优势,当然前者是tsmc的28nm HP制程,后者是Intel 32nm HKMG(low power?)制程,至于这两种制程孰优孰劣就是另一个问题了。
====================================================================================搜了一下,找到当初说115瓦的那个帖子了,不过图片已经X了:http://we.pcinlife.com/forum.php ... 9953&fromuid=346110






回复 支持 反对

使用道具 举报

发表于 2013-1-11 00:50 | 显示全部楼层
本帖最后由 huangpobu 于 2013-1-11 01:17 编辑

[quote]f0f0f0 发表于 2013-1-11 00:04 http://www.bjorn3d.com/2010/11/nvidia-geforce-gtx-580-gf110/#.UO7vdncUGM4



我那一楼里算错了,感谢指正,已经纠正了。
回复 支持 反对

使用道具 举报

发表于 2013-1-11 00:59 | 显示全部楼层
本帖最后由 huangpobu 于 2013-1-11 02:05 编辑

以前的帖子里我强调过GFLOPS除以TDP这样的比较方式不准,如果有人有实测功耗,请告诉我。

http://www.bjorn3d.com/2010/11/nvidia-geforce-gtx-580-gf110/#.UO7vdncUGM4

这里面说GTX580的效能相比GTX 480提升了差不多1.35

那个白皮书里面有图,GTX680相对GTX580提升了1.6左右,那么合起来最终结果是提升了2.15倍。

GTX 480的核心功耗是167W(数据出自《量化研究方法》英文第五版P325),峰值计算速度是1345GFLOPS.

换算下来是8.05GFLOPS/watt,乘以提升倍数是大概17.388 GFLOPS/watt ?

那么这样推算的话GTX680的核心功耗大概在168W附近。我之前算错的原因是轻信了wikipedia的数据,wikipedia算错了,如果除以全卡功耗,GTX680的能耗比只有15附近,除以GPU chip power才是17.388.
回复 支持 反对

使用道具 举报

发表于 2013-1-11 01:16 | 显示全部楼层
本帖最后由 huangpobu 于 2013-1-11 01:23 编辑

我的浏览器似乎出了问题,一编辑帖子就会变成排版全乱掉的形式,请各位见谅。
回复 支持 反对

使用道具 举报

发表于 2013-1-11 01:56 | 显示全部楼层
huangpobu 发表于 2013-1-11 00:59
非常感谢指正,我刚才看了那个白皮书的后半段,发现所谓的GPU功耗还是指全卡功耗,195W应该是全卡功耗。
...

那个白皮书里1.6倍的能耗比用来对比的是实际游戏性能,不是理论单精度浮点。不能直接拿实测游戏能耗比的结果和理论单精度浮点性能的能耗比对比啊。而且实测游戏的能耗比很难说清的,这家网站测出来的功耗小一点,平均性能测的高一点,能耗比和另一家网站的结果就差远了……
看这里关于TDP的内容的话
http://www.anandtech.com/show/5840/gtc-2012-part-1-nvidia-announces-gk104-based-tesla-k10-gk110-based-tesla-k20
K10是225瓦,如果这样推算理论单精度浮点性能的能耗比就是另一个结果了
关于K10和M2090理论单精度浮点的性能
http://www.nvidia.com/object/tesla-servers.html
NV官网没有找到K10的TDP,但是GTX 690的TDP是300瓦,K10的TDP只会更低
http://www.geforce.com/hardware/desktop-gpus/geforce-gtx-690/specifications
另外虽然还没找过具体规格,但是那6Gbps的2GB GDDR5和显卡PCB上一堆原件我觉得27瓦真的不够。



回复 支持 反对

使用道具 举报

发表于 2013-1-11 02:14 | 显示全部楼层
f0f0f0 发表于 2013-1-11 01:56
那个白皮书里1.6倍的能耗比用来对比的是实际游戏性能,不是理论单精度浮点。不能直接拿实测游戏能耗比的结 ...

的确是不能这样比,但是现在是半夜两点,我搜来的数据只能做到这样了。

请那位说Austin团队是弱智的超神级图形架构师来做一做这个小学生算术题吧。
回复 支持 反对

使用道具 举报

发表于 2013-1-11 02:41 | 显示全部楼层
只测试核心功耗,很少有人有AnandTech那样的条件,所以在整个网上除了AnandTech没有别的地方见到过实测核心功耗。

但是如果只凭实测核心功耗,也有问题,这样的话独立GPU白白享受了GDDR5提供的极高的显存带宽而算功耗的时候却不用付出任何代价,SOC里面的GPU只能共享读写带宽。

要比拼架构优劣,除了像《量化研究方法》上那样抓到那么好的机会以外,其他的真的很难很难比,比较现实的应该是比试平台功耗和性能。
回复 支持 反对

使用道具 举报

发表于 2013-1-11 03:14 | 显示全部楼层
泡坛子被女朋友骂了,不能再玩了,若有冒犯向各位道歉,我主动删帖了,88.

以后若有空可能会回来。
回复 支持 反对

使用道具 举报

发表于 2013-1-11 09:11 | 显示全部楼层
本帖最后由 f0f0f0 于 2013-1-11 09:45 编辑

这对比的只是理论单精度浮点性能,还没算实际能发挥多少,就算显存带宽减半,只要GPU核心频率不变也并不影响GK104-400-A2的理论单精度浮点性能,PowerVR SGX545也一样,就算配上独立显存,他的理论单精度浮点指标也不会增加。
回复 支持 反对

使用道具 举报

发表于 2013-1-11 09:41 | 显示全部楼层
本帖最后由 66666 于 2013-1-11 09:41 编辑
huangpobu 发表于 2013-1-11 02:14
的确是不能这样比,但是现在是半夜两点,我搜来的数据只能做到这样了。

请那位说Austin团队是弱智的超 ...

你这理论胡扯淡到了极点,不同构架的浮点峰值能等同3D渲染功耗的效能比?

HD5系理论单精度峰值远远超过费米,实际DX11游戏性能惨不忍睹。

谈了半天你连最基本的东西都搞不清楚,还好意思在这谈3D图形的性能功耗比真是233到家了。

TPU每一次评测都有显卡功耗比测试,你自己去看看人家是拿什么做评测的。即使是K20这类专业加速卡,不同计算类型的功耗比都是不一样的。要不然GPGPU发展这么多年依然有很大限制,即使是所谓理论峰值远远超过多核CPU
回复 支持 反对

使用道具 举报

发表于 2013-1-11 09:48 | 显示全部楼层
huangpobu 发表于 2013-1-10 19:56
那么我可不可以问一下您自己相比Austin团队那群弱智。。。。。。。。。。。

按您这样说,反正我弱 ...

作为一个ATOM曾经的用户,这样的狗屎的体验感让我觉得做这个产品的人就是弱智。

你是不是弱智跟我有什么关系?能长期用ATOM做一般桌面应用的人我倒是很佩服,比P4双核都慢的玩意。
回复 支持 反对

使用道具 举报

发表于 2013-1-11 19:13 | 显示全部楼层
本帖最后由 westlee 于 2013-1-11 19:15 编辑
huangpobu 发表于 2013-1-10 21:22
第一代i7漏电严重,Atom也一样,它们使用同种工艺制造。

”单线程下很多单元只不过在打酱油“ ? 拜托 ...





P4 670达到n230一倍以上的性能没啥问题吧。

那张图是xbit做的测试,+12v cpu是主板向cpu部分的供电。3.0g的I7 950满负荷的功耗大致是8.6x12=103w。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回复 支持 反对

使用道具 举报

发表于 2013-1-11 21:11 | 显示全部楼层
Vendicare 发表于 2013-1-10 21:52
各种因素都有,但是频率是开普勒省电的关键。提频之后也没法消灭580 tri ski

GK110也不一定能灭掉580 TRI SLi ,更何况是GK104
回复 支持 反对

使用道具 举报

发表于 2013-1-13 07:58 | 显示全部楼层
66666 发表于 2013-1-11 09:41
你这理论胡扯淡到了极点,不同构架的浮点峰值能等同3D渲染功耗的效能比?

HD5系理论单精度峰值远远超过 ...

您的理论更加胡扯淡到了极点,不同构架的浮点峰值能等同3D渲染功耗的效能比这种弱智般的言论不用您这个天神级architecture来强调,我懒得看您扯淡,麻烦您上数据。

您连G70\Kepler眼下根本装不进手持设备这种基本事实都一再忽视,还扯什么蛋的高性能?Kepler装进iPhone里能顶屁用?

您这个天神级architect怎么不代替那个弱智austin团队来在当时的工艺器件条件下设计一个满足一切constraint的乱序CPU?
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

2345

QQ|网站地图|小黑屋| ( 粤ICP备13038377号-1 )

GMT+8, 2018-4-25 17:01

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表