POPPUR爱换
标题:
G92 纹理单元Load操作时性能减半?
[打印本页]
作者:
hornbill
时间:
2008-7-30 01:16
标题:
G92 纹理单元Load操作时性能减半?
DX10里纹理操作引入了Load和Sample. 前者无filtering操作,采用非归一化的纹理坐标,写GPGPU的程序方便些。直观感觉应该访问更快捷。
可是在我的8800GT(Core: 700M, Shader: 1700, Memory:1900)上的测试却很奇怪
对于有56个TA和TF的88GT,纹理单元的峰值性能应该为 700Mx56 = 39.2G Texel
俺的测试程序采样2x2纹理(RGBA8),确保cache命中不受带宽限制,外加几条ALU操作确保所有texel都会被用到,不会被driver优化掉。
Sample: 38.2 G Texel
Load: 19.2 G Texel
正好减半。Sample操作即使不过滤(filter 全是 Point的情况)也能到峰值.
困惑好久,不知该结果如何解释!
这里能人甚多,还望大伙多多指点啊
作者:
pharaohs1024
时间:
2008-7-30 01:38
提示:
作者被禁止或删除 内容自动屏蔽
作者:
qinwei111
时间:
2008-7-30 09:02
望明天大虾们出手解答
作者:
Edison
时间:
2008-7-30 09:17
render target的时候性能会跌一半或者更多,这是我之前用DX9的测试结果,不过不清楚DX10 load R8G8B8A8_UNORM时候的样子。
amd下面的这个paper有提到tex update要注意的一些事项:
http://developer.amd.com/assets/ ... 2010%20Hardware.pdf
作者:
hornbill
时间:
2008-7-30 09:58
标题:
回复 4# Edison 的帖子
Render Target是很简单的RGBA8格式,在shader中的texel op 数量大于4的情况下,ROP和带宽都不会是瓶颈的。
我手头还有块HD3850, 两者都是11.8G Texel, 和理论峰值非常吻合
欢迎光临 POPPUR爱换 (https://we.poppur.com/)
Powered by Discuz! X3.4