POPPUR爱换

标题: G92 纹理单元Load操作时性能减半? [打印本页]

作者: hornbill    时间: 2008-7-30 01:16
标题: G92 纹理单元Load操作时性能减半?
DX10里纹理操作引入了Load和Sample. 前者无filtering操作,采用非归一化的纹理坐标,写GPGPU的程序方便些。直观感觉应该访问更快捷。
可是在我的8800GT(Core: 700M, Shader: 1700, Memory:1900)上的测试却很奇怪
对于有56个TA和TF的88GT,纹理单元的峰值性能应该为 700Mx56 = 39.2G Texel

俺的测试程序采样2x2纹理(RGBA8),确保cache命中不受带宽限制,外加几条ALU操作确保所有texel都会被用到,不会被driver优化掉。
Sample: 38.2 G Texel
Load:     19.2 G  Texel

正好减半。Sample操作即使不过滤(filter 全是 Point的情况)也能到峰值.
困惑好久,不知该结果如何解释!

这里能人甚多,还望大伙多多指点啊
作者: pharaohs1024    时间: 2008-7-30 01:38
提示: 作者被禁止或删除 内容自动屏蔽
作者: qinwei111    时间: 2008-7-30 09:02
望明天大虾们出手解答
作者: Edison    时间: 2008-7-30 09:17
render target的时候性能会跌一半或者更多,这是我之前用DX9的测试结果,不过不清楚DX10 load R8G8B8A8_UNORM时候的样子。

amd下面的这个paper有提到tex update要注意的一些事项:
http://developer.amd.com/assets/ ... 2010%20Hardware.pdf
作者: hornbill    时间: 2008-7-30 09:58
标题: 回复 4# Edison 的帖子
Render Target是很简单的RGBA8格式,在shader中的texel op 数量大于4的情况下,ROP和带宽都不会是瓶颈的。
我手头还有块HD3850, 两者都是11.8G Texel, 和理论峰值非常吻合




欢迎光临 POPPUR爱换 (https://we.poppur.com/) Powered by Discuz! X3.4