POPPUR爱换

标题: G92 纹理单元Load操作时性能减半？ [打印本页]

作者: hornbill 时间: 2008-7-30 01:16
标题: G92 纹理单元Load操作时性能减半？
DX10里纹理操作引入了Load和Sample. 前者无filtering操作，采用非归一化的纹理坐标，写GPGPU的程序方便些。直观感觉应该访问更快捷。
可是在我的8800GT(Core: 700M, Shader: 1700, Memory:1900)上的测试却很奇怪
对于有56个TA和TF的88GT,纹理单元的峰值性能应该为 700Mx56 = 39.2G Texel

俺的测试程序采样2x2纹理(RGBA8)，确保cache命中不受带宽限制，外加几条ALU操作确保所有texel都会被用到，不会被driver优化掉。
Sample： 38.2 G Texel
Load： 19.2 G Texel

正好减半。Sample操作即使不过滤(filter 全是 Point的情况)也能到峰值.
困惑好久，不知该结果如何解释！

这里能人甚多，还望大伙多多指点啊

作者: pharaohs1024 时间: 2008-7-30 01:38
提示: 作者被禁止或删除内容自动屏蔽

作者: qinwei111 时间: 2008-7-30 09:02
望明天大虾们出手解答

作者: Edison 时间: 2008-7-30 09:17
render target的时候性能会跌一半或者更多，这是我之前用DX9的测试结果，不过不清楚DX10 load R8G8B8A8_UNORM时候的样子。

amd下面的这个paper有提到tex update要注意的一些事项：
http://developer.amd.com/assets/ ... 2010%20Hardware.pdf

作者: hornbill 时间: 2008-7-30 09:58
标题: 回复 4# Edison 的帖子
Render Target是很简单的RGBA8格式，在shader中的texel op 数量大于4的情况下，ROP和带宽都不会是瓶颈的。
我手头还有块HD3850, 两者都是11.8G Texel, 和理论峰值非常吻合

欢迎光临 POPPUR爱换 (https://we.poppur.com/)