|
DX10里纹理操作引入了Load和Sample. 前者无filtering操作,采用非归一化的纹理坐标,写GPGPU的程序方便些。直观感觉应该访问更快捷。
可是在我的8800GT(Core: 700M, Shader: 1700, Memory:1900)上的测试却很奇怪
对于有56个TA和TF的88GT,纹理单元的峰值性能应该为 700Mx56 = 39.2G Texel
俺的测试程序采样2x2纹理(RGBA8),确保cache命中不受带宽限制,外加几条ALU操作确保所有texel都会被用到,不会被driver优化掉。
Sample: 38.2 G Texel
Load: 19.2 G Texel
正好减半。Sample操作即使不过滤(filter 全是 Point的情况)也能到峰值.
困惑好久,不知该结果如何解释!
这里能人甚多,还望大伙多多指点啊 |
|