G92 纹理单元Load操作时性能减半？

hornbill · 发表于 2008-7-30 01:16

DX10里纹理操作引入了Load和Sample. 前者无filtering操作，采用非归一化的纹理坐标，写GPGPU的程序方便些。直观感觉应该访问更快捷。
可是在我的8800GT(Core: 700M, Shader: 1700, Memory:1900)上的测试却很奇怪
对于有56个TA和TF的88GT,纹理单元的峰值性能应该为 700Mx56 = 39.2G Texel

俺的测试程序采样2x2纹理(RGBA8)，确保cache命中不受带宽限制，外加几条ALU操作确保所有texel都会被用到，不会被driver优化掉。
Sample： 38.2 G Texel
Load： 19.2 G Texel

正好减半。Sample操作即使不过滤(filter 全是 Point的情况)也能到峰值.
困惑好久，不知该结果如何解释！

这里能人甚多，还望大伙多多指点啊

只看该作者 · 发表于 2008-7-30 01:38

提示: 作者被禁止或删除内容自动屏蔽

qinwei111 · 发表于 2008-7-30 09:02

望明天大虾们出手解答

Edison · 发表于 2008-7-30 09:17

render target的时候性能会跌一半或者更多，这是我之前用DX9的测试结果，不过不清楚DX10 load R8G8B8A8_UNORM时候的样子。

amd下面的这个paper有提到tex update要注意的一些事项：
http://developer.amd.com/assets/ ... 2010%20Hardware.pdf

hornbill · 发表于 2008-7-30 09:58

Render Target是很简单的RGBA8格式，在shader中的texel op 数量大于4的情况下，ROP和带宽都不会是瓶颈的。
我手头还有块HD3850, 两者都是11.8G Texel, 和理论峰值非常吻合

帐号		自动登录	找回密码
密码			注册

pharaohs1024 该用户已被删除	2^# 发表于 2008-7-30 01:38 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
pharaohs1024 该用户已被删除
	回复支持反对使用道具举报显身卡

G92 纹理单元Load操作时性能减半？

回复 4# Edison 的帖子