POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
查看: 2449|回复: 4
打印 上一主题 下一主题

G92 纹理单元Load操作时性能减半?

[复制链接]
跳转到指定楼层
1#
发表于 2008-7-30 01:16 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
DX10里纹理操作引入了Load和Sample. 前者无filtering操作,采用非归一化的纹理坐标,写GPGPU的程序方便些。直观感觉应该访问更快捷。
可是在我的8800GT(Core: 700M, Shader: 1700, Memory:1900)上的测试却很奇怪
对于有56个TA和TF的88GT,纹理单元的峰值性能应该为 700Mx56 = 39.2G Texel

俺的测试程序采样2x2纹理(RGBA8),确保cache命中不受带宽限制,外加几条ALU操作确保所有texel都会被用到,不会被driver优化掉。
Sample: 38.2 G Texel
Load:     19.2 G  Texel

正好减半。Sample操作即使不过滤(filter 全是 Point的情况)也能到峰值.
困惑好久,不知该结果如何解释!

这里能人甚多,还望大伙多多指点啊
pharaohs1024 该用户已被删除
2#
发表于 2008-7-30 01:38 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

3#
发表于 2008-7-30 09:02 | 只看该作者
望明天大虾们出手解答
回复 支持 反对

使用道具 举报

4#
发表于 2008-7-30 09:17 | 只看该作者
render target的时候性能会跌一半或者更多,这是我之前用DX9的测试结果,不过不清楚DX10 load R8G8B8A8_UNORM时候的样子。

amd下面的这个paper有提到tex update要注意的一些事项:
http://developer.amd.com/assets/ ... 2010%20Hardware.pdf
回复 支持 反对

使用道具 举报

5#
 楼主| 发表于 2008-7-30 09:58 | 只看该作者

回复 4# Edison 的帖子

Render Target是很简单的RGBA8格式,在shader中的texel op 数量大于4的情况下,ROP和带宽都不会是瓶颈的。
我手头还有块HD3850, 两者都是11.8G Texel, 和理论峰值非常吻合
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2024-11-6 02:07

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表