GPU 中的Fixed Function

tomsmith123 · 发表于 2009-8-23 14:37

计算机体系结构的基本原理是，任何软件能够实现的，硬件都能够实现，相反也成立，这被成为硬件软件等效原理。这一原理只是功能等效，性能来说，良好优化和设计的硬件通常要比同样水平的软件快很多，同样，开发周期长，开发的成本，也要高不少，体系结构研究的重点就是从需要出发，寻求最佳的软硬件平衡点，在一定的成本约束下，获得最高的性能。
GPU 中也是一样，在目前统一渲染成为主题的今天，US 和Fixed Function 是配合的，当我们重点看SP 的数量的时候，其实GPU 性能的很大程度是由Fixed Function 来完成的，看起来nVidia 和AMD 的SP 设计思路很大不同，但是他们的Fixed Function 差异可能更大，而更隐蔽，如果有条件，做一下DX10 的Profiling，可以发现相同价位的显卡，在DX API 的具体函数表现是不同的，这个差异就来自两方面，SP 的特性和Fixed Function 共同决定的，当然也和整个GPU 的层次架构有关系，这是GPU 优化的主要工作基础，从Profiling 的结果可以分析出瓶颈和问题。
说到Fixed Function，其实PS3 是个很好的例子，PS3 中Cell 不仅仅充当主处理器，而且还兼有GPU 的部分功能，Fixed Function 由RSX 做，Cell 最大的问题是PPU 的性能太低，结构太简单，制约了整体性能，对编程的要求就很高了，从实验看，PPU 喂饱两个SPU 就很勉强了，对于6个甚至8个SPU 的情况，SPU 饥饿的情况太多。Larrabee 如果采用Cell+RSX 的设计，可能设计周期可以短不少。

Edison · 发表于 2009-8-23 17:18

固定功能单元外挂吗？这样的也会带来一些问题，例如占用的 PCB 位置。

tomsmith123 · 发表于 2009-8-23 17:37

2# Edison
我的意思是模块化，CMP吧。
其实很多种做法，现在有倾向忽视Fixed Function了。

只看该作者 · 发表于 2009-8-23 17:43

提示: 作者被禁止或删除内容自动屏蔽

Edison · 发表于 2009-8-23 17:58

类似 Xenos 那样吧，但是它们的设计依然是无法解决纹理带宽的问题，最终其实也是得做成同一个 die 经济上才划算。

Prescott · 发表于 2009-8-24 00:28

Larrabee有Fixed Function Unit啊，不过就只有纹理单元而已。

理想情况还是完全可编程的，什么功能用Fixed Function Unit实现主要考虑就是功耗和成本。Intel觉得只有纹理单元需要用硬件电路实现也一定是经过实际分析研究的。

ic.expert · 发表于 2009-8-24 02:44

当我们重点看SP 的数量的时候，其实GPU 性能的很大程度是由Fixed Function 来完成的，看起来nVidia 和AMD 的SP 设计思路很大不同，但是他们的Fixed Function 差异可能更大

——————————————————————————————————————————————

请大牛明示，AMD和NV的Fixed FUnction的差异在什么地方？最好有一些量化的数据，这个地方我很关系

：〉

tomsmith123 · 发表于 2009-8-24 08:23

7# ic.expert
纯属猜测，有同事做过G80 和R600 的DX10 Profilling，差异性表现比较显著，所以有这样的猜测。

gz_easy · 发表于 2009-8-24 11:42

Intel也许是这样想的：固定渲染单元最终可以被shader指令替换，shader指令也可以由x86扩充指令替换。

tomsmith123 · 发表于 2009-8-24 13:13

目前的情况是，各GPU 厂商，都简化了Fixed Function，而主要依靠SP 软件来做。在冯体系结构下，软件的时间代价太大了，不适合确定性工作。

ic.expert · 发表于 2009-8-25 22:22

奥，大牛谦虚，我就是随便问一下。主要想看看纹理那边看看大牛有什么收获~~

pkttttt · 发表于 2009-8-25 22:48

提示: 作者被禁止或删除内容自动屏蔽

冷月圣光 · 发表于 2009-9-8 14:50

进来学习一下~~~

sgyhunter · 发表于 2009-10-11 13:28

10# tomsmith123
fixfunction简化?应该不会吧，图形芯片开发都是不断的堆新功能上去，架构大改动的比较少吧

只看该作者 · 发表于 2010-3-6 17:50

提示: 作者被禁止或删除内容自动屏蔽

Edison · 发表于 2010-3-6 17:58

tomsmith123
fixfunction简化?应该不会吧，图形芯片开发都是不断的堆新功能上去，架构大改动的比较少吧
sgyhunter 发表于 2009-10-11 13:28

所谓的简化，是指把固定功能单元中的运算挪到通用处理器上，例如 alpha blending、内插以前这些都是固定功能单元执行，现在都是通用处理单元上跑，而且速度非常好。

denev2004 · 发表于 2010-3-6 18:46

嘿嘿，如果考虑到增强通用性的话，的确应该减少部分专用单元

不太理解10L，这和冯体系有关么？

wolimacross · 发表于 2010-4-30 15:18

：固定渲染单元最终可以被shader指令替换，shader指令也可以由x86扩充指令替换

lik · 发表于 2010-5-1 09:32

Alpha blending 至少在fermi和rv8xx系列里面都还是通过固定功能单元ROP(Render Output Unit or Raster Operations Pipeline) 来实现的. Programmable ROP, 就是你说的通过shader来做blending，至少在最近一两年不可能在NV或者ATI的GPU上实现.

当然如果你是指LRB, 那的确是在shader里面实现的. LRB唯一的fixed functional unit就是texture. 传统的GPU的fixed functional units还包括 rasterizer, vertex assembler, etc.

所谓的简化，是指把固定功能单元中的运算挪到通用处理器上，例如 alpha blending、内插以前这些都是固定 ...
Edison 发表于 2010-3-6 17:58

帐号		自动登录	找回密码
密码			注册

ivanlau 该用户已被删除	4^# 发表于 2009-8-23 17:43 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
ivanlau 该用户已被删除
	回复支持反对使用道具举报显身卡

pkttttt pkttttt 当前离线积分 8 IP卡狗仔卡头像被屏蔽	12^# 发表于 2009-8-25 22:48 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
pkttttt pkttttt 当前离线积分 8 IP卡狗仔卡头像被屏蔽
	回复支持反对使用道具举报显身卡

leapro 该用户已被删除	15^# 发表于 2010-3-6 17:50 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
leapro 该用户已被删除
	回复支持反对使用道具举报显身卡