NVIDIA 下一代架构"Fermi" 猜测、讨论专题

maomaodown · 发表于 2008-10-7 13:47

GPU 玩多核比cpu玩多核有前途要是dx11 支持多核是真的话
真的很值得期待呢？只要dx的sdk支持了就与游戏的开发无关了。。

gaiban · 发表于 2008-10-12 20:35

提示你一下：
偶对G70的理解是，苛刻的的说，G70没有真正隐藏texture延迟的能力，而是利用分批SIMD来分摊texture延迟。是分摊而非真正隐藏。如果sample纹理，G70从来就没有跑满载过。G70是因为太烂不值得节省，插值开销分摊就算了。

而G80有了隐藏texture延迟的能力，而总体而言，其隐藏能力还没有达到--单靠计算PS就能让ALU跑满载的地步。如果PS就能让B跑满载了，B还计算坐标插值那就伤害性能了。一段PS一共才多少个cycle? B是动用好几条shader指令来搞透视修正插值，PS性能损失少了算是5%，多了算50%也有。你因为跑不到满载，才有这个计算余量。

偶的观点，你也没有看懂过。

gaiban · 发表于 2008-10-12 22:45

算了，画简图(把细节都简单化)
或许你能听懂什么是shader满载，其实应该大多数人已经都知道shader跑成满载是说什么。

A图是表示等待纹理数据Tex导致shader空闲的情况，B图是利用多线程TLP完全隐藏Tex延迟跑满载的情况。应该清楚是什么意义，没有必要画的更细。
类似原理的图，你可以参见 nv的GeForce_8800_GPU_Architecture_Technical_Brief.pdf的图22。

是shader unit纯粹单跑PS的情况，也是理论上本来应该的情况

下面是nv的情况

但如果shader unit还要计算纹理坐标的透视修正&插值，就算shader跑满载，它会带来减速、性能惩罚。

而实际情况是，延迟未能全隐藏，shader未能跑满载，就算没有透视&插值的额外开销,几乎还是一样慢。所以，干脆让shader unit计算透视&插值。

偶对你的建议是，你对GPU的了解比较远离现实，你手头关于nv的资料太少，很多东西和你的原本的设想有极大的出入。

例如：偶提示你一下，由TMU计算透视修正插值，你似乎根本就没有这个念头？你真的对nv有知？还是你......没有接触过该接触的nv人。

原帖由 RacingPHT 于 2008-10-14 13:44 发表
不过我在某方面的观点和predaking的一样，出来混是不应该随便抖呀。

回一下RacingPHT，那是因为predaking，他把他前面的对抗贴全删了。根据你以往的经历，你应该能想象的到，他是如何指天指地的BS任何超出其想象不到或见识不到的......
如果他把他的贴留着，你就会知道偶仅仅是回敬，相对而言已经相当客气了。
后来，偶也删了一些偶的贴，算了，和他计较什么呢？就留了两帖说明一下技术方面的问题。

关于nv什么那么画G7x无能力有效隐藏texture延迟，你可以多考虑考虑。问偶干什么呢？去问nv啊。要荒谬，也是nv荒谬。他的图就是那么描述G7x的。

[ 本帖最后由 gaiban 于 2008-10-14 22:40 编辑 ]

Edison · 发表于 2008-10-12 23:03

从 NV20 开始， NVIDIA 就有所谓的 texture shader，这个东西实际上相当于 texture address unit，在以后的 NV30 中， TAU 和 Shader Unit 0 合并在一起，所以纹理透视纠正可以看作是在 shader core 上完成，不过这个做法到了 G80 的时候，由于 TAU 和 shader core 分离了，所以我想在 G80+ 的产品上应该都是由 TMU 的 TAU 来完成。

ATI 一直是分离。

pixel shader 的纹理寄存器存放的"应该"都是插值过的数据。

predaking · 发表于 2008-10-13 00:24

刚才没看到。NV的谁？几层的？

TMU直接来做……呵呵，我可从来没说过这种话……是谁说的你让他自己看着办。上海/深圳NV里面有几个学Arch出身的，你让他自己掰手算算，用5个手指头数是不是多了点……，也好拿公司机密出来抖搂GPUarch么，出来混至少也得有点职业道德的吧，无论是不是NV的，都鄙视这样的人。

TMU直接来做理论上这是不错的办法之一，不过对于Graphics了，我还是更倾向General Purpose，所以这种方法不苟同。不过不得不承认，如果是基于Cache的Hierarchical Storage Structure和Global Triangle Attribute Local Memory的Arch，这几乎是最好的方法了，可以节约Reg allocation并且可以做到用最少的Tex Inst（实际上可以做到只用一条）。

最重要的是，可以Perfetch！！本来不想说，其实这些东西都是基础，你那个NV的哥们到底是谁，他懂个什么？要是懂，怎么这么重要的Tradeoff都不告诉你，这东西可以拿出来讨论，但是你那NV的哥们给出来的解决方案是根本没理解这个Tradeoff的Bottleneck，就开始扬言改进。这几个GPU厂商的大陆研发就数NV最烂，半点项目自主权都没有，而且一点核心都不能参与，全是什么Display Interface / Performance Analysis / Memory Controller / Simulator Debug……，这也叫技术？天天给美国人擦屁股，能比FAE能强多少？上海NV有几个人能搞明白Regsiter Allocation和Register Renaming的区别，有几个人能搞明白CGMT和FGMT的区别，有几个人能搞明白Consistency和Coherency的区别？给一个2 bit Counter来数，还能富余。

[ 本帖最后由 predaking 于 2008-10-15 00:07 编辑 ]

只看该作者 · 发表于 2008-10-14 11:49

提示: 作者被禁止或删除内容自动屏蔽

R620 · 发表于 2008-10-14 11:58

下一代GPU很可能还是DX10架构{cry:]

只看该作者 · 发表于 2008-10-14 13:44

提示: 作者被禁止或删除内容自动屏蔽

R620 · 发表于 2008-10-14 17:29

高手云集....{biggrin:]

predaking · 发表于 2008-10-19 01:40

我不认为G70只得被更多的研究，就像G100不值得继续被改进一样。2年以后，就会看到G100 的Arch是多么粗糙而又简陋。完全靠HW去Dynamic Scheduling的Arch是低级而又野蛮的，就像Cache这种即将被未来所抛弃的技术一样。

虽然我没时间看G70，但是从你的描述可以看出G70的Shader Unit就像一个纯的FGMT，其实G80以后的Programmable Unit并不是纯的FGMT，而且FGMT已经穷途末路了。原因同上。况且未来属于FL，FL所带来的特性会大大的影响到GPU Arch和CPU，而Pointer这种东西将被限制使用。这意味着什么？FL天生可以做Graphics Pipeline，天生更加可以做RT。所以现在GPU的Arch在5年以内就会从Desktop消亡，也许都用不了5年。

只在别人的里程碑前拜倒学习固然可敬，但是跟重要的是创新。能带来Function和Performance上飞跃的创新。而G100和R700都不过如此，强弩之末，不穿鲁缟。

predaking · 发表于 2008-10-20 01:54

原帖由 jackson01 于 2008-9-7 02:22 发表
大家这么专业,我觉得如果能省一半电最好.

这个贴子里，我觉得这是最有技术的一帖。感谢发贴者：〉

Eji · 发表于 2008-10-20 07:21

What is FL?

R620 · 发表于 2008-10-20 09:38

原帖由 Eji 于 2008-10-20 07:21 发表
What is FL?

同问！:charles:

只看该作者 · 发表于 2008-10-21 22:57

提示: 作者被禁止或删除内容自动屏蔽

Edison · 发表于 2008-11-12 23:23

09年Q3财务分析师会议上，NVIDIA CEO 对于下一代架构的提问时作出了如下的回答：

see. If you told you, then the competition would know that too. So, I find myself – I want to tell you, I can wait to tell you. It’s going to be a fabulous processor. It is – we are working really hard on it. It is a very, very large undertaking. And building a new architecture of this magnitude, it’s a multi-$100 million undertaking anymore. So, it’s a big, big deal. I’m very excited about it, and I can wait to tell you about it, hopefully next year.

:a) 大家继续猜想。

gz_easy · 发表于 2008-11-14 13:24

"...it’s a multi-$100 million undertaking..."
貌似开发G80不是也用了如此规模资金吗，如果NV能明确下一代开发花费是decades of 100 million $就有趣多了。

[ 本帖最后由 gz_easy 于 2008-11-14 13:25 编辑 ]

gaiban · 发表于 2008-11-14 23:53

原帖由 Edison 于 2008-11-12 23:23 发表
09年Q3财务分析师会议上，NVIDIA CEO 对于下一代架构的提问时作出了如下的回答：

see. If you told you, then the competition would know that too. So, I find myself – I want to tell you, I can wait to t ...

把fragment color像素颜色的插值都用shader program来计算。把纹理坐标的透视修正插值用shader program来计算。某些人又要抓狂了。

X,Y是SETUP/RSATER单元计算得到。而Z是在z-culling协处理器里计算，先计算16X16的tile的far/near距离。然后计算每个像素的Z？No.是4个像素用同一个Z.

把单个SM内VS与GS与PS可以同时多线程并行执行,VS/GS/PS同时in-fight. 但是有的SM无GS功能.

把一些寄存器"全局化"实现共享,要用crossbar. 但其共享的方式也是和片内memory的共享是有区别的，是可以实现另一种像素间/线程间的共享.

提高计算密度,提高每SM内的SP数量或每TPC内的SM数量。行销的话，也可以顺便给各个单元起个新名号换换马甲。

[ 本帖最后由 gaiban 于 2008-11-18 01:02 编辑 ]

eDRAM · 发表于 2008-11-15 19:52

2008 Q3的利润下滑会不会影响NV的新产品开发?{shocked:]

G81 · 发表于 2008-11-16 00:28

原帖由 gz_easy 于 2008-11-14 13:24 发表
"...it’s a multi-$100 million undertaking..."
貌似开发G80不是也用了如此规模资金吗，如果NV能明确下一代开发花费是decades of 100 million $就有趣多了。

开发花费才1亿美金啊?那也太少了吧!)_)

predaking · 发表于 2008-11-17 14:37

原帖由 gaiban 于 2008-11-14 23:53 发表
把fragment color像素颜色的插值都用shader program来计算。把纹理坐标的透视修正插值用shader program来计算。某些人又要抓狂了。

X,Y是SETUP/RSATER单元计算得到。而Z是在z-culling协处理器里计算，先计算16X ...

赫赫，反正无论这个是不是NV的产品，做为商业产品，这种改进可以理解。毕竟要保证公司在技术积累上的优势。

但是做为Research，这种改进毫无创新可言，都将被历史甩弃……

ps：这次革命要架空的不仅仅是CISC阵营，而是普林斯顿体系结构。其实之前哈佛和OOO已经在一定程度上架空了他，但是这次……，等着看结果吧。

[ 本帖最后由 predaking 于 2008-11-17 16:58 编辑 ]

帐号		自动登录	找回密码
密码			注册

RacingPHT 该用户已被删除	146^# 发表于 2008-10-14 11:49 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
RacingPHT 该用户已被删除
	回复支持反对使用道具举报显身卡

RacingPHT 该用户已被删除	148^# 发表于 2008-10-14 13:44 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
RacingPHT 该用户已被删除
	回复支持反对使用道具举报显身卡

RacingPHT 该用户已被删除	154^# 发表于 2008-10-21 22:57 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
RacingPHT 该用户已被删除
	回复支持反对使用道具举报显身卡

NVIDIA 下一代架构"Fermi" 猜测、讨论专题

本帖子中包含更多资源

浏览过的版块