PCWatch --以完全相反的方法論來對決的ATI與NVIDIA

Eji · 发表于 2006-7-30 16:20

http://pc.watch.impress.co.jp/docs/2006/0727/kaigai291.htm
以完全相反的方法論來對決的ATI與NVIDIA。

本篇提到，G80的狀況"可能是80nm或90nm、並且很確實地是VS/PS分離設計"。
相反地R600當然就是ATI宣傳很久的US結構....也就是說，和NV30/R300時剛好相反，
這回ATI的位置剛好是NVIDIA當時站的位置、採取全新的結構與新的製程，負擔主要的風險。

G80有主要幾個改進:
(1)Common Shader Model
(2)Geometry Shader
(3)Stream out
(4)Orthogonalized Frame Buffer

G80做了既有管線的功能擴充、以primitive processing為基礎的GS、增設在Geometry pipeline上的Steam Out等等。
組態的部份因為情報混亂的關係還尚未明瞭，但是PS應該在24~32之間，而VS也有大幅的增設。
雖然沒什麼確切的支持，但是至少這是合理的。
增設VS的理由部分，過去因為主要都限制在CPU - FSB - Host bus等部分的頻寬、以及CPU的horse power的限制關係，沒有過大的必要；但是當GS內建於GPU之內後，VS就有可能大幅增加工作的關係，所以必須要作相關的對策。

G80做了這些增設之後，目前看來電晶體部分的需求應該不會大幅成長，die size應該也不會大幅成長，所以80nm甚至90nm也可以適當地處理，簡單講就是走在安全區的戰略。

ATI就不必提了，有趣的是本文提到S3的Destination1/2是US結構。
因為長期的宣傳表現的自信，後藤認為，NVIDIA提到的US在實作上的問題，
ATI應該是已經解決了，所以ATI在US上應該會進步比較快。
不過反過來說，NVIDIA所提的US問題，大多與效能/成本有關；
但是R600至少看來成本已經幾乎保證比G80要高....
我是認為從這個角度看，顯然ATI的表現已經不能算"解決問題了"啦。

而因為為了處理這個成本問題，R600有很大的可能使用65nm。
否則的話，面對的自然會是比已經超級大的R580還要大上一圈的超級怪獸。

GPU die size整理圖。

此外，ATI的Dave Orton認為65nm的實用化會比較快，因為手機晶片組採用65nm的速度較快，
65nm並不如想像中地沒有實證；而且65nm也因為發展上有受到手機晶片組需求的控制，
在電力耗用上進步較快。
此外，NVIDIA已經對OEM廠商表示，G80的TDP max為175w，
所以再怎麼說至少G80還是比G71吃電。B)

於是問題來了：
NVIDIA在未來會採用US也是非常明顯的，但是基本上還不需要急，先推出可以對應DX10的GPU應該相當重要。
ATI已經透過C1來推行US之故，至少不能再delay太多。
而ATI的部份，反正就是用力衝了。:shifty:
到底哪個方向才是正確的，等市場告訴我們就可以了；但是一個很確實的部份是，如果要和CPU結合的話，ATI的結構比較適當。

gzeasy2006 · 发表于 2006-8-19 10:05

看看G80怎么对抗R600的64条“真实”流水线！

只看该作者 · 发表于 2006-8-14 14:06

提示: 作者被禁止或删除内容自动屏蔽

ayanamei · 发表于 2006-8-14 01:46

原帖由 Eji 于 2006-8-12 11:49 发表

ATI當初提出的一些關於US的結構，也是有對thread進行pixel or vertex的辨別耶？

没有涉及到这方面
C1 的时候，貌似
只是相当引人注目的强劲Threading manage
具体其操作细节好像没有发现

gzeasy2006 · 发表于 2006-8-13 16:26

原帖由 vp 于 2006-8-12 18:27 发表

这样的话还是没法解释为什么MS把GS放到VS后面而不是前面。
VS做了T&L，GS完全可以对其进行差值，然后得到新增加的点的T&L结果。否则GS出来的结果有的已经做过T&L，有的是新增加出来的，然后回到VS ...

GS的用途主要是？

只看该作者 · 发表于 2006-8-12 20:14

提示: 作者被禁止或删除内容自动屏蔽

vp · 发表于 2006-8-12 18:34

摘录了一段DX10 sdk preview中对于GS应用的一个教程中的文字：
The geometry shader exists between the vertex and the pixel shaders in the graphics pipeline. Since new geometry can potentially be created by the geometry shader, we must ensure that they are also properly transformed to projection space before we pass them off to the pixel shader. This can either be done by the vertex shader before it enters the geometry shader, or it can be done within the geometry shader itself.
可见微软的本意没有让GS出来的点仅仅是为了做T&L而重新回到VS中。如果是这样，他希望你在之前的VS中就已经算完，或者在GS中去做新添加点的T&L。

vp · 发表于 2006-8-12 18:27

原帖由 Eji 于 2006-8-12 14:38 发表

如果GS做完的model分割不送回VS，你要它們怎麼去處理那些大幅增加的model複雜性？
1會變2、2會變3.....可以消滅vertex, 就是代表可以"分割model"，
如果你不送回VS的話,這幾個model就只能共用一個T&L的結果了耶。

这样的话还是没法解释为什么MS把GS放到VS后面而不是前面。
VS做了T&L，GS完全可以对其进行差值，然后得到新增加的点的T&L结果。否则GS出来的结果有的已经做过T&L，有的是新增加出来的，然后回到VS再重新做一遍T&L，那第一遍T&L不是无用功吗？
似乎DX10 sdk中已经给出了一些GS的用途示例，去看一下就知道MS的原始想法了，就是最近老是没空。

Eji · 发表于 2006-8-12 14:38

原帖由 vp 于 2006-8-6 09:22 发表
还是不能苟同Eji的意见。
关键在于GS在硬件pipeline中的位置，它存在于vs之后，而不是之前，因此采用GS增加vertex数量的操作是vs操作完成之后，一般不会增加vs的负荷，而对于光栅化单元到的确会增加不少负荷。只 ...

如果GS做完的model分割不送回VS，你要它們怎麼去處理那些大幅增加的model複雜性？
1會變2、2會變3.....可以消滅vertex, 就是代表可以"分割model"，
如果你不送回VS的話,這幾個model就只能共用一個T&L的結果了耶。

光作tessellation的話，你可以視為一種Modeling data的資料壓縮，
可是它還是不能刪去頂點，刪去頂點的作用就像我上面說的，可以作為分割model的作用，
分割model的話自然就是要把這幾個model做進一部的分離、加上個別的物理性質，
所以不增設VS的話，GS就不需要加上刪除頂點的功能了，因為不會分割model。

反過來說，也因為GS加上刪除頂點的功能、可以實作model分割，
所以我們可以透過增設更多的VS，來實作GPU內的較大規模物理模擬，
而不像PS3一樣要透過Cell的浮點資源來處理物理。
當然，這麼一點點的VS增設，只能說取代部分的細部分子物理，
而不是像Cell那樣可以在伺服器的範疇作整個遊戲內的超大規模物理.....
但是你可以把Cell視為巨觀、DX10的VS與GS互動視為微觀。

再進一部要進化的話，就得把US、multiple fequency domain、CPU+GPU等等結構都考慮進去了。

[ 本帖最后由 Eji 于 2006-8-12 14:40 编辑 ]

Eji · 发表于 2006-8-12 14:28

抱歉，把標題改成這樣好了：
以相反的手法來對決的ATI與NV。
這樣會不會比較容易了解？
這指的當然就是一個先衝US、一個不衝的態度。

Eji · 发表于 2006-8-12 11:49

原帖由 ayanamei 于 2006-8-6 15:32 发表

从上次发的NV50执行流水图来看
我还是认为VS/PS是要分配到不同的执行单元去的
不然不需要这样繁琐的鉴定thread 是VS或是PS

ATI當初提出的一些關於US的結構，也是有對thread進行pixel or vertex的辨別耶？

gzeasy2006 · 发表于 2006-8-12 10:19

原帖由 angelion 于 2006-8-10 21:55 发表

  Orthogonal 是一个非常好的条件，简单的说就是垂直

  如初中所学的 X Y 座标系，那就是一个 Orthogonal 的坐标系

  为什么定义他是 Orthogonal 的，原因在于坐标点沿着 X 轴方向数值发生变化时，

...

能不能说得通俗一些？太难了，我无法理解。

angelion · 发表于 2006-8-10 22:15

原帖由 来不及思考 于 2006-8-2 17:57 发表
很有意思的一个东西 :p

一个近似的二次插值，文中对近似插值误差的极小化极大值做了下评估，

这种近似插值是一个针对硬件和实际应用的算法设计

貌似意图在于降低占有带宽（减少运算占用的处理单元），获得更高的计算效率

这个大概是对硬件驱动的算法设计有好处吧，

小心又有人拿来说 NV “作弊”了，哈哈 ...:lol:

[ 本帖最后由 angelion 于 2006-8-10 22:17 编辑 ]

angelion · 发表于 2006-8-10 21:55

原帖由 PCINLIFE2006 于 2006-8-4 13:33 发表

还是不能理解。

  Orthogonal 是一个非常好的条件，简单的说就是垂直

  如初中所学的 X Y 座标系，那就是一个 Orthogonal 的坐标系

  为什么定义他是 Orthogonal 的，原因在于坐标点沿着 X 轴方向数值发生变化时，

  不会影响 Y 轴上的数值变化

  这一定义可以推广到多维空间内

  数学上建立 Orthogonal 的优势在于，人们可以对 Orthogonal 即垂直坐标系里的点做精确定量分析

  再者，将这一性质使用到工程学领域内，

  大概的意思可能就是说各个处理单元可以彼此独立互不干扰的处理自己的任务吧...

[ 本帖最后由 angelion 于 2006-8-10 21:57 编辑 ]

ayanamei · 发表于 2006-8-9 21:20

原帖由 PCINLIFE2006 于 2006-8-7 13:28 发表

NV50肯定不是US吗？

除了NV谁能拍着胸脯说g80肯定是什么构架呢　＃

ayanamei · 发表于 2006-8-9 21:19

原帖由 PCINLIFE2006 于 2006-8-7 13:28 发表

NV50肯定不是US吗？

除了NV谁能拍着胸脯说g80肯定是什么构架呢　＃

gzeasy2006 · 发表于 2006-8-9 12:35

原帖由 单晶硅传奇 于 2006-7-31 20:51 发表
以完全相反的方法論來對決的ATI與NVIDIA

文章看完了，唯一没看懂的是标题:huh:

我也是

gzeasy2006 · 发表于 2006-8-7 19:20

原帖由 fineday 于 2006-8-1 15:23 发表
和CPU结合也早着呢……我不认为R600有十足的把握砍死G80。
不是说R600不用65nm改用80nm了么。

65nm今年是不可能了。

gzeasy2006 · 发表于 2006-8-7 13:28

原帖由 ayanamei 于 2006-8-6 18:22 发表

我的意思是说 GS之后的数据未必直接给 rasterizer，也可能重复丢给VS这样复杂的动作,从而加重VS负怠＃应该不会是死板的VS-GS-PS
至于认为NV50 不是US,上面的知识比较直观的感觉，其实细节也不是很清楚:whis ...

NV50肯定不是US吗？

[ 本帖最后由 gzeasy2006 于 2006-8-7 19:16 编辑 ]

ayanamei · 发表于 2006-8-6 18:22

原帖由 vp 于 2006-8-6 18:07 发表
GS的位置正是位于VS和rasterizer之间，他的输出可以直接送给rasterizer。为什么凡是顶点就必须是没有进行过T&L过？经过T&L，vertex blending等处理的vertex送到GS之后也可以直接变形，光照的结果，纹理坐 ...

我的意思是说 GS之后的数据未必直接给 rasterizer，也可能重复丢给VS这样复杂的动作,从而加重VS负怠＃应该不会是死板的VS-GS-PS
至于认为NV50 不是US,上面的知识比较直观的感觉，其实细节也不是很清楚:whistling:

帐号		自动登录	找回密码
密码			注册

来不及思考该用户已被删除	36^# 发表于 2006-8-14 14:06 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
来不及思考该用户已被删除
	回复支持反对使用道具举报显身卡

RacingPHT 该用户已被删除	33^# 发表于 2006-8-12 20:14 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
RacingPHT 该用户已被删除
	回复支持反对使用道具举报显身卡

PCWatch --以完全相反的方法論來對決的ATI與NVIDIA

回复 #6 单晶硅传奇的帖子

浏览过的版块

PCWatch --以完全相反的方法論來對決的ATI與NVIDIA

回复 #6 单晶硅传奇 的帖子

浏览过的版块

回复 #6 单晶硅传奇的帖子