POPPUR爱换

标题: R600的shader [打印本页]

作者: Eji 时间: 2007-3-3 11:15
标题: R600的shader
http://pc.watch.impress.co.jp/docs/2007/0302/amd.htm

根據Dave Orton的說法，會場上展示的R600 CF有1TFLOPS的效能，並且每個R600有320個steam processor。

這樣一來spec就很明顯了：64個4D+1D、800MHz左右的整體時脈，沒有倍頻shader，這樣每個R600大約就是500GFLOPS前後，CrossFire後就是1TFLOPS。

現在的問題大概只有每個 bank是16個4+1（類似C1），還是其他的組態。

作者: Edison 时间: 2007-3-3 12:17
就是4个bank*16个US亚。

作者: Eji 时间: 2007-3-3 13:20

原帖由 Edison 于 2007-3-3 12:17 发表
就是4个bank*16个US亚。

不會吧。:funk:

作者: linwu1 时间: 2007-3-3 15:19
如果只算1D，ｇ８０没有５２０Ｇ浮点。那么ｒ６００的这个５００Ｇ是只算１Ｄ＋４Ｄ？还是和ｎｖ一样，包括了其他的运算力？
如果有包括其他的运算力，那频率就没８００ｍｈｚ了

作者: 来不及思考 时间: 2007-3-3 16:26
提示: 作者被禁止或删除内容自动屏蔽

作者: Eji 时间: 2007-3-3 16:45

原帖由 linwu1 于 2007-3-3 15:19 发表
如果只算1D，ｇ８０没有５２０Ｇ浮点。那么ｒ６００的这个５００Ｇ是只算１Ｄ＋４Ｄ？还是和ｎｖ一样，包括了其他的运算力？
如果有包括其他的运算力，那频率就没８００ｍｈｚ了

NV在G7x以前會算到一堆很怪的咚隳芰Γ?贿^那和Shader的結構有關係，
NV4x/G7x的Shader非常重視co-issue，導致結構錯綜複雜。
G80能算到520G的話，基本上就是算成MAD + MUL，因為missing-MUL的關係，"現在"G80就是只有345.6GFLOPS。

如果真的是4 banks、16Shader per bank的話，就很有理由可以相信每個shader只有1D + 4D MAD。
基本上就是C1的強化版（加強1/4）然後提升時脈，改變周邊配置而已了。

----
以G80來說，整個結構只有128個1D，和幾乎有58個4D的G71比起來，每個1D分到的電晶體規模整整大了4倍以上。
過去來說DX10據稱大約需要1.4倍的DX9 shader成本，G80的成本提升看起來很難讓人相信確有必要，
也就是說G80應該還有很大的成本效益改善空間才是。

R600如果真的有700M的話，那應該和G80有同樣的問題存在。

[ 本帖最后由 Eji 于 2007-3-3 16:54 编辑 ]

作者: Eji 时间: 2007-3-3 16:47

原帖由 来不及思考 于 2007-3-3 16:26 发表
这样就太让人失望了
基本是C1放大而已

C1也不錯啊.... NVIDIA也有過 G70 = NV40放大版的前例....

不過G70/G71在產品配置上作了許多努力，讓成本效益大幅提升；
R600如果真的是C1放大，那應該可以用C1為立足點提升成本效益，
但是卻沒有看到那種表現....

作者: 来不及思考 时间: 2007-3-3 17:36
提示: 作者被禁止或删除内容自动屏蔽

作者: PS5 时间: 2007-3-3 19:11
AMD居然没有shader的倍频技术，太令人失望了

[ 本帖最后由 PS5 于 2007-3-3 19:23 编辑 ]

作者: PS5 时间: 2007-3-3 19:20

原帖由 Eji 于 2007-3-3 16:45 发表

以G80來說，整個結構只有128個1D，和幾乎有58個4D的G71比起來，每個1D分到的電晶體規模整整大了4倍以上。
過去來說DX10據稱大約需要1.4倍的DX9 shader成本，G80的成本提升看起來很難讓人相信確有必要，
也就是說G80應該還有很大的成本效益改善空間才是。
..

言下之意就是NV在浪费晶体管？:funk:

作者: linwu1 时间: 2007-3-3 21:34

原帖由 Eji 于 2007-3-3 16:45 发表

NV在G7x以前會算到一堆很怪的咚隳芰Γ?贿^那和Shader的結構有關係，
NV4x/G7x的Shader非常重視co-issue，導致結構錯綜複雜。
G80能算到520G的話，基本上就是算成MAD + MUL，因為missing-MUL的關係，&qu ...

http://news.mydrivers.com/1/78/78173.htm
上面的新闻中，nv宣称：8800显卡在CUDA架构中的峰值运算能力可达520GFlops，因此如果构建SLI双卡系统，可以达到1TFlops（即每秒运算1万亿次）的强大运算能力。

这是nv在吹牛？还是媒体误导？

作者: Eji 时间: 2007-3-3 23:35

原帖由 PS5 于 2007-3-3 19:20 发表

言下之意就是NV在浪费晶体管？:funk:

也不能這麼說，畢竟結構與體質的改善是必須的，否則性能發展必然會有其上限。
G71的成本效能比雖然出色，但是結構上有其犧牲，比方說HDR。
而且Quad-SLI G71 和 G80 SLI相比，成本上應該還是後者較低，而且後者有前者無法達成的性能。
所以轉向G8x是有必要的。

你不能光看到R580的成功，就否定R520的價值，因為是後者的存在確立了前者的基礎，
應該質疑的是ATI/AMD本身的執行力，使得R520在time-to-market上面出現了問題。

反過來說，G80如果也大幅delay的話，面對R600時只怕就與R520的遭遇沒多少差異，
而由於前有C1的經驗，R600從上面的資訊來說，已知與C1沒有太大的差異，
目的也應該就是在於類似G70的time-to-market策略，但是卻沒有看到其效果，使得R600現在看來即將面臨T2M的問題，
這才是AMD未來的課題所在。

作者: Eji 时间: 2007-3-3 23:40

原帖由 linwu1 于 2007-3-3 21:34 发表

http://news.mydrivers.com/1/78/78173.htm
上面的新闻中，nv宣称：8800显卡在CUDA架构中的峰值运算能力可达520GFlops，因此如果构建SLI双卡系统，可以达到1TFlops（即每秒运算1万亿次）的强大运算能力。

...

聽起來像是missing-MUL只能在CUDA裡面使用？

作者: RacingPHT 时间: 2007-3-5 09:23
提示: 作者被禁止或删除内容自动屏蔽

作者: SM5 时间: 2007-3-5 14:44

原帖由 RacingPHT 于 2007-3-5 09:23 发表
多出来的晶体管在做什么呢？

其实多出来的整数指令集会占用很多晶体管吗？我比较怀疑。因为从G80的经验, 全速的int指令只有24bit精度, 也就是说整数指令是在复用浮点运算的部件。

48个ALU的核心只有232M晶 ...

G80的int指令只有24bit精度？不是32bit的么？:o

作者: Edison 时间: 2007-3-5 15:05
G80的TA数量增加了50%，TF增加了1.6倍，cache容量、GPRF、内存控制器、实现CSAA、8 MRT等等都会导致不少的晶体管增加吧。

作者: Edison 时间: 2007-3-5 15:26

原帖由 SM5 于 2007-3-5 14:44 发表
G80的int指令只有24bit精度？不是32bit的么？:o

http://we.pcinlife.com/viewthread.php?tid=715490

32-bit integer multiplication takes 8 clock cycles, but __mul24 and __umul24 (see Appendix A) provide signed and unsigned 24-bit integer multiplication in 2 clock cycles. Integer division and modulo operation are particularly costly and should be avoided if possible or replaced with bitwise operations whenever possible: If n is apower of 2, (i/n) is equivalent to (i>>log2(n)) and (i%n) is equivalent to (i&(n-1)); the compiler will perform these conversions if n is literal.

作者: PS5 时间: 2007-3-5 19:10

原帖由 Eji 于 2007-3-3 23:35 发表

也不能這麼說，畢竟結構與體質的改善是必須的，否則性能發展必然會有其上限。
G71的成本效能比雖然出色，但是結構上有其犧牲，比方說HDR。
而且Quad-SLI G71 和 G80 SLI相比，成本上應該還是後者較低，而 ...

我的意思你没看懂！MIMD架构与SIMD相比要消耗更多的晶体管，那么NV为什么要把大量的晶体管浪费在MIMD上呢？:lol:

作者: 来不及思考 时间: 2007-3-5 19:17
提示: 作者被禁止或删除内容自动屏蔽

作者: Edison 时间: 2007-3-5 23:35
80 core根本就是一个ALUs array嘛，当初Intel也弄过更接近于x86 GPU的i860，后来还不是不了了之。

作者: RacingPHT 时间: 2007-3-6 09:07
提示: 作者被禁止或删除内容自动屏蔽

作者: G81 时间: 2007-3-6 23:02

原帖由 PS5 于 2007-3-5 19:10 发表

我的意思你没看懂！MIMD架构与SIMD相比要消耗更多的晶体管，那么NV为什么要把大量的晶体管浪费在MIMD上呢？:lol:

不知道MIMD和SIMD哪个结构更适合跑RT与GI？还是INTEL的80core更有优势些？

作者: RacingPHT 时间: 2007-3-7 09:41
提示: 作者被禁止或删除内容自动屏蔽

作者: Edison 时间: 2007-3-7 10:10
所有的多核处理器都是可以看作是MIMD，G80就是8-way MIMD的。

作者: gzeasy2006 时间: 2007-3-8 10:18

原帖由 Edison 于 2007-3-7 10:10 发表
所有的多核处理器都是可以看作是MIMD，G80就是8-way MIMD的。

为什么说所有的多核处理器都是MIMD？:(

作者: Edison 时间: 2007-3-8 12:51

原帖由 gzeasy2006 于 2007-3-8 10:18 发表
为什么说所有的多核处理器都是MIMD？:(

这个问题请到初阶区发问。

作者: Eji 时间: 2007-3-9 22:44

原帖由 PS5 于 2007-3-5 19:10 发表

我的意思你没看懂！MIMD架构与SIMD相比要消耗更多的晶体管，那么NV为什么要把大量的晶体管浪费在MIMD上呢？:lol:

對了，因為我忘記算DX9 -> DX10 需要 1.4x電晶體。XD
所以其實G80的電晶體效率應該是比G70高。

G80的電晶體數量大約是2.25x，所以差不多是1.5x規模、1.5x功能強化。
而且有大半是和Rasterizer相關的強化(TMU、ROP)，所以shader本身其實可能根本沒有很大的強化，但是卻得到了很明顯的GPGPU改善。

----
題外話：這會讓我覺得，遲早有一天，當我們回頭看Cell Graphic的時候，我們會體會當時的遠見.... XD
如果有個 6~8SPE、把PPE用Rasterizer相關周邊取代的GPU的話，那當如何？

[ 本帖最后由 Eji 于 2007-3-10 12:10 编辑 ]

作者: PS5 时间: 2007-3-10 14:34

原帖由 Eji 于 2007-3-9 22:44 发表

G80的電晶體數量大約是2.25x，所以差不多是1.5x規模、1.5x功能強化。
而且有大半是和Rasterizer相關的強化(TMU、ROP)，所以shader本身其實可能根本沒有很大的強化

难道G80的shader除了频率倍增外，其他的都没有进步吗？

[ 本帖最后由 PS5 于 2007-3-10 14:36 编辑 ]

作者: PS5 时间: 2007-3-10 14:41

原帖由 Eji 于 2007-3-9 22:44 发表

這會讓我覺得，遲早有一天，當我們回頭看Cell Graphic的時候，我們會體會當時的遠見.... XD
如果有個 6~8SPE、把PPE用Rasterizer相關周邊取代的GPU的話，那當如何？

你似乎对CELL GRAPHIC的3D性能很是期待啊，俗话说的好“术有专攻”，CELL GRAPHIC即便在强也无法和专攻3D游戏的GPU相比吧！:wub:

作者: ~tanjt~ 时间: 2007-3-10 21:18
EJI大大

这是虾米“幾乎有58個4D的G71”:funk:

可以从最肤浅的地方解释一下吗，谢了:loveliness:

作者: Eji 时间: 2007-3-10 23:01

原帖由 PS5 于 2007-3-10 14:41 发表

你似乎对CELL GRAPHIC的3D性能很是期待啊，俗话说的好“术有专攻”，
CELL GRAPHIC即便在强也无法和专攻3D游戏的GPU相比吧！:wub:

那是因為GPU的性能來自"與繪圖相關的部分"。
但是Shader其實是"不完全與繪圖相關的部分"，所以可以利用繪圖做很多工作，才會有人想做GPGPU。
而shader如果要追求靈活度，就會提高複雜度、進而就會慢慢地減少所謂的"性能"。

所以，如果Rasterizer部分的規模同等的話，我覺得拿SPE來取代shader，有一定的說服力。
不然就不會有很多人在想"把RSX的VS拿掉"，這就是因為大家認為VS部分的功能，SPE可以處理得很好。

TMU、ROP、這些東西在G80上都是Lumenex Engine相關的部分，而不是Unified Shader的部分。

原帖由 ~tanjt~ 于 2007-3-10 21:18 发表
EJI大大

这是虾米“幾乎有58個4D的G71”:funk:

可以从最肤浅的地方解释一下吗，谢了:loveliness:

想太多啦，8vs = [4+1]x8 = 10x8，24ps = 2x24，10+48 = 58，所以是58個4D....
光從這點就可以看到，其實G80的128SP，資源是很大的。

[ 本帖最后由 Eji 于 2007-3-10 23:07 编辑 ]

作者: PS5 时间: 2007-3-10 23:26

原帖由 Eji 于 2007-3-10 23:01 发表

而shader如果要追求靈活度，就會提高複雜度、進而就會慢慢地減少所謂的"性能"。

所以，如果Rasterizer部分的規模同等的話，我覺得拿SPE來取代shader，有一定的說服力

言下之意就是shader过分追求灵活度，就会减少3D性能？感觉现在的GPU有点不误正业啊！3D才是其主业啊。

:funk: 如果光栅部分规模同等，用SPE来取代shader会有更好的性能吗？

作者: Eji 时间: 2007-3-11 14:46

原帖由 PS5 于 2007-3-10 23:26 发表

言下之意就是shader过分追求灵活度，就会减少3D性能？感觉现在的GPU有点不误正业啊！3D才是其主业啊。

:funk: 如果光栅部分规模同等，用SPE来取代shader会有更好的性能吗？

Rasterizer based的可能會變差，但是靈活度有可能帶來新的3D技術啊。
現在PS3上很多用SPE作特效的研究，就是因為用SPE做起來比Shader的效率好。
所以不見得要用以前的觀點看。

作者: RacingPHT 时间: 2007-3-11 15:52
提示: 作者被禁止或删除内容自动屏蔽

作者: R620 时间: 2007-3-11 17:38

原帖由 Eji 于 2007-3-11 14:46 发表

現在PS3上很多用SPE作特效的研究，就是因為用SPE做起來比Shader的效率好。
所以不見得要用以前的觀點看。

如果真是这样，那Cell会严重威胁到GPU的市场啊

作者: R620 时间: 2007-3-11 17:43

原帖由 Eji 于 2007-3-11 14:46 发表

Rasterizer based的可能會變差，但是靈活度有可能帶來新的3D技術啊。

新的3D技术是指Ray Tracer或Geometry Instancing吗？看来GPU要抛弃Rasterizer based是迟早的事了。

作者: PS5 时间: 2007-3-11 17:49

原帖由 Eji 于 2007-3-11 14:46 发表

Rasterizer based的可能會變差，但是靈活度有可能帶來新的3D技術啊。
現在PS3上很多用SPE作特效的研究，就是因為用SPE做起來比Shader的效率好。
所以不見得要用以前的觀點看。

GPU越来越象CPU了，如果一味的提高灵活度是以牺牲3D性能为代价，GPU还有存在的必要么？毕竟做特效SPE要比Shader的效率好

[ 本帖最后由 PS5 于 2007-3-11 17:52 编辑 ]

作者: Eji 时间: 2007-3-13 00:48

原帖由 PS5 于 2007-3-11 17:49 发表

GPU越来越象CPU了，如果一味的提高灵活度是以牺牲3D性能为代价，GPU还有存在的必要么？
毕竟做特效SPE要比Shader的效率好

我覺得你誤解大了。

基本上，GPU真正的價值還是在TMU、ROP之類的Rasterizer。
雖然並不是一味增加就是好，但是在適當的搭配下，GPU仍然是要準備這些東西才能稱為GPU；
否則的話我們難道能叫那顆 80-core 是GPU嗎？不適當吧。

反之，shader提高靈活度是為了以更有效率的演算法來計算與3D相關的東西。
由於這部分的半導體的結構性質其實與Rasterizer是有相違背的，所以像G8x那樣使兩者跑不同的頻率，是很有效率的做法。

只要還是用Rasterizer-based，相關的這些單元就會繼續存在下去，只是等到製程技術真的進步得夠遠的時候，
可能它們就會像AC-97/HD-AUDIO codec一樣瑟縮在系統的一角；只是我覺得這一天的來臨還很早。

我覺得最可能的是CPU夠快到取代shader的地步，於是GPU只需要真正只與繪圖相關的ASIC部分內建在系統上；
當然這是對CPU廠商最有利的實作方式。

詳情可以參考這篇 "DX11" 相關的資訊。
http://www.watch.impress.co.jp/game/docs/20070311/dx11.htm

[ 本帖最后由 Eji 于 2007-3-13 12:49 编辑 ]

作者: PS5 时间: 2007-3-13 13:22

原帖由 Eji 于 2007-3-13 00:48 发表

我覺得你誤解大了。

基本上，GPU真正的價值還是在TMU、ROP之類的Rasterizer。
雖然並不是一味增加就是好，但是在適當的搭配下，GPU仍然是要準備這些東西才能稱為GPU；
否則的話我們難道能叫那顆 80-co ...

你的意思是GPU没有TMU ROP 以类的Rasterizer就没有价值吗？问题是Rasterizer besed太依赖显存带宽了，而显存带宽的增长又很有限制

作者: R620 时间: 2007-3-13 18:48

原帖由 Eji 于 2007-3-13 00:48 发表

詳情可以參考這篇 "DX11" 相關的資訊。

没学过日文，能给解释下内容的大致意思吗？

作者: Eji 时间: 2007-3-13 19:58

原帖由 PS5 于 2007-3-13 13:22 发表

你的意思是GPU没有TMU ROP 以类的Rasterizer就没有价值吗？
问题是Rasterizer besed太依赖显存带宽了，而显存带宽的增长又很有限制

GPU裡面沒有替Graphic特別設計的部分，那好像就很難想稱之為GPU.....

Rasterizer Based是因為咚阈阅苁芟蓿??訥PU發展就挑這個門檻比較低的；
雖說記憶體系統的瓶頸看似很大，但即使是現在，real-time 3D上Ray-tracer還是比rasterizer的門檻要高。

繪圖系統不就是用腦和用手的差異而已....XD

作者: PS5 时间: 2007-3-13 20:14

原帖由 Eji 于 2007-3-13 19:58 发表

Rasterizer Based是因為咚阈阅苁芟蓿??訥PU發展就挑這個門檻比較低的；
雖說記憶體系統的瓶頸看似很大，但即使是現在，real-time 3D上Ray-tracer還是比rasterizer的門檻要高

即使记忆体的瓶頸很大，也比上Ray-tracer要容易，所以先从Rasterizer Based入手，但是有没有想过记忆体位宽也不是能无限增长的，现在上512bit几乎已经是极限了，在这样下去除了上Ray-trace已经没别的办法了

[ 本帖最后由 PS5 于 2007-3-13 20:15 编辑 ]

作者: Eji 时间: 2007-3-14 12:02

原帖由 PS5 于 2007-3-13 20:14 发表

即使记忆体的瓶頸很大，也比上Ray-tracer要容易，所以先从Rasterizer Based入手，但是有没有想过记忆体位宽也不是能无限增长的，现在上512bit几乎已经是极限了，在这样下去除了上Ray-trace已经没别的办法了

Core2duo要算 iRT 今年在GDC07的1080p demo要接近一小時1個frame，Cell 也只有2fps。
要讓Ray tracer跑現在一般遊戲跑的效率，可能要一個籃球場的面積來擺機器。

相比之下，512bit？還蠻便宜的嗎。一點都不是瓶頸啊。

作者: PS5 时间: 2007-3-14 13:57

原帖由 Eji 于 2007-3-14 12:02 发表

Core2duo要算 iRT 今年在GDC07的1080p demo要接近一小時1個frame，Cell 也只有2fps。
要讓Ray tracer跑現在一般遊戲跑的效率，可能要一個籃球場的面積來擺機器。

相比之下，512bit？還蠻便宜的嗎。一點 ...

GPU没有ROP就不能称为GPU？GPU就不能Ray tracer based么？没必要死抱着Rasterizer besed不放，在说了512bit的显存位宽也还是不能满足GPU的需要啊！

[ 本帖最后由 PS5 于 2007-3-14 15:25 编辑 ]

作者: RacingPHT 时间: 2007-3-14 14:24
提示: 作者被禁止或删除内容自动屏蔽

作者: G81 时间: 2007-3-14 18:03

原帖由 RacingPHT 于 2007-3-14 14:24 发表

目前还没有出现1TB/s 级别的民用外置存储器和2T flops级别的民用CPU。所以RayTracing还不是目前技术实力能达到的东西

2T flops级别的民用CPU不知道要不要等20年，对于Real-time 3D 上Ray Tracing，偶还是更期待GPU些，毕竟这本来就是GPU该干的事:charles:

[ 本帖最后由 G81 于 2007-3-14 18:46 编辑 ]

作者: Eji 时间: 2007-3-14 21:44

原帖由 PS5 于 2007-3-14 13:57 发表

GPU没有ROP就不能称为GPU？GPU就不能Ray tracer based么？
没必要死抱着Rasterizer besed不放，在说了512bit的显存位宽也还是不能满足GPU的需要啊！

我的意思是說，難易之類的事情我想實際在做的人會清楚得多。
如果US比較簡單好做的話，那一開始為何是VS/PS分離? 同樣的道理。

----

原帖由 G81 于 2007-3-14 18:03 发表
2T flops级别的民用CPU不知道要不要等20年，对于Real-time 3D 上Ray Tracing，偶还是更期待GPU些，毕竟这本来就是GPU该干的事:charles:

(別再亂換馬甲啦)

所以的確有人在做Ray-tracing on GPU是事實。
但是就像上面說的，fully RT ray tracer還需要時間，特定處理(如shadow cast、HDR-lighting、AO based lighting.....)由Shader透過GPGPU跑會比較有效率，用來實現以前做不到的特效也是一個重點。

總之，製程能提供的電晶體數量大略是相同的，要用在什麼地方就看廠商了。

[ 本帖最后由 Eji 于 2007-3-14 21:59 编辑 ]

作者: RacingPHT 时间: 2007-3-14 22:39
提示: 作者被禁止或删除内容自动屏蔽

作者: G81 时间: 2007-3-15 11:46

原帖由 Eji 于 2007-3-14 21:44 发表

所以的確有人在做Ray-tracing on GPU是事實。
但是就像上面說的，fully RT ray tracer還需要時間，特定處理(如shadow cast、HDR-lighting、AO based lighting.....)由Shader透過GPGPU跑會比較有效率，用來實現以前做不到的特效也是一個重點。

感觉所有人都在做Ray-tracing on CPU，GPU那边好象还没有什么进展，用shader跑GPGPU主要是物理计算得益吧！好象现在还没有看到实现了以前做不到的特效啊？
:whistling:

作者: Edison 时间: 2007-3-15 17:30
厂商都是现实的，不会做一些超出目前工艺水平或者成本过高的产品，当然，随着超高端玩家群体的形成，未来还是会出现一些比G80更变态的产品，但是业界目前的生态环境还是在scan line上。

作者: RacingPHT 时间: 2007-3-15 19:26
提示: 作者被禁止或删除内容自动屏蔽

作者: R620 时间: 2007-3-15 19:40

原帖由 Eji 于 2007-3-14 21:44 发表

我的意思是說，難易之類的事情我想實際在做的人會清楚得多。
如果US比較簡單好做的話，那一開始為何是VS/PS分離? 同樣的道理。

一开始是VS/PS分离，之后是US，US之后就是光线追踪了，一步一个脚印啊:lol:

作者: R620 时间: 2007-3-20 15:34
1T做纯物理模拟还是够的

作者: SM5 时间: 2007-3-21 12:02

原帖由 R620 于 2007-3-20 15:34 发表
1T做纯物理模拟还是够的

起码要CF才够

作者: fineday 时间: 2007-3-21 12:14
:unsure: 4x16
我的天，太失望了，还以为ATi撑了700M晶体管，好歹把IO做好点，来个16x4。
那就奇怪了，光是C1放大1/3，有必要用到这么多的晶体管么。

作者: SM5 时间: 2007-3-26 18:57

原帖由 fineday 于 2007-3-21 12:14 发表
:unsure: 4x16
我的天，太失望了，还以为ATi撑了700M晶体管，好歹把IO做好点，来个16x4。
那就奇怪了，光是C1放大1/3，有必要用到这么多的晶体管么。

ATI PER 晶体管效率太低

作者: 痞子不俗 时间: 2007-3-26 20:17
看到东西再说！！！！！！！！！！

作者: iiiiuuuu 时间: 2007-3-26 20:37
不知道为什么有人总是对Ray-tracing那么执著。好像没有Ray-tracing3D技术就不发展了。

Pixar这么多年了还一直抱着RenderMan作电影，Scanline的发展空间还是很大的。

除非有些人认为他们的游戏画面需要超过超人总动员的效果，不得不采用Ray-tracing，或者还需要实时Radiosity。

作者: 苦地 时间: 2007-3-26 20:54

原帖由 fineday 于 2007-3-21 12:14 发表
:unsure: 4x16
我的天，太失望了，还以为ATi撑了700M晶体管，好歹把IO做好点，来个16x4。
那就奇怪了，光是C1放大1/3，有必要用到这么多的晶体管么。

看清楚了再说w00t) w00t)

作者: R620 时间: 2007-3-28 15:07

原帖由 iiiiuuuu 于 2007-3-26 20:37 发表
不知道为什么有人总是对Ray-tracing那么执著。好像没有Ray-tracing3D技术就不发展了。

Pixar这么多年了还一直抱着RenderMan作电影，Scanline的发展空间还是很大的。

除非有些人认为他们的游戏画面需要超过 ...

RT可是未来的技术哦，光栅对显存要求过高，而计算能力过低，迟早被淘汰的:)

作者: jump_sun 时间: 2007-3-28 15:31

原帖由 iiiiuuuu 于 2007-3-26 20:37 发表
不知道为什么有人总是对Ray-tracing那么执著。好像没有Ray-tracing3D技术就不发展了。

Pixar这么多年了还一直抱着RenderMan作电影，Scanline的发展空间还是很大的。

除非有些人认为他们的游戏画面需要超过 ...

RM在RT的问题上也是妥协了的~~~

作者: chena_cpp 时间: 2007-3-28 15:45

原帖由 iiiiuuuu 于 2007-3-26 20:37 发表
不知道为什么有人总是对Ray-tracing那么执著。好像没有Ray-tracing3D技术就不发展了。

Pixar这么多年了还一直抱着RenderMan作电影，Scanline的发展空间还是很大的。

除非有些人认为他们的游戏画面需要超过 ...

技术肯定要向前发展的啊，现在还远远不够。
geomerics这个公司做real-time radiosity的，可以去他们网站看看。
[YouTube]L1pfCUmEoCs[/YouTube]

[ 本帖最后由 chena_cpp 于 2007-3-30 14:08 编辑 ]

作者: 287381906 时间: 2007-3-28 16:31
就纯理论上来说，貌似ATI Ring的Mem控制器对Rasterizer besed更有意义呢~w00t) Ring相比交错控制器布线简单了不止一点，512bit、1Gbit……w00t)

作者: G81 时间: 2007-3-29 11:33

原帖由 287381906 于 2007-3-28 16:31 发表
就纯理论上来说，貌似ATI Ring的Mem控制器对Rasterizer besed更有意义呢~w00t) Ring相比交错控制器布线简单了不止一点，512bit、1Gbit……w00t)

Ring是内部总线，对外部总线没什么帮助吧

作者: iiiiuuuu 时间: 2007-3-29 12:40

原帖由 R620 于 2007-3-28 15:07 发表

RT可是未来的技术哦，光栅对显存要求过高，而计算能力过低，迟早被淘汰的:)

RT肯定是实时渲染未来的方向，但是就目前的实际水平来说SL还是未来至少20年的主力。

现在就盲目对RT过渡看中是不行的。

作者: SM5 时间: 2007-3-29 19:35

原帖由 chena_cpp 于 2007-3-28 15:45 发表

技术肯定要向前发展的啊，现在还远远不够。
geomerics这个公司做real-time radiosity的，可以去他们网站看看。
http://www.youtube.com/player2.s ... ToPDskLalZ8X_mwLtdm ...

有下载的吗？

作者: PS5 时间: 2007-3-30 09:44

原帖由 SM5 于 2007-3-26 18:57 发表

ATI PER 晶体管效率太低

ati per晶体管效率比nv的低早就是不争的事实

作者: SM5 时间: 2007-3-30 18:47

原帖由 287381906 于 2007-3-28 16:31 发表
就纯理论上来说，貌似ATI Ring的Mem控制器对Rasterizer besed更有意义呢~w00t) Ring相比交错控制器布线简单了不止一点，512bit、1Gbit……w00t)

什么时候能变成外部的1Gbit 2Gbitw00t)

作者: 287381906 时间: 2007-4-1 11:13

原帖由 SM5 于 2007-3-30 18:47 发表

什么时候能变成外部的1Gbit 2Gbitw00t)

梦里w00t)

作者: R620 时间: 2007-4-5 10:21

原帖由 chena_cpp 于 2007-3-28 15:45 发表

技术肯定要向前发展的啊，现在还远远不够。
geomerics这个公司做real-time radiosity的，可以去他们网站看看。
L1pfCUmEoCs

这个公司的3D技术怎么跟剪纸人似的？也太简单了吧！

作者: gzeasy2006 时间: 2007-4-6 11:25
三台PS3合力演示实时光线追踪

实时光线追踪(Real-time Ray Tracing)是影视界经常运用的渲染技术之一，比如Pixar的很多三维动画影片就有它的功劳，而对于当前的游戏来说，实现这一技术的难度还是太大，不过在潜力无穷的PS3面前，就很轻松了。

YouTube上的一段视频显示，有人已经利用三台PS3合作完成了实时光线追踪，画面中汽车的阴影都是实时渲染出来的。据悉，演示所用的iRT(智能光线追踪)代码是根据IBM Cell SDK 2.0开发包在Linux系统下写成的，而且只需要一个Cell SPE处理器核心就能运行，无需动用Cell PPE核心和RSX图形芯片。

虽然视频清晰度不高，但据称所有的画面都至少是720p分辨率、4x超级取样的，并实现了动态的光源、大气和阴影等等实时效果。

也许今后好莱坞在制作动画片的时候只要买一堆PS3就行了 :)
这里有视频
http://news.mydrivers.com/1/81/81030.htm

作者: PS5 时间: 2007-4-8 11:56

原帖由 痞子不俗 于 2007-3-26 20:17 发表
看到东西再说！！！！！！！！！！

应该已经看到了 R600的消息该知道的都已经知道了:wub:

作者: G81 时间: 2007-4-11 13:04

原帖由 qf1919 于 2007-4-8 12:16 发表

512BIT对于民用级显卡来看已经是过于奢侈了,用那高昂的成本换回的效能实在不成比例."幻日"就是教训.

512bit并不奢侈，看看R600的最高售价也不过是600美元:loveliness:

作者: SM5 时间: 2007-4-16 08:32

原帖由 gzeasy2006 于 2007-4-6 11:25 发表
三台PS3合力演示实时光线追踪

实时光线追踪(Real-time Ray Tracing)是影视界经常运用的渲染技术之一，比如Pixar的很多三维动画影片就有它的功劳，而对于当前的游戏来说，实现这一技术的难度还是太大， ...

实时光线追踪最大的缺点就是不能进行预渲染

作者: epu2000 时间: 2007-4-16 11:15

原帖由 gzeasy2006 于 2007-4-6 11:25 发表
三台PS3合力演示实时光线追踪

实时光线追踪(Real-time Ray Tracing)是影视界经常运用的渲染技术之一，比如Pixar的很多三维动画影片就有它的功劳，而对于当前的游戏来说，实现这一技术的难度还是太大， ...

什么Pixar的很多三维动画影片就有它的功劳，这小编根本就不了解Pixar动画！

作者: SM5 时间: 2007-4-16 15:34
在最近看到一则新闻提到德国程序员Daniel Pohl已经加盟Intel，正式成为Intel应用研究实验室的一员。这就意味着Daniel Pohl之前所研究的光线追踪(Ray Tracing)技术正式成为Intel图形化应用研究领域的一个项目，在不久的将来该技术将会有可能应用到图形设计领域，成为以后游戏标准特效之一。既然这则消息对于Daniel Pohl本人以及图形处理业界来说都是一个好消息，那么在此我们在此就介绍一下Daniel Pohl所研究的光线追踪(Ray Tracing)技术，以及其该技术在Quake3：Ray Tracing、Quake4中的成功应用案例。希望通过这些案例的分析能让更多人了解到光线追踪技术的优势以及其问题所在。

　　

　　看过《指环王》电影的玩家都会为电影中恢宏的场景以及逼真的人物造型所震撼，但如果电脑游戏中也能实现像《指环王》电影中一样的场景会怎么样呢?绝对真实的光线效果、完全仿真的纹理皮肤、游戏中的所有一切都仿佛真实生活中的一切…

　　一项名叫光线追踪(Ray Tracing)技术就可以帮助我们实现以上的梦想，让电脑游戏的光影效果能与《指环王》电影中一样出色。但这里需要说明的是光线追踪(Ray Tracing)并不是一项新的技术，在多年以前光线追踪(Ray Tracing)技术就已经出现，但并不是使用在电脑游戏的渲染之中，而是使用在线下的电影图片处理上就类似《指环王》电影，并且这种计算需要耗费相当长的时间。但随着Saarland大学计算机图形小组所开发的OpenRT库的完成，使的光线追踪(Ray Tracing)技术应用在电脑游戏的实时渲染中成为可能，在之前Daniel Pohl使用了多台电脑丛集(Client)并行实时渲染高分辨率下的光线追踪(Ray Tracing)实时场景。在四年之后的现在，随着微处理器技术的进步，单台个人电脑也能在低分辨率下实时渲染光线追踪(Ray Tracing)实时场景，可以说是半导体行业的进步使得Daniel Pohl的技术应用成为可能。

OpenRT函数库是源自Saarland大学的一个计算机图形小组的实时光线追踪项目，OpenRT实时光线追踪项目的目标是为3D游戏加入实时的光线追踪效果，因此该项目会包含以下几个部分：一个高效的光线追踪处理核心、以及语法与目前OpenGL类似的OpenRT-API应用程序接口，客户程序员通过这部分接触之前高效的光线追踪处理核心的功能，并在游戏场景设计中调用这些应用程序接口。

　　

　　Saarland大学除了开发出了OpenRT函数库外，还涉及了一个实时光线追踪的硬件架构——SaarCOR，SaarCOR可以实时生成3D场景中高仿正度的画面，这颗芯片可以通过目前已知的最好的算法实现光线追踪的实时特效，不过SaarCOR不能单独工作，它还是需要一点硬件资源(主要是处理器)以及会占用一小部分内存带宽。它除了可以应用在电脑游戏场景处理上之外，还可以应用在汽车、飞机表面、建筑物等产品的仿真概念图设计上。

　　SaarCOR首次实现实时显示使用百万级以上多边形高复杂度照片级画质的物体(Object)，并且SaarCOR的架构是高度灵活以及可升级的，这些特性可以让设计者为不同的场景应用作出调整，以使SaarCOR能兼容更多的应用。

　　

　　1、设定一个虚拟的Camera，由这个Camera射出的监察光线会穿过显示屏幕上的每一个像素点。

　　2、Camera光线的交汇点(可以理解为视线焦点)在我们上面的示意图中被标注成为绿色的球。

　　3、在上面的模型建设完后，调出绿色球模型的(预先编排好的)光照程序(预先编排好的)。

　　4、因为绿色球模型的原料是可以反射光线的，所以在上面的模型中绿色球模型的光照程序被调用后，绿色球模型表面的原料会被完全反射，这些反射光线以绿色球为原点折射出去。

　　5、这些反射光线会映射在一个区域上面，在上面的模型中就是红色的区域。

　　6、调用反射光照程序(预先编排好的)处理红色区域的成像。

　　7、反射光照程序被调用后，依照现实环境就会产生出阴影光线，并且这个阴影光线将是透过反射的成像区域进入光源方向。

　　8、在反射成像区的点与光源之间存在一个物件。

　　9、因为上面中间物件的存在，所以不会有任何颜色被添加到这个多边形区域的点上，因此这个点就会被我们描绘成物件的阴影。

　　10、不过这个阴影区域一旦回归到Frame Buffer中后将会恢复其本身的颜色。

　　

　　以上就是光线追踪技术在OpenRT语法使用下针对一个物件的具体实例，从该设计实例中已经可以看到光线追踪的实现原理。不过需要指出的是上面实例仅是针对单个物件，如果上上面指环王电影场景一样多的物件同时出现的话，那光线追踪效果的工作量是不可想象的。之前Daniel Pohl使用了多台电脑丛集(Client)并行实时渲染高分辨率下的光线追踪(Ray Tracing)实时场景正是因为这个原因，但半导体技术的进步使得单台PC的运算能力有飞跃性的提高，这也使光线追踪(Ray Tracing)走入游戏应用成为可能。

使用CPU渲染这些特效远没有使用专用的显卡那么快，但得益于半导体制造工艺的进展，CPU性能发展的非常快。与Daneil Phol在2004年开发Quake3 Ray Tracing时候的CPU处理能力相比，目前的处理性能至少超过了当时的4倍。Intel最新的4核心处理其Kentsfield也已经推出，其效能更是超越了相同频率的CPU 30%以上。

　　光线追踪技术的一大改进就是实现了并行。图像中3D场景每个Pixel的指令介绍说明都有一束光线贯穿，所以若要使用640x480的分辨率渲染一幅图片，你就有大业300，000束光线，而这些光线中每一束都可以独立于其他光线自由掌控。那就意味着这个图片可以分为4部分使用Intel的Kentsfield 4核心处理器的4个核心并行处理，其中4个处理线程是相互独立的，并不需要等待另一个其他核心的处理结果。因此Quake4 Ray Traced在4核心的Kentsfield处理器上的性能表现非常好

目前光线追踪技术的问题在于不能预先渲染动态、随机的3D场景，它只能实时处理的弊端显然不能满足性能上的需求，目前这个关于这个话题仍在讨论，业界也出现了一些很有前途的解决方案，但我们仍需要等待这些解决反案的进一步成熟，同时光线追踪技术本身也需要进一步完善自身。这些行业上的发展让我们看到了其广泛应用的曙光，但我们目前还需要与“和平”的心态对待现阶段的情况，包括目前最强大的Kentsfield四核心处理器仅能在256x256分辨率下慢速运行这些现实，但随着Intel、AMD这些通用处理器制造厂商的努力，终有一天光线追踪技术会走进游戏，让虚幻变真实。

作者: zzhang 时间: 2007-4-16 15:45
技术级坟贴？可惜看不懂:wacko:

作者: PS5 时间: 2007-4-17 18:58

原帖由 epu2000 于 2007-4-16 11:15 发表

什么Pixar的很多三维动画影片就有它的功劳，这小编根本就不了解Pixar动画！

Pixar的动画都是基于scanline

作者: G81 时间: 2007-4-18 15:07

原帖由 qf1919 于 2007-4-8 12:16 发表

512BIT对于民用级显卡来看已经是过于奢侈了,用那高昂的成本换回的效能实在不成比例."幻日"就是教训.

据了解，幻日的成本也并不高

作者: SM5 时间: 2007-4-19 20:33
G80，纯正的GPGPU血统！

从R300到NV40，再到现在最新的G80，每一代旗舰GPU的晶体管都大大超过了同期的顶级CPU，也在挑战其同时代半导体工艺的极限。随着GPU性能的提升，近年来GPU用于通用计算(General Purpose GPU)及其相关方面的问题成为一个十分热门的话题。GPGPU指的是利用图形卡来进行一般意义上的计算，而不是单纯的绘制。以NV40为代表的可编程GPU发布后，GPGPU进入了一个高速发展的全新时代。相比固定的流水线，目前硬件的可编程顶点和片段单元不管是运算精度，支持的指令数还是寄存器个数都有了很大提高，更重要的是基于Shader Model 3.0版本顶点和片段着色器版本的硬件开始支持动态流控制的循环和分支还有子函数操作。比如，现在的片段着色程序最多允许同时访问16个独立的纹理，支持长度不受限制的指令数，寄存器个数也大大提高。而且提供了32位浮点精度的运算和存储格式，对于通用计算来说，这就很容易做出更为复杂的运算。尽管GPGPU前途一片光明，但挑战与机遇永远是并存的，目前GPGPU所面临的问题也非常的多。

首先是当前的图形硬件还存在很大的局限性。GPU毕竟是为了图形渲染而生，其通用性离真正的通用处理器还有很大一段距离。比如，在DX9硬件上，Vetxe Shader和Pixel Shader总共的指令数被制在1024(512+512)条指令，(片段着色器)Pixel Shader最多只能同时访问16个纹理，进行分支和循环操作的开销也比大。此外，片段着色程序虽然支持R16F的浮点类型数据格式，但缺乏其他类型的支持，限制了通用运算的多样性，而且R16F这种单精度的IEEE格式对于通常所用的工程计算而言精度还是低了点。由于每个shader程序最多带32个Temp寄存器，指令数也受到限制，所以在很多通用计算程序的编写中不得不采用multi-pass来完成一些复杂的运算，这样就降低了性能。由于整个GPU只能通过顶点纹理来读取数据，通过渲染到纹理来写入数据，对于显存没有任何间接写指令，输出地址只能由光栅化引擎决定，不能由程序改变，无法进行任意的读写操作，因此必须将计算的中间结果保存以避免多次读写，这又无形中降低了GPU的通用运算性能。另外在硬件上如果采用浮点运算，则不能利用硬件本身的颜色混合操作，也不能进行mipmap的自动运算，这些也妨碍了GPU在通用计算上的应用。不过，支持DirectX 10的G8X系统的的出现，将让这些问题迎刃而解。

NVIDIA方面，新一代G8X图形核心采用了先进的统一渲染架构，拥有多达128个流处理器，引入几何着色器功能……这一切简直就是专为GPGPU运算而生！为了最大程度的发挥几何着色器的威力，G80还专门设置了一个名为流输出层(Stream Output State)的部件来配合它使用。这个层的功能是将Vertex Shader和Pixel Shader处理完成的数据输出给用户，由用户进行处理后再反馈给流水线继续处理。它可以直接读写本地显存。我们可以通过Stream Out把GPU拆成两段，只利用前面的一段几何运算单元。对某些科学研究，也可以通过stream out来利用GPU的数学运算能力，等于在CPU之外又平白多得了一个数学协处理器。我们可以这样理解G80图形核心的几何着色器和Stream Out单元：GS提供了改变图形数量的能力，Stream out提供了硬件Multi-pass的支持。可以预见，今后围绕这些全新的功能，又会有一批新的GPU通用计算程序出台。

基于当前的G8X架构，NVIDIA现在已经有了一个针对GPGPU的解决方案，被称作Compute Unified Device Architecture，简称CUDA。CUDA是一个完整的解决方案，包含了API、C编译器等，能够利用G80的片内L1 Cache共享数据，使数据不必经过内存-显存的反复传输，shader之间甚至可以互相通信。对数据的存储也不再约束于以往GPGPU的纹理方式，存取更加灵活，可以充分利用stream out特性。以上几点都将大大提高GPGPU应用的效率。例如，在游戏中我们可以使用CUDA来让GPU承担整个物理计算，而玩家将会获得另他们感到惊奇的性能和视觉效果。另外，用于产品开发和巨量数据分析的商业软件也可以通过它来使用一台工作站或者服务器完成以前需要大规模的计算系统才能完成的工作。这一技术突破使得客户可以任何地方进行实时分析与决策。同时，一些以前需要很先进的计算技术来达到的强大计算能力的科学应用程序，也不再受限在计算密度上；使用CUDA的计算可以在现有的空间里为平台提供更强大的计算性能。

作者: R620 时间: 2007-4-22 15:48

原帖由 SM5 于 2007-4-19 20:33 发表
G80，纯正的GPGPU血统！

从R300到NV40，再到现在最新的G80，每一代旗舰GPU的晶体管都大大超过了同期的顶级CPU，也在挑战其同时代半导体工艺的极限。随着GPU性能的提升，近年来GPU用于通用计算(General Purp ...

什么才是纯正的GPGPU血统仍然是个谜:sweatingbullets:

作者: eDRAM 时间: 2007-4-23 20:24
R600的shader到底怎么了？64X4能拼得过G80的128X1吗？

作者: XXR600 时间: 2007-4-23 20:38
应该是64×5，AMD自己说是320流处理器

作者: clawhammer 时间: 2007-4-23 21:39

原帖由 XXR600 于 2007-4-23 20:38 发表
应该是64×5，AMD自己说是320流处理器

64x(4D+1D)?:shifty:

作者: XXR600 时间: 2007-4-23 22:10

原帖由 clawhammer 于 2007-4-23 21:39 发表

64x(4D+1D)?:shifty:

:sweatingbullets: :sweatingbullets: :sweatingbullets:

作者: PS5 时间: 2007-4-27 18:49

原帖由 clawhammer 于 2007-4-23 21:39 发表

64x(4D+1D)?:shifty:

这个看起来有点暴力哦

作者: linwu1 时间: 2007-4-27 20:38
4d＋1d的结构，能同时运行2个1d吗？如果不能，岂不是碰到1d指令时，那个4d就变成废物了？

作者: R620 时间: 2007-4-30 12:29
g80u可能真的有双指令发射哦w00t)

作者: eDRAM 时间: 2007-5-3 21:48

原帖由 R620 于 2007-4-30 12:29 发表
g80u可能真的有双指令发射哦w00t)

8800 Ultra已发表，8800 Ultra没有dual-issue，看来要想实现dual-issue 唯有指望G90了

作者: eDRAM 时间: 2007-5-8 19:38
已确定G90的性能将达到G80的2倍左右，G90补全了G80少掉的MUL，最后就是G90继续延用G80的结构，类似NV40和G70的关系，制程提高到65nm

作者: eDRAM 时间: 2007-5-8 19:44
鉴于G80是
0.5个triangle/cycle，R600的TSE是16個tri/cycle，即为12G triangle/sec的peak value，所以说R600也不是一无事处

作者: eDRAM 时间: 2007-5-8 19:57
现在由于Radeon HD 2900XTX显卡的性能已经无法与8800GTX乃至8800Ultra， ATI已经将Radeon HD 2900XTX降低级别为Radeon HD 2900XT 512 GDDR3。同时ATI也在准备新的旗舰产品。ATI现在已经成功将65nm制造工艺引入到主流核心RV630和入门级核心RV610上，并即将推出显卡成品。现在其主要任务是发布采用65nm制程的新高端显示核心，现在暂定名为R650，其架构仍然是基于R600核心，核心频率很有可能突破，同时还是会支持1024 MB GDDR4显存颗粒。但从现在的情况来看仅仅通过提升核心频率对性能的提升帮助不会太大，如果ATI要想真正打败NVIDIA还是要在核心架构和驱动上全面地进行改进。

作者: G81 时间: 2007-5-11 11:35

原帖由 clawhammer 于 2007-4-23 21:39 发表

64x(4D+1D)?:shifty:

320SP只能和128SP性能基本持平

作者: Edison 时间: 2007-5-11 11:37
R600的优势根本不在setup。

作者: RacingPHT 时间: 2007-5-11 11:55
提示: 作者被禁止或删除内容自动屏蔽

作者: eDRAM 时间: 2007-5-13 19:31

原帖由 RacingPHT 于 2007-5-11 11:55 发表
G8x新版驱动的GS性能有改进没有?

好象没有改进哦，看样子只有等失落的星球DX10版出来后在观察了:lol:

作者: gzeasy2006 时间: 2007-5-14 19:59
R600 2560×1600 16AA下性能提升300%，击败8800Ultra
http://we.pcinlife.com/thread-765093-1-1.html

作者: SM5 时间: 2007-5-16 13:11
R600對一個SIMD array(16shader)進行4cycle為單位的branch，然後Array能對兩個batch進行branch，4個array可以在8個batch之間switch。
所以branch最小單位變成64pixels.... 確實和當初的預想一樣，branch性能比R580差。
(R520是16pixels為單位的branch，R580是48pixels)

作者: eDRAM 时间: 2007-5-17 12:29
R600的shader成绩出来咯
http://we.pcinlife.com/thread-766236-1-1.html

作者: PS5 时间: 2007-5-23 16:24
後藤大叔R600專題第三篇

http://pc.watch.impress.co.jp/do ... .htmwe.pcinlife.comv(g
裡面有個部份，提到R600照樣也有分頻分區，而且有38個。
e&vb0W%Xwe.pcinlife.com但是每個區域之間沒有做到非常大範圍的分時，因為會造成設計複雜化，AMD的人員宣稱可以在80nm的製程下達到1.6GHz的shader， v[2|o4b1Yue
他們認為這樣會變快，但是與其做到這麼複雜讓shader數量變少，不如維持同樣的規模、讓shader變多得來的效能較大。
i5Ew'C[ IlL/@6OYowe.pcinlife.com/p&k2Lb4C^9UE.O(G
"我們已經可以讓shader達到800MHz了，選擇這樣（等速shader）已經夠快了，目前我們感到很滿足；不過以後也許會採用倍速shader也說不定"

[ 本帖最后由 PS5 于 2007-5-23 16:25 编辑 ]

欢迎光临 POPPUR爱换 (https://we.poppur.com/)