POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
楼主: Eji
打印 上一主题 下一主题

最近越看越有趣的R600 vs G8x

 关闭 [复制链接]
41#
 楼主| 发表于 2008-6-25 23:09 | 只看该作者
原帖由 shu0202 于 2008-6-25 22:42 发表
NV的做法是提升每条US的灵活性和效能,逼对手用大量传统低效资源来和自己硬拼,从而拖垮对手。
AMD则是用数量换取效能,堆积大量效能较低但是结构简单的管线来从资源量上压过对手。


我覺得要強調的是,那篇文章校正的一個重點:register file必然是和core一起的。
所以RV670 -> RV770,從666M增加到965M,大半都是shader ALU,也就是說實質上R600/RV670非shader的部分,就已經400M前後,shader+TMU本身其實只有GPU的1/3,剩下的還是ROP和memory controller。
這個可以從G80/GT200的die photo看出部分來:

中間的十字部分集中了Raster unit、ROP、Memory Controller。

GT100/200花了非常多的精神在share memory和倍速shader上,主要是為了維持住效率,還有透過這個效率來減少compiler開發的困難之處;ATI這方面付之闕如,所以靠的主要是大幅擴充core數量。

----
話說回來,把CELL SPE加上8cycle的4D TMU(相當於CELL host clock的400MHz)、還有8cycle的2x4D ROP的話,差不多就是一個有64bit XDR的GPU了耶XD
只是這些東西都是ASIC,很難做XD 而且整個GPU的shader都用ringbus溝通,thought put大概會很難看....XDXD

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回复 支持 反对

使用道具 举报

42#
发表于 2008-6-25 23:09 | 只看该作者
在工艺和资源都处于劣势的情况下NV继续维持标量架构的规模快速增长显然是不太可能了,NV必须在效能和资源密集度上取得平衡,但是NV是否来得及在较短时间内解决这个问题还是未知数。DX11的竞争迫在眉睫,DX10这一部分已经出现很大的危机,这种麻烦搞不好会影响下一代架构。
从RV770的表现来看,AMD有能力在45nm工艺上实现资源再反倍并且维持相对较低的成本,这对NV现有的东西是致命的威胁。
回复 支持 反对

使用道具 举报

43#
发表于 2008-6-25 23:10 | 只看该作者
原帖由 九泉苍月 于 2008-6-25 20:51 发表
RV770撇弃Ringbus/Crossbar改用一个Switched Hub...求解

同问,Switched Hub到底是什么???
回复 支持 反对

使用道具 举报

44#
 楼主| 发表于 2008-6-25 23:10 | 只看该作者
原帖由 feel囝 于 2008-6-25 23:08 发表
你上一篇不是说AMD增大shader资源就是为了做AA,但有人质疑用处不大(数据是1:4对1:5,大约这个),一直没有看到你解释!


AMD這回改善AA性能的主力還是靠ROP本身的修改,Custom Filter AA相較於box filter來說還是有下降....
但是CFAA既然有shader強化,應該還是會有用處啦,重點是功能的實用性。

這次比較有趣的是,由於底層整個重新設計(ROP-> memory controller這段整個翻新),
所以傳統的box filter MSAA的性能整個翻倍,如果RV670也有這種結構可用,只怕G94沒辦法壓住RV670。

[ 本帖最后由 Eji 于 2008-6-26 02:42 编辑 ]
回复 支持 反对

使用道具 举报

45#
 楼主| 发表于 2008-6-25 23:12 | 只看该作者
原帖由 feel囝 于 2008-6-25 23:10 发表
同问,Switched Hub到底是什么???


switching hub不就是crossbar?
回复 支持 反对

使用道具 举报

46#
发表于 2008-6-25 23:13 | 只看该作者
娱乐论坛的技术贴
回复 支持 反对

使用道具 举报

47#
发表于 2008-6-25 23:18 | 只看该作者
現在NV面臨到了工藝的瓶頸,之後還會繼續走標量的架構嗎??:funk:
回复 支持 反对

使用道具 举报

阿蓝2代 该用户已被删除
48#
发表于 2008-6-25 23:20 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

49#
 楼主| 发表于 2008-6-25 23:20 | 只看该作者
原帖由 shu0202 于 2008-6-25 23:09 发表
在工艺和资源都处于劣势的情况下NV继续维持标量架构的规模快速增长显然是不太可能了,NV必须在效能和资源密集度上取得平衡,但是NV是否来得及在较短时间内解决这个问题还是未知数。DX11的竞争迫在眉睫,DX10这一部分已经出现很大的危机,这种麻烦搞不好会影响下一代架构。
从RV770的表现来看,AMD有能力在45nm工艺上实现资源再反倍并且维持相对较低的成本,这对NV现有的东西是致命的威胁。


其實我覺得還好耶.....
目前NVIDIA和ATI其實per core的性能幾乎是一樣的(TPC vs ALU array),所以說起來,RV770其實就是10TPC + 256bit的G92而已啊。(贏也差不多贏這個程度)
這和G94出來之前,大家都擔心G92的成本太高一樣....(話說我一開始好像就寫了?)
所以真的"只是要對抗"的話,我們把GT200砍到8TPC、256bit,馬上成本面就可以對抗了。

RV770下一步如果要走所謂2000sp的話,要從10core增加到25core,4core差不多耗了280M,也就是每個core 70M前後。
所以要加到2000SP的話,還是要多投入1050M電晶體,如果你想在45nm底下維持這個die size(250mm^2前後)的話,電晶體大約是1500M前後,比現在多約500M,那其實只能讓你從10core增加到20core而已的,那大概只有1600sp.....離2000sp還有一段距離。

反過來說,GT200幾乎就是G92的double(256sp + 32 ROP),如果我們要省的話大概就是256SP + 16ROP,每個core(TPC)大概也是70~80M前後....
如果G92只double shader、維持256bit ROP的話,其實也只需要1100M前後耶?
那看起來就不會是956M vs 1400M這麼大的差距了。

[ 本帖最后由 Eji 于 2008-6-26 00:01 编辑 ]
回复 支持 反对

使用道具 举报

50#
发表于 2008-6-25 23:22 | 只看该作者
技术贴:funk:
回复 支持 反对

使用道具 举报

51#
发表于 2008-6-25 23:25 | 只看该作者
AMD会不会在下代产品中继续采用这种塞shader的做法提升性能呢?这样做的成本应该比NV低不少吧.不过效果如何呢?
回复 支持 反对

使用道具 举报

52#
 楼主| 发表于 2008-6-25 23:26 | 只看该作者
原帖由 NONO 于 2008-6-25 23:18 发表
現在NV面臨到了工藝的瓶頸,之後還會繼續走標量的架構嗎??:funk:


底層其實不是pure scalar啊。
8SP 其實是兩個4D Vector ALU,只是有個移位unit(gather & scatter)作排列。
但是這段的設計非常複雜......
回复 支持 反对

使用道具 举报

westlee 该用户已被删除
53#
发表于 2008-6-25 23:33 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

54#
发表于 2008-6-25 23:33 | 只看该作者
Eji很客观,很理性,PCI难得这样的版主,呵呵,台湾人?
回复 支持 反对

使用道具 举报

55#
发表于 2008-6-25 23:42 | 只看该作者
原帖由 水银 于 2008-6-25 20:56 发表
Larrabee不是many core,作为图形运算X86比shader多出来的众多指令有何意义?
larrabee会不会有个把X86指令拆成Shader能执行的简单指令呢,就像CICS to RISC那样


Larrabee完整版本是24核,指令多其实无所谓,因为内部是微指令在跑,x86只是表象
Shader指令同样可以变成微指令

我认为Larrabee的问题是在于到底有多少Fixed Unit,如果setup、rop、tmu都用x86跑,整体效率未免不足,这也是为什么用CPU来软渲染性能低下的原因之一。
回复 支持 反对

使用道具 举报

56#
 楼主| 发表于 2008-6-25 23:43 | 只看该作者
原帖由 shu0202 于 2008-6-25 22:58 发表
AMD疯狂扩充运算资源并未对外围设计造成沉重负担,反而游刃有余,除了纹理单元相应扩充之外,RV770只将线程分配部分的仲裁器和定序器增加了20个,这就足以维持160条管线的效能,这和GT200在线程调度上扩大的规模简直是天壤之别。
而且运算单元的强力扩充反而弥补了R600资源调度僵化的缺陷,10组TPC和GT200处于同一水平。NV反而将每组16PS变成了每组24PS来维持一个合理的规模。


呃,話不能這麼說,它咚阗Y源擴充背後全部都有相應增加的register file啊。
每個16way SIMD array全部都有256KB 的register file,等效於48個wafefront(warp),所以整個RV770擴充到了480個warp,和GT200一樣都相當於30720個thread呢。

所以我說你要繼續擴充下去馬上會遇到瓶頸的。這些array本身也是crossbar連接啊。
回复 支持 反对

使用道具 举报

57#
发表于 2008-6-25 23:44 | 只看该作者
原帖由 shu0202 于 2008-6-25 22:58 发表
AMD疯狂扩充运算资源并未对外围设计造成沉重负担,反而游刃有余,除了纹理单元相应扩充之外,RV770只将线程分配部分的仲裁器和定序器增加了20个,这就足以维持160条管线的效能,这和GT200在线程调度上扩大的规模简直 ...


外围负担未必没有变重,AMD把TMU加倍了,ROP重新设计了
所以外围其实也同样提高了的
但ROP增加的是对于复杂情况的处理能力,也就是AA AF的处理能力,但是数量没有增加
这也是为什么0AA下性能一般的原因
回复 支持 反对

使用道具 举报

58#
 楼主| 发表于 2008-6-25 23:47 | 只看该作者
原帖由 jhj9 于 2008-6-25 23:42 发表
我认为Larrabee的问题是在于到底有多少Fixed Unit,如果setup、rop、tmu都用x86跑,整体效率未免不足,这也是为什么用CPU来软渲染性能低下的原因之一。


是啊,要有人替他們設計足夠強大的的TMU、ROP和setup。
TMU要和shader在一起(其實說起來這不是理所當然嗎XD)、
ROP要和memory controller在一起,setup的部分又要放在TMU旁邊。

不過TMU和ROP、ROP和memory controller之間要用ringbus還是crossbar就真的是隨人家做了。
現在看起來感覺用不用ringbus or crossbar並不是問題....還是說RV770真的就只是把ROP和memory controller之間換成crossbar就解決了MSAA性能?
回复 支持 反对

使用道具 举报

头像被屏蔽
59#
发表于 2008-6-25 23:49 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

60#
发表于 2008-6-25 23:50 | 只看该作者
原帖由 westlee 于 2008-6-25 23:33 发表


现在就看nv会怎么走了,你觉得nv会拿出“只是为了对抗”的产品吗?


估计年底会出GT200 55nm改良版,然后再下一步很可能出现486到Pentium这样的跨越式产品,来和Intel抗衡
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2024-11-24 01:18

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表