POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
楼主: Eji
打印 上一主题 下一主题

最近越看越有趣的R600 vs G8x

 关闭 [复制链接]
头像被屏蔽
21#
发表于 2008-6-25 20:58 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

22#
发表于 2008-6-25 21:04 | 只看该作者
技术含量高的帖子   绝不能够视而不见。。。顶。。
回复 支持 反对

使用道具 举报

23#
发表于 2008-6-25 21:16 | 只看该作者

根据这张图显示RV770的一个core,包括16个ALU和4个TMU了的像素是206*19=3914
GT200的一个core,也就是一个TPC同样包括了ALU和TMU,数量是24个与8个,像素是165*65=10725

虽然我不清楚G80那样同样是16ALU与4TMU的这么一个TPC做到65nm该是多少,就按60%算吧,然后面积考虑两者的工艺差是70%。结果10725*60%*70% = 4504.5,还是大了一些。
所以真比不顾MC纯堆SP core,还是NV成本更大一些的吧。

[ 本帖最后由 AFXIF 于 2008-6-25 21:22 编辑 ]

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回复 支持 反对

使用道具 举报

头像被屏蔽
24#
发表于 2008-6-25 21:21 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

25#
发表于 2008-6-25 21:30 | 只看该作者
原帖由 九泉苍月 于 2008-6-25 20:51 发表
RV770撇弃Ringbus/Crossbar改用一个Switched Hub...求解


ringbus和crossbar不是一回事,switub就是crossbar

在现在来说,xbr架构依然是最高效的互联解决方案
回复 支持 反对

使用道具 举报

26#
发表于 2008-6-25 21:32 | 只看该作者
一堆英文缩写,看不懂
回复 支持 反对

使用道具 举报

27#
发表于 2008-6-25 21:46 | 只看该作者
intel最可怕的还是制程和产能,假如AMD的CPU不争气,intel完全可以把最新的制程用在GPU上面,而不是mobile上面。到那时搞不好已经是0.32nm了:funk:
回复 支持 反对

使用道具 举报

28#
发表于 2008-6-25 22:06 | 只看该作者
Eji兄可以写得更通俗些,否则包括我在内的很多人只有张大嘴巴的份……
RV770抗锯齿性能的飞跃源于三部分改动:后处理器单元Z模版数量翻倍;AA算法仍交给Shader处理,但是可用资源提升150%;纹理单元数量提升150%,缓存容量提升(多少不清楚)。
RV770集中提升了shader单元的晶体管密度,并且放弃了环形总线,数据读取更迅速,但是不利于实现扩充总线带宽,这也是迫切使用GDDR5的原因。
回复 支持 反对

使用道具 举报

29#
 楼主| 发表于 2008-6-25 22:11 | 只看该作者
呃,我觉得好像混淆太多东西了,所以很多人不知道我想表达什么。
我做一张表格好了,放入一些更CPU的名词:

1. NVIDIAGT100(G8x/G9x) & GT200(G100)
coreTPC
3array x 8way SIM"T"(2x4D ALU with SFU1D gather &scatter)
3x 24way FGMT(64KB register file)
2x 4D TMU
16KB scratch pad memory

2. AMD/ATIR6x0/R7x0
coreALU Array
16way SIMD x 4D Vector + 1D scalar + SFU
48way FGMT(256KB register file)
1x4DTMU(R6x0-4D+1DR7x0-4D)
16KB localdata cache(R7x0)

3. STI CELL
coreSPE
4way SIMDnoFGMTno TMU
256KB scarth pad memory

4. Intel Larrabee
corex86CPU core
way SIMD
way FGMT
TMU unknown
cache/scratch padunknown

------
所以这些GPU其实都是
core--[crossbar]-----ROP-----[crossbar or ringbus]----memorycontroller
的结构,所以CELL其实只要每个SPE放一个TMUmemory controller上放一个ROP,而这两个单元都只要4~8cycle一个4D thoughtput,这样CELL就可以顺利变身成一个GPU了,其实比想象中单纯,也就是,目前的GPU厂商其实优势都是在driversupport上,底层结构其实和CPU厂商相比都不复杂,他们也还做不大规模。

当然论规模的话,如果极端一点,我今天拿一堆x86CPUnetwork上模拟GPU的话,也是可以啦,只是是天大的浪费而已。

為了節省,上面的NVIDIA TPCAMD ALU arraySTISPE都是和host CPU不同的ISA,只有Intel想用和hostCPU相同的ISA,這是因為他們的製程大,所以相對之下"可以浪費"....不過即使是用ARMcore,感覺上在這個規模比較上也是很浪費就是。

然后从AMD/ATI的做法,16way 4D ALU来看,其实Larrabee目前号称32core x 512bitSIMD的设计并不算是真的很激进,只是除了STICELL3Larrabee之外,目前RV770倒是第一个两位数core(10)的设计。

[ 本帖最后由 Eji 于 2008-6-25 22:56 编辑 ]

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回复 支持 反对

使用道具 举报

头像被屏蔽
30#
发表于 2008-6-25 22:24 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

31#
发表于 2008-6-25 22:34 | 只看该作者
按照这个观点,应该还有一个GT200版G92存在喽?

如果HD4870X2比预期提前上市,单靠65nm工艺的GT200自然不够,55nm版现在看起来也并不是个好办法(或者说这就是暂时取消的原因?):一方面是GT200单靠65nm->55nm很难做到500mm^2以下,良率改观不会太明显;另一方面我也对TSMC的产能持怀疑态度:RV670/RV770/G92-b1已经够呛,再来良率不算高的GT200-b1的话……
这么说24SP/TPC x 6TPC似乎是个不错的选择,若此规模可以满足"55nm工艺下整合NVIO2“的话,GT200体系还有的玩:单路版切入9800GTX+与GTX 260之间的空档,2-way版正面同R700交锋。当然达成以上假设主要还得看55nm究竟为GT200调高了多少Shader上限。毕竟8TPC版的260对HD4870就够呛,缩成6TPC若还没有高频Shader帮助的话想必凶多吉少——55nm会是GT200体系的救世主吗?

PS:仔细想想,这个思路岂不是在同R700一起讽刺GTX 280吗?

[ 本帖最后由 qb兔子 于 2008-6-25 22:38 编辑 ]
回复 支持 反对

使用道具 举报

32#
发表于 2008-6-25 22:42 | 只看该作者
NV的做法是提升每条US的灵活性和效能,逼对手用大量传统低效资源来和自己硬拼,从而拖垮对手。
AMD则是用数量换取效能,堆积大量效能较低但是结构简单的管线来从资源量上压过对手。
其中的关键是工艺!假如RV770使用的是65nm工艺并且维持R580/R600的水准,这样的RV770在芯片面积、性能功耗比上根本就没有任何竞争力!R600到RV770绝不仅仅是资源规模扩大这么简单,否则凭什么用43.5%的晶体管数量换取2.5倍的运算资源?单纯扩充R600到RV770的资源规模,恐怕不会比GT200小多少。
NV注重维持单个shader效能势必造成外围资源随shader数量同步增加的情况,因此随着管线数量提升结构也越来越臃肿越来越复杂,而可用资源量相对来说不能有效提升。偏偏NV在这个时候失去了工艺上的优势,使得最初的想法落空。对手确实堆积了大量的资源,但是依靠工艺优势反而绕过了成本障碍。
回复 支持 反对

使用道具 举报

33#
 楼主| 发表于 2008-6-25 22:45 | 只看该作者
原帖由 Eji 于 2008-6-25 20:26 发表

CFAA大部分都可以由ROP完成了,所以可以這麼說(大半不是shader AA)。
ATI 自己也這麼說、那麼能變快應該就是這個原因吧。


自貶:標準MSAA(Box filter)應該是硬體化、CFAA的tent filter、edge detect仍然是shader AA。
http://www.anandtech.com/video/showdoc.aspx?i=3341&p=10
不過總之AA performance改善完全是ROP的強化。
回复 支持 反对

使用道具 举报

34#
发表于 2008-6-25 22:50 | 只看该作者
AMD的构架效率低 但容易提升数量 而NV的构架效率高 但提升数量却需要付出相当多的晶体管  看来下代产品需要构架上的巨变阿
回复 支持 反对

使用道具 举报

头像被屏蔽
35#
发表于 2008-6-25 22:54 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

36#
发表于 2008-6-25 22:58 | 只看该作者
AMD疯狂扩充运算资源并未对外围设计造成沉重负担,反而游刃有余,除了纹理单元相应扩充之外,RV770只将线程分配部分的仲裁器和定序器增加了20个,这就足以维持160条管线的效能,这和GT200在线程调度上扩大的规模简直是天壤之别。而且运算单元的强力扩充反而弥补了R600资源调度僵化的缺陷,10组TPC和GT200处于同一水平。NV反而将每组16PS变成了每组24PS来维持一个合理的规模。
回复 支持 反对

使用道具 举报

37#
发表于 2008-6-25 23:01 | 只看该作者
顶完再看,技术贴必顶!!!!!!!
回复 支持 反对

使用道具 举报

38#
发表于 2008-6-25 23:03 | 只看该作者
原帖由 PixelShader 于 2008-6-25 20:05 发表
老大,你为什么不用简体中文……?!

老大,没必要这样制造对立。。。。。。。又不是写中文字的人就得是大陆人,再说我觉得繁体才是真正得中国字!
回复 支持 反对

使用道具 举报

39#
发表于 2008-6-25 23:06 | 只看该作者
难得一见的技术帖..说实话 看了1天的帖.就这帖最值得一楼一楼的看!!
回复 支持 反对

使用道具 举报

40#
发表于 2008-6-25 23:08 | 只看该作者
原帖由 Eji 于 2008-6-25 20:17 发表


就我所知RV770這回不是shader AA了?

你上一篇不是说AMD增大shader资源就是为了做AA,但有人质疑用处不大(数据是1:4对1:5,大约这个),一直没有看到你解释!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-4-10 00:45

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表