POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
查看: 5820|回复: 41
打印 上一主题 下一主题

【转贴】RV770架构中容易被忽视,但是最为重要的改动细节

[复制链接]
跳转到指定楼层
1#
发表于 2008-6-26 16:48 | 只看该作者 回帖奖励 |正序浏览 |阅读模式
原文http://www.itocp.com/thread-10424-1-1.html

作者:来不及思考



关于RV770,目前谈论得较多的是shader和TMU、ROP部分的增强,实际上,这些只是表象

性能提升固然来源于运算资源的增加、架构的改善、瓶颈的清除,但是大家在津津乐道的谈论RV770运算能力的时候,请不要忘记背后支撑着一切的部件,这就是内部互联总线、交换开关、内存控制器

如果把线程调度器比作GPU的大脑,SP、TMU、ROP比作GPU的肌肉,那么内部互联总线和各种交换开关就是GPU的骨架。一个出色的GPU,必然有着最强健的骨架,是一个从最底层开始就牢不可破的结构。



典型的例子就是G80 vs R600

R600为了冲击当时在当时工艺制程下并不成熟的512bit memory bus,在内部互联使用了ringbus结构。实际上ringbus总线的数据延迟要比传统的crossbar总线大得多,传输路径也更为繁琐。ATI之所以选择它仅仅是因为ringbus layout更加方便,而且所占的晶体管较少。目前业界公认的最高效率的互联结构依然是xbr(crossbar)。而G80选择了较妥协的384bit Crossbar总线,在内部各部件之间的通信效率上,G80要比R600高得多。

GPU存储器方面的技术,个人一直认为ATi和NV不相上下。ATi在HSR等带宽节约技术方面造诣深厚,Radeon 256产品就首次引入了H-Z设计。而NV则在高速互联总线、MC本身的硬件设计方面占有不小优势。nForce芯片组上的内存控制器效率、南北桥互联总线(HTT)也一直是一流的。这个从GF3 vs Radeon 8500时代开始就一直延续下来了。



不过,在RV770上,这个天平已经被打破,那就是AMD的介入。

众所周知,AMD在高速互联总线、高速交换开关、内存控制器上的造诣无不是业内顶尖水准。在nehalam发布之前, 民用CPU领域中K8架构的互联总线优势领已经先了5年的时间,而K10至今也凭借这一优势能在多路系统中痛击Xeon。

在RV770中,AMD决定将这些优势引入到GPU领域,重新改造R6XX架构。RV770的改进包括:

1. 彻底摒弃R6XX的ringbus总线,使用AMD擅长的crossbar总线

从图中可以看到,第二级链路使用了Crossbar总线代替了Ringbus,AMD没有给出太多的具体数据,不过从384GB/S的互联带宽上来看,这个总线已经非常强大。R600使用的1024bit内部ringbus互联,带宽也没有超过300GB/S,RV670就更少了。更为重要的是,Crossbar总线相比ringbus,会极大的降低延迟(RV770在这方面的改善目前没有具体数据),GPU的大多数操作,如cacahe miss后的tex fetch,或者是带顶点数据的VTF操作,都可以更加迅速、快捷的从L2获得数据,低延迟也会减轻multi-threading的压力。




2. 在第二级互联链路中使用更加高效的switub交换中心结构



这张图看起来非常类似于双核心K8的I/O设计,同样的,AMD现阶段不会给出它的详细规格数据。不过从图上推测,各个部件应该可以通过这个高速互联开关,任意的访问其他设备并且操作之间不会相互影响,switub很可能还带有优先级判断和仲裁功能,能为最要紧的I/O请求开绿灯。并且最重要的————它的延迟肯定比ringbus ringstop station低几个数量级。



3. 新的内存控制器



AMD并没有提到内存控制器改动方面的细节。不过这张图还是泄露了一些信息。AMD表示,RV770的PCB布线可以一定程度上忽略信号同步的原理。对于RD人员来说,这个真是再好不过的消息,因为高频GDDR显存的绕线简直是一场噩梦。对PC DRAM稍微有常识的人都知道,DRAM要正常工作,其信号必须保证绝对同步到达,否则数据传输就失败。允许的误差必须是皮秒(picosecond,1皮秒等于一万亿分之一秒)级别的。 以前,这个特性在显卡上都由PCB布线来解决。我们必须在PCB上画出不同长度的信号线,让延迟/潜伏期对数据同步的影响降到最低,才能成功传输。不过在RV770上,这个特性已经变成由MC自己来完成,这意味着RV770的内存控制器具备了数据/时钟信号同步与自校准能力(Adaptive Timing)。这个特性很容易让人们想起早年rambus的FlexPhase技术,其衍生产品的授权已卖遍了全世界,用来解决各种高速互联总线的问题。INTEL某些服务器型号的北桥芯片就有用到RAMBUS的这种技术。不过这种技术在显卡上使用还是第一次,AMD很可能也从RAMBUS获得了授权,RV770的MC内部肯定有特别的pattern来实现这个火星技术。从另一个方面来说,这也意味着RV770的MC已经经过了优化校调或者说重新设计,性能表现将更上一层楼




目前我们没有得到RV770总线架构具体的细节和数据,因此无法和其前代产品做定量分析对比。不过可以确认的是,R7XX已经不再是R6XX那个头脑简单(R6XX的线程数和G8X相当,但是仲裁与控制部分依然较G8X简单原始),肌肉发达(单纯SP多)还患有小儿麻痹症(互联总线落后)的臃肿胖子了。而是一个从内到外,从最底层开始就坚韧无比的强大架构。如果说R6XX出色指标的只有表面皮肤,那么R7XX的优秀指标就是真正深入了骨髓。

R7XX在FLOPS、TMU、ROP fillrete方面近乎翻倍的规格,没有这个强大的互联架构在背后支撑,几乎是不可想象的。在我们津津乐道R7XX 优化TMU和tex cache改善纹理填充率、重制ROP带来强大的MSAA性能的同时,请不要忘记了是谁在背后给予它们力量。

从NV的角度看来,这是一个令人沮丧的时刻。NV多年来在MC、高速总线、GPU layout方面的优势因为ATI-AMD的合并瞬间消失殆尽,而工艺制程和对手相比又处于绝对劣势,GT200的资源更加倾向于CUDA方面似乎是合情合理的选择。

ATi在R400、C1、R520就开始的万亿次通用运算架构的构想,在R5XX难产,R6XX的失败之后,终于经AMD之手在R7XX时代绽放出绚丽的光芒。有了强大的骨架(高速互连技术)的支撑,R6XX SIMD架构极易扩充规模的优势可以得到淋漓尽致的发挥,再也不用担心在总体性能被蹩脚的总线设计拖住后腿。可以预见,将来AMD-IBM依靠工艺制程方面的优势,结合ATi在图形技术方面的丰富经验,加上DX11在通用计算方面的强力推动,A字头GPU的功能和性能必将得到前所未有的增长。

[ 本帖最后由 贵甲 于 2008-6-26 17:50 编辑 ]
42#
发表于 2008-6-27 15:56 | 只看该作者
好像是技术贴!留名!
回复 支持 反对

使用道具 举报

41#
发表于 2008-6-27 12:00 | 只看该作者
顶思考的技术贴。。。但是不在PCI发   反映出PCI出了某些问题了吧:loveliness:
回复 支持 反对

使用道具 举报

lislee2001 该用户已被删除
40#
发表于 2008-6-27 09:54 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

头像被屏蔽
39#
发表于 2008-6-27 06:54 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

w23j 该用户已被删除
38#
发表于 2008-6-27 06:50 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

37#
发表于 2008-6-27 05:59 | 只看该作者
ringbus总线优化好的话比crossbar总线要强!
回复 支持 反对

使用道具 举报

36#
发表于 2008-6-27 02:09 | 只看该作者
路过学习!:loveliness:
回复 支持 反对

使用道具 举报

35#
发表于 2008-6-27 01:00 | 只看该作者
:loveliness: 好帖~长见识了~3Q
回复 支持 反对

使用道具 举报

34#
发表于 2008-6-26 22:55 | 只看该作者
学习了~~~~~~~~~~增长知识[laugh>
回复 支持 反对

使用道具 举报

33#
发表于 2008-6-26 22:11 | 只看该作者
最后一条似乎有些道理,前面的纯属忽悠。nvidia的内存控制器一直领先了好长时间,就算现在也和amd,intel不相上下,amd无非就是集成到cpu内部有一些优势,其具体架构并无优势,所以楼主说的没有根据。
回复 支持 反对

使用道具 举报

32#
发表于 2008-6-26 21:41 | 只看该作者
原帖由 dirl 于 2008-6-26 22:00 发表
自从上次思考对4800系列的评价后,就一直没来PCI了,当初他发表4800的技术言论时,对4800系列是有很高的厚望,结果没有加分,反倒让一个 催化剂的言论加分了,思考一时想不开,永远不来了,跑去玩家论坛发展了

:funk:乱说。。。。思考很早就去了。。。
回复 支持 反对

使用道具 举报

31#
发表于 2008-6-26 21:36 | 只看该作者
技术贴,学习了……
回复 支持 反对

使用道具 举报

30#
发表于 2008-6-26 21:32 | 只看该作者
Crossbar+Switched Hub,原来如此...复合型
回复 支持 反对

使用道具 举报

请问你凭啥 该用户已被删除
29#
发表于 2008-6-26 21:19 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

28#
发表于 2008-6-26 21:01 | 只看该作者
LS 单晶硅传奇 兄弟好久不见啊,你也来了,呵呵,在GZ时代很活跃的吗
回复 支持 反对

使用道具 举报

27#
发表于 2008-6-26 21:00 | 只看该作者
自从上次思考对4800系列的评价后,就一直没来PCI了,当初他发表4800的技术言论时,对4800系列是有很高的厚望,结果没有加分,反倒让一个 催化剂的言论加分了,思考一时想不开,永远不来了,跑去玩家论坛发展了
回复 支持 反对

使用道具 举报

26#
发表于 2008-6-26 20:16 | 只看该作者
其实如果能做出2X~3X倍速的Ringbus也是不错的
回复 支持 反对

使用道具 举报

头像被屏蔽
25#
发表于 2008-6-26 19:38 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

24#
发表于 2008-6-26 19:10 | 只看该作者
原帖由 eye2eye 于 2008-6-26 18:46 发表
这个第一条实在比较搞笑。:loveliness:

当初就是为了获得高带宽才摒弃的crossbar,改为ringbus。结果现在又用回来的。不过话说回来,256bit显然不必使用ringbus的。原作者第一条,不能做出结论crossbar的带宽就高 ...


内部总线改进很大啊?带宽已经超过环形总线了……
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2026-1-16 03:28

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表