POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
查看: 5306|回复: 41
打印 上一主题 下一主题

【转贴】RV770架构中容易被忽视,但是最为重要的改动细节

[复制链接]
跳转到指定楼层
1#
发表于 2008-6-26 16:48 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
原文http://www.itocp.com/thread-10424-1-1.html

作者:来不及思考



关于RV770,目前谈论得较多的是shader和TMU、ROP部分的增强,实际上,这些只是表象

性能提升固然来源于运算资源的增加、架构的改善、瓶颈的清除,但是大家在津津乐道的谈论RV770运算能力的时候,请不要忘记背后支撑着一切的部件,这就是内部互联总线、交换开关、内存控制器

如果把线程调度器比作GPU的大脑,SP、TMU、ROP比作GPU的肌肉,那么内部互联总线和各种交换开关就是GPU的骨架。一个出色的GPU,必然有着最强健的骨架,是一个从最底层开始就牢不可破的结构。



典型的例子就是G80 vs R600

R600为了冲击当时在当时工艺制程下并不成熟的512bit memory bus,在内部互联使用了ringbus结构。实际上ringbus总线的数据延迟要比传统的crossbar总线大得多,传输路径也更为繁琐。ATI之所以选择它仅仅是因为ringbus layout更加方便,而且所占的晶体管较少。目前业界公认的最高效率的互联结构依然是xbr(crossbar)。而G80选择了较妥协的384bit Crossbar总线,在内部各部件之间的通信效率上,G80要比R600高得多。

GPU存储器方面的技术,个人一直认为ATi和NV不相上下。ATi在HSR等带宽节约技术方面造诣深厚,Radeon 256产品就首次引入了H-Z设计。而NV则在高速互联总线、MC本身的硬件设计方面占有不小优势。nForce芯片组上的内存控制器效率、南北桥互联总线(HTT)也一直是一流的。这个从GF3 vs Radeon 8500时代开始就一直延续下来了。



不过,在RV770上,这个天平已经被打破,那就是AMD的介入。

众所周知,AMD在高速互联总线、高速交换开关、内存控制器上的造诣无不是业内顶尖水准。在nehalam发布之前, 民用CPU领域中K8架构的互联总线优势领已经先了5年的时间,而K10至今也凭借这一优势能在多路系统中痛击Xeon。

在RV770中,AMD决定将这些优势引入到GPU领域,重新改造R6XX架构。RV770的改进包括:

1. 彻底摒弃R6XX的ringbus总线,使用AMD擅长的crossbar总线

从图中可以看到,第二级链路使用了Crossbar总线代替了Ringbus,AMD没有给出太多的具体数据,不过从384GB/S的互联带宽上来看,这个总线已经非常强大。R600使用的1024bit内部ringbus互联,带宽也没有超过300GB/S,RV670就更少了。更为重要的是,Crossbar总线相比ringbus,会极大的降低延迟(RV770在这方面的改善目前没有具体数据),GPU的大多数操作,如cacahe miss后的tex fetch,或者是带顶点数据的VTF操作,都可以更加迅速、快捷的从L2获得数据,低延迟也会减轻multi-threading的压力。




2. 在第二级互联链路中使用更加高效的switub交换中心结构



这张图看起来非常类似于双核心K8的I/O设计,同样的,AMD现阶段不会给出它的详细规格数据。不过从图上推测,各个部件应该可以通过这个高速互联开关,任意的访问其他设备并且操作之间不会相互影响,switub很可能还带有优先级判断和仲裁功能,能为最要紧的I/O请求开绿灯。并且最重要的————它的延迟肯定比ringbus ringstop station低几个数量级。



3. 新的内存控制器



AMD并没有提到内存控制器改动方面的细节。不过这张图还是泄露了一些信息。AMD表示,RV770的PCB布线可以一定程度上忽略信号同步的原理。对于RD人员来说,这个真是再好不过的消息,因为高频GDDR显存的绕线简直是一场噩梦。对PC DRAM稍微有常识的人都知道,DRAM要正常工作,其信号必须保证绝对同步到达,否则数据传输就失败。允许的误差必须是皮秒(picosecond,1皮秒等于一万亿分之一秒)级别的。 以前,这个特性在显卡上都由PCB布线来解决。我们必须在PCB上画出不同长度的信号线,让延迟/潜伏期对数据同步的影响降到最低,才能成功传输。不过在RV770上,这个特性已经变成由MC自己来完成,这意味着RV770的内存控制器具备了数据/时钟信号同步与自校准能力(Adaptive Timing)。这个特性很容易让人们想起早年rambus的FlexPhase技术,其衍生产品的授权已卖遍了全世界,用来解决各种高速互联总线的问题。INTEL某些服务器型号的北桥芯片就有用到RAMBUS的这种技术。不过这种技术在显卡上使用还是第一次,AMD很可能也从RAMBUS获得了授权,RV770的MC内部肯定有特别的pattern来实现这个火星技术。从另一个方面来说,这也意味着RV770的MC已经经过了优化校调或者说重新设计,性能表现将更上一层楼




目前我们没有得到RV770总线架构具体的细节和数据,因此无法和其前代产品做定量分析对比。不过可以确认的是,R7XX已经不再是R6XX那个头脑简单(R6XX的线程数和G8X相当,但是仲裁与控制部分依然较G8X简单原始),肌肉发达(单纯SP多)还患有小儿麻痹症(互联总线落后)的臃肿胖子了。而是一个从内到外,从最底层开始就坚韧无比的强大架构。如果说R6XX出色指标的只有表面皮肤,那么R7XX的优秀指标就是真正深入了骨髓。

R7XX在FLOPS、TMU、ROP fillrete方面近乎翻倍的规格,没有这个强大的互联架构在背后支撑,几乎是不可想象的。在我们津津乐道R7XX 优化TMU和tex cache改善纹理填充率、重制ROP带来强大的MSAA性能的同时,请不要忘记了是谁在背后给予它们力量。

从NV的角度看来,这是一个令人沮丧的时刻。NV多年来在MC、高速总线、GPU layout方面的优势因为ATI-AMD的合并瞬间消失殆尽,而工艺制程和对手相比又处于绝对劣势,GT200的资源更加倾向于CUDA方面似乎是合情合理的选择。

ATi在R400、C1、R520就开始的万亿次通用运算架构的构想,在R5XX难产,R6XX的失败之后,终于经AMD之手在R7XX时代绽放出绚丽的光芒。有了强大的骨架(高速互连技术)的支撑,R6XX SIMD架构极易扩充规模的优势可以得到淋漓尽致的发挥,再也不用担心在总体性能被蹩脚的总线设计拖住后腿。可以预见,将来AMD-IBM依靠工艺制程方面的优势,结合ATi在图形技术方面的丰富经验,加上DX11在通用计算方面的强力推动,A字头GPU的功能和性能必将得到前所未有的增长。

[ 本帖最后由 贵甲 于 2008-6-26 17:50 编辑 ]
2#
发表于 2008-6-26 16:49 | 只看该作者
看不懂:funk:
回复 支持 反对

使用道具 举报

qiuqiuyueyue 该用户已被删除
3#
发表于 2008-6-26 16:55 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

4#
发表于 2008-6-26 16:55 | 只看该作者
我觉得文章有些抓住小细节大作文章了。。。。
回复 支持 反对

使用道具 举报

5#
发表于 2008-6-26 16:58 | 只看该作者
为什么这里不是首发?
回复 支持 反对

使用道具 举报

6#
发表于 2008-6-26 17:04 | 只看该作者
看懂了,果然RV770的架构有了相当大的改进呢
回复 支持 反对

使用道具 举报

7#
发表于 2008-6-26 17:13 | 只看该作者
有技术含量,但是这里为啥不上首发????????????
回复 支持 反对

使用道具 举报

8#
发表于 2008-6-26 17:14 | 只看该作者
思考是不错的技术型版主.........
回复 支持 反对

使用道具 举报

9#
发表于 2008-6-26 17:14 | 只看该作者
写的不错:)
回复 支持 反对

使用道具 举报

10#
发表于 2008-6-26 17:29 | 只看该作者
思考貌似好久不來了
回复 支持 反对

使用道具 举报

11#
发表于 2008-6-26 17:31 | 只看该作者
受教了,又多懂了一點點,繼續累積知識中...
回复 支持 反对

使用道具 举报

12#
发表于 2008-6-26 17:40 | 只看该作者
:loveliness: :loveliness:
NV 多年的累积被秒掉了```
快卖屁股给我们中国随便一家国营企业吧````
回复 支持 反对

使用道具 举报

13#
发表于 2008-6-26 17:46 | 只看该作者
原帖由 123sword 于 2008-6-26 17:29 发表
思考貌似好久不來了



哈哈哈,
思考天天都在!!!
回复 支持 反对

使用道具 举报

14#
发表于 2008-6-26 17:49 | 只看该作者

回复 14# mousefire 的帖子

好像GT200的内存控制器不是集成的一样……
回复 支持 反对

使用道具 举报

15#
发表于 2008-6-26 17:49 | 只看该作者
技术型N饭主打itocp了?
回复 支持 反对

使用道具 举报

16#
发表于 2008-6-26 17:50 | 只看该作者
包括Eji也不怎么在这里露面了……
回复 支持 反对

使用道具 举报

17#
发表于 2008-6-26 17:52 | 只看该作者
原帖由 akcadia 于 2008-6-26 17:40 发表
:loveliness: :loveliness:
NV 多年的累积被秒掉了```
快卖屁股给我们中国随便一家国营企业吧````


哟,怎么没用投票机去投票呢?我还等你揭露某站的弄虚作假呢。
回复 支持 反对

使用道具 举报

18#
发表于 2008-6-26 18:24 | 只看该作者
原帖由 feixiong 于 2008-6-26 17:46 发表



哈哈哈,
思考天天都在!!!


:p :p :p
回复 支持 反对

使用道具 举报

19#
发表于 2008-6-26 18:39 | 只看该作者
期待,世界在进步了。只有竞争我们才能买到性价比更好的卡卡
回复 支持 反对

使用道具 举报

20#
发表于 2008-6-26 18:40 | 只看该作者
果然是好文啊。看来在目前ALU-MEM gap 约来越大的背景下,谁解决好 memory 的问题,谁就是胜者。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2024-5-24 09:09

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表