POPPUR爱换

标题: 【转贴】RV770架构中容易被忽视，但是最为重要的改动细节 [打印本页]

作者: 贵甲 时间: 2008-6-26 16:48
标题: 【转贴】RV770架构中容易被忽视，但是最为重要的改动细节
原文：http://www.itocp.com/thread-10424-1-1.html

作者：来不及思考

关于RV770，目前谈论得较多的是shader和TMU、ROP部分的增强，实际上，这些只是表象

性能提升固然来源于运算资源的增加、架构的改善、瓶颈的清除，但是大家在津津乐道的谈论RV770运算能力的时候，请不要忘记背后支撑着一切的部件，这就是内部互联总线、交换开关、内存控制器

如果把线程调度器比作GPU的大脑，SP、TMU、ROP比作GPU的肌肉，那么内部互联总线和各种交换开关就是GPU的骨架。一个出色的GPU，必然有着最强健的骨架，是一个从最底层开始就牢不可破的结构。

典型的例子就是G80 vs R600

R600为了冲击当时在当时工艺制程下并不成熟的512bit memory bus，在内部互联使用了ringbus结构。实际上ringbus总线的数据延迟要比传统的crossbar总线大得多，传输路径也更为繁琐。ATI之所以选择它仅仅是因为ringbus layout更加方便，而且所占的晶体管较少。目前业界公认的最高效率的互联结构依然是xbr(crossbar)。而G80选择了较妥协的384bit Crossbar总线，在内部各部件之间的通信效率上，G80要比R600高得多。

GPU存储器方面的技术，个人一直认为ATi和NV不相上下。ATi在HSR等带宽节约技术方面造诣深厚，Radeon 256产品就首次引入了H-Z设计。而NV则在高速互联总线、MC本身的硬件设计方面占有不小优势。nForce芯片组上的内存控制器效率、南北桥互联总线(HTT)也一直是一流的。这个从GF3 vs Radeon 8500时代开始就一直延续下来了。

不过，在RV770上，这个天平已经被打破，那就是AMD的介入。

众所周知，AMD在高速互联总线、高速交换开关、内存控制器上的造诣无不是业内顶尖水准。在nehalam发布之前，民用CPU领域中K8架构的互联总线优势领已经先了5年的时间，而K10至今也凭借这一优势能在多路系统中痛击Xeon。

在RV770中，AMD决定将这些优势引入到GPU领域，重新改造R6XX架构。RV770的改进包括：

1. 彻底摒弃R6XX的ringbus总线，使用AMD擅长的crossbar总线

从图中可以看到，第二级链路使用了Crossbar总线代替了Ringbus，AMD没有给出太多的具体数据，不过从384GB/S的互联带宽上来看，这个总线已经非常强大。R600使用的1024bit内部ringbus互联，带宽也没有超过300GB/S，RV670就更少了。更为重要的是，Crossbar总线相比ringbus，会极大的降低延迟（RV770在这方面的改善目前没有具体数据），GPU的大多数操作，如cacahe miss后的tex fetch，或者是带顶点数据的VTF操作，都可以更加迅速、快捷的从L2获得数据，低延迟也会减轻multi-threading的压力。

2. 在第二级互联链路中使用更加高效的switub交换中心结构

这张图看起来非常类似于双核心K8的I/O设计，同样的，AMD现阶段不会给出它的详细规格数据。不过从图上推测，各个部件应该可以通过这个高速互联开关，任意的访问其他设备并且操作之间不会相互影响，switub很可能还带有优先级判断和仲裁功能，能为最要紧的I/O请求开绿灯。并且最重要的————它的延迟肯定比ringbus ringstop station低几个数量级。

3. 新的内存控制器

AMD并没有提到内存控制器改动方面的细节。不过这张图还是泄露了一些信息。AMD表示，RV770的PCB布线可以一定程度上忽略信号同步的原理。对于RD人员来说，这个真是再好不过的消息，因为高频GDDR显存的绕线简直是一场噩梦。对PC DRAM稍微有常识的人都知道，DRAM要正常工作，其信号必须保证绝对同步到达，否则数据传输就失败。允许的误差必须是皮秒(picosecond，1皮秒等于一万亿分之一秒)级别的。以前，这个特性在显卡上都由PCB布线来解决。我们必须在PCB上画出不同长度的信号线，让延迟/潜伏期对数据同步的影响降到最低，才能成功传输。不过在RV770上，这个特性已经变成由MC自己来完成，这意味着RV770的内存控制器具备了数据/时钟信号同步与自校准能力(Adaptive Timing)。这个特性很容易让人们想起早年rambus的FlexPhase技术，其衍生产品的授权已卖遍了全世界，用来解决各种高速互联总线的问题。INTEL某些服务器型号的北桥芯片就有用到RAMBUS的这种技术。不过这种技术在显卡上使用还是第一次，AMD很可能也从RAMBUS获得了授权，RV770的MC内部肯定有特别的pattern来实现这个火星技术。从另一个方面来说，这也意味着RV770的MC已经经过了优化校调或者说重新设计，性能表现将更上一层楼

目前我们没有得到RV770总线架构具体的细节和数据，因此无法和其前代产品做定量分析对比。不过可以确认的是，R7XX已经不再是R6XX那个头脑简单（R6XX的线程数和G8X相当，但是仲裁与控制部分依然较G8X简单原始），肌肉发达（单纯SP多）还患有小儿麻痹症（互联总线落后）的臃肿胖子了。而是一个从内到外，从最底层开始就坚韧无比的强大架构。如果说R6XX出色指标的只有表面皮肤，那么R7XX的优秀指标就是真正深入了骨髓。

R7XX在FLOPS、TMU、ROP fillrete方面近乎翻倍的规格，没有这个强大的互联架构在背后支撑，几乎是不可想象的。在我们津津乐道R7XX 优化TMU和tex cache改善纹理填充率、重制ROP带来强大的MSAA性能的同时，请不要忘记了是谁在背后给予它们力量。

从NV的角度看来，这是一个令人沮丧的时刻。NV多年来在MC、高速总线、GPU layout方面的优势因为ATI-AMD的合并瞬间消失殆尽，而工艺制程和对手相比又处于绝对劣势，GT200的资源更加倾向于CUDA方面似乎是合情合理的选择。

ATi在R400、C1、R520就开始的万亿次通用运算架构的构想，在R5XX难产，R6XX的失败之后，终于经AMD之手在R7XX时代绽放出绚丽的光芒。有了强大的骨架（高速互连技术）的支撑，R6XX SIMD架构极易扩充规模的优势可以得到淋漓尽致的发挥，再也不用担心在总体性能被蹩脚的总线设计拖住后腿。可以预见，将来AMD-IBM依靠工艺制程方面的优势，结合ATi在图形技术方面的丰富经验，加上DX11在通用计算方面的强力推动，A字头GPU的功能和性能必将得到前所未有的增长。

[ 本帖最后由贵甲于 2008-6-26 17:50 编辑 ]

作者: rapfish 时间: 2008-6-26 16:49
看不懂:funk:

作者: qiuqiuyueyue 时间: 2008-6-26 16:55
提示: 作者被禁止或删除内容自动屏蔽

作者: iCer 时间: 2008-6-26 16:55
我觉得文章有些抓住小细节大作文章了。。。。

作者: 疯一样的男子 时间: 2008-6-26 16:58
为什么这里不是首发？

作者: lllppp 时间: 2008-6-26 17:04
看懂了，果然RV770的架构有了相当大的改进呢

作者: hjwl 时间: 2008-6-26 17:13
有技术含量，但是这里为啥不上首发？？？？？？？？？？？？

作者: beer966 时间: 2008-6-26 17:14
思考是不错的技术型版主.........

作者: Wall_E 时间: 2008-6-26 17:14
写的不错:)

作者: 123sword 时间: 2008-6-26 17:29
思考貌似好久不來了

作者: ilovephoto 时间: 2008-6-26 17:31
受教了,又多懂了一點點,繼續累積知識中...

作者: akcadia 时间: 2008-6-26 17:40
:loveliness: :loveliness:
NV 多年的累积被秒掉了```
快卖屁股给我们中国随便一家国营企业吧````

作者: feixiong 时间: 2008-6-26 17:46

原帖由 123sword 于 2008-6-26 17:29 发表
思考貌似好久不來了

哈哈哈，
思考天天都在！！！

作者: AFXIF 时间: 2008-6-26 17:49
标题: 回复 14# mousefire 的帖子
好像GT200的内存控制器不是集成的一样……

作者: shu0202 时间: 2008-6-26 17:49
技术型N饭主打itocp了？

作者: shu0202 时间: 2008-6-26 17:50
包括Eji也不怎么在这里露面了……

作者: ailly 时间: 2008-6-26 17:52

原帖由 akcadia 于 2008-6-26 17:40 发表
:loveliness: :loveliness:
NV 多年的累积被秒掉了```
快卖屁股给我们中国随便一家国营企业吧````

哟，怎么没用投票机去投票呢？我还等你揭露某站的弄虚作假呢。

作者: UX201A 时间: 2008-6-26 18:24

原帖由 feixiong 于 2008-6-26 17:46 发表

哈哈哈，
思考天天都在！！！

:p :p :p

作者: 脸色 时间: 2008-6-26 18:39
期待，世界在进步了。只有竞争我们才能买到性价比更好的卡卡

作者: hornbill 时间: 2008-6-26 18:40
果然是好文啊。看来在目前ALU-MEM gap 约来越大的背景下，谁解决好 memory 的问题，谁就是胜者。

作者: shu0202 时间: 2008-6-26 18:43
这些都是辅助性能提升的关键性改进，性能提升主要还是大规模增加运算资源的功劳。

作者: eye2eye 时间: 2008-6-26 18:46
这个第一条实在比较搞笑。:loveliness:

当初就是为了获得高带宽才摒弃的crossbar，改为ringbus。结果现在又用回来的。不过话说回来，256bit显然不必使用ringbus的。原作者第一条，不能做出结论crossbar的带宽就高于ringbus。现在的高带宽更过的要归功于新型显存。

[ 本帖最后由 eye2eye 于 2008-6-26 05:53 编辑 ]

作者: qiuqiuyueyue 时间: 2008-6-26 19:00
提示: 作者被禁止或删除内容自动屏蔽

作者: shu0202 时间: 2008-6-26 19:10

原帖由 eye2eye 于 2008-6-26 18:46 发表
这个第一条实在比较搞笑。:loveliness:

当初就是为了获得高带宽才摒弃的crossbar，改为ringbus。结果现在又用回来的。不过话说回来，256bit显然不必使用ringbus的。原作者第一条，不能做出结论crossbar的带宽就高 ...

内部总线改进很大啊？带宽已经超过环形总线了……

作者: k10 时间: 2008-6-26 19:38
提示: 作者被禁止或删除内容自动屏蔽

作者: 单晶硅传奇 时间: 2008-6-26 20:16
其实如果能做出2X～3X倍速的Ringbus也是不错的

作者: dirl 时间: 2008-6-26 21:00
自从上次思考对4800系列的评价后，就一直没来PCI了，当初他发表4800的技术言论时，对4800系列是有很高的厚望，结果没有加分，反倒让一个催化剂的言论加分了，思考一时想不开，永远不来了，跑去玩家论坛发展了

作者: dirl 时间: 2008-6-26 21:01
LS 单晶硅传奇兄弟好久不见啊，你也来了，呵呵，在GZ时代很活跃的吗

作者: 请问你凭啥 时间: 2008-6-26 21:19
提示: 作者被禁止或删除内容自动屏蔽

作者: 九泉苍月 时间: 2008-6-26 21:32
Crossbar+Switched Hub，原来如此...复合型

作者: wl00560 时间: 2008-6-26 21:36
技术贴，学习了……

作者: 红发IXFXI 时间: 2008-6-26 21:41

原帖由 dirl 于 2008-6-26 22:00 发表
自从上次思考对4800系列的评价后，就一直没来PCI了，当初他发表4800的技术言论时，对4800系列是有很高的厚望，结果没有加分，反倒让一个催化剂的言论加分了，思考一时想不开，永远不来了，跑去玩家论坛发展了

:funk:乱说。。。。思考很早就去了。。。

作者: predacon 时间: 2008-6-26 22:11
最后一条似乎有些道理，前面的纯属忽悠。nvidia的内存控制器一直领先了好长时间，就算现在也和amd,intel不相上下，amd无非就是集成到cpu内部有一些优势，其具体架构并无优势，所以楼主说的没有根据。

作者: WSN911 时间: 2008-6-26 22:55
学习了~~~~~~~~~~增长知识[laugh>

作者: wangwujian 时间: 2008-6-27 01:00
:loveliness: 好帖~长见识了~3Q

作者: smaller 时间: 2008-6-27 02:09
路过学习！:loveliness:

作者: 无敌小糖块 时间: 2008-6-27 05:59
ringbus总线优化好的话比crossbar总线要强！

作者: w23j 时间: 2008-6-27 06:50
提示: 作者被禁止或删除内容自动屏蔽

作者: liii007 时间: 2008-6-27 06:54
提示: 作者被禁止或删除内容自动屏蔽

作者: lislee2001 时间: 2008-6-27 09:54
提示: 作者被禁止或删除内容自动屏蔽

作者: kanata 时间: 2008-6-27 12:00
顶思考的技术贴。。。但是不在PCI发反映出PCI出了某些问题了吧:loveliness:

作者: yaten 时间: 2008-6-27 15:56
好像是技术贴！留名！

欢迎光临 POPPUR爱换 (https://we.poppur.com/)