POPPUR爱换

标题: 按现在费米和H5XXX的情况看是不是表明ATI在统一渲染架构方向选对了路了! [打印本页]

作者: charlieviva    时间: 2010-3-25 13:42
标题: 按现在费米和H5XXX的情况看是不是表明ATI在统一渲染架构方向选对了路了!
不是很懂求求证。当年在统一渲染架构中A和N分道扬镳了。怎么感觉A卡方向对了,从H4XXX系列到H5XXX系列N卡都很被动(技术上,商业操作手法除外),现在费米发布前都没有了以前N皇卡发布的那种霸气了。(8800U那时候牛啊,价格天文数字)本贴只是讨论下发展走向问题,请自重!

引用:

  AMD的解决方法是将原有的4D矢量运算拓展到4D矢量+1D标量架构,并命名为Supersclar(超标量),而4D+1D的运算架构也一直使用至现在的DX11显卡上。AMD的Supersclar架构在一个周期内可以进行5次矢量运算或者一次标量+一次矢量运算,而且5D指令只需要一个发射端口,每个流处理器所需的晶体管较少,设计难度也大大减小,缺陷依然是遇到标量运算时效率降低,AMD通过大幅增加流处理器单元的数量并增加分支预测单元(Branch Execution Unit)改善指令分配问题,在驱动设计上要付出更多努力。

AMD的Superscalar架构沿用至今

  与AMD的循序渐进相比,NVIDIA的解决方式更有革命性。NVIDIA的首款DX10架构G80中使用了标量设计,所有运算不管是4D矢量、3D+1D、2D+2D或者1D标量全都转为标量计算,这样标量运算中效率一直为100%,不过矢量运算中也存在着效率下降的问题,因为G80一个周期内只能执行一次运算,执行4D矢量需要四个周期才能完成。NVIDA采用异步架构将流处理器的频率与核心频率分离,流处理器的频率大幅提升至1.3G以上,几乎达到了核心频率的两倍,即使是4D矢量运算速度也有保证。

  NVIDIA的标量流处理器无异于一次突破,此后的游戏以及通用计算程序中证明了此架构的优秀。除了频率提高一倍的流处理器弥补了数量上的劣势外,最主要的还是全标量架构的高执行效率,G80中每个指令都可以1D标量进行运算,利用率可以一直保持在100%,而AMD的4D+1D架构需要将指令组合成适合5D运算的VLIW(超长指令)才能保证充分利用所有流处理器,一旦重组不成功或者指令不适合重组,那就无法发挥出流处理器数量众多的优势,因此AMD显卡的理论浮点运算能力非常强劲,但在实际应用中相比NVIDIA的显卡并不突出,甚至有所不如,从Folding@home中的贡献排名中也一窥而知。


作者: 典型肺炎    时间: 2010-3-25 13:44
那倒不见得哦,6xxx这代发布延迟,如果费米2速度远比费米1发布快,下次杯具的估计就是AMD
作者: chinayyj    时间: 2010-3-25 13:48
通用计算还是NV强啊!起码在软件方面可能及时跟上。看看有多少软件支持CUDA就知道了!
作者: stcshy_3    时间: 2010-3-25 13:59
提示: 作者被禁止或删除 内容自动屏蔽
作者: pharaohs1024    时间: 2010-3-25 14:00
提示: 作者被禁止或删除 内容自动屏蔽
作者: fuxingchina    时间: 2010-3-25 14:02
提示: 作者被禁止或删除 内容自动屏蔽
作者: Edison    时间: 2010-3-25 14:06
G80 架构也是向量架构,向量宽度为 32 D,具体的看本站的 LARRABEE 架构文章以及架构区的相关讨论。

目前并不存在标量的 GPU 架构。
作者: pharaohs1024    时间: 2010-3-25 14:08
提示: 作者被禁止或删除 内容自动屏蔽
作者: ft5555    时间: 2010-3-25 14:13
amd做的是带有通用计算功能的3d显卡

nv做的是带有3d加速功能的通用处理器
作者: liuxiao8606    时间: 2010-3-25 14:23
通用计算还是NV强啊!起码在软件方面可能及时跟上。看看有多少软件支持CUDA就知道了!
chinayyj 发表于 2010-3-25 13:48

真要数一数的话。。。。
作者: kycx3000    时间: 2010-3-25 14:27
通用计算还是NV强啊
作者: MINORIN    时间: 2010-3-25 14:46
于是现在N饭都很需要通用计算
A饭老老实实玩游戏就够了
作者: 鱼儿水中游    时间: 2010-3-25 15:07
N饭还得算蛋白质啊。
作者: Edison    时间: 2010-3-25 15:09
G80一个TPC里一共才有16个SP,怎会是32D?
纳尼? 发表于 2010-3-25 14:48


http://www.pcinlife.com/article/ ... 5662175d828_16.html
   
此外,我们如果稍微了解 CUDA 的话,就可以知道 CUDA 里有 thread、warp、thread block(又被称作 CTA)这样的线程单位,其中 warp 其实是一个微架构上的东西,在编写程序的时候,程序员会写代码定义 thread block 和 thread 的大小,但是不会定义 warp。

Warp 是 thread block 被发送到内核(即 SM)的时候才会被切出来,SM 内的调度器以 warp 为单位把线程发射到 SIMD 运算器上执行,warp 的大小限制依照微架构的不同而不同。

在 G8x/G9x 上 Warp 最多是 32 个 thread,每个 thread block 最多可以切出 24 个 warp,而在 GT200 或者说 T10P 上 warp 的都是一样最大为 32 thread,但是一个 thread block 可以切出最多 32 个 warp。

warp 的宽度就是 G80 SIMD 宽度。
作者: asdfjkl    时间: 2010-3-25 15:16
不是很懂求求证。当年在统一渲染架构中A和N分道扬镳了。怎么感觉A卡方向对了,从H4XXX系列到H5XXX系列N卡都 ...
charlieviva 发表于 2010-3-25 13:42


从架构上看,现在AMD就是原来R600继承来的;和前面失败的几代本质上没有太大不同。就是塞进去更多的核心;修补了bug.
10个一碗的饺子,您吃起来觉得味道不好;现在来了一个大腕的20个的,您吃起来猛说:师傅现在手艺了得了!
所以这帖子的观点难以接受。
作者: asdfjkl    时间: 2010-3-25 15:17
amd做的是带有通用计算功能的3d显卡

nv做的是带有3d加速功能的通用处理器
ft5555 发表于 2010-3-25 14:13


就现在5xxx目前领先了,你就这样的结论;不知道在这个系列之前你这话是怎么讲的?
作者: asdfjkl    时间: 2010-3-25 15:18
回复 2# 典型肺炎

fermi2会很快的,当然名字也不是fermi2.
作者: charlieviva    时间: 2010-3-25 15:33
从架构上看,现在AMD就是原来R600继承来的;和前面失败的几代本质上没有太大不同。就是塞进去更多的核心 ...
asdfjkl 发表于 2010-3-25 15:16

你的例子很贴切生活,但我就不明白了。费米也是用40nm而且是同一个厂。A能越塞越好(晶体管),N卡就越塞越没劲?
架构方向的对错就是要看后续的发展的,刚开始失败应该不能说明架构失败吧。
厨师煮饺子也有个娴熟过程吧。你不能因为他一年前煮给你吃的饺子不好吃就断定人家不是个好厨师吧!
作者: hakase    时间: 2010-3-25 15:39
NV的悲剧主要发生在工艺上,架构其实还是很好的
作者: Edison    时间: 2010-3-25 15:39
G80 一个 SM 是 8 个 CUDA core,执行一个 warp 所需要的时间是 4 个周期。
R600 一个 SIMD Engine 是 16 个 5D VLIW,执行一个 wavefront 所需要的时间是 4 个周期。

Warp 和 wavefront 的宽度都是随着微架构的不同而不同(目前上大家还保持在 G80、R600 的水平上),并且是相对固定的,最大、最小这两个词其实都不是很适用在上面。
作者: 380    时间: 2010-3-25 16:54
提示: 作者被禁止或删除 内容自动屏蔽
作者: 极度可乐    时间: 2010-3-25 17:18
R600架构其实感觉在1200sp时候应该有个效率峰值
380 发表于 2010-3-25 16:54



    从5850vs5870看来不止
作者: 娃娃脸雪糕    时间: 2010-3-25 17:23
你们看着吧,当初5800ULTRA一出就淘汰,nV很快就拿出了补救措施GF5900系列,虽然没能性能登顶,但是功耗降下来了,照样没有损失多少市场,关键就是HD6系列能不能快点出场,因为我相信肥米2并不会比1强太多,除非推翻架构重新设计,但是时间上来不及,ATI可以趁机打个漂亮的伏击战
关键就是HD6的推出时间
作者: 380    时间: 2010-3-25 17:59
提示: 作者被禁止或删除 内容自动屏蔽
作者: abee    时间: 2010-3-25 18:03
那倒不见得哦,6xxx这代发布延迟,如果费米2速度远比费米1发布快,下次杯具的估计就是AMD
典型肺炎 发表于 2010-3-25 13:44



    难道英伟达同时研发2代费米?
作者: Templar    时间: 2010-3-25 18:06
提示: 作者被禁止或删除 内容自动屏蔽
作者: charlieviva    时间: 2010-3-25 18:11
我总觉得ATI的架构是考虑得蛮周详的。以前R8500的时候就知道 Hyper-ZⅡ等技术及2D显示!
作者: bfox    时间: 2010-3-26 10:17
你们看着吧,当初5800ULTRA一出就淘汰,nV很快就拿出了补救措施GF5900系列,虽然没能性能登顶,但是功耗降下 ...
娃娃脸雪糕 发表于 2010-3-25 17:23



   " 照样没有损失多少市场",NV3X是使NV在打败3Dfx后第一次丢掉独立显卡老大的地位...,这个叫损失很多市场吧
作者: emu10kx    时间: 2010-3-26 10:25
回复  典型肺炎

fermi2会很快的,当然名字也不是fermi2.
asdfjkl 发表于 2010-3-25 15:18



    费米1还没出呢,你都知道了!!   难道2不快还比1慢不成??
作者: gzpony    时间: 2010-3-26 10:28
沿用本论坛流行的词,我“感觉”楼主的问题的答案是否定的。

fermi现在就出来了。一个产品成功不成功,和什么发热,成本等等没有必然的关系,而是和满足用户的需要相关。衡量这个的指标就是产品的销量和市场占有率;对于公司而言,产品成功不成功还和利润,还有它后续带来的利益有关。

要看谁成功,至少等双方产品正面对垒半年以上评估才有可能。大家就拭目以待吧
作者: koppie    时间: 2010-3-26 11:13
NV30和NV35时代,NV的高端占有率好像是个位数。NV股票都跌没了

你们看着吧,当初5800ULTRA一出就淘汰,nV很快就拿出了补救措施GF5900系列,虽然没能性能登顶,但是功耗降下 ...
娃娃脸雪糕 发表于 2010-3-25 17:23

作者: chinayyj    时间: 2010-3-26 13:57
回复 10# liuxiao8606

amd那边是零!
作者: stcshy_3    时间: 2010-3-26 13:59
提示: 作者被禁止或删除 内容自动屏蔽
作者: chinayyj    时间: 2010-3-26 14:05
本帖最后由 chinayyj 于 2010-3-26 14:07 编辑

回复 36# stcshy_3


    你例举些有用的软件来看看!

连自家的AVIVO视频转换程序也只是CPU在压!GPU不知道去干什么了!
作者: seraphdoo    时间: 2010-3-26 14:05
你的例子很贴切生活,但我就不明白了。费米也是用40nm而且是同一个厂。A能越塞越好(晶体管),N卡就越塞 ...
charlieviva 发表于 2010-3-25 15:33

N卡塞了很多和游戏无关的晶体管,而A卡塞进去的晶体管都是为游戏准备的,所以真正为游戏准备的晶体管,费米还不一定有HD5800多呢。
作者: chinayyj    时间: 2010-3-26 14:08
回复 38# seraphdoo


所以A卡要改改研发的方向!不能只为游戏!
作者: YY小熊猫    时间: 2010-3-26 14:37
和神机一样,没事玩蛋白质折叠计算。
作者: Edison    时间: 2010-3-26 15:08
N卡塞了很多和游戏无关的晶体管,而A卡塞进去的晶体管都是为游戏准备的,所以真正为游戏准备的晶体管,费 ...
seraphdoo 发表于 2010-3-26 14:05


RV670 开始引入的双精度就和游戏没关系,你为何说都是为了游戏。
作者: zblskj    时间: 2010-3-26 15:23
其实 A 卡 感觉 通用计算 弱在软件没有NV厉害
而其从不少信息来看。ATI的 5D 构架  通用计算 软件也比较难编译
作者: shu0202    时间: 2010-3-26 15:27
早就说了,AMD是胜在工艺设计领先从而能暴力堆积大量大量运算管线,并不是说架构有多先进。NV是管线设计过于复杂造成计算密度不足从而不得不搞大芯片,架构本身的先进是不容置疑的。
作者: stcshy_3    时间: 2010-3-26 15:39
提示: 作者被禁止或删除 内容自动屏蔽
作者: HD6870    时间: 2010-3-26 16:15
我倒觉得阿提的做法比较合适,虽然女将矢量拆成标量让单元利用率提高了。但是因为每个单元的利用率都很高,所以提升的潜力也不大了。况且图形运算和流计算大都是矢量运算,只是长度不一定匹配于4d。。。阿提在这方面有优化的潜力。

simd数据流如果拆成标量的,是不是就是变相的增加了指令数目来填充标量单元?simd指令多的话,用更少的矢量单元就能达到更多标量单元相同的效果。但是利用率就没有标量单元那么高,因为不可能所有的数据都是矢量的。其实还是看指令类型和数目。

女会不会重新考虑采用矢量单元的设计呢?否则这么扩张下去也不是办法啊。
作者: Edison    时间: 2010-3-26 16:18
once again,G80+ 都是 SIMD(Vector) 架构不是 Scalar 架构。
作者: HD6870    时间: 2010-3-26 16:23
once again,G80+ 都是 SIMD(Vector) 架构不是 Scalar 架构。
Edison 发表于 2010-3-26 16:18


那它的4个scalar+起来组成的Vector单元是不是比一个Vector4d要大呢?这样的设计目的究竟是什么有什么好处呢?
作者: asus21    时间: 2010-3-26 16:32
这个好深奥 我只要有卡用就成
作者: Edison    时间: 2010-3-26 16:46
那它的4个scalar+起来组成的Vector单元是不是比一个Vector4d要大呢?这样的设计目的究竟是什么有什么好 ...
HD6870 发表于 2010-3-26 16:23


G80 的 SIMD 单元物理上是 8-way,一条指令需要花 4 个周期完成,SIMD 宽度为 32D。

AMD R600 的架构实际上是 4-way SIMD*16-way SIMD*5-way(7-way?) VLIW。

NVIDIA G80 的架构实际上是 16-way SIMD*8-way SIMD。

你不能简单地对比两者的运算单元大小(事实上单挑起来的话,这个层级的大小差别并不大),而应该从 SIMD Core 或者 SM 级别来看。
作者: jameslee98    时间: 2010-3-26 17:32
我觉得是理念的不同,ATI经过2900XT的延迟和惨败后,之后的产品,有明确的目标和时间节点控制。根据看到的ATI近几代产品的研发流程故事中可以看到,有许多设计特性都因为晶体管超预期或时间须延后而CUT掉了,只流下了必须的满足时间要求和晶体管数量要求的特性。其设计本身应该没有把通用计算作为主要功能点(也有可能压根就没怎么考虑)。
而NVIDA的设计从一开始就把通用计算的特性加入了优先级很高的主要功能列表里,设计涉及的东西太多(CUDA等)。导致架构优秀,但研发周期长,时间节点和成本无法有效控制,功能虽然比对手ATI多,但在实际的3D游戏运行方面在每晶体管性能、成本方面不占优势。
但NVIDIA也许有不得以的苦衷,有的业务已经没了(如主板),显卡业务的总的市场量并不大。公司要发展,总要有革命性的突破或转型。其中的阵疼是必然的。还好INTEL的通用计算显卡夭折了。
其实AMD,NVDIA现在的日子都不太好过。
INTEL现在把两家折腾得够呛。
作者: charlieviva    时间: 2010-3-26 18:14
我觉得是理念的不同,ATI经过2900XT的延迟和惨败后,之后的产品,有明确的目标和时间节点控制。根据看到的A ...
jameslee98 发表于 2010-3-26 17:32

很有道理,INTEL就是螳螂捕蝉黄雀在后,无论A还是N是螳螂,INTEL就像一个黄雀一样在背后秘密监控着两者的相争。有一天它拿下了螳螂,我们消费者就没戏了,INTEL拥有更先进的制造工艺,强大的市场营销队伍。GPU还不是它玩完!ATI今日的工艺和设计多少要拜AMD所赐,如果ATI还是单打独斗想必今日产品线就没有那么淋漓尽致了!




欢迎光临 POPPUR爱换 (https://we.poppur.com/) Powered by Discuz! X3.4