POPPUR爱换

标题: ATI和NV构架效率问题 [打印本页]

作者: 3dfxfover    时间: 2008-6-21 23:56
标题: ATI和NV构架效率问题
对于ATI和NV构架效率问题,根据实际表现情况,小弟发表如下看法:

R600系列有320个SP,64个US,感觉性能和Geforce 9600差不多。

4850有800个SP,160个US,性能强于128SP的9800是肯定的,但是应该弱于192个SP的GT260。

所以,在比较A卡和N卡的时候,应该用A卡的US和N卡SP进行比较。:p

续而,有可以推出,由于N卡的SP的频率基本为芯片频率的2倍多,所以,在同频的情况下一个A卡的US的执行效率差不多也是一个N卡SP的2倍多点。:p
作者: Edison    时间: 2008-6-22 00:00
这其实取决于游戏,效率问题有时候看底层测试是非常好看的,但是到了实际游戏的时候让人掉下巴。
作者: cataclyson    时间: 2008-6-22 00:09
还是绝大多数游戏用不到4D,造成了ATI的SP浪费闲置,当初ATI要能意料到这点估计不至于像今天这么被动。ATI浪费的晶体管太多了:(

[ 本帖最后由 cataclyson 于 2008-6-22 00:18 编辑 ]
作者: privater    时间: 2008-6-22 00:09
始终觉得ATI那个320sp和目前的800sp是虚标的。
游戏测试不能说明底层硬件问题这个我很赞同,但是为什么同样跑并行运算的F@H里面A卡居然大败给N卡,这是最搞不懂的:
[attach]885514[/attach]
ATI的平台都优化了两年了,NVIDIA的平台才出来几天,就这么大的差距么?

用户当然是不会在意他的显卡是320sp还是320000sp,只要性能高就行,以上仅仅是简单的结构探讨。

[ 本帖最后由 privater 于 2008-6-22 02:03 编辑 ]
作者: beer966    时间: 2008-6-22 00:11
A的新驱更新得较慢........不过提升较大


另:4楼的图是因为A卡没用到你的物理计算软件:funk:
作者: feel囝    时间: 2008-6-22 00:17
Nv靠拆散,amd靠组合
作者: feel囝    时间: 2008-6-22 00:20
原帖由 lzy651 于 2008-6-22 00:16 发表
要说效率,都是二级管,效率都一样,
只是别人对你支持的好和坏了


好傻好天真
作者: privater    时间: 2008-6-22 00:22
由于“拥有320个流处理器”始终作为ATI显卡的宣传标语印刷在显卡宣传手册和包装上数一数二的位置。
足见这个SP数目对ATI来说是很重要的一个参数
想必接下来“拥有800个流处理器”也会成为很好的宣传口号。
毕竟宣传标语上的数字肯定是越大越可能讨得用户倾心。
这种打广告的方式会不会被NVIDIA的人有针对的作为他们宣传的另一个借口呢?
例如:提出GPU的SP数目/效能比这样一个参数。
这不是不可能,作为暂时弱势的一方必然会想方设法的通过 宣传 这个工具来造势
当年AMD良苦用心的“PR值”、Intel的P4换扣肉平台时取消频率标记,启用的“能耗比”都是这种思维下的产物。

[ 本帖最后由 privater 于 2008-6-22 00:23 编辑 ]
作者: feel囝    时间: 2008-6-22 00:24
根本不用,nv说自己流处理器破G就可以了~~~~~~~
作者: Edison    时间: 2008-6-22 00:26
原帖由 beer966 于 2008-6-22 00:11 发表
另:4楼的图是因为A卡没用到你的物理计算软件:funk:

AMD是最早提供FAH gpu加速的厂商,你的说法不成立。
作者: beer966    时间: 2008-6-22 00:28
原帖由 Edison 于 2008-6-22 00:26 发表

AMD是最早提供FAH gpu加速的厂商,你的说法不成立。


最早提供并不代表研究得更深.......这方面还是承认NV比较投入精力.....:loveliness:
作者: cool_exorcist    时间: 2008-6-22 00:30
Folding@Home 的世界里,9600GT可以杀掉AMD全家,4850刚出来,优化不到位成绩只有3870的三分之一
作者: Edison    时间: 2008-6-22 00:32
原帖由 beer966 于 2008-6-22 00:28 发表
最早提供并不代表研究得更深.......这方面还是承认NV比较投入精力.....:loveliness:

AMD是从RADEON R580的时候就提供FAH GPU硬件加速,你一句话研究得不更深就把AMD团队的努力给抹杀了。
作者: s252    时间: 2008-6-22 00:45
原帖由 cataclyson 于 2008-6-22 00:09 发表
还是绝大多数游戏用不到4D,造成了ATI的SP浪费闲置,当初ATI要能意料到这点估计不至于像今天这么被动。ATI浪费的晶体管太多了:(


赌博而已。要是早知道下期双色球开什么号码。。。
作者: s252    时间: 2008-6-22 00:46
原帖由 Ptaltaica 于 2008-6-22 00:17 发表
360开发比PS3容易是因为Cell,和GPU有什么关系?.........


系统的关系吧?
作者: Edison    时间: 2008-6-22 00:55
原帖由 china17 于 2008-6-22 00:40 发表
问题是,AMD的努力还是没有使其GPU达到本应能发挥的计算能力


http://foldingforum.org/viewtopi ... p;sd=a&start=45

mhouston: " We chose to go for stability first and we are working on performance tuning now. "
作者: privater    时间: 2008-6-22 00:58
其实说到底我就是不理解,ATI一直倡导并且继续在发展的环形结构到底是为了什么应用而优化?
说游戏、游戏效率差(单指代性能/SP数目后的效率)说并行运算、SP的效率远低于Geforce。
虽然这次HD 4850 不仅在游戏测试中干掉了对手、价格上杀得NVIDIA措手不及、拥有10亿晶体管的核心,卖得如此便宜可见成本上确实做到了低价、最后还能大面积铺货说明产能和良率也得到很好的控制。

但是,把这些光环去掉,单从结构上来说800SP 比 320SP 数目比是2.5:1,性能上只有1.3:1(4850:3850)

to 3楼:AMD这种通过“堆料”的方式提高性能,也许间接说明并非SP闲置、而是SP不足

to 19楼:这种看法是之前很多人认为的。毕竟cuda驱动出来之前,我们无法比较38x0和8800系列的并行数据处理能力。当时人们都是认为既然hd3870能在F@h里面达到1400PPD、那么8800GT最多就700-800PPD,而HD4850他们乐观的估计为3000-4000。但是当成绩出来后他们就吃惊了。(参考上面的图,这里只是暂时借用PPD参数说明问题,如果比较实际性能应该用计算周期ns作为比较单位最合适,排除掉CPU后,GPU的计算周期能力的排序与PPD表相同)据外国网友反映HD4850甚至还不如HD3850,当然目前官方小组的结论是未优化的缘故。

所以我就在想:ATI真的是做了800个SP出来么?

再次提醒:仅仅想讨论下结构,不管是自己猜的还是什么都可以交流。非性能、性价比、品牌...讨论。毕竟95%的版面已经都是这些内容了

[ 本帖最后由 privater 于 2008-6-22 01:30 编辑 ]
作者: feel囝    时间: 2008-6-22 01:21
还是编译问题吖,800sp是肯定的,但实际怎样利用,可以利用多少,也难说了
作者: privater    时间: 2008-6-22 01:23
原帖由 feel囝 于 2008-6-22 01:21 AM 发表
还是编译问题吖,800sp是肯定的,但实际怎样利用,可以利用多少,也难说了


既然大家都是为了DX10的unified shader而用了SP这个东西,去代替以前的管线数目。
同样类似的事情也在8800GT 512和老8800GTS 640MB身上发生过,缩减了SP数目的8800GT性能反超了8800GTS 640MB,逼近8800Ultra水准。这在“管线时代”,是很难理解的事,但是“SP时代”确做到了。

为何SP效率差距这么大?而且在差距如此大的情况下,ATI还能赚钱,还有良率保证和充足供货。
同样55nm工艺,R670做到的320个SP、出来时卖的什么价格?SP数目狂增2.5倍的R700,出来时竟然卖得如此便宜。
而对比以前每次GPU芯片更新换代,哪次不是为了解决这些问题而耗上半年时间去修正软硬件的?
类似的板卡设计、类似的功耗、类似的散热设备、快速的供货铺货、价格定位...
由此不由得想到一个可能的解释:既然驱动是ATI自己开发的,它只和DX打交道,程序员只看得见DX接口也看不到驱动内部是如何与硬件交流的。那么这个“800个SP”到底是真的有那么多个处理单元,还是单纯因为“800”这个数字吉利呢?
沿着这个思维继续想下去就很可怕了:其实R700只是在R600核心上为现在的游戏模式优化了一下SP分配算法,调入了一个“黄金比例”使得运算更高效。
所以很好的解决了上述成本、板卡设计、供货、良品率保证、驱动兼容性问题。


再次提醒:仅仅想讨论下结构,不管是自己猜的还是什么都可以交流。非性能、性价比、品牌...讨论。毕竟95%的版面已经都是这些内容了

[ 本帖最后由 privater 于 2008-6-22 01:29 编辑 ]
作者: feel囝    时间: 2008-6-22 01:34
G92的Sp频率不一样,而且并不知道有没有激活Co-issue(好像从G84开始就有了),况且Ta/tf这些比例也均等了(64).....
经驱动转成微码后,也要把指令打包的,至于怎样把指令打包以喂饱Sp,就看你怎样编译了
作者: zuiniubi    时间: 2008-6-22 01:50
显而易见的问题
这代ati的芯片设计本身就有问题
低能架构
扶不起来的阿斗
作者: shieldfeng    时间: 2008-6-22 07:25
原帖由 zuiniubi 于 2008-6-22 01:50 发表
显而易见的问题
这代ati的芯片设计本身就有问题
低能架构
扶不起来的阿斗

:p PCI经典的结论
作者: jackpeng33    时间: 2008-6-22 08:14
提示: 作者被禁止或删除 内容自动屏蔽
作者: 疯一样的男子    时间: 2008-6-22 08:36
其实应该比较 效能/集体管
多少个sp实现方式不同,需要的资源不同
作者: lobbiest    时间: 2008-6-22 09:24
800:320性能达不到2.5:1很正常,类似的例子已经非常多了。当年4×2结构的fx30/35被8×1的R300整翻就是例子了。两路cpu并行也远达不到1cpu×2的性能,sli/cf也都一样。
我觉得这次ati的失误类似于fx30.指令并行的效果本来就有非常大的弹性,估计很多时候,尤其是theway游戏里面,能够并行的指令比较有限,最坏的情况下是320/5=64打128,再加上频率低的影响。
至于800对320,会不会是因为并行程度增高导致的进一步恶化?还是真的没有塞进去?还是内存总线变化了?俺就不清楚了,高人拿证据吧
作者: kamuiyay    时间: 2008-6-22 10:12
提示: 作者被禁止或删除 内容自动屏蔽
作者: privater    时间: 2008-6-22 20:34
之所以在这里说了这么多,其实主要还是觉得,过去时我们能简单通过管线数目、显存带宽、辅助晶体管数目就能大致推测一个显卡的性能。
而到了DX10时代,这个标准确变得很主观 很模糊 很难把握:
1. 没有测试,我们什么都推测不到。
2. 同样硬件,一个驱动就是天翻地覆的变化,"神 - 油"背后到底干了什么。
3. 厂家越来越喜欢玩弄概念,没有解决实质的问题而单单喊了很多口号,我们是否有必要为这些概念买单。

不只是我一个人关注这个问题。
http://www.equn.com/forum/viewthread.php?tid=18626&page=1#pid248708
看到一个有意思的回复:
Hi All,

I read a debate going on in the forums as to why ATI core is givingless PPD compared to NVIDIA core. And I see many reasons givenincluding the wu's assigned are different (Definitely that also willimpact) as well as MAYBE NVidia core is NOT DOING Science work justCredit work (ONLY possible if someone has goofed up major whileProgramming - LESS LIKELY because I am sure lot of testing has occuredwithin fah stanford group before releasing the GPU beta to the world.)

For a long time (From the time AMD and NVIDIA came out with Unifiedshaders) I have had a thought in my mind, which seems to be playing outnow if the PPD results are valid (i.e no programming error some where).So let me start =>


EVERYONE has to REALIZE the difference in definition of SPs betweenATI/AMD and NVIDIA. To be frank I would say the way ATI named theirsingle SP has SP is a kind of JOKE (in some ways) compared to NVIDIA.

Based on what I have read about the NVIDIA and ATI GPU Architectures onthe Net (Haven't had time nor a ATI card at hand to write code toverify this yet)

IN NVIDIA __EACH SP__ is capable of doing either FP32 or Integer (ALL ops) or Special_functions.
WHILE
IN AMD __FOR EACH Group of 5 SPs ONLY ONE SP__ can do FP32 orInteger_MUL or Special function, while the other 4 SP can only doSIMPLE INTEGER operations.

So if the code is doing lot of FP operations or special functions orInteger_MUL IN EFFECT one gets only 1/5 th the number of SPs in ATI ascompared to what ATI claims as SPs i.e A ATI chip with 320 SPs is ineffect ONLY 64 SPs. So obviously a ATI performance will be only 50%compared to NVIDIA in the WORST CASE.

However in practice one would find that ATI GPUs will give bit moreperformance than the WORST CASE Mentioned above because IF one can mixthe FP32/IntegerMUL/Special_Functions with Simple_Integer ops then theother 4 SPs out of the 5 SP group in ATI can be utilized. Thusimproving over the WORST CASE which I mentioned.

SO BEFORE JUMPING AND CONCLUDING may be WE have to think of the realityinterms of what is ATI 320 SIMPLE SPs worth compared to NVIDIA 128 FULLSPs.

Note: Also one more thing which can aid ATI a bit could be the betterbranch/thread (i.e independent code) granularity in ATI compared toNVidia. But still the 128 Full SPs in NVidia vs 64 Full SPs in AMD/ATImay not help much for ATI wrt this granularity if the Vector sizes onwhich the operations are occuring are large.

Just my thoughts. Happy to get constructive feedback, even to theextent of telling that my thoughts are rubbish, provided it is backedtechnically. I am starting this thread mainly to understand the G80/G92core VS R600 core architecture/programming advantages/disadvantages.

Keep
HanishKVChanishkvc

这个人的推测倒是告诉了我们一个简单的换算公式,按照AMD的设计,如果继续把SP数目作为硬件指标进行对比的话,AMD和NVIDIA的实际比值是5:1
也就是说
3650的实际SP是120/5 = 24  对应 8600GT的SP数目为32 8500GT是16,3650性能刚好在两者之间
3850的实际SP是320/5= 64 对应 9600GT的SP数目为64,3850性能刚好类似于9600GT
4850的实际SP是800/5=160 超过了8800GT的112,8800GT完败,也超过了9800GTX的128,确实打得标准版的9800GTX无还手之力 只有推出超频版的9800GTX+来对抗
很有趣的是很现实的计算方法。
作者: kamuiyay    时间: 2008-6-22 21:48
提示: 作者被禁止或删除 内容自动屏蔽
作者: jinjinchn    时间: 2008-6-22 22:15
这样的帖子不得不支持
作者: akcadia    时间: 2008-6-22 22:23
有什么难想的````
9800GTX的运算能力简单理解是128 X1688=216XXX
4850因为是4D+1D的计算方式.5D其实就是2个SP
就是800/5 X2 X624=20000

同样算法3870和9600GT差不多.性能就是如此
作者: Edison    时间: 2008-6-22 22:29
R600的shader unit是1D*5的VLIW,不是简单的4D+1D。




欢迎光临 POPPUR爱换 (https://we.poppur.com/) Powered by Discuz! X3.4