POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
查看: 4264|回复: 30
打印 上一主题 下一主题

ATI和NV构架效率问题

[复制链接]
跳转到指定楼层
1#
发表于 2008-6-21 23:56 | 只看该作者 回帖奖励 |正序浏览 |阅读模式
对于ATI和NV构架效率问题,根据实际表现情况,小弟发表如下看法:

R600系列有320个SP,64个US,感觉性能和Geforce 9600差不多。

4850有800个SP,160个US,性能强于128SP的9800是肯定的,但是应该弱于192个SP的GT260。

所以,在比较A卡和N卡的时候,应该用A卡的US和N卡SP进行比较。:p

续而,有可以推出,由于N卡的SP的频率基本为芯片频率的2倍多,所以,在同频的情况下一个A卡的US的执行效率差不多也是一个N卡SP的2倍多点。:p
31#
发表于 2008-6-22 22:29 | 只看该作者
R600的shader unit是1D*5的VLIW,不是简单的4D+1D。
回复 支持 反对

使用道具 举报

30#
发表于 2008-6-22 22:23 | 只看该作者
有什么难想的````
9800GTX的运算能力简单理解是128 X1688=216XXX
4850因为是4D+1D的计算方式.5D其实就是2个SP
就是800/5 X2 X624=20000

同样算法3870和9600GT差不多.性能就是如此
回复 支持 反对

使用道具 举报

29#
发表于 2008-6-22 22:15 | 只看该作者
这样的帖子不得不支持
回复 支持 反对

使用道具 举报

kamuiyay 该用户已被删除
28#
发表于 2008-6-22 21:48 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

27#
发表于 2008-6-22 20:34 | 只看该作者
之所以在这里说了这么多,其实主要还是觉得,过去时我们能简单通过管线数目、显存带宽、辅助晶体管数目就能大致推测一个显卡的性能。
而到了DX10时代,这个标准确变得很主观 很模糊 很难把握:
1. 没有测试,我们什么都推测不到。
2. 同样硬件,一个驱动就是天翻地覆的变化,"神 - 油"背后到底干了什么。
3. 厂家越来越喜欢玩弄概念,没有解决实质的问题而单单喊了很多口号,我们是否有必要为这些概念买单。

不只是我一个人关注这个问题。
http://www.equn.com/forum/viewthread.php?tid=18626&page=1#pid248708
看到一个有意思的回复:
Hi All,

I read a debate going on in the forums as to why ATI core is givingless PPD compared to NVIDIA core. And I see many reasons givenincluding the wu's assigned are different (Definitely that also willimpact) as well as MAYBE NVidia core is NOT DOING Science work justCredit work (ONLY possible if someone has goofed up major whileProgramming - LESS LIKELY because I am sure lot of testing has occuredwithin fah stanford group before releasing the GPU beta to the world.)

For a long time (From the time AMD and NVIDIA came out with Unifiedshaders) I have had a thought in my mind, which seems to be playing outnow if the PPD results are valid (i.e no programming error some where).So let me start =>


EVERYONE has to REALIZE the difference in definition of SPs betweenATI/AMD and NVIDIA. To be frank I would say the way ATI named theirsingle SP has SP is a kind of JOKE (in some ways) compared to NVIDIA.

Based on what I have read about the NVIDIA and ATI GPU Architectures onthe Net (Haven't had time nor a ATI card at hand to write code toverify this yet)

IN NVIDIA __EACH SP__ is capable of doing either FP32 or Integer (ALL ops) or Special_functions.
WHILE
IN AMD __FOR EACH Group of 5 SPs ONLY ONE SP__ can do FP32 orInteger_MUL or Special function, while the other 4 SP can only doSIMPLE INTEGER operations.

So if the code is doing lot of FP operations or special functions orInteger_MUL IN EFFECT one gets only 1/5 th the number of SPs in ATI ascompared to what ATI claims as SPs i.e A ATI chip with 320 SPs is ineffect ONLY 64 SPs. So obviously a ATI performance will be only 50%compared to NVIDIA in the WORST CASE.

However in practice one would find that ATI GPUs will give bit moreperformance than the WORST CASE Mentioned above because IF one can mixthe FP32/IntegerMUL/Special_Functions with Simple_Integer ops then theother 4 SPs out of the 5 SP group in ATI can be utilized. Thusimproving over the WORST CASE which I mentioned.

SO BEFORE JUMPING AND CONCLUDING may be WE have to think of the realityinterms of what is ATI 320 SIMPLE SPs worth compared to NVIDIA 128 FULLSPs.

Note: Also one more thing which can aid ATI a bit could be the betterbranch/thread (i.e independent code) granularity in ATI compared toNVidia. But still the 128 Full SPs in NVidia vs 64 Full SPs in AMD/ATImay not help much for ATI wrt this granularity if the Vector sizes onwhich the operations are occuring are large.

Just my thoughts. Happy to get constructive feedback, even to theextent of telling that my thoughts are rubbish, provided it is backedtechnically. I am starting this thread mainly to understand the G80/G92core VS R600 core architecture/programming advantages/disadvantages.

Keep
HanishKVChanishkvc

这个人的推测倒是告诉了我们一个简单的换算公式,按照AMD的设计,如果继续把SP数目作为硬件指标进行对比的话,AMD和NVIDIA的实际比值是5:1
也就是说
3650的实际SP是120/5 = 24  对应 8600GT的SP数目为32 8500GT是16,3650性能刚好在两者之间
3850的实际SP是320/5= 64 对应 9600GT的SP数目为64,3850性能刚好类似于9600GT
4850的实际SP是800/5=160 超过了8800GT的112,8800GT完败,也超过了9800GTX的128,确实打得标准版的9800GTX无还手之力 只有推出超频版的9800GTX+来对抗
很有趣的是很现实的计算方法。
回复 支持 反对

使用道具 举报

kamuiyay 该用户已被删除
26#
发表于 2008-6-22 10:12 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

25#
发表于 2008-6-22 09:24 | 只看该作者
800:320性能达不到2.5:1很正常,类似的例子已经非常多了。当年4×2结构的fx30/35被8×1的R300整翻就是例子了。两路cpu并行也远达不到1cpu×2的性能,sli/cf也都一样。
我觉得这次ati的失误类似于fx30.指令并行的效果本来就有非常大的弹性,估计很多时候,尤其是theway游戏里面,能够并行的指令比较有限,最坏的情况下是320/5=64打128,再加上频率低的影响。
至于800对320,会不会是因为并行程度增高导致的进一步恶化?还是真的没有塞进去?还是内存总线变化了?俺就不清楚了,高人拿证据吧
回复 支持 反对

使用道具 举报

24#
发表于 2008-6-22 08:36 | 只看该作者
其实应该比较 效能/集体管
多少个sp实现方式不同,需要的资源不同
回复 支持 反对

使用道具 举报

jackpeng33 该用户已被删除
23#
发表于 2008-6-22 08:14 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

22#
发表于 2008-6-22 07:25 | 只看该作者
原帖由 zuiniubi 于 2008-6-22 01:50 发表
显而易见的问题
这代ati的芯片设计本身就有问题
低能架构
扶不起来的阿斗

:p PCI经典的结论
回复 支持 反对

使用道具 举报

21#
发表于 2008-6-22 01:50 | 只看该作者
显而易见的问题
这代ati的芯片设计本身就有问题
低能架构
扶不起来的阿斗
回复 支持 反对

使用道具 举报

20#
发表于 2008-6-22 01:34 | 只看该作者
G92的Sp频率不一样,而且并不知道有没有激活Co-issue(好像从G84开始就有了),况且Ta/tf这些比例也均等了(64).....
经驱动转成微码后,也要把指令打包的,至于怎样把指令打包以喂饱Sp,就看你怎样编译了
回复 支持 反对

使用道具 举报

19#
发表于 2008-6-22 01:23 | 只看该作者
原帖由 feel囝 于 2008-6-22 01:21 AM 发表
还是编译问题吖,800sp是肯定的,但实际怎样利用,可以利用多少,也难说了


既然大家都是为了DX10的unified shader而用了SP这个东西,去代替以前的管线数目。
同样类似的事情也在8800GT 512和老8800GTS 640MB身上发生过,缩减了SP数目的8800GT性能反超了8800GTS 640MB,逼近8800Ultra水准。这在“管线时代”,是很难理解的事,但是“SP时代”确做到了。

为何SP效率差距这么大?而且在差距如此大的情况下,ATI还能赚钱,还有良率保证和充足供货。
同样55nm工艺,R670做到的320个SP、出来时卖的什么价格?SP数目狂增2.5倍的R700,出来时竟然卖得如此便宜。
而对比以前每次GPU芯片更新换代,哪次不是为了解决这些问题而耗上半年时间去修正软硬件的?
类似的板卡设计、类似的功耗、类似的散热设备、快速的供货铺货、价格定位...
由此不由得想到一个可能的解释:既然驱动是ATI自己开发的,它只和DX打交道,程序员只看得见DX接口也看不到驱动内部是如何与硬件交流的。那么这个“800个SP”到底是真的有那么多个处理单元,还是单纯因为“800”这个数字吉利呢?
沿着这个思维继续想下去就很可怕了:其实R700只是在R600核心上为现在的游戏模式优化了一下SP分配算法,调入了一个“黄金比例”使得运算更高效。
所以很好的解决了上述成本、板卡设计、供货、良品率保证、驱动兼容性问题。


再次提醒:仅仅想讨论下结构,不管是自己猜的还是什么都可以交流。非性能、性价比、品牌...讨论。毕竟95%的版面已经都是这些内容了

[ 本帖最后由 privater 于 2008-6-22 01:29 编辑 ]
回复 支持 反对

使用道具 举报

18#
发表于 2008-6-22 01:21 | 只看该作者
还是编译问题吖,800sp是肯定的,但实际怎样利用,可以利用多少,也难说了
回复 支持 反对

使用道具 举报

17#
发表于 2008-6-22 00:58 | 只看该作者
其实说到底我就是不理解,ATI一直倡导并且继续在发展的环形结构到底是为了什么应用而优化?
说游戏、游戏效率差(单指代性能/SP数目后的效率)说并行运算、SP的效率远低于Geforce。
虽然这次HD 4850 不仅在游戏测试中干掉了对手、价格上杀得NVIDIA措手不及、拥有10亿晶体管的核心,卖得如此便宜可见成本上确实做到了低价、最后还能大面积铺货说明产能和良率也得到很好的控制。

但是,把这些光环去掉,单从结构上来说800SP 比 320SP 数目比是2.5:1,性能上只有1.3:1(4850:3850)

to 3楼:AMD这种通过“堆料”的方式提高性能,也许间接说明并非SP闲置、而是SP不足

to 19楼:这种看法是之前很多人认为的。毕竟cuda驱动出来之前,我们无法比较38x0和8800系列的并行数据处理能力。当时人们都是认为既然hd3870能在F@h里面达到1400PPD、那么8800GT最多就700-800PPD,而HD4850他们乐观的估计为3000-4000。但是当成绩出来后他们就吃惊了。(参考上面的图,这里只是暂时借用PPD参数说明问题,如果比较实际性能应该用计算周期ns作为比较单位最合适,排除掉CPU后,GPU的计算周期能力的排序与PPD表相同)据外国网友反映HD4850甚至还不如HD3850,当然目前官方小组的结论是未优化的缘故。

所以我就在想:ATI真的是做了800个SP出来么?

再次提醒:仅仅想讨论下结构,不管是自己猜的还是什么都可以交流。非性能、性价比、品牌...讨论。毕竟95%的版面已经都是这些内容了

[ 本帖最后由 privater 于 2008-6-22 01:30 编辑 ]
回复 支持 反对

使用道具 举报

16#
发表于 2008-6-22 00:55 | 只看该作者
原帖由 china17 于 2008-6-22 00:40 发表
问题是,AMD的努力还是没有使其GPU达到本应能发挥的计算能力


http://foldingforum.org/viewtopi ... p;sd=a&start=45

mhouston: " We chose to go for stability first and we are working on performance tuning now. "
回复 支持 反对

使用道具 举报

15#
发表于 2008-6-22 00:46 | 只看该作者
原帖由 Ptaltaica 于 2008-6-22 00:17 发表
360开发比PS3容易是因为Cell,和GPU有什么关系?.........


系统的关系吧?
回复 支持 反对

使用道具 举报

14#
发表于 2008-6-22 00:45 | 只看该作者
原帖由 cataclyson 于 2008-6-22 00:09 发表
还是绝大多数游戏用不到4D,造成了ATI的SP浪费闲置,当初ATI要能意料到这点估计不至于像今天这么被动。ATI浪费的晶体管太多了:(


赌博而已。要是早知道下期双色球开什么号码。。。
回复 支持 反对

使用道具 举报

13#
发表于 2008-6-22 00:32 | 只看该作者
原帖由 beer966 于 2008-6-22 00:28 发表
最早提供并不代表研究得更深.......这方面还是承认NV比较投入精力.....:loveliness:

AMD是从RADEON R580的时候就提供FAH GPU硬件加速,你一句话研究得不更深就把AMD团队的努力给抹杀了。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-12-1 17:44

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表