POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
楼主: Eji
打印 上一主题 下一主题

替RV770說點好話

[复制链接]
21#
发表于 2008-3-12 00:07 | 只看该作者
ATI卡向来设计很好,理论性能很好很强大,但实际上除了9800P基本上没有什么好货,关键是驱动太烂,一流的技术,二流的销售,三流的驱动也就这样了
回复 支持 反对

使用道具 举报

G70 该用户已被删除
22#
发表于 2008-3-12 00:26 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

头像被屏蔽
23#
发表于 2008-3-12 01:05 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

头像被屏蔽
24#
发表于 2008-3-12 01:13 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

25#
发表于 2008-3-12 01:26 | 只看该作者
只能说ATI架构是先天不足,而对该低效率架构的不断强化只能使其固有的缺陷不断凸显……:wacko:
回复 支持 反对

使用道具 举报

26#
 楼主| 发表于 2008-3-12 02:50 | 只看该作者
原帖由 1empress 于 2008-3-12 01:05 发表
G9X系列分支指令调度,隐藏延迟这部分功能效率很好,可以百分之百的喂饱SP,但我猜测相应的逻辑电路也非常复杂难做,即使新制程也不能缩小多少面积,所以NV制程上保守,之所以占用这么大面积不应是制程落后的原因,而是面积根本就减不下来,造成成本居高不下

相反ATI宁可用DX9时代的落后设计缝缝补补,也不愿意把5D更换为类似SP的设计,原因也在于此,毕竟市场定位类似的东西,拼的是售价.


well,其實Ultra Threading Dispatch Processor也非常複雜XD ....這是ATI只加SP的原因。
你只要把NVIDIA的架構當成每個TPC裡面有一個1/8大小的UTDP就好了。(而且一個巨大的UTDP,結構比8個小的分支processor複雜的可能性高得多)
現在ATI的確是沒有把5D換成1D-SP,因為現在ATI修改任何一個部份都會花非常多的時間,也會影響Driver結構,所以ATI都以增減固定設計的元件來調整產品策略;
但是實際上是把5D當1D-SP在用了..._A_

如果也把分支性能的犧牲列入考慮,NVIDIA也可以輕易地追加SP數量,這是CUDA結構裡面允許的:
G92規模追加到只剩與RV770類似的分支性能、也就是128~160pixel per branch的話,G92可以做到每個TPC有8~10個multi-processor(目前每個TPC內是2個multi-processor,也就是2個8D),
同樣可以取得4~5倍的浮點性能提升(而且是咦髟
回复 支持 反对

使用道具 举报

头像被屏蔽
27#
发表于 2008-3-12 03:28 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

头像被屏蔽
28#
发表于 2008-3-12 03:39 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

29#
 楼主| 发表于 2008-3-12 05:03 | 只看该作者
原帖由 k10 于 2008-3-12 03:39 发表
所以说R7XX 砸资源是省时又省力的做法:loveliness:


這個測試可以看出Pixel Shader是最大的負載,但卻看不出來"怎樣的pixel shader"造成這麼大的負載....:loveliness:

[ 本帖最后由 Eji 于 2008-3-12 05:08 编辑 ]
回复 支持 反对

使用道具 举报

30#
发表于 2008-3-12 08:40 | 只看该作者
Eji的意思是RV770的扩展式架构不是什么好东西。一方面是用尽可能少的晶体管代价提高效能,一方面是规模扩大造成执行效率下降。Eji也倾向于标量架构是GPU的未来了吗?那为什么Intel没有选择标量的路子呢?我不认为AMD架构缺陷和矢量单元有必然关系。倒是暴露出传统架构在新一代指令执行上的力不从心。不过NV的标量架构现在看也好不了多少。
回复 支持 反对

使用道具 举报

头像被屏蔽
31#
发表于 2008-3-12 08:49 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

32#
发表于 2008-3-12 09:37 | 只看该作者
原帖由 k10 于 2008-3-12 03:28 发表
单就CRYSIS来讲  瓶井不在SP 而在是shader

AMD GPU PerfStudio v1.2是一个基于单帧的分析工具,分析的是单帧的硬件静态数据。原理很简单,通过driver,hook住所有的api序列,然后分析的时候开始回放api序列,就可以 ...


这些分析获得的意义很小

crysis的shader是最大瓶颈,这个不是什么秘密,已经是妇孺皆知的东西

这个测试只抽象的告诉你shader是瓶颈,但是shader可以有无数种写法,crysis是卡在哪些shader上?

RV670的FLOPS超过8800U一大截,可以说它的理论shader性能也是超过8800U一大截,但是实际跑起来,2张RV670都不见得有8800U那么快。因此关键是“次世代游戏对哪些shader需求旺盛”,而不是只提高shader理论数值

前面已经指出了,RV770的改变,虽然总flops是提升的,但是会造成复杂shader(例如包含了分支/跳转语句的shader)执行效率的下降,
回复 支持 反对

使用道具 举报

33#
发表于 2008-3-12 09:47 | 只看该作者
原帖由 Eji 于 2008-3-11 19:24 发表


這邊講的是memory hierarchy,G80在這方面有在TPC裡面擺一組scratch pad memory(16KB share memory),還有constance register、temp register都已經有做到virtualize了,所以理論上G8x的資源是無限的;
R6x0這方 ...

感谢E大解释了!!其实还是不怎么明白XD
E大的意思……RV770因为缺乏存储器所以效率会低吗?至少可以达到R520->R580的性能提升吧?
回复 支持 反对

使用道具 举报

34#
发表于 2008-3-12 09:51 | 只看该作者
这文章是最近难得的好文章了  不过如果是4bank x 40個shader的话 那就只有对AMD太失望了  难道新增加的SP都来做AA了?
回复 支持 反对

使用道具 举报

35#
发表于 2008-3-12 10:03 | 只看该作者
原帖由 287381906 于 2008-3-12 09:47 发表

感谢E大解释了!!其实还是不怎么明白XD
E大的意思……RV770因为缺乏存储器所以效率会低吗?至少可以达到R520->R580的性能提升吧?


不是存储器,是存储器与GPU时钟差距带来的延迟

其实你可以自己算一下:

以Radeon 3870为例,它的核心部件,也就是ALU/reg file/UTDP 的工作时钟是770MHz,这样它内部每个时钟周期的长度在1.3ns左右.它搭配的显存的核心时钟只有250MHz左右(2.2GHz GDDR4),显存本身的工作周期再算上存储器的寻址延迟、路径延迟、MC带来的延迟,如果GPU对显存发出一条读取指令,那么数据至少要等几十个ns才可以送到GPU流水线,这样以GPU的时钟计算,就有几十上百个周期无事可做

因此在GPU内部引入cache,尽量减少对外部存储器的读取;还引入multi-threading,将一个大的shader分成若干个分支的形式执行,如果某个分支或者说子进程陷入到存储器读取延迟,那么就给该ALU切换其他任务,直到数据抓回来之前一直保证流水线充沛的工作。

multi-threading也是G80最强悍的地方,远远超过R6XX
回复 支持 反对

使用道具 举报

36#
发表于 2008-3-12 10:03 | 只看该作者
原帖由 airforce14 于 2008-3-12 09:51 发表
这文章是最近难得的好文章了  不过如果是4bank x 40個shader的话 那就只有对AMD太失望了  难道新增加的SP都来做AA了?


如果是4X40那AMD真的傻掉了。
回复 支持 反对

使用道具 举报

头像被屏蔽
37#
发表于 2008-3-12 10:23 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

38#
 楼主| 发表于 2008-3-12 10:46 | 只看该作者
原帖由 shu0202 于 2008-3-12 08:40 发表
Eji的意思是RV770的扩展式架构不是什么好东西。一方面是用尽可能少的晶体管代价提高效能,一方面是规模扩大造成执行效率下降。Eji也倾向于标量架构是GPU的未来了吗?那为什么Intel没有选择标量的路子呢?我不认为AMD架构缺陷和矢量单元有必然关系。倒是暴露出传统架构在新一代指令执行上的力不从心。不过NV的标量架构现在看也好不了多少。


well,我不覺得哪種ALU結構是所謂的"未來".... 我只是覺得夠強的記憶體延遲遮蔽、夠好的multi-threading、夠高的電晶體效率才是關鍵。比方說,NVIDIA的ALU底層其實還是SIMD,只是中間有架一層額外的高速移位單元來遮蔽這些特性。

G100/GT200應該會把share memory的容量做大幅的提升,如果傳聞的1800M可信,那麼16個TPC可以每個都放256KB的share memory....內部實質可用頻寬會大幅增加。
回复 支持 反对

使用道具 举报

39#
发表于 2008-3-12 11:46 | 只看该作者
好文章,一定要顶,认真学习。
回复 支持 反对

使用道具 举报

40#
发表于 2008-3-12 11:47 | 只看该作者
原帖由 Asuka 于 2008-3-12 10:03 发表


不是存储器,是存储器与GPU时钟差距带来的延迟

其实你可以自己算一下:

以Radeon 3870为例,它的核心部件,也就是ALU/reg file/UTDP 的工作时钟是770MHz,这样它内部每个时钟周期的长度在1.3ns左右.它搭配 ...


这个看起来通俗易懂的多,各位版主发言还是不一样啊。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-8-18 04:34

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表