替RV770說點好話

yyloveyou · 发表于 2008-3-12 00:07

ATI卡向来设计很好，理论性能很好很强大，但实际上除了9800P基本上没有什么好货，关键是驱动太烂，一流的技术，二流的销售，三流的驱动也就这样了

只看该作者 · 发表于 2008-3-12 00:26

提示: 作者被禁止或删除内容自动屏蔽

1empress · 发表于 2008-3-12 01:05

提示: 作者被禁止或删除内容自动屏蔽

1empress · 发表于 2008-3-12 01:13

提示: 作者被禁止或删除内容自动屏蔽

chancejoe · 发表于 2008-3-12 01:26

只能说ATI架构是先天不足，而对该低效率架构的不断强化只能使其固有的缺陷不断凸显……:wacko:

Eji · 发表于 2008-3-12 02:50

原帖由 1empress 于 2008-3-12 01:05 发表
G9X系列分支指令调度，隐藏延迟这部分功能效率很好，可以百分之百的喂饱SP,但我猜测相应的逻辑电路也非常复杂难做，即使新制程也不能缩小多少面积，所以NV制程上保守，之所以占用这么大面积不应是制程落后的原因，而是面积根本就减不下来，造成成本居高不下

相反ATI宁可用DX9时代的落后设计缝缝补补，也不愿意把5D更换为类似SP的设计，原因也在于此，毕竟市场定位类似的东西，拼的是售价.

well，其實Ultra Threading Dispatch Processor也非常複雜XD ....這是ATI只加SP的原因。
你只要把NVIDIA的架構當成每個TPC裡面有一個1/8大小的UTDP就好了。(而且一個巨大的UTDP，結構比8個小的分支processor複雜的可能性高得多)
現在ATI的確是沒有把5D換成1D-SP，因為現在ATI修改任何一個部份都會花非常多的時間，也會影響Driver結構，所以ATI都以增減固定設計的元件來調整產品策略；
但是實際上是把5D當1D-SP在用了..._A_

如果也把分支性能的犧牲列入考慮，NVIDIA也可以輕易地追加SP數量，這是CUDA結構裡面允許的：
G92規模追加到只剩與RV770類似的分支性能、也就是128~160pixel per branch的話，G92可以做到每個TPC有8~10個multi-processor(目前每個TPC內是2個multi-processor，也就是2個8D)，
同樣可以取得4~5倍的浮點性能提升(而且是咦髟

k10 · 发表于 2008-3-12 03:28

提示: 作者被禁止或删除内容自动屏蔽

k10 · 发表于 2008-3-12 03:39

提示: 作者被禁止或删除内容自动屏蔽

Eji · 发表于 2008-3-12 05:03

原帖由 k10 于 2008-3-12 03:39 发表
所以说R7XX 砸资源是省时又省力的做法:loveliness:

這個測試可以看出Pixel Shader是最大的負載，但卻看不出來"怎樣的pixel shader"造成這麼大的負載....:loveliness:

[ 本帖最后由 Eji 于 2008-3-12 05:08 编辑 ]

shu0202 · 发表于 2008-3-12 08:40

Eji的意思是RV770的扩展式架构不是什么好东西。一方面是用尽可能少的晶体管代价提高效能，一方面是规模扩大造成执行效率下降。Eji也倾向于标量架构是GPU的未来了吗？那为什么Intel没有选择标量的路子呢？我不认为AMD架构缺陷和矢量单元有必然关系。倒是暴露出传统架构在新一代指令执行上的力不从心。不过NV的标量架构现在看也好不了多少。

天下18 · 发表于 2008-3-12 08:49

提示: 作者被禁止或删除内容自动屏蔽

Asuka · 发表于 2008-3-12 09:37

原帖由 k10 于 2008-3-12 03:28 发表
单就CRYSIS来讲瓶井不在SP 而在是shader

AMD GPU PerfStudio v1.2是一个基于单帧的分析工具，分析的是单帧的硬件静态数据。原理很简单，通过driver,hook住所有的api序列，然后分析的时候开始回放api序列，就可以 ...

这些分析获得的意义很小

crysis的shader是最大瓶颈，这个不是什么秘密，已经是妇孺皆知的东西

这个测试只抽象的告诉你shader是瓶颈，但是shader可以有无数种写法，crysis是卡在哪些shader上？

RV670的FLOPS超过8800U一大截，可以说它的理论shader性能也是超过8800U一大截，但是实际跑起来，2张RV670都不见得有8800U那么快。因此关键是“次世代游戏对哪些shader需求旺盛”，而不是只提高shader理论数值

前面已经指出了，RV770的改变，虽然总flops是提升的，但是会造成复杂shader（例如包含了分支/跳转语句的shader）执行效率的下降，

287381906 · 发表于 2008-3-12 09:47

原帖由 Eji 于 2008-3-11 19:24 发表

這邊講的是memory hierarchy，G80在這方面有在TPC裡面擺一組scratch pad memory(16KB share memory)，還有constance register、temp register都已經有做到virtualize了，所以理論上G8x的資源是無限的；
R6x0這方 ...

感谢E大解释了！！其实还是不怎么明白XD
E大的意思……RV770因为缺乏存储器所以效率会低吗？至少可以达到R520->R580的性能提升吧？

airforce14 · 发表于 2008-3-12 09:51

这文章是最近难得的好文章了不过如果是4bank x 40個shader的话那就只有对AMD太失望了难道新增加的SP都来做AA了?

Asuka · 发表于 2008-3-12 10:03

原帖由 287381906 于 2008-3-12 09:47 发表

感谢E大解释了！！其实还是不怎么明白XD
E大的意思……RV770因为缺乏存储器所以效率会低吗？至少可以达到R520->R580的性能提升吧？

不是存储器，是存储器与GPU时钟差距带来的延迟

其实你可以自己算一下：

以Radeon 3870为例，它的核心部件，也就是ALU/reg file/UTDP 的工作时钟是770MHz，这样它内部每个时钟周期的长度在1.3ns左右.它搭配的显存的核心时钟只有250MHz左右（2.2GHz GDDR4），显存本身的工作周期再算上存储器的寻址延迟、路径延迟、MC带来的延迟，如果GPU对显存发出一条读取指令，那么数据至少要等几十个ns才可以送到GPU流水线，这样以GPU的时钟计算，就有几十上百个周期无事可做

因此在GPU内部引入cache，尽量减少对外部存储器的读取；还引入multi-threading，将一个大的shader分成若干个分支的形式执行，如果某个分支或者说子进程陷入到存储器读取延迟，那么就给该ALU切换其他任务，直到数据抓回来之前一直保证流水线充沛的工作。

multi-threading也是G80最强悍的地方，远远超过R6XX

shu0202 · 发表于 2008-3-12 10:03

原帖由 airforce14 于 2008-3-12 09:51 发表
这文章是最近难得的好文章了不过如果是4bank x 40個shader的话那就只有对AMD太失望了难道新增加的SP都来做AA了?

如果是4X40那AMD真的傻掉了。

天下18 · 发表于 2008-3-12 10:23

提示: 作者被禁止或删除内容自动屏蔽

Eji · 发表于 2008-3-12 10:46

原帖由 shu0202 于 2008-3-12 08:40 发表
Eji的意思是RV770的扩展式架构不是什么好东西。一方面是用尽可能少的晶体管代价提高效能，一方面是规模扩大造成执行效率下降。Eji也倾向于标量架构是GPU的未来了吗？那为什么Intel没有选择标量的路子呢？我不认为AMD架构缺陷和矢量单元有必然关系。倒是暴露出传统架构在新一代指令执行上的力不从心。不过NV的标量架构现在看也好不了多少。

well，我不覺得哪種ALU結構是所謂的"未來".... 我只是覺得夠強的記憶體延遲遮蔽、夠好的multi-threading、夠高的電晶體效率才是關鍵。比方說，NVIDIA的ALU底層其實還是SIMD，只是中間有架一層額外的高速移位單元來遮蔽這些特性。

G100/GT200應該會把share memory的容量做大幅的提升，如果傳聞的1800M可信，那麼16個TPC可以每個都放256KB的share memory....內部實質可用頻寬會大幅增加。

lcd21 · 发表于 2008-3-12 11:46

好文章，一定要顶，认真学习。

lcd21 · 发表于 2008-3-12 11:47

原帖由 Asuka 于 2008-3-12 10:03 发表

不是存储器，是存储器与GPU时钟差距带来的延迟

其实你可以自己算一下：

以Radeon 3870为例，它的核心部件，也就是ALU/reg file/UTDP 的工作时钟是770MHz，这样它内部每个时钟周期的长度在1.3ns左右.它搭配 ...

这个看起来通俗易懂的多，各位版主发言还是不一样啊。

帐号		自动登录	找回密码
密码			注册

G70 该用户已被删除	22^# 发表于 2008-3-12 00:26 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
G70 该用户已被删除
	回复支持反对使用道具举报显身卡

1empress 1empress 当前离线积分 8 IP卡狗仔卡头像被屏蔽	23^# 发表于 2008-3-12 01:05 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
1empress 1empress 当前离线积分 8 IP卡狗仔卡头像被屏蔽
	回复支持反对使用道具举报显身卡

1empress 1empress 当前离线积分 8 IP卡狗仔卡头像被屏蔽	24^# 发表于 2008-3-12 01:13 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
1empress 1empress 当前离线积分 8 IP卡狗仔卡头像被屏蔽
	回复支持反对使用道具举报显身卡

k10 k10 当前离线积分 13 IP卡狗仔卡头像被屏蔽	27^# 发表于 2008-3-12 03:28 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
k10 k10 当前离线积分 13 IP卡狗仔卡头像被屏蔽
	回复支持反对使用道具举报显身卡

k10 k10 当前离线积分 13 IP卡狗仔卡头像被屏蔽	28^# 发表于 2008-3-12 03:39 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
k10 k10 当前离线积分 13 IP卡狗仔卡头像被屏蔽
	回复支持反对使用道具举报显身卡

天下18 天下18 当前离线积分 24 IP卡狗仔卡头像被屏蔽	31^# 发表于 2008-3-12 08:49 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
天下18 天下18 当前离线积分 24 IP卡狗仔卡头像被屏蔽
	回复支持反对使用道具举报显身卡

天下18 天下18 当前离线积分 24 IP卡狗仔卡头像被屏蔽	37^# 发表于 2008-3-12 10:23 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
天下18 天下18 当前离线积分 24 IP卡狗仔卡头像被屏蔽
	回复支持反对使用道具举报显身卡

替RV770說點好話

浏览过的版块