既然都是US，那R600也一定有类似G80-Gigathread的功能吧

ghrs2010 · 发表于 2006-11-17 15:16

原帖由 来不及思考 于 2006-11-17 15:14 发表

tex fetch那种规模的延迟都能掩盖，相比之下这些算术指令实在不算什么

G80的问题根本就不在于效率，这点我现在就敢保证G80绝对可以有效率优势
G80的问题是执行能力比R600不如

问题在于效率和资源往往是矛盾的

大死人花 · 发表于 2006-11-17 15:22

原帖由 ghrs2010 于 2006-11-17 15:11 发表

请看原文,他说的是5D+1D

我写错了，R600是4D+1D，R580是3D+1D

pkking · 发表于 2006-11-17 15:23

学习。...:a) :a)

pliflier · 发表于 2006-11-17 16:23

原帖由 ghrs2010 于 2006-11-17 15:08 发表

非常好奇地问一句:5D是什么玩艺?

2D+3D=5Dw00t)

只看该作者 · 发表于 2006-11-17 16:25

提示: 作者被禁止或删除内容自动屏蔽

Eji · 发表于 2006-11-17 16:37

原帖由 shu0202 于 2006-11-17 14:16 发表
多数情况下4D比1D的效率要好得多。至于架构的灵活性也只能是在现有工艺局限性下讨论。我想NV可能是想打造一个“彻底的US”架构，所以把空前的灵活性放在了优先考虑的地位。但是理论上讲，4D并不是不灵活。如果设 ...

不必設想，R680就是這樣的設計，同樣是R520 -> R580的觀念。
可能有高達192個(64x3)的ALU，但是thread不會增加，所以理論上就是R600的2x效能。
(ALU資源3x、分支開銷3倍，兩相抵銷之後2x左右的performance，電晶體沒有顯著增加)

但是，G80並沒有G70/G71的thread資源限制，R680能夠像R580一樣，只要屬於thread吃重就能大贏G71？我想會有疑問；
而且目前G80的Shader Array還離它的時脈限界很遠，現在是結構上的散熱不良造成時脈限制，re-spin過就會有不一樣的表現，
更別提換到65nm process。

總之，從結構上來說雙方都有各自的贏面，G80早發表是為了對抗XBOX360的長期優勢，
R600的兩段式產品配置也有其後著存在，而4D的效率缺陷有額外的1D可以做修補，
現在要再遇上當年NV30那種狀況，我覺得可能還要再多拜拜才看得到。

[ 本帖最后由 Eji 于 2006-11-17 16:41 编辑 ]

只看该作者 · 发表于 2006-11-17 16:41

提示: 作者被禁止或删除内容自动屏蔽

只看该作者 · 发表于 2006-11-17 16:45

提示: 作者被禁止或删除内容自动屏蔽

Eji · 发表于 2006-11-17 16:50

原帖由 ghrs2010 于 2006-11-17 15:16 发表

问题在于效率和资源往往是矛盾的

主要都是所謂的overhead....
1D可以帶來100%的使用率，但是結合的時候有overhead、增加的control也是成本，所以有做co-issue。
4D的話普遍來說就是70%上下，所以那個+1D自然是有其必要。

但是話說資源又有一個很妙的地方存在對比：
NVIDIA認為Programmable資源寶貴，所以持續地強化hardwired unit的規模來當輔助；
ATI則認為全面的programmable才能調配資源，避免hardwired不可挪用調整的浪費，
所以TMU和ROP不增加，FP filtering由ALU處理。

這應該是各有看法，各有主張的程度.... 還不到誰對誰錯的問題。
比方說我自己是認為TMU/ROP是輔助ALU做steam process吞吐時的加速器，
就像MPEG decoder一樣應該全面具備；但是ATI覺得有Fetch4這樣的功能來輔助ALU的話，
以大量的thread為後盾，就可以讓ALU做類似softshadow filter/PCF filter一樣吃效能的東西，
R580證明這樣的作法和hardwired的PCF相比毫不遜色，但是我還是比較喜歡Hardwired....

所以當討論進入平行線的時候，或許留給時間證明才是適當的。

只看该作者 · 发表于 2006-11-17 16:55

提示: 作者被禁止或删除内容自动屏蔽

Eji · 发表于 2006-11-17 16:55

原帖由 zl841226 于 2006-11-17 16:41 发表
某人说，R600最多应该可以扩展到256个US........也就是和C1一样，16US per bank.....................:huh:

我知道，我也這麼認為；
但是就像R5x0其實可以做到128個shader per-bank、最大512個shader的時候，
卻只做到48個shader一樣，真的把Shader照理論擴充能力做滿，那只會有極為大量的閒置ALU而已。
所以我想應該就是類似當初R520 -> R580的3x成長比率，因為R600->R680還是在現在的ring-bus結構上的關係。

而目前所知，G8x的賣點似乎是shader array的可達時脈....

ayanamei · 发表于 2006-11-17 19:53

R600还是纯粹Shader power为主要考虑的思路。极限的branch性能不太可能是为了PixelShader的常规应用准备的，至少维持原来的设计可以以比较低的成本维持Shader power.
G80实现128x scalar Stream processor事实上应该是付出了相当大的代价在Gigathreading上面。

ayanamei · 发表于 2006-11-17 19:59

原帖由 来不及思考 于 2006-11-17 15:04 发表

不是4个当一个用，而是1个标量单元用4个周期来完成
期间造成的延迟Gigathread完全可以掩藏，所以说是免费的

严格的来说不光是延迟控制指令一样要多3条虽然不多但不可以忽视开销
全面跑4D Vector 1D ALU还是有损的。
但是实际情况这些额外的损失在更多的1D操作中可以赚回来

只看该作者 · 发表于 2006-11-17 20:03

提示: 作者被禁止或删除内容自动屏蔽

ayanamei · 发表于 2006-11-17 20:06

原帖由 来不及思考 于 2006-11-17 20:03 发表

SIMD的特点就是指令发射数和执行能力的不对等
G80在很大程度上粉碎了这个障碍，相对于R600，这些多出的控制指令开销可以说是免费的

一定程度上免费吧死嚼这个问题没意思也罢

只看该作者 · 发表于 2006-11-18 02:26

提示: 作者被禁止或删除内容自动屏蔽

只看该作者 · 发表于 2006-11-18 03:02

提示: 作者被禁止或删除内容自动屏蔽

ghrs2010 · 发表于 2006-11-18 07:04

原帖由 来不及思考 于 2006-11-18 03:02 发表
G80好玩的地方在于:很少有人理解这个新体系的真正含义

这也正好
我等着看工艺壁垒被粉碎的那天

工艺壁垒是对等的吧,如果R600做到256US呢?

好吧,那个某人就是我

另外,个人认为R600很难简单地认为就是C1的方法增强,不过要说两者没有关系也不至于(所以我觉得思考兄稍微有一些低估的味道,至于Leo大说"不是大多数人现象的样子"也不是很理解----那是什么样子)

Eji · 发表于 2006-11-18 07:41

原帖由 leo8008 于 2006-11-18 02:52 发表

ringbus就是一个明显的为了效率而接近画蛇添足的玩意。
试想r520若是r580的无rb版本（反正晶体管也差不多），g7X系列还能这么轻松么？若rv570缩到2.9亿呢？

我想不至於，如果R5x0沒有ring-bus，那很可能就沒有1950xtx GDDR4版了。(逃
他們說的crossbar MC的散熱問題，不見得nVIDIA會遇到，但是至少應該代表他們遇到了。
所以沒有做Ring-bus的話，可能代表沒辦法弄出高頻的MC來支援GDDR4。

另外，R5x0的大量thread到底算不算畫蛇添足？
今天是有不少thread吃重的東西讓G7x不太輕鬆沒錯，
不過首先這種寫法就不見得是好事。
(我現在還是覺得softshadow filter用分支寫很病態，hardwired PCF就搞定啦？)

Eji · 发表于 2006-11-18 07:50

原帖由 ghrs2010 于 2006-11-18 07:04 发表

工艺壁垒是对等的吧,如果R600做到256US呢?

好吧,那个某人就是我

另外,个人认为R600很难简单地认为就是C1的方法增强,
不过要说两者没有关系也不至于(所以我觉得思考兄稍微有一些低估的味道,至于Leo大说 ...

作256US沒什麼不好啊，只是和R5x0做到512PS一樣，2/3的shader大概都是閒置的吧。
C1現在就苦於thread不足問題，ALU利用率只有1/2左右。
但是320M -> 384M從16變成48個ps，一個ALU大約2M，全部加滿就1280M了。
這些單元有多少ps會有thread來推動很讓人懷疑，die size的問題就先別提了。
R600和C1終究是有落差，落差最大的應該就是thread數量部分。

G80的process wall主要是那些shader如何走向更高頻，
和R6x0的US數量應該是不同的問題才對；當然R6x0的ALU資源有機會達到很驚人的地步。

帐号		自动登录	找回密码
密码			注册

zl841226 该用户已被删除	45^# 发表于 2006-11-17 16:25 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
zl841226 该用户已被删除
	回复支持反对使用道具举报显身卡

zl841226 该用户已被删除	47^# 发表于 2006-11-17 16:41 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
zl841226 该用户已被删除
	回复支持反对使用道具举报显身卡

来不及思考该用户已被删除	48^# 发表于 2006-11-17 16:45 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
来不及思考该用户已被删除
	回复支持反对使用道具举报显身卡

来不及思考该用户已被删除	50^# 发表于 2006-11-17 16:55 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
来不及思考该用户已被删除
	回复支持反对使用道具举报显身卡

来不及思考该用户已被删除	54^# 发表于 2006-11-17 20:03 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
来不及思考该用户已被删除
	回复支持反对使用道具举报显身卡

来不及思考该用户已被删除	56^# 发表于 2006-11-18 02:26 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
来不及思考该用户已被删除
	回复支持反对使用道具举报显身卡

来不及思考该用户已被删除	57^# 发表于 2006-11-18 03:02 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
来不及思考该用户已被删除
	回复支持反对使用道具举报显身卡

既然都是US，那R600也一定有类似G80-Gigathread的功能吧

浏览过的版块