为什么RV630比G84多了1亿晶体管性能却不怎么样？

Edison · 发表于 2007-6-14 23:56

只要神dri上身，你就会看到多出的1亿晶体管的闪光点:)

天下18 · 发表于 2007-6-14 23:58

提示: 作者被禁止或删除内容自动屏蔽

只看该作者 · 发表于 2007-6-15 00:11

提示: 作者被禁止或删除内容自动屏蔽

saintangel · 发表于 2007-6-15 00:53

原帖由 Elwin 于 2007-6-15 00:26 发表
RV530和G73也差不多，性能平均落后70%

这位RV630性能落后15%，当然要多点了～:p

你太恶毒了……在完美driver的驱动下，RV630一定是可以hit G80的！

7121518 · 发表于 2007-6-15 02:02

唉,又被逼疯了一位.

Eji · 发表于 2007-6-15 03:36

原帖由 lqf3dnow 于 2007-6-14 19:43 发表
UVD很费晶体管么？
256bit Ringbus很费晶体管么？

按照思考说的：
1，Ringbus延迟高，效率也不如Xbar，128bit的XBar布线很难么？
2，5D ALU比1D ALU要节省晶体管，24US比32SP很费晶体管么？

1. 佈線難度應該不是問題，但是產生的熱量和複雜度都容易讓crossbar出問題。

2. 5D ALU比1D ALU節省電晶體是"同樣做到一樣的規模時"比較節省，
或者是同樣的電晶體數可以做到比較大的理論性能，並不是說單5D Vector可以比1D scalar來得小。
這就造成了大略相同的電晶體、扣掉雙方都有的一堆雜七雜八的東西、R600的320D大幅超過NVIDIA的128D。

UVD的總規模和PureVideo2應該不會相去太遠。新增的HD-Audio因為沒有類比部分、功能也相當精簡，並不會過於複雜。
256bit Ringbus應該是wiring的問題，不是transistors的問題，照理說只是占die size但是不會占大量的管子。

所以我覺得這是架構思考上的邏輯問題。
當年NV30的VLIW也花了相當多精神，到NV40才比較有點成果(而且NV40應該算是靠SM3的話題性把X800打敗的吧)，等到G70的時候硬體面的強化已經差不多把VLIW的帶來的問題點cover掉、軟體部份也培植得夠久了。
R600的VLIW也該花一定程度的時間才會有成果吧？

[ 本帖最后由 Eji 于 2007-6-15 03:41 编辑 ]

saintangel · 发表于 2007-6-15 04:44

Eji解释的很透彻啊
意思就是友商要到R800才能驱动成熟？

Eji · 发表于 2007-6-15 05:24

原帖由 Elwin 于 2007-6-15 04:52 发表
NV40强于R420除了Sm3.0，还靠每管线两个FP32 shader。每次跑pixel shader，NV40都能以低得多的频率得到更高的成绩。好像还能搞什么2D+2D，不是单纯的4D。

兩個FP32 shader應該不是比R420強的關鍵，NV4x/G7x的Shader ALU1與TMU共用指令單元的關係，如果shader較短的話TMU損失的那個cycle其實還是會很明顯，R420的TMU獨立、還有mini-ALU，僅論資源數量的話R4x0是有輸、但沒有輸太多；只是功能部分較弱則是很明顯的。

而且NV4x的時候Shader ALU2並沒有MAD的關係，指令其實偏向兩個ALU互補....直到G7x的時候兩個ALU才各自比較有獨立性。到SM3末期重點又加上分支密度之後G7x才因為register file資源不足敗下陣來，G8x則徹底改善這個問題。

考慮PS ALU數量(3D+1D+2D+2D，疑似還有輔助的Scalar、然後24組)，如果當初以G7x為基礎增設register file來強化分支性能的話.... 很可能會比G8x規模還大，但是表現卻沒有比較好。
因為G7x的指令分派也靠VLIW來管制co-issue/dual-issue....儘管這個compiler從NV3x/4x發展到G7x足足三代，但是和完全硬體排列(不提供user干涉)的G8x單純scalar排程比起來效率還是很值得質疑。

考慮G8x的開發是比G7x還早著手的，NVIDIA應該是在NV4x就已經看到這個問題。所以同樣的問題發生在R600身上，只能說出來走的總是得還....

[ 本帖最后由 Eji 于 2007-6-15 05:34 编辑 ]

aibo · 发表于 2007-6-15 07:11

原帖由 Eji 于 2007-6-15 05:24 发表

兩個FP32 shader應該不是比R420強的關鍵，NV4x/G7x的Shader ALU1與TMU共用指令單元的關係，如果shader較短的話TMU損失的那個cycle其實還是會很明顯，R420的TMU獨立、還有mini-ALU，僅論資源數量的話R4x0是有 ...

e大的意思是，VILW已经out了？那R600岂不是最初就站错了队？可怜的孩子:sweatingbullets:

冰山 · 发表于 2007-6-15 07:26

原帖由 bolk001 于 2007-6-14 23:48 发表
加了许多功能自然大了不少，也排除，AMD保留了，等待给N卡最后一击。

不错，现在AMD全面领先出招连连，想怎么玩就怎么玩

Eji · 发表于 2007-6-16 04:36

原帖由 aibo 于 2007-6-15 07:11 发表
e大的意思是，VILW已经out了？那R600岂不是最初就站错了队？可怜的孩子:sweatingbullets:

唔，其實我不是這個意思....
VLIW最大的問題是效率，但是畢竟它還是一個相對之下很適合生產的結構。G7x因為還有Crossbar之類的的部分，R600已經全面改成Ringbus了。我是覺得生產性取向R600是比G7x徹底些。

簡單講就是說，雖然結構上的持續效率可能不能期待，但是只要它有比較好生產，兩倍大的規模沒辦法比較快，三倍大總有辦法吧？

G8x現在的問題就是擴充性，與Register file結合的TCP數量很難擴充，擴充就會大幅增加規模，G92目前看來就是G80兩倍左右的超大怪獸。要提升性能，比較保險的狀況是提升時脈，但是這會大幅提高耗電量。

目前因為ATI正好軟體部分是弱項(AMD並沒有資源改善這點)，所以VLIW短期內很難提升效益，但是拖個兩代三代之後，雖然應該還是效率會比較差，但可能有機會在製程優勢的狀況下，把架構面比較優質的G8x延伸產品打敗也說不定。

實質上就是，現在GPU市場已經都開始轉向製造取向了，以前大家因為不受ISA限制所以可以玩的東西很多，現在API實質上只剩DirectX比較活躍，以後可能會越來越無聊....orz

[ 本帖最后由 Eji 于 2007-6-16 04:37 编辑 ]

lacri · 发表于 2007-6-16 11:37

Eji总是那么耐心，这样的人品和素质首先就让人服气。RX6XX性能如此之差，是不是部分和它集成声卡这种不务正业的行为有关？

PS：问下CHO，为什么用手机看帖总是很多乱码？

gamekiller · 发表于 2007-6-16 11:48

感觉主要原因是效率太低，就像1800XT，只能靠频率来弥补。

Edison · 发表于 2007-6-16 12:19

当初107M的R300也足以把125M的NV30碾得粉身碎骨，单纯看晶体管数字实在很无聊的，就好像Montecito，晶体管数量够庞大了吧，但是也未必能在绝大多数大家常见的应用上和晶体管规模小得多的Penryn对抗。

帐号		自动登录	找回密码
密码			注册

天下18 天下18 当前离线积分 24 IP卡狗仔卡头像被屏蔽	22^# 发表于 2007-6-14 23:58 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
天下18 天下18 当前离线积分 24 IP卡狗仔卡头像被屏蔽
	回复支持反对使用道具举报显身卡

pharaohs1024 该用户已被删除	23^# 发表于 2007-6-15 00:11 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
pharaohs1024 该用户已被删除
	回复支持反对使用道具举报显身卡