POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
楼主: 大死人花
打印 上一主题 下一主题

既然都是US,那R600也一定有类似G80-Gigathread的功能吧

 关闭 [复制链接]
41#
发表于 2006-11-17 15:16 | 只看该作者
原帖由 来不及思考 于 2006-11-17 15:14 发表


tex fetch那种规模的延迟都能掩盖,相比之下这些算术指令实在不算什么

G80的问题根本就不在于效率,这点我现在就敢保证G80绝对可以有效率优势
G80的问题是执行能力比R600不如


问题在于效率和资源往往是矛盾的
回复 支持 反对

使用道具 举报

42#
 楼主| 发表于 2006-11-17 15:22 | 只看该作者
原帖由 ghrs2010 于 2006-11-17 15:11 发表


请看原文,他说的是5D+1D

我写错了,R600是4D+1D,R580是3D+1D
回复 支持 反对

使用道具 举报

43#
发表于 2006-11-17 15:23 | 只看该作者
学习。...:a) :a)
回复 支持 反对

使用道具 举报

44#
发表于 2006-11-17 16:23 | 只看该作者
原帖由 ghrs2010 于 2006-11-17 15:08 发表


非常好奇地问一句:5D是什么玩艺?

2D+3D=5Dw00t)
回复 支持 反对

使用道具 举报

zl841226 该用户已被删除
45#
发表于 2006-11-17 16:25 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

46#
发表于 2006-11-17 16:37 | 只看该作者
原帖由 shu0202 于 2006-11-17 14:16 发表
多数情况下4D比1D的效率要好得多。至于架构的灵活性也只能是在现有工艺局限性下讨论。我想NV可能是想打造一个“彻底的US”架构,所以把空前的灵活性放在了优先考虑的地位。但是理论上讲,4D并不是不灵活。如果设 ...


不必設想,R680就是這樣的設計,同樣是R520 -> R580的觀念。
可能有高達192個(64x3)的ALU,但是thread不會增加,所以理論上就是R600的2x效能。
(ALU資源3x、分支開銷3倍,兩相抵銷之後2x左右的performance,電晶體沒有顯著增加)

但是,G80並沒有G70/G71的thread資源限制,R680能夠像R580一樣,只要屬於thread吃重就能大贏G71?我想會有疑問;
而且目前G80的Shader Array還離它的時脈限界很遠,現在是結構上的散熱不良造成時脈限制,re-spin過就會有不一樣的表現,
更別提換到65nm process。

總之,從結構上來說雙方都有各自的贏面,G80早發表是為了對抗XBOX360的長期優勢,
R600的兩段式產品配置也有其後著存在,而4D的效率缺陷有額外的1D可以做修補,
現在要再遇上當年NV30那種狀況,我覺得可能還要再多拜拜才看得到。

[ 本帖最后由 Eji 于 2006-11-17 16:41 编辑 ]
回复 支持 反对

使用道具 举报

zl841226 该用户已被删除
47#
发表于 2006-11-17 16:41 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

来不及思考 该用户已被删除
48#
发表于 2006-11-17 16:45 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

49#
发表于 2006-11-17 16:50 | 只看该作者
原帖由 ghrs2010 于 2006-11-17 15:16 发表

问题在于效率和资源往往是矛盾的


主要都是所謂的overhead....
1D可以帶來100%的使用率,但是結合的時候有overhead、增加的control也是成本,所以有做co-issue。
4D的話普遍來說就是70%上下,所以那個+1D自然是有其必要。

但是話說資源又有一個很妙的地方存在對比:
NVIDIA認為Programmable資源寶貴,所以持續地強化hardwired unit的規模來當輔助;
ATI則認為全面的programmable才能調配資源,避免hardwired不可挪用調整的浪費,
所以TMU和ROP不增加,FP filtering由ALU處理。

這應該是各有看法,各有主張的程度.... 還不到誰對誰錯的問題。
比方說我自己是認為TMU/ROP是輔助ALU做steam process吞吐時的加速器,
就像MPEG decoder一樣應該全面具備;但是ATI覺得有Fetch4這樣的功能來輔助ALU的話,
以大量的thread為後盾,就可以讓ALU做類似softshadow filter/PCF filter一樣吃效能的東西,
R580證明這樣的作法和hardwired的PCF相比毫不遜色,但是我還是比較喜歡Hardwired....

所以當討論進入平行線的時候,或許留給時間證明才是適當的。
回复 支持 反对

使用道具 举报

来不及思考 该用户已被删除
50#
发表于 2006-11-17 16:55 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

51#
发表于 2006-11-17 16:55 | 只看该作者
原帖由 zl841226 于 2006-11-17 16:41 发表
某人说,R600最多应该可以扩展到256个US........也就是和C1一样,16US per bank.....................:huh:


我知道,我也這麼認為;
但是就像R5x0其實可以做到128個shader per-bank、最大512個shader的時候,
卻只做到48個shader一樣,真的把Shader照理論擴充能力做滿,那只會有極為大量的閒置ALU而已。
所以我想應該就是類似當初R520 -> R580的3x成長比率,因為R600->R680還是在現在的ring-bus結構上的關係。

而目前所知,G8x的賣點似乎是shader array的可達時脈....
回复 支持 反对

使用道具 举报

52#
发表于 2006-11-17 19:53 | 只看该作者
R600还是纯粹Shader power为主要考虑的思路。极限的branch性能不太可能是为了PixelShader的常规应用准备的,至少维持原来的设计 可以以比较低的成本维持Shader power.
G80实现128x scalar Stream processor事实上应该是付出了相当大的代价在Gigathreading上面。
回复 支持 反对

使用道具 举报

53#
发表于 2006-11-17 19:59 | 只看该作者
原帖由 来不及思考 于 2006-11-17 15:04 发表


不是4个当一个用,而是1个标量单元用4个周期来完成
期间造成的延迟Gigathread完全可以掩藏,所以说是免费的

严格的来说 不光是延迟 控制指令一样要多3条 虽然不多 但不可以忽视开销
全面跑4D Vector  1D ALU还是有损的。
但是实际情况这些额外的损失在更多的1D操作中可以赚回来
回复 支持 反对

使用道具 举报

来不及思考 该用户已被删除
54#
发表于 2006-11-17 20:03 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

55#
发表于 2006-11-17 20:06 | 只看该作者
原帖由 来不及思考 于 2006-11-17 20:03 发表


SIMD的特点就是指令发射数和执行能力的不对等
G80在很大程度上粉碎了这个障碍,相对于R600,这些多出的控制指令开销可以说是免费的

一定程度上免费吧 死嚼这个问题没意思 也罢
回复 支持 反对

使用道具 举报

来不及思考 该用户已被删除
56#
发表于 2006-11-18 02:26 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

来不及思考 该用户已被删除
57#
发表于 2006-11-18 03:02 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

58#
发表于 2006-11-18 07:04 | 只看该作者
原帖由 来不及思考 于 2006-11-18 03:02 发表
G80好玩的地方在于:很少有人理解这个新体系的真正含义

这也正好
我等着看工艺壁垒被粉碎的那天


工艺壁垒是对等的吧,如果R600做到256US呢?

好吧,那个某人就是我

另外,个人认为R600很难简单地认为就是C1的方法增强,不过要说两者没有关系也不至于(所以我觉得思考兄稍微有一些低估的味道,至于Leo大说"不是大多数人现象的样子"也不是很理解----那是什么样子)
回复 支持 反对

使用道具 举报

59#
发表于 2006-11-18 07:41 | 只看该作者
原帖由 leo8008 于 2006-11-18 02:52 发表

ringbus就是一个明显的为了效率而接近画蛇添足的玩意。
试想r520若是r580的无rb版本(反正晶体管也差不多),g7X系列还能这么轻松么?若rv570缩到2.9亿呢?


我想不至於,如果R5x0沒有ring-bus,那很可能就沒有1950xtx GDDR4版了。(逃
他們說的crossbar MC的散熱問題,不見得nVIDIA會遇到,但是至少應該代表他們遇到了。
所以沒有做Ring-bus的話,可能代表沒辦法弄出高頻的MC來支援GDDR4。

另外,R5x0的大量thread到底算不算畫蛇添足?
今天是有不少thread吃重的東西讓G7x不太輕鬆沒錯,
不過首先這種寫法就不見得是好事。
(我現在還是覺得softshadow filter用分支寫很病態,hardwired PCF就搞定啦?)
回复 支持 反对

使用道具 举报

60#
发表于 2006-11-18 07:50 | 只看该作者
原帖由 ghrs2010 于 2006-11-18 07:04 发表


工艺壁垒是对等的吧,如果R600做到256US呢?

好吧,那个某人就是我

另外,个人认为R600很难简单地认为就是C1的方法增强,
不过要说两者没有关系也不至于(所以我觉得思考兄稍微有一些低估的味道,至于Leo大说 ...


作256US沒什麼不好啊,只是和R5x0做到512PS一樣,2/3的shader大概都是閒置的吧。
C1現在就苦於thread不足問題,ALU利用率只有1/2左右。
但是320M -> 384M從16變成48個ps,一個ALU大約2M,全部加滿就1280M了。
這些單元有多少ps會有thread來推動很讓人懷疑,die size的問題就先別提了。
R600和C1終究是有落差,落差最大的應該就是thread數量部分。

G80的process wall主要是那些shader如何走向更高頻,
和R6x0的US數量應該是不同的問題才對;當然R6x0的ALU資源有機會達到很驚人的地步。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-4-6 00:03

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表