NVIDIA 下一代架构"Fermi" 猜测、讨论专题

G81 · 发表于 2008-8-2 15:50

原帖由 droganmaster 于 2008-8-2 11:50 发表
DX11如果真的支持原生双核的话那下一代必定要走双核卡路线
至少现在来看单核的GT200已经到头了除非用上40nm ～
至于架构 nv的超标量流处理器架构本来就是适合通用计算的对于显卡来说其实矢量架构更加适合这个其 ...

双核卡非常依赖游戏的优化...

Edison · 发表于 2008-8-2 15:52

GPU本身就是manycore设计，所以大家在讨论SLI/CF的时候，应该用multi-GPU或者MGPU、multi-way等说法，而不是多核、双核这样错误的说法。

eDRAM · 发表于 2008-8-2 18:50

原帖由 Edison 于 2008-8-2 15:52 发表
GPU本身就是manycore设计，所以大家在讨论SLI/CF的时候，应该用multi-GPU或者MGPU、multi-way等说法，而不是多核、双核这样错误的说法。

GT200是240核:lol:这是老邓自己说的....240个core

G81 · 发表于 2008-8-2 23:46

原帖由 droganmaster 于 2008-8-2 11:55 发表

没办法一开AA就有这么大的差距了不得不承认而且A很多游戏即使不开AA貌似锯齿也很少

RV770的AA为什么那么强？{ninja:]

gzeasy2006 · 发表于 2008-8-3 00:33

提前YY一下GT300的晶体管，GT300的晶体管将是GT200的2倍

14亿+14亿=28亿晶体管:devil:

gzeasy2006 · 发表于 2008-8-3 02:23

GT300肯定将延续GT200的架构

ioia · 发表于 2008-8-4 20:06

提示: 作者被禁止或删除内容自动屏蔽

只看该作者 · 发表于 2008-8-8 14:36

提示: 作者被禁止或删除内容自动屏蔽

Edison · 发表于 2008-8-8 14:39

问题是这样做，可能就变成失去了硬件调度的优势，当然两个架构的差别巨大， LRB 能很容易实现的东西在其他 GPU 上去做就变成比较不合理，反之亦然。

eDRAM · 发表于 2008-8-10 10:57

原帖由 天下18 于 2008-7-21 22:42 发表

对，所以说GT200不知是单纯的GPU。曾大的晶体管很大一部分的功用是一些人看不到的。

是啊！增加的很大一部分的功能对游戏性能的提升没帮助，导致了孤岛危机继续显卡危机.......{huffy:]

Eji · 发表于 2008-8-10 12:08

原帖由 Prescott 于 2008-7-29 12:04 发表
OOO完全没有可能性，图形处理上OOO完全是脑子积水行为。
PCI-E在GPGPU里边是最容易成为瓶颈的地方。

這我持保留態度耶，如果你的工作會在PCIe上產生瓶頸的話，其實是代表這個工作的咚懔看笮「?静恢档媚玫紾PU上吧？
它是頻寬最小的地方沒錯，問題是就和graphic通常盡量會避免使用到main memory一樣，你應該是搬動計算需要使用到的資料到GPU on-board memory上，然後執行規模比較大、咚懔勘容^大的工作。
然後這個工作理應是做一部分就可以扔一些過程回來monitor，也就是說如果PCIe會成為瓶頸的話，那代表你是bandwidth吃重，而非咚懔砍灾亍?r
GPU是小規模但是大頻寬沒錯，但是GPGPU目標還有高度評型化的工作，我是比較懷疑PCIe如果成為瓶頸的話，那傳輸到PCIe的overhead就代表不值得拿到GPU上了。

至於OOO我不認為那是給graphic用的....

[ 本帖最后由 Eji 于 2008-8-10 12:18 编辑 ]

Eji · 发表于 2008-8-10 12:12

原帖由 RacingPHT 于 2008-8-8 14:36 发表
这个在Larrabee中有提到:
"Because thread or task scheduling is under programmer control,
tasks that operate on these data structures can be dynamically rebundled
to maintain SIMD efficiency. For example, a ray tracer’s
secondary reflection rays may be re-bundled differently than the
primary camera rays that generated them."
SIMD束可以进行重新打包，以提高SIMD单元的利用率。
不过这个做法是有程序员进行的，而不是硬件执行。硬件可能提供比较便利的ISA来进行支持。

有關聯性的thread 打包起來執行的意思嗎？
這讓我想到GT200的warp vote.... 避免分支造成必須循序執行的狀況。
Larrabee也有mask register來做類似的工作。

話說對share memory/scratchpad我是有點意見，programmer會比較喜歡無腦的cache還是要自己分配的scratchpad？

只看该作者 · 发表于 2008-8-10 18:11

提示: 作者被禁止或删除内容自动屏蔽

G81 · 发表于 2008-8-10 23:08

原帖由 RacingPHT 于 2008-8-10 18:11 发表
目前已知的硬体似乎都没有把reordering这个东西硬件化的意图。warp-vote确实还是提供了一些更便利的可能性。
至于shared memory我觉得没有什么问题，有时候share一些data还是比较便利的。不过cache要实现scratchpad ...

reordering是什么东西？:wacko:

Prescott · 发表于 2008-8-11 15:37

原帖由 Eji 于 2008-8-10 12:08 发表

這我持保留態度耶，如果你的工作會在PCIe上產生瓶頸的話，其實是代表這個工作的咚懔看笮「?静恢档媚玫紾PU上吧？
它是頻寬最小的地方沒錯，問題是就和graphic通常盡量會避免使用到main memory一樣，你應該是搬 ...

不错，确实如此，但是事实上，确实有很多程序port到cuda，最后性能是被PCI-E限制住。

OOO是为了提高单线程性能，但是设计目标在于大规模并行程序性能的GPU/Cell/Niagara/Larrabee都会使用SMT来隐藏内存延时，而不会采用OOO这种费力又不怎么讨好的方式的。

Eji · 发表于 2008-8-12 10:58

原帖由 Prescott 于 2008-8-11 15:37 发表

不错，确实如此，但是事实上，确实有很多程序port到cuda，最后性能是被PCI-E限制住。

OOO是为了提高单线程性能，但是设计目标在于大规模并行程序性能的GPU/Cell/Niagara/Larrabee都会使用SMT来隐藏内存延时，而不会采用OOO这种费力又不怎么讨好的方式的。

我是覺得GPU在general processing主要的優勢是在記憶體頻寬，因為memory是direct attach type，天生的可到頻率上限會比針腳來得高。
但是目前CPU不太可能採用這種方式；而如果是3D stack memory的話，其實GPU也可以採用這種結構。所以結果仍然沒差.....
結論來說，就是一張獨立的add in card這種方式會取得比較大的記憶體頻寬。但是這樣就一定會有載入的延遲....
所以我對PCIe的性能帶來的限制，我覺得真的要看application，如果會被限制住的應該就不適合port到GPU上。

OOOE部分我與你的看法相同。
指令層級的OOOE目前來說都是吃力不討好的；GPU和Larrabee應該都只會做資料層級的OOOE。

Prescott · 发表于 2008-8-12 12:20

原帖由 Eji 于 2008-8-12 10:58 发表

我是覺得GPU在general processing主要的優勢是在記憶體頻寬，因為memory是direct attach type，天生的可到頻率上限會比針腳來得高。
但是目前CPU不太可能採用這種方式；而如果是3D stack memory的話，其實GPU也 ...

其实我想说的就是，很多App并不适合CUDA这种模型 {lol:]

Edison · 发表于 2008-8-12 12:56

Telsa 的 4GB 版应该比较少会出现 PCIE 的瓶颈问题吧，除非是整天需要和 CPU 的数据进行密集而细小数据块的修改等动作。

PS5 · 发表于 2008-8-12 17:19

GT300会继续强化分支

Eji · 发表于 2008-8-13 02:21

原帖由 Prescott 于 2008-8-12 12:20 发表
其实我想说的就是，很多App并不适合CUDA这种模型 {lol:]

我現在講的和CUDA無關啊，現在Larrabee一樣透過add-in board的方式以直接連結取得大頻寬。
除非3D stack memory，否則CPU的頻寬無法與板卡對抗，而版卡的記憶體容量上限則大概是一般的單一module的容量。
(16個chip x 最大單一顆粒上限)
所以只要GPU板上的memory達到某種實用範圍，CPU就會一直遇到記憶體頻寬差距的問題，所以才要靠AVX來衝高咚忝芏取⒒蛘呤荓arrabee掛LNI之類的指令集。
其實這都是先前free lunch is over遲來造成的。

這與CUDA與否無關，單純是GPU這種板卡存在的模式，和CPU的socket之間的一點形態差異罷了，分離的針腳、模組和焊接住的記憶體可達時脈當然會有差距。
能跨越這點的，要等到3D stack memory，要能提供與同時期GPU 在on-board上同等的容量、但是遠超過板卡的頻寬，否則3D stack memory只會變成另一個記憶體階層(因為GPU也會拿它來加速)而已，那就沒辦法取代GPU了。

[ 本帖最后由 Eji 于 2008-8-13 02:28 编辑 ]

帐号		自动登录	找回密码
密码			注册

ioia ioia 当前离线积分 3 IP卡狗仔卡头像被屏蔽	67^# 发表于 2008-8-4 20:06 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
ioia ioia 当前离线积分 3 IP卡狗仔卡头像被屏蔽
	回复支持反对使用道具举报显身卡

RacingPHT 该用户已被删除	68^# 发表于 2008-8-8 14:36 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
RacingPHT 该用户已被删除
	回复支持反对使用道具举报显身卡

RacingPHT 该用户已被删除	73^# 发表于 2008-8-10 18:11 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
RacingPHT 该用户已被删除
	回复支持反对使用道具举报显身卡

NVIDIA 下一代架构"Fermi" 猜测、讨论专题

浏览过的版块