POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
楼主: Edison
打印 上一主题 下一主题

NVIDIA 下一代架构"Fermi" 猜测、讨论专题

 关闭 [复制链接]
61#
发表于 2008-8-2 15:50 | 只看该作者
原帖由 droganmaster 于 2008-8-2 11:50 发表
DX11如果真的支持原生双核的话那下一代必定要走双核卡路线
至少现在来看单核的GT200已经到头了 除非用上40nm ~
至于架构 nv的超标量流处理器架构本来就是适合通用计算的 对于显卡来说其实矢量架构更加适合 这个其 ...


双核卡非常依赖游戏的优化...
回复 支持 反对

使用道具 举报

62#
 楼主| 发表于 2008-8-2 15:52 | 只看该作者
GPU本身就是manycore设计,所以大家在讨论SLI/CF的时候,应该用multi-GPU或者MGPU、multi-way等说法,而不是多核、双核这样错误的说法。
回复 支持 反对

使用道具 举报

63#
发表于 2008-8-2 18:50 | 只看该作者
原帖由 Edison 于 2008-8-2 15:52 发表
GPU本身就是manycore设计,所以大家在讨论SLI/CF的时候,应该用multi-GPU或者MGPU、multi-way等说法,而不是多核、双核这样错误的说法。


GT200是240核:lol:这是老邓自己说的....240个core
回复 支持 反对

使用道具 举报

64#
发表于 2008-8-2 23:46 | 只看该作者
原帖由 droganmaster 于 2008-8-2 11:55 发表

没办法 一开AA就有这么大的差距了 不得不承认 而且A很多游戏即使不开AA貌似锯齿也很少


RV770的AA为什么那么强?{ninja:]
回复 支持 反对

使用道具 举报

65#
发表于 2008-8-3 00:33 | 只看该作者
提前YY一下GT300的晶体管,GT300的晶体管将是GT200的2倍

14亿+14亿=28亿晶体管:devil:
回复 支持 反对

使用道具 举报

66#
发表于 2008-8-3 02:23 | 只看该作者
GT300肯定将延续GT200的架构
回复 支持 反对

使用道具 举报

头像被屏蔽
67#
发表于 2008-8-4 20:06 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

RacingPHT 该用户已被删除
68#
发表于 2008-8-8 14:36 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

69#
 楼主| 发表于 2008-8-8 14:39 | 只看该作者
问题是这样做, 可能就变成失去了硬件调度的优势,当然两个架构的差别巨大, LRB 能很容易实现的东西在其他 GPU 上去做就变成比较不合理,反之亦然。
回复 支持 反对

使用道具 举报

70#
发表于 2008-8-10 10:57 | 只看该作者
原帖由 天下18 于 2008-7-21 22:42 发表


对,所以说GT200不知是单纯的GPU。曾大的晶体管很大一部分的功用是一些人看不到的。


是啊!增加的很大一部分的功能对游戏性能的提升没帮助,导致了孤岛危机继续显卡危机.......{huffy:]
回复 支持 反对

使用道具 举报

71#
发表于 2008-8-10 12:08 | 只看该作者
原帖由 Prescott 于 2008-7-29 12:04 发表
OOO完全没有可能性,图形处理上OOO完全是脑子积水行为。
PCI-E在GPGPU里边是最容易成为瓶颈的地方。


這我持保留態度耶,如果你的工作會在PCIe上產生瓶頸的話,其實是代表這個工作的咚懔看笮「?静恢档媚玫紾PU上吧?
它是頻寬最小的地方沒錯,問題是就和graphic通常盡量會避免使用到main memory一樣,你應該是搬動計算需要使用到的資料到GPU on-board memory上,然後執行規模比較大、咚懔勘容^大的工作。
然後這個工作理應是做一部分就可以扔一些過程回來monitor,也就是說如果PCIe會成為瓶頸的話,那代表你是bandwidth吃重,而非咚懔砍灾亍?r
GPU是小規模但是大頻寬沒錯,但是GPGPU目標還有高度評型化的工作,我是比較懷疑PCIe如果成為瓶頸的話,那傳輸到PCIe的overhead就代表不值得拿到GPU上了。

至於OOO我不認為那是給graphic用的....

[ 本帖最后由 Eji 于 2008-8-10 12:18 编辑 ]
回复 支持 反对

使用道具 举报

72#
发表于 2008-8-10 12:12 | 只看该作者
原帖由 RacingPHT 于 2008-8-8 14:36 发表
这个在Larrabee中有提到:
"Because thread or task scheduling is under programmer control,
tasks that operate on these data structures can be dynamically rebundled
to maintain SIMD efficiency. For example, a ray tracer’s
secondary reflection rays may be re-bundled differently than the
primary camera rays that generated them."
SIMD束可以进行重新打包,以提高SIMD单元的利用率。
不过这个做法是有程序员进行的,而不是硬件执行。硬件可能提供比较便利的ISA来进行支持。


有關聯性的thread 打包起來執行的意思嗎?
這讓我想到GT200的warp vote.... 避免分支造成必須循序執行的狀況。
Larrabee也有mask register來做類似的工作。

話說對share memory/scratchpad我是有點意見,programmer會比較喜歡無腦的cache還是要自己分配的scratchpad?
回复 支持 反对

使用道具 举报

RacingPHT 该用户已被删除
73#
发表于 2008-8-10 18:11 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

74#
发表于 2008-8-10 23:08 | 只看该作者
原帖由 RacingPHT 于 2008-8-10 18:11 发表
目前已知的硬体似乎都没有把reordering这个东西硬件化的意图。warp-vote确实还是提供了一些更便利的可能性。
至于shared memory我觉得没有什么问题,有时候share一些data还是比较便利的。不过cache要实现scratchpad ...


reordering是什么东西?:wacko:
回复 支持 反对

使用道具 举报

75#
发表于 2008-8-11 15:37 | 只看该作者
原帖由 Eji 于 2008-8-10 12:08 发表


這我持保留態度耶,如果你的工作會在PCIe上產生瓶頸的話,其實是代表這個工作的咚懔看笮「?静恢档媚玫紾PU上吧?
它是頻寬最小的地方沒錯,問題是就和graphic通常盡量會避免使用到main memory一樣,你應該是搬 ...

不错,确实如此,但是事实上,确实有很多程序port到cuda,最后性能是被PCI-E限制住。

OOO是为了提高单线程性能,但是设计目标在于大规模并行程序性能的GPU/Cell/Niagara/Larrabee都会使用SMT来隐藏内存延时,而不会采用OOO这种费力又不怎么讨好的方式的。
回复 支持 反对

使用道具 举报

76#
发表于 2008-8-12 10:58 | 只看该作者
原帖由 Prescott 于 2008-8-11 15:37 发表

不错,确实如此,但是事实上,确实有很多程序port到cuda,最后性能是被PCI-E限制住。

OOO是为了提高单线程性能,但是设计目标在于大规模并行程序性能的GPU/Cell/Niagara/Larrabee都会使用SMT来隐藏内存延时,而不会采用OOO这种费力又不怎么讨好的方式的。


我是覺得GPU在general processing主要的優勢是在記憶體頻寬,因為memory是direct attach type,天生的可到頻率上限會比針腳來得高。
但是目前CPU不太可能採用這種方式;而如果是3D stack memory的話,其實GPU也可以採用這種結構。所以結果仍然沒差.....
結論來說,就是一張獨立的add in card這種方式會取得比較大的記憶體頻寬。但是這樣就一定會有載入的延遲....
所以我對PCIe的性能帶來的限制,我覺得真的要看application,如果會被限制住的應該就不適合port到GPU上。

OOOE部分我與你的看法相同。
指令層級的OOOE目前來說都是吃力不討好的;GPU和Larrabee應該都只會做資料層級的OOOE。
回复 支持 反对

使用道具 举报

77#
发表于 2008-8-12 12:20 | 只看该作者
原帖由 Eji 于 2008-8-12 10:58 发表


我是覺得GPU在general processing主要的優勢是在記憶體頻寬,因為memory是direct attach type,天生的可到頻率上限會比針腳來得高。
但是目前CPU不太可能採用這種方式;而如果是3D stack memory的話,其實GPU也 ...

其实我想说的就是,很多App并不适合CUDA这种模型 {lol:]
回复 支持 反对

使用道具 举报

78#
 楼主| 发表于 2008-8-12 12:56 | 只看该作者
Telsa 的 4GB 版应该比较少会出现 PCIE 的瓶颈问题吧,除非是整天需要和 CPU 的数据进行密集而细小数据块的修改等动作。
回复 支持 反对

使用道具 举报

79#
发表于 2008-8-12 17:19 | 只看该作者
GT300会继续强化分支
回复 支持 反对

使用道具 举报

80#
发表于 2008-8-13 02:21 | 只看该作者
原帖由 Prescott 于 2008-8-12 12:20 发表
其实我想说的就是,很多App并不适合CUDA这种模型 {lol:]


我現在講的和CUDA無關啊,現在Larrabee一樣透過add-in board的方式以直接連結取得大頻寬。
除非3D stack memory,否則CPU的頻寬無法與板卡對抗,而版卡的記憶體容量上限則大概是一般的單一module的容量。
(16個chip x 最大單一顆粒上限)
所以只要GPU板上的memory達到某種實用範圍,CPU就會一直遇到記憶體頻寬差距的問題,所以才要靠AVX來衝高咚忝芏取⒒蛘呤荓arrabee掛LNI之類的指令集。
其實這都是先前free lunch is over遲來造成的。

這與CUDA與否無關,單純是GPU這種板卡存在的模式,和CPU的socket之間的一點形態差異罷了,分離的針腳、模組和焊接住的記憶體可達時脈當然會有差距。
能跨越這點的,要等到3D stack memory,要能提供與同時期GPU 在on-board上同等的容量、但是遠超過板卡的頻寬,否則3D stack memory只會變成另一個記憶體階層(因為GPU也會拿它來加速)而已,那就沒辦法取代GPU了。

[ 本帖最后由 Eji 于 2008-8-13 02:28 编辑 ]
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-8-28 23:53

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表