POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
楼主: Edison
打印 上一主题 下一主题

NVIDIA 下一代架构"Fermi" 猜测、讨论专题

 关闭 [复制链接]
81#
发表于 2008-8-13 02:22 | 只看该作者
原帖由 Edison 于 2008-8-12 12:56 发表
Telsa 的 4GB 版应该比较少会出现 PCIE 的瓶颈问题吧,除非是整天需要和 CPU 的数据进行密集而细小数据块的修改等动作。


當通訊頻寬是瓶頸的時候,我認為就不值得搬叩紾PU上了。
與CPU的數據進行密集而細小的數據修改,這根本就是程式有問題。

當然覺得自己寫的都是對的、別人的方法都不對似乎是業界的常態....
回复 支持 反对

使用道具 举报

82#
发表于 2008-8-13 19:28 | 只看该作者
当PCIE2.0出现瓶径的时候离PCIE3.0就不远了:shifty:
回复 支持 反对

使用道具 举报

83#
发表于 2008-8-13 22:53 | 只看该作者
NV什么时候能上GDDR5啊?
回复 支持 反对

使用道具 举报

84#
 楼主| 发表于 2008-8-15 19:39 | 只看该作者
http://s08.idav.ucdavis.edu/olic ... lelism-in-games.pdf

这份 siggraph 08 slide 非常有意思,虽然不一定和 NVIDIA 的下一代 GPU 有直接关系,但是其中 page 118 的部分提到了未来的光栅器会是两个或者更多(4个?),当然这部分其实也是可以用 shader 来完成,如果这样的话,被认为是 Crysis 的潜在重要瓶颈 primitive setup 问题可能会得到较大的缓解。
回复 支持 反对

使用道具 举报

85#
发表于 2008-8-15 21:03 | 只看该作者

回复 88# Edison 的帖子

未来的光栅器会是2个或者更多(4个?)???
GTX280都有32个光栅器了,难道未来的GPU还会减少光栅器?{happy:]

[ 本帖最后由 32nm 于 2008-8-15 21:37 编辑 ]
回复 支持 反对

使用道具 举报

RacingPHT 该用户已被删除
86#
发表于 2008-8-15 21:20 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

87#
发表于 2008-8-16 12:31 | 只看该作者
原帖由 Prescott 于 2008-8-12 12:20 发表

其实我想说的就是,很多App并不适合CUDA这种模型 {lol:]


APP更适合LBB?
回复 支持 反对

使用道具 举报

88#
发表于 2008-8-16 14:31 | 只看该作者
GPU的最大优势就是线程,LBB的最大优势是什么就不得而知了:unsure:
回复 支持 反对

使用道具 举报

89#
发表于 2008-8-16 16:44 | 只看该作者
为什么GTX280晶体管数量超过RV770约5亿左右而FP32与FP64的计算加速性能却不如后者呢?{glare:] GTX280 0.933T  RV770 1.2T
回复 支持 反对

使用道具 举报

90#
发表于 2008-8-16 20:36 | 只看该作者
GT300的亮点在于标量处理单元的效能媲美向量处理单元的效能,而在效率方面继续领先于SIMD
回复 支持 反对

使用道具 举报

91#
发表于 2008-8-17 00:52 | 只看该作者
原帖由 Edison 于 2008-8-12 12:56 发表
Telsa 的 4GB 版应该比较少会出现 PCIE 的瓶颈问题吧,除非是整天需要和 CPU 的数据进行密集而细小数据块的修改等动作。


如果投资办个生物制药厂的话,购买Telsa  4GB版够不够用?

[ 本帖最后由 G81 于 2008-8-17 00:59 编辑 ]
回复 支持 反对

使用道具 举报

92#
发表于 2008-8-17 10:16 | 只看该作者
我也想问几个光栅器是什么意思?另外标量单元的效能怎样能媲美向量单元?除非是4倍的频率。
回复 支持 反对

使用道具 举报

RacingPHT 该用户已被删除
93#
发表于 2008-8-17 10:28 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

94#
发表于 2008-8-17 11:19 | 只看该作者
原帖由 shu0202 于 2008-8-17 10:16 发表
我也想问几个光栅器是什么意思?另外标量单元的效能怎样能媲美向量单元?除非是4倍的频率。


同问E大:whistling:
回复 支持 反对

使用道具 举报

95#
 楼主| 发表于 2008-8-17 14:01 | 只看该作者
原帖由 RacingPHT 于 2008-8-17 10:28 发表
现在没有gpu是标量单元。即便是G80, 也是内部使用SIMD单元,然后使用横向shuffle给人以标量单元的感觉。
Larrabee也是这种设计。


对于这种说法我问过 NVIDIA 的人,但是他们非常肯定地否定了这个说法,坚持 NV50 的 SP 是 scalar 架构,当然我倒是觉得更像是 super-scalar(MAD+MUL)。

如果只是把 SIMD 指令做水平/垂直的更动达到类似 scalar 的样子,我记得 Intel 的 GMA 就支持这样的方式。
回复 支持 反对

使用道具 举报

96#
发表于 2008-8-17 14:32 | 只看该作者
原帖由 Edison 于 2008-8-17 14:01 发表


对于这种说法我问过 NVIDIA 的人,但是他们非常肯定地否定了这个说法,坚持 NV50 的 SP 是 scalar 架构,当然我倒是觉得更像是 super-scalar(MAD+MUL)。


NV50的SP是SCALAR架构可能吗?底层应该还是SIMD吧!
回复 支持 反对

使用道具 举报

RacingPHT 该用户已被删除
97#
发表于 2008-8-17 22:16 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

98#
发表于 2008-8-18 10:30 | 只看该作者
原帖由 RacingPHT 于 2008-8-17 22:16 发表


我的说法可能有误,即G80也许根本不需要进行shuffle, 而是直接就对象素组进行scalar操作。
SP确实scalar, 但是SP根本就不是一个独立的处理器, 即没有独立的PC。既然一组SP共享一个PC, 那么这完全就是Vector SIM ...


是啊,sp彻底独立了的话还分什么组?所以我也不认为G80是完全的标量体系。
回复 支持 反对

使用道具 举报

99#
发表于 2008-8-18 23:50 | 只看该作者
很早就有人讨论过了

G8X/G9X的底层是SIMD的,但是是gather-scatter的SIMD

gather是指load的时候可以load四个不同位置

scatter是指store的时候可以store到四个不同位置

虽然这样性能会有一定损失,但理论上来说已经可以看成是MIMD了
回复 支持 反对

使用道具 举报

RacingPHT 该用户已被删除
100#
发表于 2008-8-19 11:31 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-8-28 23:52

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表