NVIDIA 下一代架构"Fermi" 猜测、讨论专题

32nm · 发表于 2008-8-13 19:28

当PCIE2.0出现瓶径的时候离PCIE3.0就不远了:shifty:

R620 · 发表于 2008-8-13 22:53

NV什么时候能上GDDR5啊？

Edison · 发表于 2008-8-15 19:39

http://s08.idav.ucdavis.edu/olic ... lelism-in-games.pdf

这份 siggraph 08 slide 非常有意思，虽然不一定和 NVIDIA 的下一代 GPU 有直接关系，但是其中 page 118 的部分提到了未来的光栅器会是两个或者更多（4个？），当然这部分其实也是可以用 shader 来完成，如果这样的话，被认为是 Crysis 的潜在重要瓶颈 primitive setup 问题可能会得到较大的缓解。

32nm · 发表于 2008-8-15 21:03

未来的光栅器会是2个或者更多（4个？）???
GTX280都有32个光栅器了，难道未来的GPU还会减少光栅器？{happy:]

[ 本帖最后由 32nm 于 2008-8-15 21:37 编辑 ]

只看该作者 · 发表于 2008-8-15 21:20

提示: 作者被禁止或删除内容自动屏蔽

R620 · 发表于 2008-8-16 12:31

原帖由 Prescott 于 2008-8-12 12:20 发表

其实我想说的就是，很多App并不适合CUDA这种模型 {lol:]

APP更适合LBB？

G81 · 发表于 2008-8-16 14:31

GPU的最大优势就是线程，LBB的最大优势是什么就不得而知了:unsure:

eDRAM · 发表于 2008-8-16 16:44

为什么GTX280晶体管数量超过RV770约5亿左右而FP32与FP64的计算加速性能却不如后者呢？{glare:] GTX280 0.933T RV770 1.2T

PS5 · 发表于 2008-8-16 20:36

GT300的亮点在于标量处理单元的效能媲美向量处理单元的效能，而在效率方面继续领先于SIMD

G81 · 发表于 2008-8-17 00:52

原帖由 Edison 于 2008-8-12 12:56 发表
Telsa 的 4GB 版应该比较少会出现 PCIE 的瓶颈问题吧，除非是整天需要和 CPU 的数据进行密集而细小数据块的修改等动作。

如果投资办个生物制药厂的话，购买Telsa 4GB版够不够用？

[ 本帖最后由 G81 于 2008-8-17 00:59 编辑 ]

shu0202 · 发表于 2008-8-17 10:16

我也想问几个光栅器是什么意思？另外标量单元的效能怎样能媲美向量单元？除非是4倍的频率。

只看该作者 · 发表于 2008-8-17 10:28

提示: 作者被禁止或删除内容自动屏蔽

R620 · 发表于 2008-8-17 11:19

原帖由 shu0202 于 2008-8-17 10:16 发表
我也想问几个光栅器是什么意思？另外标量单元的效能怎样能媲美向量单元？除非是4倍的频率。

同问E大:whistling:

Edison · 发表于 2008-8-17 14:01

原帖由 RacingPHT 于 2008-8-17 10:28 发表
现在没有gpu是标量单元。即便是G80, 也是内部使用SIMD单元，然后使用横向shuffle给人以标量单元的感觉。
Larrabee也是这种设计。

对于这种说法我问过 NVIDIA 的人，但是他们非常肯定地否定了这个说法，坚持 NV50 的 SP 是 scalar 架构，当然我倒是觉得更像是 super-scalar（MAD+MUL）。

如果只是把 SIMD 指令做水平/垂直的更动达到类似 scalar 的样子，我记得 Intel 的 GMA 就支持这样的方式。

PS5 · 发表于 2008-8-17 14:32

原帖由 Edison 于 2008-8-17 14:01 发表

对于这种说法我问过 NVIDIA 的人，但是他们非常肯定地否定了这个说法，坚持 NV50 的 SP 是 scalar 架构，当然我倒是觉得更像是 super-scalar（MAD+MUL）。

NV50的SP是SCALAR架构可能吗？底层应该还是SIMD吧！

只看该作者 · 发表于 2008-8-17 22:16

提示: 作者被禁止或删除内容自动屏蔽

shu0202 · 发表于 2008-8-18 10:30

原帖由 RacingPHT 于 2008-8-17 22:16 发表

我的说法可能有误，即G80也许根本不需要进行shuffle, 而是直接就对象素组进行scalar操作。
SP确实scalar, 但是SP根本就不是一个独立的处理器, 即没有独立的PC。既然一组SP共享一个PC, 那么这完全就是Vector SIM ...

是啊，sp彻底独立了的话还分什么组？所以我也不认为G80是完全的标量体系。

Asuka · 发表于 2008-8-18 23:50

很早就有人讨论过了

G8X/G9X的底层是SIMD的，但是是gather-scatter的SIMD

gather是指load的时候可以load四个不同位置

scatter是指store的时候可以store到四个不同位置

虽然这样性能会有一定损失，但理论上来说已经可以看成是MIMD了

只看该作者 · 发表于 2008-8-19 11:31

提示: 作者被禁止或删除内容自动屏蔽

Edison · 发表于 2008-8-19 13:29

所有的多内核处理器本质上都可以看成是 MIMD ，但是就 SM 来说显然不是。

DX11 的 BC7/BC6 效果不错，就是不知道现在的硬件能不能实现，或者说在 shader 上的执行成本会如何。

帐号		自动登录	找回密码
密码			注册

RacingPHT 该用户已被删除	85^# 发表于 2008-8-15 21:20 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
RacingPHT 该用户已被删除
	回复支持反对使用道具举报显身卡

RacingPHT 该用户已被删除	92^# 发表于 2008-8-17 10:28 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
RacingPHT 该用户已被删除
	回复支持反对使用道具举报显身卡

RacingPHT 该用户已被删除	96^# 发表于 2008-8-17 22:16 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
RacingPHT 该用户已被删除
	回复支持反对使用道具举报显身卡

RacingPHT 该用户已被删除	99^# 发表于 2008-8-19 11:31 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
RacingPHT 该用户已被删除
	回复支持反对使用道具举报显身卡

NVIDIA 下一代架构"Fermi" 猜测、讨论专题

回复 88# Edison 的帖子

浏览过的版块