NVIDIA 下一代架构"Fermi" 猜测、讨论专题

G81 · 发表于 2008-7-26 23:57

GT300肯定是45nm工艺的产物.{victory:]

G81 · 发表于 2008-7-26 23:59

原帖由 aeondxf 于 2008-7-21 21:27 发表
{biggrin:] 不是说DX11有OOO的么？

没必要OOO{closedeyes:]

Edison · 发表于 2008-7-27 00:27

新近的一个专利，06年3月23日提出申请的，08年7月22日发出。

http://patft.uspto.gov/netacgi/n ... IA&RS=AN/NVIDIA

BACKGROUND

Conventional graphics processors are exemplified by systems and methods developed to reduce aliasing using supersampling or multisampling techniques that use fixed positions for sub-pixel samples. However, conventionally each pixel has the same fixed sub-pixel position, i.e., the sub-pixel positions are periodic. The human perception system is tuned to detect regular patterns, appearing as aliasing artifacts. To reduce aliasing, the sub-pixel positions should be non-periodic or vary over a region larger than a pixel. Furthermore, the sub-pixel sample positions should be programmable rather than fixed to allow an application to select a specific pattern, including a pattern that varies of several pixels.

There is thus a need for allowing flexibility in determining the positions of sub-pixel samples, including the ability to specify non-periodic sub-pixel positions to reduce aliasing.

看样子可以直接控制取样点的jitter位置，而这个offset动作是有专门的硬件来完成。:rolleyes:

请注意，专利的申请可能与未来的产品并无任何直接关系。

只看该作者 · 发表于 2008-7-27 01:24

提示: 作者被禁止或删除内容自动屏蔽

Eji · 发表于 2008-7-27 02:06

原帖由 RacingPHT 于 2008-7-24 17:45 发表
架构方面，
我觉得下一代GPU比较有可能的是硬件SIMD横向重分配。
if (a)
FooA()
else
FooB()
在thread足够多的情况下, 将FooA与FooB路径的thread进行重排(sorting), 在SIMD结构上实现接近MIMD的利用率 ...

嘿，後藤老爹的訪談說，他們在warp內有OOOE....
此外，他們已經做得到GPU對記憶體的gather & scatter了，只是要占用ROP的Tex L2，所以讓這功能不能和Graphic一起使用....未來應該會做到可以同步吧？
另一個問題是PCIE 不能咚愫碗p向傳輸同時的問題，不過PCIE老實說成為瓶頸的機會太低了，似乎不是很急迫。

[ 本帖最后由 Eji 于 2008-7-27 02:14 编辑 ]

只看该作者 · 发表于 2008-7-27 02:09

提示: 作者被禁止或删除内容自动屏蔽

PS5 · 发表于 2008-7-28 17:51

原帖由 Eji 于 2008-7-27 02:06 发表

嘿，後藤老爹的訪談說，他們在warp內有OOOE....
此外，他們已經做得到GPU對記憶體的gather & scatter了，只是要占用ROP的Tex L2，所以讓這功能不能和Graphic一起使用....未來應該會做到可以同步吧？
另一個問題 ...

OOOE对图形性能的提高有帮助没？{sweat:]

只看该作者 · 发表于 2008-7-29 10:54

提示: 作者被禁止或删除内容自动屏蔽

Edison · 发表于 2008-7-29 11:51

scatter应该就是compute shader基本线了，否则很多东西都干不了，不过gamefest的paper要下个月才公布，你现在有资料了吗？

Prescott · 发表于 2008-7-29 12:04

原帖由 Eji 于 2008-7-27 02:06 发表

嘿，後藤老爹的訪談說，他們在warp內有OOOE....
此外，他們已經做得到GPU對記憶體的gather & scatter了，只是要占用ROP的Tex L2，所以讓這功能不能和Graphic一起使用....未來應該會做到可以同步吧？
另一個問題是PCIE 不能咚愫碗p向傳輸同時的問題，不過PCIE老實說成為瓶頸的機會太低了，似乎不是很急迫。

OOO完全没有可能性，图形处理上OOO完全是脑子积水行为。
PCI-E在GPGPU里边是最容易成为瓶颈的地方。

只看该作者 · 发表于 2008-7-29 14:49

提示: 作者被禁止或删除内容自动屏蔽

Edison · 发表于 2008-7-29 14:51

这个HLSL 5.0不知道会不会是AMD的IL。

只看该作者 · 发表于 2008-7-29 15:04

提示: 作者被禁止或删除内容自动屏蔽

boris_lee · 发表于 2008-7-29 15:09

原帖由 stcshy 于 2008-7-22 17:58 发表

你家造的GT200那shader频率能达到9800GTX的水平？
RV770无论是高清还是通用计算还是API还是性能都领先于9800GTX，用某些人的说法就是很多晶体管是“看不见”的~{lol:] {victory:]
而且很明显的事实就是RV770在NO ...

Rv770通用计算领先9800GTX{titter:]

boris_lee · 发表于 2008-7-29 15:21

原帖由 stcshy 于 2008-7-29 15:14 发表

光一个DP就让NV彻底闭嘴
GT200也没法和RV770比

从F@H里性能看和现有的软件数量来看，NV是可以闭嘴了

桃李不言，下自成蹊
:lol:

Edison · 发表于 2008-7-29 15:24

原帖由 RacingPHT 于 2008-7-29 15:04 发表
不知道。我觉得其实和CUDA也比较像。
其实应该是业界都采纳了shared memory这种做法而已。其实idea也已经出现很久了, 以前似乎是某篇ATI的paper提到shared memory能大量减少一些filter的bandwidth，后来是nv硬件先做 ...

filter的时候应该比较容易做到tex cache的优化，scratch-pad能起的帮助很小吧。

我找不到你说的paper，不过Michael C. Houston有篇可能有关的文章，今年3月份的：
http://graphics.stanford.edu/%7E ... mhouston-thesis.pdf

R620 · 发表于 2008-8-2 11:02

原帖由 RacingPHT 于 2008-7-29 10:54 发表

Warp内的oooe? 我个人不大相信。SP肯定是in-order的结构啦。而且Warp应该是以pipeline的方式在sp内4 cycle完成的，如果其中再去打散，我不知道有什么意义。反正warp多得是...

另外，貌似DX11的compute shader ...

那么DX11的compute shader会不会淘汰掉CUDA呢？:funk:

droganmaster · 发表于 2008-8-2 11:50

DX11如果真的支持原生双核的话那下一代必定要走双核卡路线
至少现在来看单核的GT200已经到头了除非用上40nm ～
至于架构 nv的超标量流处理器架构本来就是适合通用计算的对于显卡来说其实矢量架构更加适合这个其实很早以前就知道只不过A之前的R600由于工艺原因不得不削减导致性能低下
40X40=1600 65X65=4225 如果是40nm的话同等核心大小的情况下应该晶体管可以增加2倍多
我觉得nv做一个将近一半于现阶段GT200大小的核心采用矢量架构然后主流卡用一个核心
高端卡用两核心是最明智的做法良品率比单核心容易控制成本也会低一点～不过就怕nv不敢用40nm
如果nv继续使用标量架构的话也许性能也不一定会差 40nm的估计很容易上高频但是标量架构不容易扩展SP数量是不争的事实对比G92～GT200 和 RV670～RV770的晶体管数量和核心尺寸的变化就能看出了下一代RV870要是真有2K的SP的话估计其高倍AA的性能会相当恐怖甚至有可能单核心搞定Crisis 4XAA

droganmaster · 发表于 2008-8-2 11:55

原帖由 ROYALSS 于 2008-7-22 19:41 发表

770PRO什么时候比G92强30%以上了{shocked:],平均有10%就不错了:p

千万表说770PRO是最低端的,770PRO和770XT规格完全一样,差距只在频率{happy:]

没办法一开AA就有这么大的差距了不得不承认而且A很多游戏即使不开AA貌似锯齿也很少

G81 · 发表于 2008-8-2 15:50

原帖由 droganmaster 于 2008-8-2 11:50 发表
DX11如果真的支持原生双核的话那下一代必定要走双核卡路线
至少现在来看单核的GT200已经到头了除非用上40nm ～
至于架构 nv的超标量流处理器架构本来就是适合通用计算的对于显卡来说其实矢量架构更加适合这个其 ...

双核卡非常依赖游戏的优化...

帐号		自动登录	找回密码
密码			注册

RacingPHT 该用户已被删除	44^# 发表于 2008-7-27 01:24 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
RacingPHT 该用户已被删除
	回复支持反对使用道具举报显身卡

panyj522 该用户已被删除	46^# 发表于 2008-7-27 02:09 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
panyj522 该用户已被删除
	回复支持反对使用道具举报显身卡

RacingPHT 该用户已被删除	48^# 发表于 2008-7-29 10:54 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
RacingPHT 该用户已被删除
	回复支持反对使用道具举报显身卡

RacingPHT 该用户已被删除	51^# 发表于 2008-7-29 14:49 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
RacingPHT 该用户已被删除
	回复支持反对使用道具举报显身卡

NVIDIA 下一代架构"Fermi" 猜测、讨论专题

本帖子中包含更多资源

浏览过的版块

RacingPHT 该用户已被删除	53^# 发表于 2008-7-29 15:04 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
RacingPHT 该用户已被删除
	回复支持反对使用道具举报显身卡