POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
楼主: Edison
打印 上一主题 下一主题

NVIDIA 下一代架构"Fermi" 猜测、讨论专题

 关闭 [复制链接]
41#
发表于 2008-7-26 18:34 | 只看该作者
原帖由 RacingPHT 于 2008-7-24 17:45 发表
架构方面,
我觉得下一代GPU比较有可能的是硬件SIMD横向重分配。
if (a)
    FooA()
else
    FooB()
在thread足够多的情况下, 将FooA与FooB路径的thread进行重排(sorting), 在SIMD结构上实现接近MIMD的利用率 ...


能详细说说什么叫Simd横向重分配么?你下面那个例子,我假设如Thread1和Thread2之间有关系,即Thread1中的分支可能关联到Thread2,那么能按照你所说的Fooa和Foob重排来避免麽?
回复 支持 反对

使用道具 举报

42#
发表于 2008-7-26 23:57 | 只看该作者
GT300肯定是45nm工艺的产物.{victory:]
回复 支持 反对

使用道具 举报

43#
发表于 2008-7-26 23:59 | 只看该作者
原帖由 aeondxf 于 2008-7-21 21:27 发表
{biggrin:] 不是说DX11有OOO的么?


没必要OOO{closedeyes:]
回复 支持 反对

使用道具 举报

44#
 楼主| 发表于 2008-7-27 00:27 | 只看该作者
新近的一个专利,06年3月23日提出申请的,08年7月22日发出。

http://patft.uspto.gov/netacgi/n ... IA&RS=AN/NVIDIA

BACKGROUND

Conventional graphics processors are exemplified by systems and methods developed to reduce aliasing using supersampling or multisampling techniques that use fixed positions for sub-pixel samples. However, conventionally each pixel has the same fixed sub-pixel position, i.e., the sub-pixel positions are periodic. The human perception system is tuned to detect regular patterns, appearing as aliasing artifacts. To reduce aliasing, the sub-pixel positions should be non-periodic or vary over a region larger than a pixel. Furthermore, the sub-pixel sample positions should be programmable rather than fixed to allow an application to select a specific pattern, including a pattern that varies of several pixels.

There is thus a need for allowing flexibility in determining the positions of sub-pixel samples, including the ability to specify non-periodic sub-pixel positions to reduce aliasing.

看样子可以直接控制取样点的jitter位置,而这个offset动作是有专门的硬件来完成。:rolleyes:

请注意,专利的申请可能与未来的产品并无任何直接关系。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回复 支持 反对

使用道具 举报

RacingPHT 该用户已被删除
45#
发表于 2008-7-27 01:24 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

46#
发表于 2008-7-27 02:06 | 只看该作者
原帖由 RacingPHT 于 2008-7-24 17:45 发表
架构方面,
我觉得下一代GPU比较有可能的是硬件SIMD横向重分配。
if (a)
    FooA()
else
    FooB()
在thread足够多的情况下, 将FooA与FooB路径的thread进行重排(sorting), 在SIMD结构上实现接近MIMD的利用率 ...


嘿,後藤老爹的訪談說,他們在warp內有OOOE....
此外,他們已經做得到GPU對記憶體的gather & scatter了,只是要占用ROP的Tex L2,所以讓這功能不能和Graphic一起使用....未來應該會做到可以同步吧?
另一個問題是PCIE 不能咚愫碗p向傳輸同時的問題,不過PCIE老實說成為瓶頸的機會太低了,似乎不是很急迫。

[ 本帖最后由 Eji 于 2008-7-27 02:14 编辑 ]
回复 支持 反对

使用道具 举报

panyj522 该用户已被删除
47#
发表于 2008-7-27 02:09 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

48#
发表于 2008-7-28 17:51 | 只看该作者
原帖由 Eji 于 2008-7-27 02:06 发表


嘿,後藤老爹的訪談說,他們在warp內有OOOE....
此外,他們已經做得到GPU對記憶體的gather & scatter了,只是要占用ROP的Tex L2,所以讓這功能不能和Graphic一起使用....未來應該會做到可以同步吧?
另一個問題 ...


OOOE对图形性能的提高有帮助没?{sweat:]
回复 支持 反对

使用道具 举报

RacingPHT 该用户已被删除
49#
发表于 2008-7-29 10:54 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

50#
 楼主| 发表于 2008-7-29 11:51 | 只看该作者
scatter应该就是compute shader基本线了,否则很多东西都干不了,不过gamefest的paper要下个月才公布,你现在有资料了吗?
回复 支持 反对

使用道具 举报

51#
发表于 2008-7-29 12:04 | 只看该作者
原帖由 Eji 于 2008-7-27 02:06 发表

嘿,後藤老爹的訪談說,他們在warp內有OOOE....
此外,他們已經做得到GPU對記憶體的gather & scatter了,只是要占用ROP的Tex L2,所以讓這功能不能和Graphic一起使用....未來應該會做到可以同步吧?
另一個問題是PCIE 不能咚愫碗p向傳輸同時的問題,不過PCIE老實說成為瓶頸的機會太低了,似乎不是很急迫。


OOO完全没有可能性,图形处理上OOO完全是脑子积水行为。
PCI-E在GPGPU里边是最容易成为瓶颈的地方。
回复 支持 反对

使用道具 举报

RacingPHT 该用户已被删除
52#
发表于 2008-7-29 14:49 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

53#
 楼主| 发表于 2008-7-29 14:51 | 只看该作者
这个HLSL 5.0不知道会不会是AMD的IL。
回复 支持 反对

使用道具 举报

RacingPHT 该用户已被删除
54#
发表于 2008-7-29 15:04 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

55#
发表于 2008-7-29 15:09 | 只看该作者
原帖由 stcshy 于 2008-7-22 17:58 发表

你家造的GT200那shader频率能达到9800GTX的水平?
RV770无论是高清还是通用计算还是API还是性能都领先于9800GTX,用某些人的说法就是很多晶体管是“看不见”的~{lol:] {victory:]
而且很明显的事实就是RV770在NO ...

Rv770通用计算领先9800GTX{titter:]
回复 支持 反对

使用道具 举报

56#
发表于 2008-7-29 15:21 | 只看该作者
原帖由 stcshy 于 2008-7-29 15:14 发表

光一个DP就让NV彻底闭嘴
GT200也没法和RV770比

从F@H里性能看和现有的软件数量来看,NV是可以闭嘴了

桃李不言,下自成蹊
:lol:
回复 支持 反对

使用道具 举报

57#
 楼主| 发表于 2008-7-29 15:24 | 只看该作者
原帖由 RacingPHT 于 2008-7-29 15:04 发表
不知道。我觉得其实和CUDA也比较像。
其实应该是业界都采纳了shared memory这种做法而已。其实idea也已经出现很久了, 以前似乎是某篇ATI的paper提到shared memory能大量减少一些filter的bandwidth,后来是nv硬件先做 ...


filter的时候应该比较容易做到tex cache的优化,scratch-pad能起的帮助很小吧。

我找不到你说的paper,不过Michael C. Houston有篇可能有关的文章,今年3月份的:
http://graphics.stanford.edu/%7E ... mhouston-thesis.pdf
回复 支持 反对

使用道具 举报

58#
发表于 2008-8-2 11:02 | 只看该作者
原帖由 RacingPHT 于 2008-7-29 10:54 发表


Warp内的oooe? 我个人不大相信。SP肯定是in-order的结构啦。而且Warp应该是以pipeline的方式在sp内4 cycle完成的,如果其中再去打散,我不知道有什么意义。反正warp多得是...

另外,貌似DX11的compute shader ...


那么DX11的compute shader会不会淘汰掉CUDA呢?:funk:
回复 支持 反对

使用道具 举报

59#
发表于 2008-8-2 11:50 | 只看该作者
DX11如果真的支持原生双核的话那下一代必定要走双核卡路线
至少现在来看单核的GT200已经到头了 除非用上40nm ~
至于架构 nv的超标量流处理器架构本来就是适合通用计算的 对于显卡来说其实矢量架构更加适合 这个其实很早以前就知道 只不过A之前的R600由于工艺原因不得不削减 导致性能低下
40X40=1600  65X65=4225  如果是40nm的话同等核心大小的情况下应该晶体管可以增加2倍多
我觉得nv做一个将近一半于现阶段GT200大小的核心 采用矢量架构 然后主流卡用一个核心
高端卡用两核心是最明智的做法 良品率比单核心容易控制 成本也会低一点~不过就怕nv不敢用40nm
如果nv继续使用标量架构的话也许性能也不一定会差 40nm的估计很容易上高频 但是标量架构不容易扩展SP数量是不争的事实 对比G92~GT200 和 RV670~RV770的晶体管数量和核心尺寸的变化就能看出了 下一代RV870要是真有2K的SP的话估计其高倍AA的性能会相当恐怖 甚至有可能单核心搞定Crisis 4XAA
回复 支持 反对

使用道具 举报

60#
发表于 2008-8-2 11:55 | 只看该作者
原帖由 ROYALSS 于 2008-7-22 19:41 发表


770PRO什么时候比G92强30%以上了{shocked:],平均有10%就不错了:p

千万表说770PRO是最低端的,770PRO和770XT规格完全一样,差距只在频率{happy:]

没办法 一开AA就有这么大的差距了 不得不承认 而且A很多游戏即使不开AA貌似锯齿也很少
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-8-28 23:53

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表