POPPUR爱换

标题: NVIDIA 下一代架构"Fermi" 猜测、讨论专题 [打印本页]

作者: Edison    时间: 2008-7-17 21:42
标题: NVIDIA 下一代架构"Fermi" 猜测、讨论专题
现在 NVIDIA 的 GT200 (别号 G100、Tesla 10 等)已经上市,各类测试报告也已经在各网站发表,对其体系架构现在大家基本上是明了了,不过到目前为止,尚未有任何关于 NVIDIA 下一代体系架构的消息出现。

为了方便大家讨论 GT200 的下一代架构 (Fermi),特别建立此讨论串,本主题的讨论风格将如同之前 Larrabee 讨论主题,所有讨论将以技术分析展开,需要提醒大家的是,我们这里讨论的是GT200的真正下一代架构,而不是基于GT200的工艺改进版。由于没有任何相关的资料,因此本主题中的大量讨论都是猜测性质,请勿依此为准。

为了大家的讨论更加集中,我在这里为大家提供几个相关的话题。

1、 GT200 体系架构中,你觉得最主要的特色是什么呢?最好能有一些专业的测试数据来辅证。
2、 GT200 体系架构中,最主要的问题是什么呢?下一代架构是否会延续这个架构的基本框架做优化呢?
3、 下一代架构中你认为会在在那些方面作出改进? DX11?动态分支性能?双精度性能?AA性能/算法?Tessellation?等等。
4、 你想到与之相关的技术分析、预测。



这个讨论串会作长期保留,请大家在讨论的时候互相尊重,大致的要求如下:
1、请不要把其他网站的新闻照抄过来,如果你需要大家关注其内容,只需要把链接提供,照搬的内容我们会予以删除。
2、与上面或者其他网友提供的信息重复或者重叠的内容请不要再引用。
3、请注意网络礼节。


关于 AMD 的下一代体系架构讨论,我们有另外专门的讨论串。

与 GT200 相关的参考连接:

GPUbench 1.2.1测试结果
GTX280: http://www.pcinlife.com/article_photo/gt200/gtx280_177.26/index.html

9800GTX 177.26: http://www.pcinlife.com/article_photo/gt200/9800gtx_177.26/index.html

Rightmark 2.0 Pro测试结果:
http://www.pcinlife.com/article/graphics/2008-07-13/1215942095d535_6.html



之前展开的 Larrabee 讨论串:http://we.pcinlife.com/viewthrea ... 26amp%3Btypeid%3D62
作者: Asuka    时间: 2008-7-17 22:16
不厚道的占掉沙发,改天再来详细回复 {blush:]


作者: Edison    时间: 2008-7-18 22:12
这是 gtx280+177.26 的 GPUbench 1.2.1 ps30 branch 成绩:



9800GTX+177.26 的 GPUbench 1.2.1 ps30 branch 成绩:


抽取其中 4x4 block 的来直接对比:
[attach]896410[/attach]
[attach]896411[/attach]

从结果看,GT200 在这个测试中的 sweet point 是在 15% 的 fragment 需要进行处理的情况下可以达到比 g92 理论 shader 差距更大的性能测距,而在这之后,似乎因为各个 TPC 内 texture fetch 能力相对较弱而会出现比理论值差距低大约 10%。

如果 GT200 的 3SM per 8TF 策略维持下去,最好想办法提升每个 TPC 的 TF 性能,例如单周期 fp32 fetch (unfilter-ed 的就可以了)。
作者: feel囝    时间: 2008-7-19 12:58
哦哦~~加多点Tf就是喇。
作者: jocover    时间: 2008-7-21 19:57
怎么做成图表,我只有一组数据
作者: shu0202    时间: 2008-7-21 20:05
现在讨论有点早,我想需要看DX11有哪些吃重的设定和针对DX10性能做出的改进。个人以为继续维持标量体系不够明智,在工艺落后对手的情况下,继续用低运算密度的代价换取灵活性的做法不太行得通。
作者: Azl2    时间: 2008-7-21 20:10
应该不会再走怪物芯片的路线勒吧,该反思反思勒
作者: insect2006    时间: 2008-7-21 20:20
我只关心NV的显卡什么时候全面支持光线追踪。。。
作者: 天下18    时间: 2008-7-21 20:27
提示: 作者被禁止或删除 内容自动屏蔽
作者: bfg9000    时间: 2008-7-21 21:23
从G80=》G200来看,这个架构靠纯扩充运算资源与带来的性能提升不成比例
作者: aeondxf    时间: 2008-7-21 21:27
{biggrin:] 不是说DX11有OOO的么?
作者: 天下18    时间: 2008-7-21 21:27
提示: 作者被禁止或删除 内容自动屏蔽
作者: D65    时间: 2008-7-21 21:36
感觉GT200还是想暴力撑过这一代,真正的进步在GT300。
基本上,以双倍摩尔速度来运行,只能这样。

2代革命一次,中间加一次暴力。
作者: gz_easy    时间: 2008-7-21 21:44
在HW支持DX11的基础上Shader规模继续扩容。
AA性能会有极大改进/增强。
也许会类似AMD弄个内部显存带宽数倍于外部显存带宽。
增加片上缓存容量。应用eDRAM?
作者: shieldfeng    时间: 2008-7-21 22:16
原帖由 天下18 于 2008-7-21 21:27 发表


对比RV770和G92,GDDR3版本对比,RV770都占不到便宜。GT200拿来比什么?另一个成面的东西,不单纯是一块GPU了。
你能告诉我什么东西是GTX200能干而G92不能干的,而导致GTX200晶体管数量剧增,性能却增加少的可怜.[rolleyes>

[ 本帖最后由 shieldfeng 于 2008-7-21 22:18 编辑 ]
作者: Edison    时间: 2008-7-21 22:26
原帖由 shieldfeng 于 2008-7-21 22:16 发表
你能告诉我什么东西是GTX200能干而G92不能干的,而导致GTX200晶体管数量剧增,性能却增加少的可怜.


双精度运算、atomic function、Read/Write Combin、warp vote等都是g9x实现不了的。

如果以Crysis 1680x1050 4aa 16af为例,gt200的性能大约是9800gtx的1.6倍。
作者: harleylg    时间: 2008-7-21 22:31
原帖由 Edison 于 2008/7/21 22:26 发表


双精度运算、atomic function、Read/Write Combin、warp vote等都是g9x实现不了的。

如果以Crysis 1680x1050 4aa 16af为例,gt200的性能大约是9800gtx的1.6倍。


MS这些东西对现在的游戏性能提升不大,不过对CUDA倒是很有帮助……
作者: Edison    时间: 2008-7-21 22:33
原帖由 harleylg 于 2008-7-21 22:31 发表
MS这些东西对现在的游戏性能提升不大,不过对CUDA倒是很有帮助……

CUDA也可以用于游戏加速,例如物理、AI。
作者: okyes    时间: 2008-7-21 22:35
那是8800 U?的多少倍?
作者: 天下18    时间: 2008-7-21 22:42
提示: 作者被禁止或删除 内容自动屏蔽
作者: k10    时间: 2008-7-22 00:26
提示: 作者被禁止或删除 内容自动屏蔽
作者: k10    时间: 2008-7-22 00:27
提示: 作者被禁止或删除 内容自动屏蔽
作者: zxx198388    时间: 2008-7-22 00:49
现在中端市场NV好一点,低端市场买世界都是499元的256M的3850。。。
作者: k10    时间: 2008-7-22 00:57
提示: 作者被禁止或删除 内容自动屏蔽
作者: Edison    时间: 2008-7-22 01:14
原帖由 k10 于 2008-7-22 00:27 发表
GT200 和G92的功耗 成本都不在一个档次 强是理所当然

你可以参考GT200 vs G80的成绩。
作者: Eji    时间: 2008-7-22 01:17
原帖由 stcshy 于 2008-7-21 20:34 发表
G80--GT200架构已经到头了
无法再做大
架构更换势在必行
沉溺于G80的辉煌中自我陶醉丝毫无助于NV扭转劣势


可不可以說一下到頭的理由?哪個部分是最重大的瓶頸?


原帖由 天下18 于 2008-7-21 22:42 发表
对,所以说GT200不知是单纯的GPU。曾大的晶体管很大一部分的功用是一些人看不到的。

我不覺得耶,GT200真正的改變是"讓那些晶體管可以做很多別的事情",比方說thread倍增、就是對繪圖和非常規處理都有用的東西;
但是為了非常規處理的推廣,又沒有修改16KB share memory;DP只做了一點點,未來可能會增加但是其實實際意義並不是真的那麼大。
這回GT200對非常規處理的幫助真的最大的,是warp vote、atomic function、Read/Write Combine這些東西,
而這些東西又是透過ROP修改得來的,所以其實沒有增加多少電晶體。比方說Atomic function,會占用ROP的L2 Texture Cache,使得GT200目前無法同時進行GPGPU與繪圖工作。
這可以看出GT200其實做了非常大的折衷,如果完全實現(比方說Atomic Function & R/W combine與texture access完全獨立)的話,那就可能要比現在大上很多的電晶體。

我比較同意上面Edison說的,他們現在為了保證SM吞吐,有必要增加一些Texture Fetch能力。
但是我其實是看不出來,GT200(G100這個系統)這回在架構上是不是已經"老舊不堪",因為本身都還是有加強的空間。
GT200這回表現差的原因有很大是因為shader clock太低,另外一個是MRT的時候ROP有點速度上的問題,但是MSAA本身其實是差不多。

[ 本帖最后由 Eji 于 2008-7-22 01:37 编辑 ]
作者: panjanstoneborg    时间: 2008-7-22 03:15
就本代来说
GT200似乎不是针对游戏市场做出来的,尽管有显卡危机这种游戏,估计是认为ATI没有还手之力了吧
科学计算方面怎么样我不清楚,但是游戏好像真的不太行
不知道如果出一个类似G92、G94之于G80的玩艺,在拉高SP频率,游戏效能会不会好看一点。
我觉得NV应该针对科学计算市场和游戏市场同时设计不同的产品,而不是先设计一个巨无霸,再去精简,被对手占去先机{mellow:]
作者: 天下18    时间: 2008-7-22 12:29
提示: 作者被禁止或删除 内容自动屏蔽
作者: Prescott    时间: 2008-7-22 12:37
原帖由 天下18 于 2008-7-21 22:42 发表


对,所以说GT200不知是单纯的GPU。曾大的晶体管很大一部分的功用是一些人看不到的。

如果NV继续"GP",看不到的晶体管会越来越多的。{lol:]
作者: Jason21    时间: 2008-7-22 13:47
NV目前面临最大问题是工艺限制,如果GT200用45nm来造,情况就不一样了。
作者: akcadia    时间: 2008-7-22 16:39
{lol:] {lol:] {lol:]
GT200 如果SHADE频率可以达到9800GTX的层次
R700 DDR3可以回家吃便便了

RV770利用多了2亿晶体管的情况下,
也仅仅是在4AA 8AA的情况下能够领先对手,没感觉R600的架构强悍到那里去。

NV的失败之处仅仅在于,为什么不用10亿晶体管直接造个192SP 256BIT的性价比产品出来。
作者: akcadia    时间: 2008-7-22 16:48
讨论GT300应该还为时过早吧?
年内出来的东西应该叫GT220之类的东西吧?


GT300在DX11的支援下估计会采用和R600一样的矢量单元,但是却能够全部运作
也就是说同样SP下大概可以达到2倍或者3倍的理论运算能力。
作者: 1empress    时间: 2008-7-22 19:34
提示: 作者被禁止或删除 内容自动屏蔽
作者: hopetoknow    时间: 2008-7-22 22:32
又接近2年多,没有来卡区说话啦
NVIDIA 下一代 GPU 体系架构? 极可能2年内,NVIDIA"下一代" GPU 体系都是GT200体系的衍生后代。 或可能更长。                 各位同学基本上-- 今后都是 把小变说为革命, 尽量比赛堆砌形容词吧。

[ 本帖最后由 hopetoknow 于 2008-7-22 22:38 编辑 ]
作者: feel囝    时间: 2008-7-22 23:55
原帖由 harleylg 于 2008-7-21 22:31 发表


MS这些东西对现在的游戏性能提升不大,不过对CUDA倒是很有帮助……


就是这样了,nv现在横下心搞Cuda,改进的主要方面是有利于通用运算的方面,不过也不能说游戏性能提升不大,游戏支持Cuda加速的话,如果cuda灵活性和通用性进一步提高,效果应该很可观的,但是,目前看不到有这种可能性。况且,以后的事情谁能预计?
作者: akcadia    时间: 2008-7-23 00:06
GT200领先RV770有50-100%
很明显我说的是GT200B
作者: dawensger    时间: 2008-7-23 09:39
NV应该减少一半晶体管数量,增加多1倍GT200效能
作者: RacingPHT    时间: 2008-7-24 17:45
提示: 作者被禁止或删除 内容自动屏蔽
作者: R620    时间: 2008-7-26 16:22
显存带宽利用率也需要提高,由于GDDR5的关系GPU需要更深化的流水线来遮掩延迟.......
作者: feel囝    时间: 2008-7-26 18:34
原帖由 RacingPHT 于 2008-7-24 17:45 发表
架构方面,
我觉得下一代GPU比较有可能的是硬件SIMD横向重分配。
if (a)
    FooA()
else
    FooB()
在thread足够多的情况下, 将FooA与FooB路径的thread进行重排(sorting), 在SIMD结构上实现接近MIMD的利用率 ...


能详细说说什么叫Simd横向重分配么?你下面那个例子,我假设如Thread1和Thread2之间有关系,即Thread1中的分支可能关联到Thread2,那么能按照你所说的Fooa和Foob重排来避免麽?
作者: G81    时间: 2008-7-26 23:57
GT300肯定是45nm工艺的产物.{victory:]
作者: G81    时间: 2008-7-26 23:59
原帖由 aeondxf 于 2008-7-21 21:27 发表
{biggrin:] 不是说DX11有OOO的么?


没必要OOO{closedeyes:]
作者: Edison    时间: 2008-7-27 00:27
新近的一个专利,06年3月23日提出申请的,08年7月22日发出。

http://patft.uspto.gov/netacgi/n ... IA&RS=AN/NVIDIA

BACKGROUND

Conventional graphics processors are exemplified by systems and methods developed to reduce aliasing using supersampling or multisampling techniques that use fixed positions for sub-pixel samples. However, conventionally each pixel has the same fixed sub-pixel position, i.e., the sub-pixel positions are periodic. The human perception system is tuned to detect regular patterns, appearing as aliasing artifacts. To reduce aliasing, the sub-pixel positions should be non-periodic or vary over a region larger than a pixel. Furthermore, the sub-pixel sample positions should be programmable rather than fixed to allow an application to select a specific pattern, including a pattern that varies of several pixels.

There is thus a need for allowing flexibility in determining the positions of sub-pixel samples, including the ability to specify non-periodic sub-pixel positions to reduce aliasing.

看样子可以直接控制取样点的jitter位置,而这个offset动作是有专门的硬件来完成。:rolleyes:

请注意,专利的申请可能与未来的产品并无任何直接关系。
作者: RacingPHT    时间: 2008-7-27 01:24
提示: 作者被禁止或删除 内容自动屏蔽
作者: Eji    时间: 2008-7-27 02:06
原帖由 RacingPHT 于 2008-7-24 17:45 发表
架构方面,
我觉得下一代GPU比较有可能的是硬件SIMD横向重分配。
if (a)
    FooA()
else
    FooB()
在thread足够多的情况下, 将FooA与FooB路径的thread进行重排(sorting), 在SIMD结构上实现接近MIMD的利用率 ...


嘿,後藤老爹的訪談說,他們在warp內有OOOE....
此外,他們已經做得到GPU對記憶體的gather & scatter了,只是要占用ROP的Tex L2,所以讓這功能不能和Graphic一起使用....未來應該會做到可以同步吧?
另一個問題是PCIE 不能咚愫碗p向傳輸同時的問題,不過PCIE老實說成為瓶頸的機會太低了,似乎不是很急迫。

[ 本帖最后由 Eji 于 2008-7-27 02:14 编辑 ]
作者: panyj522    时间: 2008-7-27 02:09
提示: 作者被禁止或删除 内容自动屏蔽
作者: PS5    时间: 2008-7-28 17:51
原帖由 Eji 于 2008-7-27 02:06 发表


嘿,後藤老爹的訪談說,他們在warp內有OOOE....
此外,他們已經做得到GPU對記憶體的gather & scatter了,只是要占用ROP的Tex L2,所以讓這功能不能和Graphic一起使用....未來應該會做到可以同步吧?
另一個問題 ...


OOOE对图形性能的提高有帮助没?{sweat:]
作者: RacingPHT    时间: 2008-7-29 10:54
提示: 作者被禁止或删除 内容自动屏蔽
作者: Edison    时间: 2008-7-29 11:51
scatter应该就是compute shader基本线了,否则很多东西都干不了,不过gamefest的paper要下个月才公布,你现在有资料了吗?
作者: Prescott    时间: 2008-7-29 12:04
原帖由 Eji 于 2008-7-27 02:06 发表

嘿,後藤老爹的訪談說,他們在warp內有OOOE....
此外,他們已經做得到GPU對記憶體的gather & scatter了,只是要占用ROP的Tex L2,所以讓這功能不能和Graphic一起使用....未來應該會做到可以同步吧?
另一個問題是PCIE 不能咚愫碗p向傳輸同時的問題,不過PCIE老實說成為瓶頸的機會太低了,似乎不是很急迫。


OOO完全没有可能性,图形处理上OOO完全是脑子积水行为。
PCI-E在GPGPU里边是最容易成为瓶颈的地方。
作者: RacingPHT    时间: 2008-7-29 14:49
提示: 作者被禁止或删除 内容自动屏蔽
作者: Edison    时间: 2008-7-29 14:51
这个HLSL 5.0不知道会不会是AMD的IL。
作者: RacingPHT    时间: 2008-7-29 15:04
提示: 作者被禁止或删除 内容自动屏蔽
作者: boris_lee    时间: 2008-7-29 15:09
原帖由 stcshy 于 2008-7-22 17:58 发表

你家造的GT200那shader频率能达到9800GTX的水平?
RV770无论是高清还是通用计算还是API还是性能都领先于9800GTX,用某些人的说法就是很多晶体管是“看不见”的~{lol:] {victory:]
而且很明显的事实就是RV770在NO ...

Rv770通用计算领先9800GTX{titter:]
作者: boris_lee    时间: 2008-7-29 15:21
原帖由 stcshy 于 2008-7-29 15:14 发表

光一个DP就让NV彻底闭嘴
GT200也没法和RV770比

从F@H里性能看和现有的软件数量来看,NV是可以闭嘴了

桃李不言,下自成蹊
:lol:
作者: Edison    时间: 2008-7-29 15:24
原帖由 RacingPHT 于 2008-7-29 15:04 发表
不知道。我觉得其实和CUDA也比较像。
其实应该是业界都采纳了shared memory这种做法而已。其实idea也已经出现很久了, 以前似乎是某篇ATI的paper提到shared memory能大量减少一些filter的bandwidth,后来是nv硬件先做 ...


filter的时候应该比较容易做到tex cache的优化,scratch-pad能起的帮助很小吧。

我找不到你说的paper,不过Michael C. Houston有篇可能有关的文章,今年3月份的:
http://graphics.stanford.edu/%7E ... mhouston-thesis.pdf
作者: R620    时间: 2008-8-2 11:02
原帖由 RacingPHT 于 2008-7-29 10:54 发表


Warp内的oooe? 我个人不大相信。SP肯定是in-order的结构啦。而且Warp应该是以pipeline的方式在sp内4 cycle完成的,如果其中再去打散,我不知道有什么意义。反正warp多得是...

另外,貌似DX11的compute shader ...


那么DX11的compute shader会不会淘汰掉CUDA呢?:funk:
作者: droganmaster    时间: 2008-8-2 11:50
DX11如果真的支持原生双核的话那下一代必定要走双核卡路线
至少现在来看单核的GT200已经到头了 除非用上40nm ~
至于架构 nv的超标量流处理器架构本来就是适合通用计算的 对于显卡来说其实矢量架构更加适合 这个其实很早以前就知道 只不过A之前的R600由于工艺原因不得不削减 导致性能低下
40X40=1600  65X65=4225  如果是40nm的话同等核心大小的情况下应该晶体管可以增加2倍多
我觉得nv做一个将近一半于现阶段GT200大小的核心 采用矢量架构 然后主流卡用一个核心
高端卡用两核心是最明智的做法 良品率比单核心容易控制 成本也会低一点~不过就怕nv不敢用40nm
如果nv继续使用标量架构的话也许性能也不一定会差 40nm的估计很容易上高频 但是标量架构不容易扩展SP数量是不争的事实 对比G92~GT200 和 RV670~RV770的晶体管数量和核心尺寸的变化就能看出了 下一代RV870要是真有2K的SP的话估计其高倍AA的性能会相当恐怖 甚至有可能单核心搞定Crisis 4XAA
作者: droganmaster    时间: 2008-8-2 11:55
原帖由 ROYALSS 于 2008-7-22 19:41 发表


770PRO什么时候比G92强30%以上了{shocked:],平均有10%就不错了:p

千万表说770PRO是最低端的,770PRO和770XT规格完全一样,差距只在频率{happy:]

没办法 一开AA就有这么大的差距了 不得不承认 而且A很多游戏即使不开AA貌似锯齿也很少
作者: G81    时间: 2008-8-2 15:50
原帖由 droganmaster 于 2008-8-2 11:50 发表
DX11如果真的支持原生双核的话那下一代必定要走双核卡路线
至少现在来看单核的GT200已经到头了 除非用上40nm ~
至于架构 nv的超标量流处理器架构本来就是适合通用计算的 对于显卡来说其实矢量架构更加适合 这个其 ...


双核卡非常依赖游戏的优化...
作者: Edison    时间: 2008-8-2 15:52
GPU本身就是manycore设计,所以大家在讨论SLI/CF的时候,应该用multi-GPU或者MGPU、multi-way等说法,而不是多核、双核这样错误的说法。
作者: eDRAM    时间: 2008-8-2 18:50
原帖由 Edison 于 2008-8-2 15:52 发表
GPU本身就是manycore设计,所以大家在讨论SLI/CF的时候,应该用multi-GPU或者MGPU、multi-way等说法,而不是多核、双核这样错误的说法。


GT200是240核:lol:这是老邓自己说的....240个core
作者: G81    时间: 2008-8-2 23:46
原帖由 droganmaster 于 2008-8-2 11:55 发表

没办法 一开AA就有这么大的差距了 不得不承认 而且A很多游戏即使不开AA貌似锯齿也很少


RV770的AA为什么那么强?{ninja:]
作者: gzeasy2006    时间: 2008-8-3 00:33
提前YY一下GT300的晶体管,GT300的晶体管将是GT200的2倍

14亿+14亿=28亿晶体管:devil:
作者: gzeasy2006    时间: 2008-8-3 02:23
GT300肯定将延续GT200的架构
作者: ioia    时间: 2008-8-4 20:06
提示: 作者被禁止或删除 内容自动屏蔽
作者: RacingPHT    时间: 2008-8-8 14:36
提示: 作者被禁止或删除 内容自动屏蔽
作者: Edison    时间: 2008-8-8 14:39
问题是这样做, 可能就变成失去了硬件调度的优势,当然两个架构的差别巨大, LRB 能很容易实现的东西在其他 GPU 上去做就变成比较不合理,反之亦然。
作者: eDRAM    时间: 2008-8-10 10:57
原帖由 天下18 于 2008-7-21 22:42 发表


对,所以说GT200不知是单纯的GPU。曾大的晶体管很大一部分的功用是一些人看不到的。


是啊!增加的很大一部分的功能对游戏性能的提升没帮助,导致了孤岛危机继续显卡危机.......{huffy:]
作者: Eji    时间: 2008-8-10 12:08
原帖由 Prescott 于 2008-7-29 12:04 发表
OOO完全没有可能性,图形处理上OOO完全是脑子积水行为。
PCI-E在GPGPU里边是最容易成为瓶颈的地方。


這我持保留態度耶,如果你的工作會在PCIe上產生瓶頸的話,其實是代表這個工作的咚懔看笮「?静恢档媚玫紾PU上吧?
它是頻寬最小的地方沒錯,問題是就和graphic通常盡量會避免使用到main memory一樣,你應該是搬動計算需要使用到的資料到GPU on-board memory上,然後執行規模比較大、咚懔勘容^大的工作。
然後這個工作理應是做一部分就可以扔一些過程回來monitor,也就是說如果PCIe會成為瓶頸的話,那代表你是bandwidth吃重,而非咚懔砍灾亍?r
GPU是小規模但是大頻寬沒錯,但是GPGPU目標還有高度評型化的工作,我是比較懷疑PCIe如果成為瓶頸的話,那傳輸到PCIe的overhead就代表不值得拿到GPU上了。

至於OOO我不認為那是給graphic用的....

[ 本帖最后由 Eji 于 2008-8-10 12:18 编辑 ]
作者: Eji    时间: 2008-8-10 12:12
原帖由 RacingPHT 于 2008-8-8 14:36 发表
这个在Larrabee中有提到:
"Because thread or task scheduling is under programmer control,
tasks that operate on these data structures can be dynamically rebundled
to maintain SIMD efficiency. For example, a ray tracer’s
secondary reflection rays may be re-bundled differently than the
primary camera rays that generated them."
SIMD束可以进行重新打包,以提高SIMD单元的利用率。
不过这个做法是有程序员进行的,而不是硬件执行。硬件可能提供比较便利的ISA来进行支持。


有關聯性的thread 打包起來執行的意思嗎?
這讓我想到GT200的warp vote.... 避免分支造成必須循序執行的狀況。
Larrabee也有mask register來做類似的工作。

話說對share memory/scratchpad我是有點意見,programmer會比較喜歡無腦的cache還是要自己分配的scratchpad?
作者: RacingPHT    时间: 2008-8-10 18:11
提示: 作者被禁止或删除 内容自动屏蔽
作者: G81    时间: 2008-8-10 23:08
原帖由 RacingPHT 于 2008-8-10 18:11 发表
目前已知的硬体似乎都没有把reordering这个东西硬件化的意图。warp-vote确实还是提供了一些更便利的可能性。
至于shared memory我觉得没有什么问题,有时候share一些data还是比较便利的。不过cache要实现scratchpad ...


reordering是什么东西?:wacko:
作者: Prescott    时间: 2008-8-11 15:37
原帖由 Eji 于 2008-8-10 12:08 发表


這我持保留態度耶,如果你的工作會在PCIe上產生瓶頸的話,其實是代表這個工作的咚懔看笮「?静恢档媚玫紾PU上吧?
它是頻寬最小的地方沒錯,問題是就和graphic通常盡量會避免使用到main memory一樣,你應該是搬 ...

不错,确实如此,但是事实上,确实有很多程序port到cuda,最后性能是被PCI-E限制住。

OOO是为了提高单线程性能,但是设计目标在于大规模并行程序性能的GPU/Cell/Niagara/Larrabee都会使用SMT来隐藏内存延时,而不会采用OOO这种费力又不怎么讨好的方式的。
作者: Eji    时间: 2008-8-12 10:58
原帖由 Prescott 于 2008-8-11 15:37 发表

不错,确实如此,但是事实上,确实有很多程序port到cuda,最后性能是被PCI-E限制住。

OOO是为了提高单线程性能,但是设计目标在于大规模并行程序性能的GPU/Cell/Niagara/Larrabee都会使用SMT来隐藏内存延时,而不会采用OOO这种费力又不怎么讨好的方式的。


我是覺得GPU在general processing主要的優勢是在記憶體頻寬,因為memory是direct attach type,天生的可到頻率上限會比針腳來得高。
但是目前CPU不太可能採用這種方式;而如果是3D stack memory的話,其實GPU也可以採用這種結構。所以結果仍然沒差.....
結論來說,就是一張獨立的add in card這種方式會取得比較大的記憶體頻寬。但是這樣就一定會有載入的延遲....
所以我對PCIe的性能帶來的限制,我覺得真的要看application,如果會被限制住的應該就不適合port到GPU上。

OOOE部分我與你的看法相同。
指令層級的OOOE目前來說都是吃力不討好的;GPU和Larrabee應該都只會做資料層級的OOOE。
作者: Prescott    时间: 2008-8-12 12:20
原帖由 Eji 于 2008-8-12 10:58 发表


我是覺得GPU在general processing主要的優勢是在記憶體頻寬,因為memory是direct attach type,天生的可到頻率上限會比針腳來得高。
但是目前CPU不太可能採用這種方式;而如果是3D stack memory的話,其實GPU也 ...

其实我想说的就是,很多App并不适合CUDA这种模型 {lol:]
作者: Edison    时间: 2008-8-12 12:56
Telsa 的 4GB 版应该比较少会出现 PCIE 的瓶颈问题吧,除非是整天需要和 CPU 的数据进行密集而细小数据块的修改等动作。
作者: PS5    时间: 2008-8-12 17:19
GT300会继续强化分支
作者: Eji    时间: 2008-8-13 02:21
原帖由 Prescott 于 2008-8-12 12:20 发表
其实我想说的就是,很多App并不适合CUDA这种模型 {lol:]


我現在講的和CUDA無關啊,現在Larrabee一樣透過add-in board的方式以直接連結取得大頻寬。
除非3D stack memory,否則CPU的頻寬無法與板卡對抗,而版卡的記憶體容量上限則大概是一般的單一module的容量。
(16個chip x 最大單一顆粒上限)
所以只要GPU板上的memory達到某種實用範圍,CPU就會一直遇到記憶體頻寬差距的問題,所以才要靠AVX來衝高咚忝芏取⒒蛘呤荓arrabee掛LNI之類的指令集。
其實這都是先前free lunch is over遲來造成的。

這與CUDA與否無關,單純是GPU這種板卡存在的模式,和CPU的socket之間的一點形態差異罷了,分離的針腳、模組和焊接住的記憶體可達時脈當然會有差距。
能跨越這點的,要等到3D stack memory,要能提供與同時期GPU 在on-board上同等的容量、但是遠超過板卡的頻寬,否則3D stack memory只會變成另一個記憶體階層(因為GPU也會拿它來加速)而已,那就沒辦法取代GPU了。

[ 本帖最后由 Eji 于 2008-8-13 02:28 编辑 ]
作者: Eji    时间: 2008-8-13 02:22
原帖由 Edison 于 2008-8-12 12:56 发表
Telsa 的 4GB 版应该比较少会出现 PCIE 的瓶颈问题吧,除非是整天需要和 CPU 的数据进行密集而细小数据块的修改等动作。


當通訊頻寬是瓶頸的時候,我認為就不值得搬叩紾PU上了。
與CPU的數據進行密集而細小的數據修改,這根本就是程式有問題。

當然覺得自己寫的都是對的、別人的方法都不對似乎是業界的常態....
作者: 32nm    时间: 2008-8-13 19:28
当PCIE2.0出现瓶径的时候离PCIE3.0就不远了:shifty:
作者: R620    时间: 2008-8-13 22:53
NV什么时候能上GDDR5啊?
作者: Edison    时间: 2008-8-15 19:39
http://s08.idav.ucdavis.edu/olic ... lelism-in-games.pdf

这份 siggraph 08 slide 非常有意思,虽然不一定和 NVIDIA 的下一代 GPU 有直接关系,但是其中 page 118 的部分提到了未来的光栅器会是两个或者更多(4个?),当然这部分其实也是可以用 shader 来完成,如果这样的话,被认为是 Crysis 的潜在重要瓶颈 primitive setup 问题可能会得到较大的缓解。
作者: 32nm    时间: 2008-8-15 21:03
标题: 回复 88# Edison 的帖子
未来的光栅器会是2个或者更多(4个?)???
GTX280都有32个光栅器了,难道未来的GPU还会减少光栅器?{happy:]

[ 本帖最后由 32nm 于 2008-8-15 21:37 编辑 ]
作者: RacingPHT    时间: 2008-8-15 21:20
提示: 作者被禁止或删除 内容自动屏蔽
作者: R620    时间: 2008-8-16 12:31
原帖由 Prescott 于 2008-8-12 12:20 发表

其实我想说的就是,很多App并不适合CUDA这种模型 {lol:]


APP更适合LBB?
作者: G81    时间: 2008-8-16 14:31
GPU的最大优势就是线程,LBB的最大优势是什么就不得而知了:unsure:
作者: eDRAM    时间: 2008-8-16 16:44
为什么GTX280晶体管数量超过RV770约5亿左右而FP32与FP64的计算加速性能却不如后者呢?{glare:] GTX280 0.933T  RV770 1.2T
作者: PS5    时间: 2008-8-16 20:36
GT300的亮点在于标量处理单元的效能媲美向量处理单元的效能,而在效率方面继续领先于SIMD
作者: G81    时间: 2008-8-17 00:52
原帖由 Edison 于 2008-8-12 12:56 发表
Telsa 的 4GB 版应该比较少会出现 PCIE 的瓶颈问题吧,除非是整天需要和 CPU 的数据进行密集而细小数据块的修改等动作。


如果投资办个生物制药厂的话,购买Telsa  4GB版够不够用?

[ 本帖最后由 G81 于 2008-8-17 00:59 编辑 ]
作者: shu0202    时间: 2008-8-17 10:16
我也想问几个光栅器是什么意思?另外标量单元的效能怎样能媲美向量单元?除非是4倍的频率。
作者: RacingPHT    时间: 2008-8-17 10:28
提示: 作者被禁止或删除 内容自动屏蔽
作者: R620    时间: 2008-8-17 11:19
原帖由 shu0202 于 2008-8-17 10:16 发表
我也想问几个光栅器是什么意思?另外标量单元的效能怎样能媲美向量单元?除非是4倍的频率。


同问E大:whistling:
作者: Edison    时间: 2008-8-17 14:01
原帖由 RacingPHT 于 2008-8-17 10:28 发表
现在没有gpu是标量单元。即便是G80, 也是内部使用SIMD单元,然后使用横向shuffle给人以标量单元的感觉。
Larrabee也是这种设计。


对于这种说法我问过 NVIDIA 的人,但是他们非常肯定地否定了这个说法,坚持 NV50 的 SP 是 scalar 架构,当然我倒是觉得更像是 super-scalar(MAD+MUL)。

如果只是把 SIMD 指令做水平/垂直的更动达到类似 scalar 的样子,我记得 Intel 的 GMA 就支持这样的方式。
作者: PS5    时间: 2008-8-17 14:32
原帖由 Edison 于 2008-8-17 14:01 发表


对于这种说法我问过 NVIDIA 的人,但是他们非常肯定地否定了这个说法,坚持 NV50 的 SP 是 scalar 架构,当然我倒是觉得更像是 super-scalar(MAD+MUL)。


NV50的SP是SCALAR架构可能吗?底层应该还是SIMD吧!
作者: RacingPHT    时间: 2008-8-17 22:16
提示: 作者被禁止或删除 内容自动屏蔽
作者: shu0202    时间: 2008-8-18 10:30
原帖由 RacingPHT 于 2008-8-17 22:16 发表


我的说法可能有误,即G80也许根本不需要进行shuffle, 而是直接就对象素组进行scalar操作。
SP确实scalar, 但是SP根本就不是一个独立的处理器, 即没有独立的PC。既然一组SP共享一个PC, 那么这完全就是Vector SIM ...


是啊,sp彻底独立了的话还分什么组?所以我也不认为G80是完全的标量体系。
作者: Asuka    时间: 2008-8-18 23:50
很早就有人讨论过了

G8X/G9X的底层是SIMD的,但是是gather-scatter的SIMD

gather是指load的时候可以load四个不同位置

scatter是指store的时候可以store到四个不同位置

虽然这样性能会有一定损失,但理论上来说已经可以看成是MIMD了
作者: RacingPHT    时间: 2008-8-19 11:31
提示: 作者被禁止或删除 内容自动屏蔽
作者: Edison    时间: 2008-8-19 13:29
所有的多内核处理器本质上都可以看成是 MIMD ,但是就 SM 来说显然不是。

DX11 的 BC7/BC6 效果不错,就是不知道现在的硬件能不能实现,或者说在 shader 上的执行成本会如何。




欢迎光临 POPPUR爱换 (https://we.poppur.com/) Powered by Discuz! X3.4