POPPUR爱换

标题: NVIDIA 下一代架构"Fermi" 猜测、讨论专题 [打印本页]

作者: Edison 时间: 2008-7-17 21:42
标题: NVIDIA 下一代架构"Fermi" 猜测、讨论专题
现在 NVIDIA 的 GT200 （别号 G100、Tesla 10 等）已经上市，各类测试报告也已经在各网站发表，对其体系架构现在大家基本上是明了了，不过到目前为止，尚未有任何关于 NVIDIA 下一代体系架构的消息出现。

为了方便大家讨论 GT200 的下一代架构（Fermi），特别建立此讨论串，本主题的讨论风格将如同之前 Larrabee 讨论主题，所有讨论将以技术分析展开，需要提醒大家的是，我们这里讨论的是GT200的真正下一代架构，而不是基于GT200的工艺改进版。由于没有任何相关的资料，因此本主题中的大量讨论都是猜测性质，请勿依此为准。

为了大家的讨论更加集中，我在这里为大家提供几个相关的话题。

1、 GT200 体系架构中，你觉得最主要的特色是什么呢？最好能有一些专业的测试数据来辅证。
2、 GT200 体系架构中，最主要的问题是什么呢？下一代架构是否会延续这个架构的基本框架做优化呢？
3、下一代架构中你认为会在在那些方面作出改进？ DX11？动态分支性能？双精度性能？AA性能/算法？Tessellation？等等。
4、你想到与之相关的技术分析、预测。

这个讨论串会作长期保留，请大家在讨论的时候互相尊重，大致的要求如下：

1、请不要把其他网站的新闻照抄过来，如果你需要大家关注其内容，只需要把链接提供，照搬的内容我们会予以删除。
2、与上面或者其他网友提供的信息重复或者重叠的内容请不要再引用。
3、请注意网络礼节。

关于 AMD 的下一代体系架构讨论，我们有另外专门的讨论串。

与 GT200 相关的参考连接：

GPUbench 1.2.1测试结果
GTX280: http://www.pcinlife.com/article_photo/gt200/gtx280_177.26/index.html

9800GTX 177.26: http://www.pcinlife.com/article_photo/gt200/9800gtx_177.26/index.html

Rightmark 2.0 Pro测试结果：
http://www.pcinlife.com/article/graphics/2008-07-13/1215942095d535_6.html

之前展开的 Larrabee 讨论串：http://we.pcinlife.com/viewthrea ... 26amp%3Btypeid%3D62

作者: Asuka 时间: 2008-7-17 22:16
不厚道的占掉沙发，改天再来详细回复 {blush:]

作者: Edison 时间: 2008-7-18 22:12
这是 gtx280+177.26 的 GPUbench 1.2.1 ps30 branch 成绩：

9800GTX+177.26 的 GPUbench 1.2.1 ps30 branch 成绩：

抽取其中 4x4 block 的来直接对比：
[attach]896410[/attach]
[attach]896411[/attach]

从结果看，GT200 在这个测试中的 sweet point 是在 15% 的 fragment 需要进行处理的情况下可以达到比 g92 理论 shader 差距更大的性能测距，而在这之后，似乎因为各个 TPC 内 texture fetch 能力相对较弱而会出现比理论值差距低大约 10%。

如果 GT200 的 3SM per 8TF 策略维持下去，最好想办法提升每个 TPC 的 TF 性能，例如单周期 fp32 fetch （unfilter-ed 的就可以了）。

作者: feel囝 时间: 2008-7-19 12:58
哦哦~~加多点Tf就是喇。

作者: jocover 时间: 2008-7-21 19:57
怎么做成图表，我只有一组数据

作者: shu0202 时间: 2008-7-21 20:05
现在讨论有点早，我想需要看DX11有哪些吃重的设定和针对DX10性能做出的改进。个人以为继续维持标量体系不够明智，在工艺落后对手的情况下，继续用低运算密度的代价换取灵活性的做法不太行得通。

作者: Azl2 时间: 2008-7-21 20:10
应该不会再走怪物芯片的路线勒吧，该反思反思勒

作者: insect2006 时间: 2008-7-21 20:20
我只关心NV的显卡什么时候全面支持光线追踪。。。

作者: 天下18 时间: 2008-7-21 20:27
提示: 作者被禁止或删除内容自动屏蔽

作者: bfg9000 时间: 2008-7-21 21:23
从G80=》G200来看，这个架构靠纯扩充运算资源与带来的性能提升不成比例

作者: aeondxf 时间: 2008-7-21 21:27
{biggrin:] 不是说DX11有OOO的么？

作者: 天下18 时间: 2008-7-21 21:27
提示: 作者被禁止或删除内容自动屏蔽

作者: D65 时间: 2008-7-21 21:36
感觉GT200还是想暴力撑过这一代，真正的进步在GT300。
基本上，以双倍摩尔速度来运行，只能这样。

2代革命一次，中间加一次暴力。

作者: gz_easy 时间: 2008-7-21 21:44
在HW支持DX11的基础上Shader规模继续扩容。
AA性能会有极大改进/增强。
也许会类似AMD弄个内部显存带宽数倍于外部显存带宽。
增加片上缓存容量。应用eDRAM?

作者: shieldfeng 时间: 2008-7-21 22:16

原帖由 天下18 于 2008-7-21 21:27 发表

对比RV770和G92，GDDR3版本对比，RV770都占不到便宜。GT200拿来比什么？另一个成面的东西，不单纯是一块GPU了。

你能告诉我什么东西是GTX200能干而G92不能干的,而导致GTX200晶体管数量剧增,性能却增加少的可怜.[rolleyes>

[ 本帖最后由 shieldfeng 于 2008-7-21 22:18 编辑 ]

作者: Edison 时间: 2008-7-21 22:26

原帖由 shieldfeng 于 2008-7-21 22:16 发表
你能告诉我什么东西是GTX200能干而G92不能干的,而导致GTX200晶体管数量剧增,性能却增加少的可怜.

双精度运算、atomic function、Read/Write Combin、warp vote等都是g9x实现不了的。

如果以Crysis 1680x1050 4aa 16af为例，gt200的性能大约是9800gtx的1.6倍。

作者: harleylg 时间: 2008-7-21 22:31

原帖由 Edison 于 2008/7/21 22:26 发表

双精度运算、atomic function、Read/Write Combin、warp vote等都是g9x实现不了的。

如果以Crysis 1680x1050 4aa 16af为例，gt200的性能大约是9800gtx的1.6倍。

MS这些东西对现在的游戏性能提升不大，不过对CUDA倒是很有帮助……

作者: Edison 时间: 2008-7-21 22:33

原帖由 harleylg 于 2008-7-21 22:31 发表
MS这些东西对现在的游戏性能提升不大，不过对CUDA倒是很有帮助……

CUDA也可以用于游戏加速，例如物理、AI。

作者: okyes 时间: 2008-7-21 22:35
那是8800 U？的多少倍？

作者: 天下18 时间: 2008-7-21 22:42
提示: 作者被禁止或删除内容自动屏蔽

作者: k10 时间: 2008-7-22 00:26
提示: 作者被禁止或删除内容自动屏蔽

作者: k10 时间: 2008-7-22 00:27
提示: 作者被禁止或删除内容自动屏蔽

作者: zxx198388 时间: 2008-7-22 00:49
现在中端市场NV好一点，低端市场买世界都是499元的256M的3850。。。

作者: k10 时间: 2008-7-22 00:57
提示: 作者被禁止或删除内容自动屏蔽

作者: Edison 时间: 2008-7-22 01:14

原帖由 k10 于 2008-7-22 00:27 发表
GT200 和G92的功耗成本都不在一个档次强是理所当然

你可以参考GT200 vs G80的成绩。

作者: Eji 时间: 2008-7-22 01:17

原帖由 stcshy 于 2008-7-21 20:34 发表
G80--GT200架构已经到头了
无法再做大
架构更换势在必行
沉溺于G80的辉煌中自我陶醉丝毫无助于NV扭转劣势

可不可以說一下到頭的理由？哪個部分是最重大的瓶頸？

原帖由天下18 于 2008-7-21 22:42 发表
对，所以说GT200不知是单纯的GPU。曾大的晶体管很大一部分的功用是一些人看不到的。

我不覺得耶，GT200真正的改變是"讓那些晶體管可以做很多別的事情"，比方說thread倍增、就是對繪圖和非常規處理都有用的東西；
但是為了非常規處理的推廣，又沒有修改16KB share memory；DP只做了一點點，未來可能會增加但是其實實際意義並不是真的那麼大。
這回GT200對非常規處理的幫助真的最大的，是warp vote、atomic function、Read/Write Combine這些東西，
而這些東西又是透過ROP修改得來的，所以其實沒有增加多少電晶體。比方說Atomic function，會占用ROP的L2 Texture Cache，使得GT200目前無法同時進行GPGPU與繪圖工作。
這可以看出GT200其實做了非常大的折衷，如果完全實現(比方說Atomic Function & R/W combine與texture access完全獨立)的話，那就可能要比現在大上很多的電晶體。

我比較同意上面Edison說的，他們現在為了保證SM吞吐，有必要增加一些Texture Fetch能力。
但是我其實是看不出來，GT200(G100這個系統)這回在架構上是不是已經"老舊不堪"，因為本身都還是有加強的空間。
GT200這回表現差的原因有很大是因為shader clock太低，另外一個是MRT的時候ROP有點速度上的問題，但是MSAA本身其實是差不多。

[ 本帖最后由 Eji 于 2008-7-22 01:37 编辑 ]

作者: panjanstoneborg 时间: 2008-7-22 03:15
就本代来说
GT200似乎不是针对游戏市场做出来的，尽管有显卡危机这种游戏，估计是认为ATI没有还手之力了吧
科学计算方面怎么样我不清楚，但是游戏好像真的不太行
不知道如果出一个类似G92、G94之于G80的玩艺，在拉高SP频率，游戏效能会不会好看一点。
我觉得NV应该针对科学计算市场和游戏市场同时设计不同的产品，而不是先设计一个巨无霸，再去精简，被对手占去先机{mellow:]

作者: 天下18 时间: 2008-7-22 12:29
提示: 作者被禁止或删除内容自动屏蔽

作者: Prescott 时间: 2008-7-22 12:37

原帖由 天下18 于 2008-7-21 22:42 发表

对，所以说GT200不知是单纯的GPU。曾大的晶体管很大一部分的功用是一些人看不到的。

如果NV继续"GP"，看不到的晶体管会越来越多的。{lol:]

作者: Jason21 时间: 2008-7-22 13:47
NV目前面临最大问题是工艺限制，如果GT200用45nm来造，情况就不一样了。

作者: akcadia 时间: 2008-7-22 16:39
{lol:] {lol:] {lol:]
GT200 如果SHADE频率可以达到9800GTX的层次
R700 DDR3可以回家吃便便了

RV770利用多了2亿晶体管的情况下，
也仅仅是在4AA 8AA的情况下能够领先对手，没感觉R600的架构强悍到那里去。

NV的失败之处仅仅在于，为什么不用10亿晶体管直接造个192SP 256BIT的性价比产品出来。

作者: akcadia 时间: 2008-7-22 16:48
讨论GT300应该还为时过早吧？
年内出来的东西应该叫GT220之类的东西吧？

GT300在DX11的支援下估计会采用和R600一样的矢量单元，但是却能够全部运作
也就是说同样SP下大概可以达到2倍或者3倍的理论运算能力。

作者: 1empress 时间: 2008-7-22 19:34
提示: 作者被禁止或删除内容自动屏蔽

作者: hopetoknow 时间: 2008-7-22 22:32
又接近2年多，没有来卡区说话啦
NVIDIA 下一代 GPU 体系架构？极可能2年内，NVIDIA"下一代" GPU 体系都是GT200体系的衍生后代。或可能更长。各位同学基本上-- 今后都是把小变说为革命，尽量比赛堆砌形容词吧。

[ 本帖最后由 hopetoknow 于 2008-7-22 22:38 编辑 ]

作者: feel囝 时间: 2008-7-22 23:55

原帖由 harleylg 于 2008-7-21 22:31 发表

MS这些东西对现在的游戏性能提升不大，不过对CUDA倒是很有帮助……

就是这样了，nv现在横下心搞Cuda，改进的主要方面是有利于通用运算的方面，不过也不能说游戏性能提升不大，游戏支持Cuda加速的话，如果cuda灵活性和通用性进一步提高，效果应该很可观的，但是，目前看不到有这种可能性。况且，以后的事情谁能预计？

作者: akcadia 时间: 2008-7-23 00:06
GT200领先RV770有50-100%
很明显我说的是GT200B

作者: dawensger 时间: 2008-7-23 09:39
NV应该减少一半晶体管数量,增加多1倍GT200效能

作者: RacingPHT 时间: 2008-7-24 17:45
提示: 作者被禁止或删除内容自动屏蔽

作者: R620 时间: 2008-7-26 16:22
显存带宽利用率也需要提高，由于GDDR5的关系GPU需要更深化的流水线来遮掩延迟.......

作者: feel囝 时间: 2008-7-26 18:34

原帖由 RacingPHT 于 2008-7-24 17:45 发表
架构方面，
我觉得下一代GPU比较有可能的是硬件SIMD横向重分配。
if (a)
FooA()
else
FooB()
在thread足够多的情况下, 将FooA与FooB路径的thread进行重排(sorting), 在SIMD结构上实现接近MIMD的利用率 ...

能详细说说什么叫Simd横向重分配么？你下面那个例子，我假设如Thread1和Thread2之间有关系，即Thread1中的分支可能关联到Thread2，那么能按照你所说的Fooa和Foob重排来避免麽？

作者: G81 时间: 2008-7-26 23:57
GT300肯定是45nm工艺的产物.{victory:]

作者: G81 时间: 2008-7-26 23:59

原帖由 aeondxf 于 2008-7-21 21:27 发表
{biggrin:] 不是说DX11有OOO的么？

没必要OOO{closedeyes:]

作者: Edison 时间: 2008-7-27 00:27
新近的一个专利，06年3月23日提出申请的，08年7月22日发出。

http://patft.uspto.gov/netacgi/n ... IA&RS=AN/NVIDIA

BACKGROUND

Conventional graphics processors are exemplified by systems and methods developed to reduce aliasing using supersampling or multisampling techniques that use fixed positions for sub-pixel samples. However, conventionally each pixel has the same fixed sub-pixel position, i.e., the sub-pixel positions are periodic. The human perception system is tuned to detect regular patterns, appearing as aliasing artifacts. To reduce aliasing, the sub-pixel positions should be non-periodic or vary over a region larger than a pixel. Furthermore, the sub-pixel sample positions should be programmable rather than fixed to allow an application to select a specific pattern, including a pattern that varies of several pixels.

There is thus a need for allowing flexibility in determining the positions of sub-pixel samples, including the ability to specify non-periodic sub-pixel positions to reduce aliasing.

看样子可以直接控制取样点的jitter位置，而这个offset动作是有专门的硬件来完成。:rolleyes:

请注意，专利的申请可能与未来的产品并无任何直接关系。

作者: RacingPHT 时间: 2008-7-27 01:24
提示: 作者被禁止或删除内容自动屏蔽

作者: Eji 时间: 2008-7-27 02:06

原帖由 RacingPHT 于 2008-7-24 17:45 发表
架构方面，
我觉得下一代GPU比较有可能的是硬件SIMD横向重分配。
if (a)
FooA()
else
FooB()
在thread足够多的情况下, 将FooA与FooB路径的thread进行重排(sorting), 在SIMD结构上实现接近MIMD的利用率 ...

嘿，後藤老爹的訪談說，他們在warp內有OOOE....
此外，他們已經做得到GPU對記憶體的gather & scatter了，只是要占用ROP的Tex L2，所以讓這功能不能和Graphic一起使用....未來應該會做到可以同步吧？
另一個問題是PCIE 不能咚愫碗p向傳輸同時的問題，不過PCIE老實說成為瓶頸的機會太低了，似乎不是很急迫。

[ 本帖最后由 Eji 于 2008-7-27 02:14 编辑 ]

作者: panyj522 时间: 2008-7-27 02:09
提示: 作者被禁止或删除内容自动屏蔽

作者: PS5 时间: 2008-7-28 17:51

原帖由 Eji 于 2008-7-27 02:06 发表

嘿，後藤老爹的訪談說，他們在warp內有OOOE....
此外，他們已經做得到GPU對記憶體的gather & scatter了，只是要占用ROP的Tex L2，所以讓這功能不能和Graphic一起使用....未來應該會做到可以同步吧？
另一個問題 ...

OOOE对图形性能的提高有帮助没？{sweat:]

作者: RacingPHT 时间: 2008-7-29 10:54
提示: 作者被禁止或删除内容自动屏蔽

作者: Edison 时间: 2008-7-29 11:51
scatter应该就是compute shader基本线了，否则很多东西都干不了，不过gamefest的paper要下个月才公布，你现在有资料了吗？

作者: Prescott 时间: 2008-7-29 12:04

原帖由 Eji 于 2008-7-27 02:06 发表

嘿，後藤老爹的訪談說，他們在warp內有OOOE....
此外，他們已經做得到GPU對記憶體的gather & scatter了，只是要占用ROP的Tex L2，所以讓這功能不能和Graphic一起使用....未來應該會做到可以同步吧？
另一個問題是PCIE 不能咚愫碗p向傳輸同時的問題，不過PCIE老實說成為瓶頸的機會太低了，似乎不是很急迫。

OOO完全没有可能性，图形处理上OOO完全是脑子积水行为。
PCI-E在GPGPU里边是最容易成为瓶颈的地方。

作者: RacingPHT 时间: 2008-7-29 14:49
提示: 作者被禁止或删除内容自动屏蔽

作者: Edison 时间: 2008-7-29 14:51
这个HLSL 5.0不知道会不会是AMD的IL。

作者: RacingPHT 时间: 2008-7-29 15:04
提示: 作者被禁止或删除内容自动屏蔽

作者: boris_lee 时间: 2008-7-29 15:09

原帖由 stcshy 于 2008-7-22 17:58 发表

你家造的GT200那shader频率能达到9800GTX的水平？
RV770无论是高清还是通用计算还是API还是性能都领先于9800GTX，用某些人的说法就是很多晶体管是“看不见”的~{lol:] {victory:]
而且很明显的事实就是RV770在NO ...

Rv770通用计算领先9800GTX{titter:]

作者: boris_lee 时间: 2008-7-29 15:21

原帖由 stcshy 于 2008-7-29 15:14 发表

光一个DP就让NV彻底闭嘴
GT200也没法和RV770比

从F@H里性能看和现有的软件数量来看，NV是可以闭嘴了

桃李不言，下自成蹊
:lol:

作者: Edison 时间: 2008-7-29 15:24

原帖由 RacingPHT 于 2008-7-29 15:04 发表
不知道。我觉得其实和CUDA也比较像。
其实应该是业界都采纳了shared memory这种做法而已。其实idea也已经出现很久了, 以前似乎是某篇ATI的paper提到shared memory能大量减少一些filter的bandwidth，后来是nv硬件先做 ...

filter的时候应该比较容易做到tex cache的优化，scratch-pad能起的帮助很小吧。

我找不到你说的paper，不过Michael C. Houston有篇可能有关的文章，今年3月份的：
http://graphics.stanford.edu/%7E ... mhouston-thesis.pdf

作者: R620 时间: 2008-8-2 11:02

原帖由 RacingPHT 于 2008-7-29 10:54 发表

Warp内的oooe? 我个人不大相信。SP肯定是in-order的结构啦。而且Warp应该是以pipeline的方式在sp内4 cycle完成的，如果其中再去打散，我不知道有什么意义。反正warp多得是...

另外，貌似DX11的compute shader ...

那么DX11的compute shader会不会淘汰掉CUDA呢？:funk:

作者: droganmaster 时间: 2008-8-2 11:50
DX11如果真的支持原生双核的话那下一代必定要走双核卡路线
至少现在来看单核的GT200已经到头了除非用上40nm ～
至于架构 nv的超标量流处理器架构本来就是适合通用计算的对于显卡来说其实矢量架构更加适合这个其实很早以前就知道只不过A之前的R600由于工艺原因不得不削减导致性能低下
40X40=1600 65X65=4225 如果是40nm的话同等核心大小的情况下应该晶体管可以增加2倍多
我觉得nv做一个将近一半于现阶段GT200大小的核心采用矢量架构然后主流卡用一个核心
高端卡用两核心是最明智的做法良品率比单核心容易控制成本也会低一点～不过就怕nv不敢用40nm
如果nv继续使用标量架构的话也许性能也不一定会差 40nm的估计很容易上高频但是标量架构不容易扩展SP数量是不争的事实对比G92～GT200 和 RV670～RV770的晶体管数量和核心尺寸的变化就能看出了下一代RV870要是真有2K的SP的话估计其高倍AA的性能会相当恐怖甚至有可能单核心搞定Crisis 4XAA

作者: droganmaster 时间: 2008-8-2 11:55

原帖由 ROYALSS 于 2008-7-22 19:41 发表

770PRO什么时候比G92强30%以上了{shocked:],平均有10%就不错了:p

千万表说770PRO是最低端的,770PRO和770XT规格完全一样,差距只在频率{happy:]

没办法一开AA就有这么大的差距了不得不承认而且A很多游戏即使不开AA貌似锯齿也很少

作者: G81 时间: 2008-8-2 15:50

原帖由 droganmaster 于 2008-8-2 11:50 发表
DX11如果真的支持原生双核的话那下一代必定要走双核卡路线
至少现在来看单核的GT200已经到头了除非用上40nm ～
至于架构 nv的超标量流处理器架构本来就是适合通用计算的对于显卡来说其实矢量架构更加适合这个其 ...

双核卡非常依赖游戏的优化...

作者: Edison 时间: 2008-8-2 15:52
GPU本身就是manycore设计，所以大家在讨论SLI/CF的时候，应该用multi-GPU或者MGPU、multi-way等说法，而不是多核、双核这样错误的说法。

作者: eDRAM 时间: 2008-8-2 18:50

原帖由 Edison 于 2008-8-2 15:52 发表
GPU本身就是manycore设计，所以大家在讨论SLI/CF的时候，应该用multi-GPU或者MGPU、multi-way等说法，而不是多核、双核这样错误的说法。

GT200是240核:lol:这是老邓自己说的....240个core

作者: G81 时间: 2008-8-2 23:46

原帖由 droganmaster 于 2008-8-2 11:55 发表

没办法一开AA就有这么大的差距了不得不承认而且A很多游戏即使不开AA貌似锯齿也很少

RV770的AA为什么那么强？{ninja:]

作者: gzeasy2006 时间: 2008-8-3 00:33
提前YY一下GT300的晶体管，GT300的晶体管将是GT200的2倍

14亿+14亿=28亿晶体管:devil:

作者: gzeasy2006 时间: 2008-8-3 02:23
GT300肯定将延续GT200的架构

作者: ioia 时间: 2008-8-4 20:06
提示: 作者被禁止或删除内容自动屏蔽

作者: RacingPHT 时间: 2008-8-8 14:36
提示: 作者被禁止或删除内容自动屏蔽

作者: Edison 时间: 2008-8-8 14:39
问题是这样做，可能就变成失去了硬件调度的优势，当然两个架构的差别巨大， LRB 能很容易实现的东西在其他 GPU 上去做就变成比较不合理，反之亦然。

作者: eDRAM 时间: 2008-8-10 10:57

原帖由 天下18 于 2008-7-21 22:42 发表

对，所以说GT200不知是单纯的GPU。曾大的晶体管很大一部分的功用是一些人看不到的。

是啊！增加的很大一部分的功能对游戏性能的提升没帮助，导致了孤岛危机继续显卡危机.......{huffy:]

作者: Eji 时间: 2008-8-10 12:08

原帖由 Prescott 于 2008-7-29 12:04 发表
OOO完全没有可能性，图形处理上OOO完全是脑子积水行为。
PCI-E在GPGPU里边是最容易成为瓶颈的地方。

這我持保留態度耶，如果你的工作會在PCIe上產生瓶頸的話，其實是代表這個工作的咚懔看笮「?静恢档媚玫紾PU上吧？
它是頻寬最小的地方沒錯，問題是就和graphic通常盡量會避免使用到main memory一樣，你應該是搬動計算需要使用到的資料到GPU on-board memory上，然後執行規模比較大、咚懔勘容^大的工作。
然後這個工作理應是做一部分就可以扔一些過程回來monitor，也就是說如果PCIe會成為瓶頸的話，那代表你是bandwidth吃重，而非咚懔砍灾亍?r
GPU是小規模但是大頻寬沒錯，但是GPGPU目標還有高度評型化的工作，我是比較懷疑PCIe如果成為瓶頸的話，那傳輸到PCIe的overhead就代表不值得拿到GPU上了。

至於OOO我不認為那是給graphic用的....

[ 本帖最后由 Eji 于 2008-8-10 12:18 编辑 ]

作者: Eji 时间: 2008-8-10 12:12

原帖由 RacingPHT 于 2008-8-8 14:36 发表
这个在Larrabee中有提到:
"Because thread or task scheduling is under programmer control,
tasks that operate on these data structures can be dynamically rebundled
to maintain SIMD efficiency. For example, a ray tracer’s
secondary reflection rays may be re-bundled differently than the
primary camera rays that generated them."
SIMD束可以进行重新打包，以提高SIMD单元的利用率。
不过这个做法是有程序员进行的，而不是硬件执行。硬件可能提供比较便利的ISA来进行支持。

有關聯性的thread 打包起來執行的意思嗎？
這讓我想到GT200的warp vote.... 避免分支造成必須循序執行的狀況。
Larrabee也有mask register來做類似的工作。

話說對share memory/scratchpad我是有點意見，programmer會比較喜歡無腦的cache還是要自己分配的scratchpad？

作者: RacingPHT 时间: 2008-8-10 18:11
提示: 作者被禁止或删除内容自动屏蔽

作者: G81 时间: 2008-8-10 23:08

原帖由 RacingPHT 于 2008-8-10 18:11 发表
目前已知的硬体似乎都没有把reordering这个东西硬件化的意图。warp-vote确实还是提供了一些更便利的可能性。
至于shared memory我觉得没有什么问题，有时候share一些data还是比较便利的。不过cache要实现scratchpad ...

reordering是什么东西？:wacko:

作者: Prescott 时间: 2008-8-11 15:37

原帖由 Eji 于 2008-8-10 12:08 发表

這我持保留態度耶，如果你的工作會在PCIe上產生瓶頸的話，其實是代表這個工作的咚懔看笮「?静恢档媚玫紾PU上吧？
它是頻寬最小的地方沒錯，問題是就和graphic通常盡量會避免使用到main memory一樣，你應該是搬 ...

不错，确实如此，但是事实上，确实有很多程序port到cuda，最后性能是被PCI-E限制住。

OOO是为了提高单线程性能，但是设计目标在于大规模并行程序性能的GPU/Cell/Niagara/Larrabee都会使用SMT来隐藏内存延时，而不会采用OOO这种费力又不怎么讨好的方式的。

作者: Eji 时间: 2008-8-12 10:58

原帖由 Prescott 于 2008-8-11 15:37 发表

不错，确实如此，但是事实上，确实有很多程序port到cuda，最后性能是被PCI-E限制住。

OOO是为了提高单线程性能，但是设计目标在于大规模并行程序性能的GPU/Cell/Niagara/Larrabee都会使用SMT来隐藏内存延时，而不会采用OOO这种费力又不怎么讨好的方式的。

我是覺得GPU在general processing主要的優勢是在記憶體頻寬，因為memory是direct attach type，天生的可到頻率上限會比針腳來得高。
但是目前CPU不太可能採用這種方式；而如果是3D stack memory的話，其實GPU也可以採用這種結構。所以結果仍然沒差.....
結論來說，就是一張獨立的add in card這種方式會取得比較大的記憶體頻寬。但是這樣就一定會有載入的延遲....
所以我對PCIe的性能帶來的限制，我覺得真的要看application，如果會被限制住的應該就不適合port到GPU上。

OOOE部分我與你的看法相同。
指令層級的OOOE目前來說都是吃力不討好的；GPU和Larrabee應該都只會做資料層級的OOOE。

作者: Prescott 时间: 2008-8-12 12:20

原帖由 Eji 于 2008-8-12 10:58 发表

我是覺得GPU在general processing主要的優勢是在記憶體頻寬，因為memory是direct attach type，天生的可到頻率上限會比針腳來得高。
但是目前CPU不太可能採用這種方式；而如果是3D stack memory的話，其實GPU也 ...

其实我想说的就是，很多App并不适合CUDA这种模型 {lol:]

作者: Edison 时间: 2008-8-12 12:56
Telsa 的 4GB 版应该比较少会出现 PCIE 的瓶颈问题吧，除非是整天需要和 CPU 的数据进行密集而细小数据块的修改等动作。

作者: PS5 时间: 2008-8-12 17:19
GT300会继续强化分支

作者: Eji 时间: 2008-8-13 02:21

原帖由 Prescott 于 2008-8-12 12:20 发表
其实我想说的就是，很多App并不适合CUDA这种模型 {lol:]

我現在講的和CUDA無關啊，現在Larrabee一樣透過add-in board的方式以直接連結取得大頻寬。
除非3D stack memory，否則CPU的頻寬無法與板卡對抗，而版卡的記憶體容量上限則大概是一般的單一module的容量。
(16個chip x 最大單一顆粒上限)
所以只要GPU板上的memory達到某種實用範圍，CPU就會一直遇到記憶體頻寬差距的問題，所以才要靠AVX來衝高咚忝芏取⒒蛘呤荓arrabee掛LNI之類的指令集。
其實這都是先前free lunch is over遲來造成的。

這與CUDA與否無關，單純是GPU這種板卡存在的模式，和CPU的socket之間的一點形態差異罷了，分離的針腳、模組和焊接住的記憶體可達時脈當然會有差距。
能跨越這點的，要等到3D stack memory，要能提供與同時期GPU 在on-board上同等的容量、但是遠超過板卡的頻寬，否則3D stack memory只會變成另一個記憶體階層(因為GPU也會拿它來加速)而已，那就沒辦法取代GPU了。

[ 本帖最后由 Eji 于 2008-8-13 02:28 编辑 ]

作者: Eji 时间: 2008-8-13 02:22

原帖由 Edison 于 2008-8-12 12:56 发表
Telsa 的 4GB 版应该比较少会出现 PCIE 的瓶颈问题吧，除非是整天需要和 CPU 的数据进行密集而细小数据块的修改等动作。

當通訊頻寬是瓶頸的時候，我認為就不值得搬叩紾PU上了。
與CPU的數據進行密集而細小的數據修改，這根本就是程式有問題。

當然覺得自己寫的都是對的、別人的方法都不對似乎是業界的常態....

作者: 32nm 时间: 2008-8-13 19:28
当PCIE2.0出现瓶径的时候离PCIE3.0就不远了:shifty:

作者: R620 时间: 2008-8-13 22:53
NV什么时候能上GDDR5啊？

作者: Edison 时间: 2008-8-15 19:39
http://s08.idav.ucdavis.edu/olic ... lelism-in-games.pdf

这份 siggraph 08 slide 非常有意思，虽然不一定和 NVIDIA 的下一代 GPU 有直接关系，但是其中 page 118 的部分提到了未来的光栅器会是两个或者更多（4个？），当然这部分其实也是可以用 shader 来完成，如果这样的话，被认为是 Crysis 的潜在重要瓶颈 primitive setup 问题可能会得到较大的缓解。

作者: 32nm 时间: 2008-8-15 21:03
标题: 回复 88# Edison 的帖子
未来的光栅器会是2个或者更多（4个？）???
GTX280都有32个光栅器了，难道未来的GPU还会减少光栅器？{happy:]

[ 本帖最后由 32nm 于 2008-8-15 21:37 编辑 ]

作者: RacingPHT 时间: 2008-8-15 21:20
提示: 作者被禁止或删除内容自动屏蔽

作者: R620 时间: 2008-8-16 12:31

原帖由 Prescott 于 2008-8-12 12:20 发表

其实我想说的就是，很多App并不适合CUDA这种模型 {lol:]

APP更适合LBB？

作者: G81 时间: 2008-8-16 14:31
GPU的最大优势就是线程，LBB的最大优势是什么就不得而知了:unsure:

作者: eDRAM 时间: 2008-8-16 16:44
为什么GTX280晶体管数量超过RV770约5亿左右而FP32与FP64的计算加速性能却不如后者呢？{glare:] GTX280 0.933T RV770 1.2T

作者: PS5 时间: 2008-8-16 20:36
GT300的亮点在于标量处理单元的效能媲美向量处理单元的效能，而在效率方面继续领先于SIMD

作者: G81 时间: 2008-8-17 00:52

原帖由 Edison 于 2008-8-12 12:56 发表
Telsa 的 4GB 版应该比较少会出现 PCIE 的瓶颈问题吧，除非是整天需要和 CPU 的数据进行密集而细小数据块的修改等动作。

如果投资办个生物制药厂的话，购买Telsa 4GB版够不够用？

[ 本帖最后由 G81 于 2008-8-17 00:59 编辑 ]

作者: shu0202 时间: 2008-8-17 10:16
我也想问几个光栅器是什么意思？另外标量单元的效能怎样能媲美向量单元？除非是4倍的频率。

作者: RacingPHT 时间: 2008-8-17 10:28
提示: 作者被禁止或删除内容自动屏蔽

作者: R620 时间: 2008-8-17 11:19

原帖由 shu0202 于 2008-8-17 10:16 发表
我也想问几个光栅器是什么意思？另外标量单元的效能怎样能媲美向量单元？除非是4倍的频率。

同问E大:whistling:

作者: Edison 时间: 2008-8-17 14:01

原帖由 RacingPHT 于 2008-8-17 10:28 发表
现在没有gpu是标量单元。即便是G80, 也是内部使用SIMD单元，然后使用横向shuffle给人以标量单元的感觉。
Larrabee也是这种设计。

对于这种说法我问过 NVIDIA 的人，但是他们非常肯定地否定了这个说法，坚持 NV50 的 SP 是 scalar 架构，当然我倒是觉得更像是 super-scalar（MAD+MUL）。

如果只是把 SIMD 指令做水平/垂直的更动达到类似 scalar 的样子，我记得 Intel 的 GMA 就支持这样的方式。

作者: PS5 时间: 2008-8-17 14:32

原帖由 Edison 于 2008-8-17 14:01 发表

对于这种说法我问过 NVIDIA 的人，但是他们非常肯定地否定了这个说法，坚持 NV50 的 SP 是 scalar 架构，当然我倒是觉得更像是 super-scalar（MAD+MUL）。

NV50的SP是SCALAR架构可能吗？底层应该还是SIMD吧！

作者: RacingPHT 时间: 2008-8-17 22:16
提示: 作者被禁止或删除内容自动屏蔽

作者: shu0202 时间: 2008-8-18 10:30

原帖由 RacingPHT 于 2008-8-17 22:16 发表

我的说法可能有误，即G80也许根本不需要进行shuffle, 而是直接就对象素组进行scalar操作。
SP确实scalar, 但是SP根本就不是一个独立的处理器, 即没有独立的PC。既然一组SP共享一个PC, 那么这完全就是Vector SIM ...

是啊，sp彻底独立了的话还分什么组？所以我也不认为G80是完全的标量体系。

作者: Asuka 时间: 2008-8-18 23:50
很早就有人讨论过了

G8X/G9X的底层是SIMD的，但是是gather-scatter的SIMD

gather是指load的时候可以load四个不同位置

scatter是指store的时候可以store到四个不同位置

虽然这样性能会有一定损失，但理论上来说已经可以看成是MIMD了

作者: RacingPHT 时间: 2008-8-19 11:31
提示: 作者被禁止或删除内容自动屏蔽

作者: Edison 时间: 2008-8-19 13:29
所有的多内核处理器本质上都可以看成是 MIMD ，但是就 SM 来说显然不是。

DX11 的 BC7/BC6 效果不错，就是不知道现在的硬件能不能实现，或者说在 shader 上的执行成本会如何。

欢迎光临 POPPUR爱换 (https://we.poppur.com/)