1、 GT200 体系架构中,你觉得最主要的特色是什么呢?最好能有一些专业的测试数据来辅证。
2、 GT200 体系架构中,最主要的问题是什么呢?下一代架构是否会延续这个架构的基本框架做优化呢?
3、 下一代架构中你认为会在在那些方面作出改进? DX11?动态分支性能?双精度性能?AA性能/算法?Tessellation?等等。
4、 你想到与之相关的技术分析、预测。
1、请不要把其他网站的新闻照抄过来,如果你需要大家关注其内容,只需要把链接提供,照搬的内容我们会予以删除。
2、与上面或者其他网友提供的信息重复或者重叠的内容请不要再引用。
3、请注意网络礼节。



原帖由 Edison 于 2008/7/21 22:26 发表
双精度运算、atomic function、Read/Write Combin、warp vote等都是g9x实现不了的。
如果以Crysis 1680x1050 4aa 16af为例,gt200的性能大约是9800gtx的1.6倍。
原帖由 stcshy 于 2008-7-21 20:34 发表
G80--GT200架构已经到头了
无法再做大
架构更换势在必行
沉溺于G80的辉煌中自我陶醉丝毫无助于NV扭转劣势
原帖由 天下18 于 2008-7-21 22:42 发表
对,所以说GT200不知是单纯的GPU。曾大的晶体管很大一部分的功用是一些人看不到的。
原帖由 RacingPHT 于 2008-7-24 17:45 发表
架构方面,
我觉得下一代GPU比较有可能的是硬件SIMD横向重分配。
if (a)
FooA()
else
FooB()
在thread足够多的情况下, 将FooA与FooB路径的thread进行重排(sorting), 在SIMD结构上实现接近MIMD的利用率 ...
原帖由 RacingPHT 于 2008-7-24 17:45 发表
架构方面,
我觉得下一代GPU比较有可能的是硬件SIMD横向重分配。
if (a)
FooA()
else
FooB()
在thread足够多的情况下, 将FooA与FooB路径的thread进行重排(sorting), 在SIMD结构上实现接近MIMD的利用率 ...
原帖由 Eji 于 2008-7-27 02:06 发表
嘿,後藤老爹的訪談說,他們在warp內有OOOE....
此外,他們已經做得到GPU對記憶體的gather & scatter了,只是要占用ROP的Tex L2,所以讓這功能不能和Graphic一起使用....未來應該會做到可以同步吧?
另一個問題 ...
原帖由 Eji 于 2008-7-27 02:06 发表
嘿,後藤老爹的訪談說,他們在warp內有OOOE....
此外,他們已經做得到GPU對記憶體的gather & scatter了,只是要占用ROP的Tex L2,所以讓這功能不能和Graphic一起使用....未來應該會做到可以同步吧?
另一個問題是PCIE 不能咚愫碗p向傳輸同時的問題,不過PCIE老實說成為瓶頸的機會太低了,似乎不是很急迫。
原帖由 stcshy 于 2008-7-22 17:58 发表
你家造的GT200那shader频率能达到9800GTX的水平?
RV770无论是高清还是通用计算还是API还是性能都领先于9800GTX,用某些人的说法就是很多晶体管是“看不见”的~{lol:] {victory:]
而且很明显的事实就是RV770在NO ...
原帖由 RacingPHT 于 2008-7-29 15:04 发表
不知道。我觉得其实和CUDA也比较像。
其实应该是业界都采纳了shared memory这种做法而已。其实idea也已经出现很久了, 以前似乎是某篇ATI的paper提到shared memory能大量减少一些filter的bandwidth,后来是nv硬件先做 ...
原帖由 RacingPHT 于 2008-7-29 10:54 发表
Warp内的oooe? 我个人不大相信。SP肯定是in-order的结构啦。而且Warp应该是以pipeline的方式在sp内4 cycle完成的,如果其中再去打散,我不知道有什么意义。反正warp多得是...
另外,貌似DX11的compute shader ...
原帖由 ROYALSS 于 2008-7-22 19:41 发表
770PRO什么时候比G92强30%以上了{shocked:],平均有10%就不错了:p
千万表说770PRO是最低端的,770PRO和770XT规格完全一样,差距只在频率{happy:]
原帖由 droganmaster 于 2008-8-2 11:50 发表
DX11如果真的支持原生双核的话那下一代必定要走双核卡路线
至少现在来看单核的GT200已经到头了 除非用上40nm ~
至于架构 nv的超标量流处理器架构本来就是适合通用计算的 对于显卡来说其实矢量架构更加适合 这个其 ...
原帖由 Edison 于 2008-8-2 15:52 发表
GPU本身就是manycore设计,所以大家在讨论SLI/CF的时候,应该用multi-GPU或者MGPU、multi-way等说法,而不是多核、双核这样错误的说法。
原帖由 RacingPHT 于 2008-8-8 14:36 发表
这个在Larrabee中有提到:
"Because thread or task scheduling is under programmer control,
tasks that operate on these data structures can be dynamically rebundled
to maintain SIMD efficiency. For example, a ray tracer’s
secondary reflection rays may be re-bundled differently than the
primary camera rays that generated them."
SIMD束可以进行重新打包,以提高SIMD单元的利用率。
不过这个做法是有程序员进行的,而不是硬件执行。硬件可能提供比较便利的ISA来进行支持。
原帖由 RacingPHT 于 2008-8-10 18:11 发表
目前已知的硬体似乎都没有把reordering这个东西硬件化的意图。warp-vote确实还是提供了一些更便利的可能性。
至于shared memory我觉得没有什么问题,有时候share一些data还是比较便利的。不过cache要实现scratchpad ...
原帖由 Eji 于 2008-8-10 12:08 发表
這我持保留態度耶,如果你的工作會在PCIe上產生瓶頸的話,其實是代表這個工作的咚懔看笮「?静恢档媚玫紾PU上吧?
它是頻寬最小的地方沒錯,問題是就和graphic通常盡量會避免使用到main memory一樣,你應該是搬 ...
原帖由 Prescott 于 2008-8-11 15:37 发表
不错,确实如此,但是事实上,确实有很多程序port到cuda,最后性能是被PCI-E限制住。
OOO是为了提高单线程性能,但是设计目标在于大规模并行程序性能的GPU/Cell/Niagara/Larrabee都会使用SMT来隐藏内存延时,而不会采用OOO这种费力又不怎么讨好的方式的。
原帖由 Eji 于 2008-8-12 10:58 发表
我是覺得GPU在general processing主要的優勢是在記憶體頻寬,因為memory是direct attach type,天生的可到頻率上限會比針腳來得高。
但是目前CPU不太可能採用這種方式;而如果是3D stack memory的話,其實GPU也 ...
原帖由 RacingPHT 于 2008-8-17 10:28 发表
现在没有gpu是标量单元。即便是G80, 也是内部使用SIMD单元,然后使用横向shuffle给人以标量单元的感觉。
Larrabee也是这种设计。
原帖由 Edison 于 2008-8-17 14:01 发表
对于这种说法我问过 NVIDIA 的人,但是他们非常肯定地否定了这个说法,坚持 NV50 的 SP 是 scalar 架构,当然我倒是觉得更像是 super-scalar(MAD+MUL)。
原帖由 RacingPHT 于 2008-8-17 22:16 发表
我的说法可能有误,即G80也许根本不需要进行shuffle, 而是直接就对象素组进行scalar操作。
SP确实scalar, 但是SP根本就不是一个独立的处理器, 即没有独立的PC。既然一组SP共享一个PC, 那么这完全就是Vector SIM ...
| 欢迎光临 POPPUR爱换 (https://we.poppur.com/) | Powered by Discuz! X3.4 |