POPPUR爱换

标题: 45纳米时代我们可以看到Intel的TFLOPS芯片和CELL的TFLOPS版本了 [打印本页]

作者: Edison    时间: 2006-12-5 16:40
标题: 45纳米时代我们可以看到Intel的TFLOPS芯片和CELL的TFLOPS版本了
IBM公布全新Cell路线图08年增强双精度性能

由索尼、东芝以及IBM公司共同研发的处理器CELL目前已经应用于游戏机(PS3)、运算加速卡(Mercury Computer Systems的CAB)、高性能计算机(IBM的Roadrunner),未来还将有东芝的SED电视采用,应用前景相当广阔。

不过目前的CELL还存在一些不足,为此STI正计划拓展、研发Cell的后继产品,日前在IBM主持的一次会议上,我们得以获知Cell未来5年的产品路线图。

正如你所看到的,在这份前所未见的路线图中,STI将会在2007年推出65纳米版本的CELL处理器,依然为1PPE+8SPE的格局,属于成本缩减的版本。

而到了2008年也就是IBM Roadrunner超级计算机落成的年份,CELL的SPE双精度性能增强版本也将会交付,到2010年的时候,将会出现2PPE+32SPE的CELL,不过这里的PPE和SPE都是带了一个单引号的,估计会和目前的PPE/SPE有较大的改动,可以单芯片提供1TFLOPS的浮点性能,基于45纳米SOI工艺,但是并没有提及是否会采用Intel TFLOPS芯片那样的堆叠内存、光纤外连等技术。

其实从业界整体转向多核后,对程序员来说以往依靠频率提升来获得“免费”性能提升的光景已经不是那么容易的事情。

CELL这类异质多内核架构带来了更加复杂的编程难度,但是同时也带来了更佳的性能/瓦特比,从目前Cell的推广形势来看,已经是好于预期不少,AMD和Intel也都有计划作CPU+定制协助芯片(AMD的GPU整合或者Intel的TFLOPS)方案,形式其实和CELL大同小异,不过这两家厂商的产品针对的是桌面应用,如果太多的管芯面积用于计算加速,反而容易成为缺点,因此AMD和Intel都没有在桌面产品上表现得过于激进。

需要提醒大家的是,CELL 45nm TFLOPS并不一定为PS3的下一代采用。

http://www.pcinlife.com/news/hardware/2006-12-05/1165307907d280.html
作者: potomac    时间: 2006-12-5 16:48
提示: 作者被禁止或删除 内容自动屏蔽
作者: sammy2005    时间: 2006-12-5 16:50
提示: 作者被禁止或删除 内容自动屏蔽
作者: Edison    时间: 2006-12-5 16:54
GPU除了shader外,还有一大堆的固定功能单元,而且即使是shader,寄存器的设计也是非常特别,例如常数寄存器等等,如果不能Cell-like的产品不能取替同期中档的GPU,我认为Cell-like取代GPU的说法还不太现实。
作者: Prescott    时间: 2006-12-5 17:02
通用的小核心阵列取代GPU是历史的必然。

如果能做实时ray tracing,谁还要什么光栅渲染的方式?如果不用光栅,现在的GPU的那些特定结构统统作废。
作者: 华尔街商人    时间: 2006-12-5 17:05
提示: 作者被禁止或删除 内容自动屏蔽
作者: potomac    时间: 2006-12-5 17:08
提示: 作者被禁止或删除 内容自动屏蔽
作者: Edison    时间: 2006-12-5 17:17
现在的CPU也就是500k rays每秒,按照每个pixel 96 rays来看,要达到1920x1080@60fps,你需要23887.872个CPU,就算是TeraScale的芯片,估计也要上千个。
作者: 贵甲    时间: 2006-12-5 17:34
原帖由 Prescott 于 2006-12-5 17:02 发表
通用的小核心阵列取代GPU是历史的必然。

如果能做实时ray tracing,谁还要什么光栅渲染的方式?如果不用光栅,现在的GPU的那些特定结构统统作废。


那么这么看来,微软搞的Vista(生命周期至少是5年)是大逆不道咯 :o  :huh:
理论上来说,C2D的FLOPS跟GMA3000是类似的,怎么不弄个SW shader? :lol:

[ 本帖最后由 贵甲 于 2006-12-5 17:36 编辑 ]
作者: 贵甲    时间: 2006-12-5 17:40
原帖由 Edison 于 2006-12-5 17:17 发表
现在的CPU也就是500k rays每秒,按照每个pixel 96 rays来看,要达到1920x1080@60fps,你需要23887.872个CPU,就算是TeraScale的芯片,估计也要上千个。

单纯的FLOPS根本不能说明问题
如果只看FLOPS,SONY有CELL,多放几个SPE进去,FLOPS岂不是比那片太监版7800高很多,还要去请个毛RSX啊

CPU自己在未来也面临有史以来最严重的制程瓶径,如果没有重大突破,属于自身难保的类型,谈何取代GPU
作者: Prescott    时间: 2006-12-5 17:43
原帖由 Edison 于 2006-12-5 17:17 发表
现在的CPU也就是500k rays每秒,按照每个pixel 96 rays来看,要达到1920x1080@60fps,你需要23887.872个CPU,就算是TeraScale的芯片,估计也要上千个。


你远远高估了Ray Tracing的计算量,现在的处理器远不止500K Rays
作者: 贵甲    时间: 2006-12-5 17:52
追赶个摩尔定律,都要用尽浑身解数
避实就虚的CMP SMP,等于是把问题推给了软件和开发人员,并没有从根本上解决矛盾

当绝缘层薄到只有一个原子那么大的时候,现在的半导体工艺也走到了尽头
作者: Edison    时间: 2006-12-5 17:55
原帖由 贵甲 于 2006-12-5 17:40 发表
单纯的FLOPS根本不能说明问题
如果只看FLOPS,SONY有CELL,多放几个SPE进去,FLOPS岂不是比那片太监版7800高很多,还要去请个毛RSX啊
CPU自己在未来也面临有史以来最严重的制程瓶径,如果没有重大突破,属 ...


RSX=/=G70,它是G71的128bit版本,但是一些单元增强了。

7900的FLOPS峰值指标有1.X TFLOPS,一个nrm_pp都有9个flops,FP filtering、blending等也是非常可观的操作量,不过因为不是程序员可控的,通常都"不算数"的。
作者: Edison    时间: 2006-12-5 17:58
原帖由 Prescott 于 2006-12-5 17:43 发表
你远远高估了Ray Tracing的计算量,现在的处理器远不止500K Rays

你看看哪个基于纯ray tracing渲染引擎可以用于跑游戏。

等到你的通用矩阵出来后,GPU都不知道长成什么样子了,说不定是RT算法的定制硬件满街跑了。
作者: potomac    时间: 2006-12-5 18:01
提示: 作者被禁止或删除 内容自动屏蔽
作者: 贵甲    时间: 2006-12-5 18:03
我跟cho的观点类似,GPU本身一些硬件固化的功能,要软件模拟是相当困难的,付出的代价极其高昂
比如RSX的Eraly-Z,Z/Color-Compression,LMA,这些对图形渲染至关重要的东西要CELL或CELL放大版来做根本是望尘莫及的
作者: Edison    时间: 2006-12-5 18:05
LMA中的FSAA对RT来说是几乎免费的,这个没什么所谓。
作者: 贵甲    时间: 2006-12-5 18:07
RT....
过5年再讨论吧
现在八字没有一撇


看MS在Vista中依然器重GPU的做法就知道,CPU根本是自身难保,MS短期内也不相信CPU能越过制程瓶径

[ 本帖最后由 贵甲 于 2006-12-5 18:09 编辑 ]
作者: Prescott    时间: 2006-12-5 18:11
原帖由 Edison 于 2006-12-5 17:58 发表

你看看哪个基于纯ray tracing渲染引擎可以用于跑游戏。

等到你的通用矩阵出来后,GPU都不知道长成什么样子了,说不定是RT算法的定制硬件满街跑了。


http://www.openrt.de/

http://graphics.cs.uni-sb.de/~sidapohl/egoshooter/





[ 本帖最后由 Prescott 于 2006-12-5 18:14 编辑 ]
作者: Edison    时间: 2006-12-5 18:18
http://graphics.cs.uni-sb.de/~sidapohl/egoshooter/features.html

about 20 fps@36 GHz in 512x512 with 4xFSAA)

这是什么概念,有这个价格等级的电脑跑基于光栅渲染的效果比这个好多了。
作者: Prescott    时间: 2006-12-5 18:27
原帖由 Edison 于 2006-12-5 18:18 发表
http://graphics.cs.uni-sb.de/~sidapohl/egoshooter/

about 20 fps@36 GHz in 512x512 with 4xFSAA)

这是什么概念,有这个价格等级的电脑跑基于光栅渲染的效果比这个好多了。


20个 AthlonXP 1800+组成的集群而已,也就是差不多一个Kentfield 3.xG的水准。

如果光栅渲染能够达到与处理单元个数近似于线性的可扩展性,并且做到这张图的效果,那一直光栅下去我也没意见。


作者: potomac    时间: 2006-12-5 18:53
提示: 作者被禁止或删除 内容自动屏蔽
作者: Prescott    时间: 2006-12-5 18:59
原帖由 potomac 于 2006-12-5 18:53 发表

:lol: 这效果?老P强词夺理。w00t) :lol:
景深,反射,折射,焦散都不算。
光是光照产生的明暗和阴影,2012年都做不到到realtime。(现在的RT技术)

我只是强调一个趋势,并没说什么时候做到。 :lol:
作者: Edison    时间: 2006-12-5 19:19
其实Pixar之前的很多部电影都是基于光栅化的渲染,效果也是相当不错。

我认为如果要把RT应用于游戏,算法必须硬件化,这也就是定制而不是Prescott说的小型、通用运算单元的矩阵了。
作者: potomac    时间: 2006-12-5 19:45
提示: 作者被禁止或删除 内容自动屏蔽
作者: RacingPHT    时间: 2006-12-6 09:23
提示: 作者被禁止或删除 内容自动屏蔽
作者: aeondxf    时间: 2006-12-8 17:44
一个PPE带16个SPE……PPE将会在哪方面得到增强?
作者: Edison    时间: 2006-12-8 19:37
STI的方向还是越精简越好吧。
作者: R620    时间: 2007-2-11 11:20
全局照明是未来GPU的重点,关键是如果抛弃ROP,GPU靠什么来吐出象素?




欢迎光临 POPPUR爱换 (https://we.poppur.com/) Powered by Discuz! X3.4