POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
楼主: gaiban
打印 上一主题 下一主题

拉娜芘的行为艺术larrabee

 关闭 [复制链接]
81#
 楼主| 发表于 2008-9-2 21:10 | 只看该作者
原帖由 RacingPHT 于 2008-9-2 20:42 发表


计算的单元目前没有看到基于int8或者int16的MMX/SSE2 style的运算方式。看起来所有运算需要在fp32的精度下?
那么就不存在64strands/fiber。最多8/16。

  应该存在64吧,16-64strands/fiber是intel的幻灯片里面写的。  就都给它往大处算,才算到8万的。
   可能是strands16/fiber比较常见吧?  那就是2万多个strands。
    所以偶一开始是说strands可以上万而已

[ 本帖最后由 gaiban 于 2008-9-2 21:17 编辑 ]
回复 支持 反对

使用道具 举报

82#
 楼主| 发表于 2008-9-2 21:16 | 只看该作者
原帖由 Edison 于 2008-9-2 21:06 发表
对于图形渲染来说,数据的读取大都是非常非常规则的,使用到 G/S 的机会并不大,如果需要使用的话,NVIDIA 这里有 CUDA,AMD 过两个星期也都有支持 RV770 scratchpad 的 SDK 推出,开发人员可以根据其游戏的渲染特别 ...

那么RV770 支持G/S吧?
  还有让GPU算AI,是遥远了一点,对于larrabee可能比较容易吧。
  偶觉得是谈现在与将来两年的游戏,绝大多数而言,那些还是遥远了一点。  
  
  所以你说的很难有说服力--对于现在与将来两年的游戏而言。  GPU的G/S是要到显存去的, 很多cycles了。

   话说回来总的看来,compute shader可能更有利于larrabee。物理啊AI啊,也是。
回复 支持 反对

使用道具 举报

83#
发表于 2008-9-2 21:30 | 只看该作者
RV770 从一开始就说是支持 scatter 的。

让 GPU 跑 AI 本来就不是什么不可想象的事情,例如在橄榄球类的运动游戏中,我们可以为 "运动员" 的眼睛设计两个视锥以及一个简单的模型(类似物理运算用到的非常简单的box)来做运动轨迹判断,这个视锥扫描哪个对手在扑向它以及附近有没有队员、可以移动的路径等,都是可以用 GPU 来高速处理的,甚至直接可以把视锥作为一个物理运算时候的 box,这样跑物理的时候也顺带作了 AI 。

你说现在和未来两年的游戏 GPU G/S 要到 local memory 里这个说法是没错,实际上这个观点这里没有人反对,但是我们这里必须指出你这样的说法实际上存在明显的问题,那就是对于图形渲染来说,目前的游戏极少机会去做一些不连续地址的存取动作,因此你说的 GPU 要 G/S 到显存中的说法对于大多数的图形渲染来说发生的机会是非常少的,而需要 G/S 的话,AMD/NVIDIA 都有相应的方案来实现片上执行。

有人认为 GPU 跑现在和未来两年的游戏需要整天 G/S 吗?
回复 支持 反对

使用道具 举报

84#
 楼主| 发表于 2008-9-2 21:36 | 只看该作者
原帖由 Edison 于 2008-9-2 21:30 发表
RV770 从一开始就说是支持 scatter 的。

让 GPU 跑 AI 本来就不是什么不可想象的事情,例如在橄榄球类的运动游戏中,我们可以为 "运动员" 的眼睛设计两个视锥以及一个简单的模型(类似物理运算用到的非常简单的bo ...

那支持Gather吧?

可以想象跑AI,问题主要是有多少游戏吧?  其实应该没有必要争论吧,朝鲜还能制造核弹呢,但是能毁灭美国吧?  不是有没有的问题,而是有多少游戏的问题, 关键是百分比有多大的问题。  其实如果说物理AI这些,总体优势在larrabee这边会更大点。
回复 支持 反对

使用道具 举报

85#
发表于 2008-9-2 21:41 | 只看该作者
支持 scatter 当然支持 gather 了,gather 是 CTM 时代就有的了。

采用 GPGPU 实现一些图形运算的应用现在才只是刚刚起步,但是这个趋势大家都是非常看好的,你对这个趋势唱反调是没用的。
回复 支持 反对

使用道具 举报

86#
 楼主| 发表于 2008-9-2 21:48 | 只看该作者
关于G/S的讨论有了结果,游戏角度看,对于GPU而言可能需要很多cycles,而对于larrabee而言可能需要一些cycles。


向量单元--16个SP
上万strands--GPU线程
cache--GPU寄存器

  三项对抗的结果,intel应该是希望完成三大奋斗目标:
  向量单元的效率可以接近16个SP--可以讨论一下谁高谁低,能差多少。
  而HW thread/fiber/strands能否达到GPU线程的效率--也可以讨论一下larrabee掩藏延迟的能力是否充分。
  而新型向量指令/cache能否达到GPU寄存器的效率--还是可以讨论一下。
  哪里是坑,可能要掉去下去了。
回复 支持 反对

使用道具 举报

87#
 楼主| 发表于 2008-9-2 21:55 | 只看该作者
原帖由 Edison 于 2008-9-2 21:41 发表
支持 scatter 当然支持 gather 了,gather 是 CTM 时代就有的了。

采用 GPGPU 实现一些图形运算的应用现在才只是刚刚起步,但是这个趋势大家都是非常看好的,你对这个趋势唱反调是没用的。

好了,一切看现实比较好。等有了多数游戏用GPU搞物理搞AI的时候,所有人都会同意你的。 现实是还比较遥远。  
而compute shader,偶觉得总体说来还是对larrabee有利一些 -- 该话题就超越了G/S的讨论了。
回复 支持 反对

使用道具 举报

88#
发表于 2008-9-2 22:58 | 只看该作者
原帖由 Prescott 于 2008-9-2 01:55 发表

{lol:]
可惜啊,可惜,真料来了,却没人看得懂。
我来总结一下吧,反正这里的人只关心性能:
从Larrabee的设计来看,单论shader性能,理论上32核心@2GHz的Larrabee相当于512 SP@2Ghz的G80。


別無視ROP的存在啊。 :p
回复 支持 反对

使用道具 举报

头像被屏蔽
89#
发表于 2008-9-3 00:57 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

90#
 楼主| 发表于 2008-9-3 10:43 | 只看该作者
原帖由 larrabee 于 2008-9-3 00:57 发表
按precott的说法,gtx 的240个sp假设频率为1.3Ghz ,相当于larrabee的9.75个频率为2G的核心。

P大说的是shader性能。  
Eji大大说了还有ROP。

若shader开销占总开销的80%, 那就是说11-12个larrabee。
若shader开销占总开销的70%, 那就是说13-14个larrabee。
若shader开销占总开销的50-60%, 那就是说15到16个larrabee。
回复 支持 反对

使用道具 举报

91#
发表于 2008-9-3 10:46 | 只看该作者
到底什么时候上市,刚看新闻又说是2010,之前的报道是明年中,糊涂了。。。:wacko:
回复 支持 反对

使用道具 举报

92#
 楼主| 发表于 2008-9-3 11:01 | 只看该作者
原帖由 Jason21 于 2008-9-3 10:46 发表
到底什么时候上市,刚看新闻又说是2010,之前的报道是明年中,糊涂了。。。:wacko:

既然是行为艺术,有可能华丽掉到哪个坑里了,也有可能悄无声息的突然出现--晕啊
回复 支持 反对

使用道具 举报

93#
发表于 2008-9-3 11:09 | 只看该作者
太难了~~~   看不懂啊~~!!   {cry:]
回复 支持 反对

使用道具 举报

94#
发表于 2008-9-3 11:21 | 只看该作者
以每核心16sp去和标量单元每TPC16sp等同对待根本就是脑袋被门夹了,这和用320 vs 128的数字比值判断性能高低是一路货色。现在的游戏连R600的5D向量单元都不能高效利用,怎么能充分配合larrabee的16D向量单元?
回复 支持 反对

使用道具 举报

RacingPHT 该用户已被删除
95#
发表于 2008-9-3 11:35 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

96#
 楼主| 发表于 2008-9-3 11:39 | 只看该作者
原帖由 shu0202 于 2008-9-3 11:21 发表
以每核心16sp去和标量单元每TPC16sp等同对待根本就是脑袋被门夹了,这和用320 vs 128的数字比值判断性能高低是一路货色。现在的游戏连R600的5D向量单元都不能高效利用,怎么能充分配合larrabee的16D向量单元?

第一项论战开始了:16路向量单元 与 SP的效率之争
  向量单元 VS 16个SP
  shu0202首先质疑:现在的游戏连R600的5D向量单元都不能高效利用,怎么能充分配合larrabee的向量单元? 而如何可能赶上nv的8路SP的效率?
P大需要接招了。
回复 支持 反对

使用道具 举报

97#
 楼主| 发表于 2008-9-3 11:40 | 只看该作者
RacingPHT回应:组织方式和G80类似,即SIMD的每个unit对应不同的像素。对于像素来说,这个SIMD就是标量单元。
回复 支持 反对

使用道具 举报

98#
 楼主| 发表于 2008-9-3 11:43 | 只看该作者
偶听说,一个像素的RGB需要在同一个lane/strands里分成三次来计算。晕啊??
回复 支持 反对

使用道具 举报

99#
发表于 2008-9-3 13:52 | 只看该作者
原帖由 gaiban 于 2008-9-3 11:39 发表

第一项论战开始了:16路向量单元 与 SP的效率之争
  向量单元 VS 16个SP
  shu0202首先质疑:现在的游戏连R600的5D向量单元都不能高效利用,怎么能充分配合larrabee的向量单元? 而如何可能赶上nv的8路SP的效率 ...

SIMD和G80的SM有两个最大的区别
1. SIMD操作的地址必须连续,G80的SM中不同的SP虽然执行的是相同的代码,但是可以从不同的地址中加载数据。
2. SIMD对一个向量中的不同元素所作的操作必须一样,不能对不同的标量执行不同的操作,比如对1356做A操作,而0247做B操作。这个在G80中是用分支实现的,先做1356的A,然后做0247的B。

这两个问题,前者通过G/S解决,后者通过Mask register解决了。这种情况下,如果一段代码可以在G80的16个SP组成的SM上获得不错的效率,那经过非常简单的变换,在LRB的VPU上也可以获得类似的效率。虽然LRB的VPU看起来和G80的SM完全不一样,但是本质上都是一样一样一样的啊。

所以,我原先说过,G80和LRB形不似而神似

对于我来说,不是很熟悉3D渲染的程序特性,只能拿G80这种已经被证明为有效的模式来做对比。至于Intel为什么这样实现,有可能是和NV英雄所见略同,也有可能像我一样的想法吧{lol:]

[ 本帖最后由 Prescott 于 2008-9-3 13:59 编辑 ]
回复 支持 反对

使用道具 举报

100#
 楼主| 发表于 2008-9-3 15:45 | 只看该作者
原帖由 Prescott 于 2008-9-3 13:52 发表

至于Intel为什么这样实现,有可能是和NV英雄所见略同,也有可能像我一样的想法吧{lol:]
P大,要是如此的话,larrabee的底层计算硬件实际上和nv的SP颇为神似,larrabee的VPU就是按照GPU的需要来设计的? 
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-4-18 17:58

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表