拉娜芘的行为艺术larrabee

gaiban · 发表于 2008-9-2 21:10

原帖由 RacingPHT 于 2008-9-2 20:42 发表

计算的单元目前没有看到基于int8或者int16的MMX/SSE2 style的运算方式。看起来所有运算需要在fp32的精度下？
那么就不存在64strands/fiber。最多8/16。

应该存在64吧，16-64strands/fiber是intel的幻灯片里面写的。就都给它往大处算，才算到8万的。
可能是strands16/fiber比较常见吧？那就是2万多个strands。
所以偶一开始是说strands可以上万而已

[ 本帖最后由 gaiban 于 2008-9-2 21:17 编辑 ]

gaiban · 发表于 2008-9-2 21:16

原帖由 Edison 于 2008-9-2 21:06 发表
对于图形渲染来说，数据的读取大都是非常非常规则的，使用到 G/S 的机会并不大，如果需要使用的话，NVIDIA 这里有 CUDA，AMD 过两个星期也都有支持 RV770 scratchpad 的 SDK 推出，开发人员可以根据其游戏的渲染特别 ...

那么RV770 支持G/S吧？
  还有让GPU算AI，是遥远了一点，对于larrabee可能比较容易吧。
  偶觉得是谈现在与将来两年的游戏，绝大多数而言，那些还是遥远了一点。

  所以你说的很难有说服力--对于现在与将来两年的游戏而言。  GPU的G/S是要到显存去的，很多cycles了。

话说回来总的看来，compute shader可能更有利于larrabee。物理啊AI啊，也是。

Edison · 发表于 2008-9-2 21:30

RV770 从一开始就说是支持 scatter 的。

让 GPU 跑 AI 本来就不是什么不可想象的事情，例如在橄榄球类的运动游戏中，我们可以为 "运动员" 的眼睛设计两个视锥以及一个简单的模型（类似物理运算用到的非常简单的box）来做运动轨迹判断，这个视锥扫描哪个对手在扑向它以及附近有没有队员、可以移动的路径等，都是可以用 GPU 来高速处理的，甚至直接可以把视锥作为一个物理运算时候的 box，这样跑物理的时候也顺带作了 AI 。

你说现在和未来两年的游戏 GPU G/S 要到 local memory 里这个说法是没错，实际上这个观点这里没有人反对，但是我们这里必须指出你这样的说法实际上存在明显的问题，那就是对于图形渲染来说，目前的游戏极少机会去做一些不连续地址的存取动作，因此你说的 GPU 要 G/S 到显存中的说法对于大多数的图形渲染来说发生的机会是非常少的，而需要 G/S 的话，AMD/NVIDIA 都有相应的方案来实现片上执行。

有人认为 GPU 跑现在和未来两年的游戏需要整天 G/S 吗？

gaiban · 发表于 2008-9-2 21:36

原帖由 Edison 于 2008-9-2 21:30 发表
RV770 从一开始就说是支持 scatter 的。

让 GPU 跑 AI 本来就不是什么不可想象的事情，例如在橄榄球类的运动游戏中，我们可以为 "运动员" 的眼睛设计两个视锥以及一个简单的模型（类似物理运算用到的非常简单的bo ...

那支持Gather吧？

可以想象跑AI，问题主要是有多少游戏吧？其实应该没有必要争论吧，朝鲜还能制造核弹呢，但是能毁灭美国吧？不是有没有的问题，而是有多少游戏的问题，关键是百分比有多大的问题。其实如果说物理AI这些，总体优势在larrabee这边会更大点。

Edison · 发表于 2008-9-2 21:41

支持 scatter 当然支持 gather 了，gather 是 CTM 时代就有的了。

采用 GPGPU 实现一些图形运算的应用现在才只是刚刚起步，但是这个趋势大家都是非常看好的，你对这个趋势唱反调是没用的。

gaiban · 发表于 2008-9-2 21:48

关于G/S的讨论有了结果，游戏角度看，对于GPU而言可能需要很多cycles,而对于larrabee而言可能需要一些cycles。

向量单元--16个SP
上万strands--GPU线程
cache--GPU寄存器

  三项对抗的结果，intel应该是希望完成三大奋斗目标：
  向量单元的效率可以接近16个SP--可以讨论一下谁高谁低，能差多少。
  而HW thread/fiber/strands能否达到GPU线程的效率--也可以讨论一下larrabee掩藏延迟的能力是否充分。
  而新型向量指令/cache能否达到GPU寄存器的效率--还是可以讨论一下。
  哪里是坑，可能要掉去下去了。

gaiban · 发表于 2008-9-2 21:55

原帖由 Edison 于 2008-9-2 21:41 发表
支持 scatter 当然支持 gather 了，gather 是 CTM 时代就有的了。

采用 GPGPU 实现一些图形运算的应用现在才只是刚刚起步，但是这个趋势大家都是非常看好的，你对这个趋势唱反调是没用的。

好了，一切看现实比较好。等有了多数游戏用GPU搞物理搞AI的时候，所有人都会同意你的。现实是还比较遥远。
而compute shader，偶觉得总体说来还是对larrabee有利一些 -- 该话题就超越了G/S的讨论了。

Eji · 发表于 2008-9-2 22:58

原帖由 Prescott 于 2008-9-2 01:55 发表

{lol:]
可惜啊，可惜，真料来了，却没人看得懂。
我来总结一下吧，反正这里的人只关心性能：
从Larrabee的设计来看，单论shader性能，理论上32核心@2GHz的Larrabee相当于512 SP@2Ghz的G80。

別無視ROP的存在啊。 :p

larrabee · 发表于 2008-9-3 00:57

提示: 作者被禁止或删除内容自动屏蔽

gaiban · 发表于 2008-9-3 10:43

原帖由 larrabee 于 2008-9-3 00:57 发表
按precott的说法，gtx 的240个sp假设频率为1.3Ghz ，相当于larrabee的9.75个频率为2G的核心。

P大说的是shader性能。
Eji大大说了还有ROP。

若shader开销占总开销的80%，那就是说11-12个larrabee。
若shader开销占总开销的70%，那就是说13-14个larrabee。
若shader开销占总开销的50-60%，那就是说15到16个larrabee。

Jason21 · 发表于 2008-9-3 10:46

到底什么时候上市，刚看新闻又说是2010，之前的报道是明年中，糊涂了。。。:wacko:

gaiban · 发表于 2008-9-3 11:01

原帖由 Jason21 于 2008-9-3 10:46 发表
到底什么时候上市，刚看新闻又说是2010，之前的报道是明年中，糊涂了。。。:wacko:

既然是行为艺术，有可能华丽掉到哪个坑里了，也有可能悄无声息的突然出现--晕啊

不喝孟婆汤 · 发表于 2008-9-3 11:09

太难了~~~ 看不懂啊~~！！ {cry:]

shu0202 · 发表于 2008-9-3 11:21

以每核心16sp去和标量单元每TPC16sp等同对待根本就是脑袋被门夹了，这和用320 vs 128的数字比值判断性能高低是一路货色。现在的游戏连R600的5D向量单元都不能高效利用，怎么能充分配合larrabee的16D向量单元？

只看该作者 · 发表于 2008-9-3 11:35

提示: 作者被禁止或删除内容自动屏蔽

gaiban · 发表于 2008-9-3 11:39

原帖由 shu0202 于 2008-9-3 11:21 发表
以每核心16sp去和标量单元每TPC16sp等同对待根本就是脑袋被门夹了，这和用320 vs 128的数字比值判断性能高低是一路货色。现在的游戏连R600的5D向量单元都不能高效利用，怎么能充分配合larrabee的16D向量单元？

第一项论战开始了：16路向量单元与 SP的效率之争
向量单元 VS 16个SP
shu0202首先质疑：现在的游戏连R600的5D向量单元都不能高效利用，怎么能充分配合larrabee的向量单元？而如何可能赶上nv的8路SP的效率？
P大需要接招了。

gaiban · 发表于 2008-9-3 11:40

RacingPHT回应：组织方式和G80类似，即SIMD的每个unit对应不同的像素。对于像素来说，这个SIMD就是标量单元。

gaiban · 发表于 2008-9-3 11:43

偶听说，一个像素的RGB需要在同一个lane/strands里分成三次来计算。晕啊？？

Prescott · 发表于 2008-9-3 13:52

原帖由 gaiban 于 2008-9-3 11:39 发表

第一项论战开始了：16路向量单元与 SP的效率之争
向量单元 VS 16个SP
shu0202首先质疑：现在的游戏连R600的5D向量单元都不能高效利用，怎么能充分配合larrabee的向量单元？而如何可能赶上nv的8路SP的效率 ...

SIMD和G80的SM有两个最大的区别
1. SIMD操作的地址必须连续，G80的SM中不同的SP虽然执行的是相同的代码，但是可以从不同的地址中加载数据。
2. SIMD对一个向量中的不同元素所作的操作必须一样，不能对不同的标量执行不同的操作，比如对1356做A操作，而0247做B操作。这个在G80中是用分支实现的，先做1356的A，然后做0247的B。

这两个问题，前者通过G/S解决，后者通过Mask register解决了。这种情况下，如果一段代码可以在G80的16个SP组成的SM上获得不错的效率，那经过非常简单的变换，在LRB的VPU上也可以获得类似的效率。虽然LRB的VPU看起来和G80的SM完全不一样，但是本质上都是一样一样一样的啊。

所以，我原先说过，G80和LRB形不似而神似

对于我来说，不是很熟悉3D渲染的程序特性，只能拿G80这种已经被证明为有效的模式来做对比。至于Intel为什么这样实现，有可能是和NV英雄所见略同，也有可能像我一样的想法吧{lol:]

[ 本帖最后由 Prescott 于 2008-9-3 13:59 编辑 ]

gaiban · 发表于 2008-9-3 15:45

原帖由 Prescott 于 2008-9-3 13:52 发表

至于Intel为什么这样实现，有可能是和NV英雄所见略同，也有可能像我一样的想法吧{lol:]

P大，要是如此的话，larrabee的底层计算硬件实际上和nv的SP颇为神似，larrabee的VPU就是按照GPU的需要来设计的？

帐号		自动登录	找回密码
密码			注册

larrabee larrabee 当前离线积分 2 IP卡狗仔卡头像被屏蔽	89^# 发表于 2008-9-3 00:57 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
larrabee larrabee 当前离线积分 2 IP卡狗仔卡头像被屏蔽
	回复支持反对使用道具举报显身卡

RacingPHT 该用户已被删除	95^# 发表于 2008-9-3 11:35 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
RacingPHT 该用户已被删除
	回复支持反对使用道具举报显身卡

拉娜芘的行为艺术larrabee

浏览过的版块