
原帖由 Prescott 于 2008-9-1 17:28 发表
有史以来最为详尽的公开描述。
涉及细节无数,GPU Fans要仔细看了哦
最后一句话应该改成:可以和CPU比通用性,和GPU比图形性能
原帖由 gaiban 于 2008-9-1 19:58 发表
一般人是很难看懂的,披露的细节程度确实超越了至今为止全部中文介绍larrabee的总和。
以前后藤乱说了很多的废话,被翻译了一下,照样呆在“体系架构”分类里。
正规的介绍来了,倒被E大强行移到“一般 ...
原帖由 predaking 于 2008-9-1 23:57 发表
错误比较多,而且没有切中要点 呵呵
比如 P54C对于4way SMT怎么支持,Branch的机制对Inst Stream的影响,Stand和Fiber以及Thread之间的关系,Bin和Pixel以及Fragment的关系,Input Assambler和LBR Shader的关系, ...
原帖由 Prescott 于 2008-9-2 01:55 发表
{lol:]
可惜啊,可惜,真料来了,却没人看得懂。
我来总结一下吧,反正这里的人只关心性能:
从Larrabee的设计来看,单论shader性能,理论上32核心@2GHz的Larrabee相当于512 SP@2Ghz的G80。
这个值与Intel论 ...
原帖由 我奏是马甲 于 2008-9-2 02:46 发表
这样换算的话就是:16核心的P54C等于256SP 2GHZ,灭掉GTX280,然后因为GTX280勇超扣肉QX9770 NN倍,所以16核心的P54C足够把QX9770轰渣……
又或者两年之后NV在出GF CTU380..成为世界上最强大地CPU。。。intel就出 ...
原帖由 predaking 于 2008-9-2 09:57 发表
是么,呵呵 :〉
记得N年前,我的小组还在的时候我主持过Inorder MPU和4-way Superscalar OOO MPU的Design,也相当长的时间研究过SMT OOO MPU,主要是以DEC Alpha 21464的思想为原型,呵呵。这都是我们之前 ...
原帖由 itany 于 2008-9-2 10:01 发表
请问Prescott大,Larrabee每个核心每周期到底是发射1个512bit AVX还是发射两个啊?
如果是一个,貌似达不到单精度2Tflops
原帖由 Edison 于 2008-9-2 10:04 发表
似乎只有 "向量指令采用16比特预测寄存器控制向量指令的16路计算结果哪些应该写回到寄存器" 这句话是 larrabee-manycore.pdf 里没留意到的。
原帖由 gaiban 于 2008-9-2 12:37 发表
说明你没有好好看,而P大看的比较仔细。 有很多细节是 larrabee-manycore.pdf 里没有的,或者是没有直接说的。或者是没有被你们好好当成一回事来讨论的。
能看懂的人很少。
另外来的“predaking” ...
原帖由 Edison 于 2008-9-2 14:40 发表
larrabee-manycore.pdf 还有些"配套"的 slide,我在 Larrabee 专题中就都给出过连接:
http://s08.idav.ucdavis.edu/forsyth-larrabee-graphics-architecture.pdf
我的看法是,楼主目前所说的的确并没有超越 S ...
原帖由 RacingPHT 于 2008-9-2 15:13 发表
说错了不要紧,我不是做硬件arch的,我做软件附带需要了解一下硬件。
基本上吧,这里装外行,还不说出了多少错漏,而又没有营养的的就是你了。
你看看你这个回贴,有哪怕一点点的信息量么?
原帖由 Edison 于 2008-9-2 14:40 发表
larrabee-manycore.pdf 还有些"配套"的 slide,我在 Larrabee 专题中就都给出过连接:
http://s08.idav.ucdavis.edu/forsyth-larrabee-graphics-architecture.pdf
我的看法是,楼主目前所说的的确并没有超越 S ...
原帖由 Edison 于 2008-9-2 16:17 发表
Gather/Scatter 部分其实在大家看到 iL2-sub CACHE/L1 D-cache/Ring-Bus 的设计后都明白是怎么回事了吧。
原帖由 Edison 于 2008-9-2 16:17 发表
Gather/Scatter 部分其实在大家看到 iL2-sub CACHE/L1 D-cache/Ring-Bus 的设计后都明白是怎么回事了吧。
原帖由 Edison 于 2008-9-2 17:03 发表
Larrabee 在 G/S 的时候,只能做到单周期完成同一个 cache line 的 G/S,如果从不同的 cache-line G/S,就可能需要更多的时间,例如两条不同的 cache-line,可能就是两倍的时间,最糟糕的情况应该是16倍,这样的设计 ...
原帖由 Edison 于 2008-9-2 17:43 发表
Siggraph 的 paper 的确是这样说的。 我上面说的是指不同 cache-line 需要多次 access,需要的时间就是 n 倍。
G/S 可以从不同的 cache-line 抓,也可以从同一条 cache 里抓。
你来说说 register size = ...
原帖由 Edison 于 2008-9-2 17:03 发表
Larrabee 在 G/S 的时候,只能做到单周期完成同一个 cache line 的 G/S,如果从不同的 cache-line G/S,就可能需要更多的时间,例如两条不同的 cache-line,可能就是两倍的时间,最糟糕的情况应该是16倍,这样的设计 ...
原帖由 gaiban 于 2008-9-2 18:13 发表
话说游戏的时候,GPU主要应该是到显存去G/S吧?
由于tile/bin,而larrabee主要是到cache里面G/S吧?
为何说cuda呢? 通用性能,larrabee天下无敌。
原帖由 Edison 于 2008-9-2 18:18 发表
谁说游戏的时候是不会动那个 "scratchpad" 的,只是图形运算的时候可能不触及,用 GPU 跑物理、AI 加速的时候不就是游戏运用上 scratchpad 的情况了吗?如果说是 deferred rendering,到了 DX11 世代我想大都会采 ...
原帖由 Edison 于 2008-9-2 18:39 发表
目前跑 D3D/OGL 的时候,g8x/g9x/gt200 的 shared memory 应该根本就没启用,除非配合 CUDA ,但是这必须游戏开发人员来采用而不是驱动来做。
如果你用 compute shader 计算一些范围是 100x100 或者更大并且涉及到 ...
原帖由 RacingPHT 于 2008-9-2 20:42 发表
计算的单元目前没有看到基于int8或者int16的MMX/SSE2 style的运算方式。看起来所有运算需要在fp32的精度下?
那么就不存在64strands/fiber。最多8/16。
原帖由 Edison 于 2008-9-2 21:06 发表
对于图形渲染来说,数据的读取大都是非常非常规则的,使用到 G/S 的机会并不大,如果需要使用的话,NVIDIA 这里有 CUDA,AMD 过两个星期也都有支持 RV770 scratchpad 的 SDK 推出,开发人员可以根据其游戏的渲染特别 ...
原帖由 Edison 于 2008-9-2 21:30 发表
RV770 从一开始就说是支持 scatter 的。
让 GPU 跑 AI 本来就不是什么不可想象的事情,例如在橄榄球类的运动游戏中,我们可以为 "运动员" 的眼睛设计两个视锥以及一个简单的模型(类似物理运算用到的非常简单的bo ...
原帖由 Edison 于 2008-9-2 21:41 发表
支持 scatter 当然支持 gather 了,gather 是 CTM 时代就有的了。
采用 GPGPU 实现一些图形运算的应用现在才只是刚刚起步,但是这个趋势大家都是非常看好的,你对这个趋势唱反调是没用的。
原帖由 Prescott 于 2008-9-2 01:55 发表
{lol:]
可惜啊,可惜,真料来了,却没人看得懂。
我来总结一下吧,反正这里的人只关心性能:
从Larrabee的设计来看,单论shader性能,理论上32核心@2GHz的Larrabee相当于512 SP@2Ghz的G80。
原帖由 shu0202 于 2008-9-3 11:21 发表
以每核心16sp去和标量单元每TPC16sp等同对待根本就是脑袋被门夹了,这和用320 vs 128的数字比值判断性能高低是一路货色。现在的游戏连R600的5D向量单元都不能高效利用,怎么能充分配合larrabee的16D向量单元?
原帖由 gaiban 于 2008-9-3 11:39 发表
第一项论战开始了:16路向量单元 与 SP的效率之争
向量单元 VS 16个SP
shu0202首先质疑:现在的游戏连R600的5D向量单元都不能高效利用,怎么能充分配合larrabee的向量单元? 而如何可能赶上nv的8路SP的效率 ...
| 欢迎光临 POPPUR爱换 (https://we.poppur.com/) | Powered by Discuz! X3.4 |