拉娜芘的行为艺术larrabee

gaiban · 发表于 2008-9-1 12:44

软件就是新硬件—超越可编程着色器

硬件简介

拉娜芘主要硬件单元：
大量x86核心，新型x86核心支持16路单指令多数据指令集。
全相联一级缓存(L1D容量32KB )与二级缓存(L2容量256KB )
硬件纹理单元，纹理采样单元支持DirextX/OpenGL所有功能，并含有32KB纹理缓存。
高速双向环形总线ringbus，支持多个二级缓存之间共享数据。

x86核心
新型x86核心支持Pentium处理器的所有指令以及64位扩展指令。
短流水线核心采用双发射顺序执行微架构，标量指令额外延迟为0，即单周期延迟。向量指令为多周期指令，而延迟较短。当出现分支预测错误，将刷新流水线，所以采用短流水线有利于减少性能开销。短流水线也有利于减少缓存遗失时的性能开销。4路同步多线程SMT，可以单周期线程切换，主要用于隐藏一级缓存遗失、向量指令延迟等。

向量处理单元
向量单元含有大量的512比特寄存器。单指令多数据流水线可以一次处理16个32比特整数/浮点数据，或8个64比特浮点数据。向量乘加法指令的吞吐率为一个周期，绝大多数向量指令的延迟远小于8个周期。向量计算指令的两个源操作数可以是寄存器，其中有一个源操作数可以直接来自缓存，而延迟开销与寄存器一样。向量指令采用16比特预测寄存器控制向量指令的16路计算结果哪些应该写回到寄存器，哪些应该被绕过。向量浮点计算完全兼容IEEE754标准。
向量计算单元可以把float16,int8,int16等数据自动转换为32比特浮点/整数数据进行计算，因此缓存可以存放更多的数据。
向量计算单元支持集/散(Gather/Scatter)计算：一条指令可以从16个不同的地址读写16个数据结果。如果与预测寄存器协作，还可以实现”数据流”处理模式:自动向量化的执行标量代码，支持循环、条件、调用、堆栈等操作，良好的契合着色器语言的计算特点，16路向量计算单元相当于16个SP(Scalar Processors)。

全相联缓存
全相联一级数据缓存容量32KB，二级缓存容量256KB，二级缓存之间可以共享数据。引入了缓存行为控制逻辑，例如，可以控制数据是否直接读写到显存还是读写到缓存；还有数据预取指令，缓存替换策略指令等。多种控制手段可以精细控制缓存行为，令其如同一块芯片内部RAM(scratchpad RAM)一样。还具有可以自动预取大批量数据的自治逻辑单元。

纹理采样单元
为全功能DX/OGL纹理采样单元，支持所有标准纹理格式，纹理缓存容量为32KB。纹理采样单元本身是一个独立的协处理器，一个x86核心配有一个纹理采样单元，x86核心一次向纹理采样单元发送4X4—16个像素的UV坐标，而纹理采样单元把16个采样过滤结果通过L2返回给x86核心，x86核心与纹理采样单元双方都是通过二级缓存来交换命令与数据。软件需要通过内嵌函数(inline-call)来调用采样命令。

DirectX软件渲染器
除了纹理采样外，都是使用软件来实现。顶点处理本质上和GPU基本一样，主要区别是像素处理。
是把一帧图像分为多个小方格(tile/bin)，小方格的大小为64X64(或128X128)，然后一个小方块单独由一个核心来负责渲染。例如分辨率为1280X960时，就被分割为20X15=300个小方块分开渲染，每个小方块大小为64X64。一个核心负责渲染一个小方块，当渲染好一个小方块后，就接着渲染下一个小方块，直到300个小方块都被渲染好为止。当核心越多时，就有越多的小方块被同时并行渲染。一个核心执行编译器产生一个程序(routine)来负责多种渲染任务，主要是读三角形、顶点、插值、读像素、前期Z变换、模板、后期Z变换、像素着色器、混合等--ReadtrianglesRead shaded verts & set up interpolantsReadfragments from binsEarly Z/stencilPerspective correction & interpolationPixelshadingLate Z/stencilRender target blend。一个程序(routine)里面含有4个线程它们是由硬件同步多线程SMT负责切换，而线程里面含有多个依靠软件切换的微纤线程(fiber)，常见情况下，一个纤程(fiber)一次可渲染4X4=16个像素。

拉娜芘的行为艺术--和CPU比3D图形性能，和GPU比通用运算性能。ifan感动的痛哭流涕。

[ 本帖最后由 gaiban 于 2008-9-1 19:59 编辑 ]

duron111 · 发表于 2008-9-1 12:52

帮你顶了。。。。。。。。。。。。。。

只看该作者 · 发表于 2008-9-1 14:22

提示: 作者被禁止或删除内容自动屏蔽

Prescott · 发表于 2008-9-1 17:28

有史以来最为详尽的公开描述。
涉及细节无数，GPU Fans要仔细看了哦

最后一句话应该改成：可以和CPU比通用性，和GPU比图形性能

[ 本帖最后由 Prescott 于 2008-9-1 17:30 编辑 ]

54wo · 发表于 2008-9-1 17:35

”向量计算单元可以把float16,int8,int16等数据自动转换为32比特浮点数据进行计算，因此缓存可以存放更多的数据。“
这里应该错了， float16转换为float32，而int8，int16转换为int32

shu0202 · 发表于 2008-9-1 17:46

看上去挺美好，晴空万里，祥云缭绕。

gaiban · 发表于 2008-9-1 19:58

原帖由 Prescott 于 2008-9-1 17:28 发表
有史以来最为详尽的公开描述。
涉及细节无数，GPU Fans要仔细看了哦

最后一句话应该改成：可以和CPU比通用性，和GPU比图形性能

一般人是很难看懂的，披露的细节程度确实超越了至今为止全部中文介绍larrabee的总和。
以前后藤乱说了很多的废话，被翻译了一下，照样呆在“体系架构”分类里。
正规的介绍来了，倒被E大强行移到“一般”了。

Prescott · 发表于 2008-9-2 01:55

原帖由 gaiban 于 2008-9-1 19:58 发表

一般人是很难看懂的，披露的细节程度确实超越了至今为止全部中文介绍larrabee的总和。
以前后藤乱说了很多的废话，被翻译了一下，照样呆在“体系架构”分类里。
正规的介绍来了，倒被E大强行移到“一般 ...

{lol:]
可惜啊，可惜，真料来了，却没人看得懂。
我来总结一下吧，反正这里的人只关心性能：
从Larrabee的设计来看，单论shader性能，理论上32核心@2GHz的Larrabee相当于512 SP@2Ghz的G80。

这个值与Intel论文中模拟出来性能很一致，说明这个设计是达到了预期目标的。

[ 本帖最后由 Prescott 于 2008-9-2 02:07 编辑 ]

Prescott · 发表于 2008-9-2 02:01

原帖由 predaking 于 2008-9-1 23:57 发表
错误比较多，而且没有切中要点呵呵

比如 P54C对于4way SMT怎么支持，Branch的机制对Inst Stream的影响，Stand和Fiber以及Thread之间的关系，Bin和Pixel以及Fragment的关系，Input Assambler和LBR Shader的关系， ...

其实这些东西都是清楚的不能再清楚的东西，你搞不懂，只能说你对CPU体系架构还有太多东西要补，你已经彻底被NV洗了脑，已经没有办法跳出传统GPU的设计来理解一个真正的图形处理器应有的样子了。

茉莉花GT · 发表于 2008-9-2 02:15

{blush:] 意见保留,或许成为史上最暴力的PPU也说不定

aeondxf · 发表于 2008-9-2 02:24

{biggrin:] 言外之意4核的larrabee可以比得上9600GT超频版？

shu0202 · 发表于 2008-9-2 08:49

看笑话，看笑话。

hundrix · 发表于 2008-9-2 09:11

l like it. 希望早日买到{victory:]

Asuka · 发表于 2008-9-2 09:18

larrabee不需要H-Z，也不需要compression {mellow:]

garou · 发表于 2008-9-2 09:33

看来有了这显卡，就不用CPU了？

gaiban · 发表于 2008-9-2 10:00

P大是说单论shader如何如何，larrabee还要干其他活。
可能那是larrabee的向量单元奋斗目标，结果还要看。

itany · 发表于 2008-9-2 10:01

原帖由 Prescott 于 2008-9-2 01:55 发表

{lol:]
可惜啊，可惜，真料来了，却没人看得懂。
我来总结一下吧，反正这里的人只关心性能：
从Larrabee的设计来看，单论shader性能，理论上32核心@2GHz的Larrabee相当于512 SP@2Ghz的G80。

这个值与Intel论 ...

请问Prescott大，Larrabee每个核心每周期到底是发射1个512bit AVX还是发射两个啊？
如果是一个，貌似达不到单精度2Tflops

[ 本帖最后由 itany 于 2008-9-2 10:05 编辑 ]

只看该作者 · 发表于 2008-9-2 10:02

提示: 作者被禁止或删除内容自动屏蔽

itany · 发表于 2008-9-2 10:04

原帖由 我奏是马甲 于 2008-9-2 02:46 发表
这样换算的话就是：16核心的P54C等于256SP 2GHZ，灭掉GTX280，然后因为GTX280勇超扣肉QX9770 NN倍，所以16核心的P54C足够把QX9770轰渣……

又或者两年之后NV在出GF CTU380..成为世界上最强大地CPU。。。intel就出 ...

您这已经乱了
AMD的64个5D单元就相当于320个SP，为什么Intel的“16D”单元不能相当于512个SP呢？

Edison · 发表于 2008-9-2 10:04

似乎只有 "向量指令采用16比特预测寄存器控制向量指令的16路计算结果哪些应该写回到寄存器" 这句话是 larrabee-manycore.pdf 里没留意到的。

帐号		自动登录	找回密码
密码			注册

zyr488 该用户已被删除	3^# 发表于 2008-9-1 14:22 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
zyr488 该用户已被删除
	回复支持反对使用道具举报显身卡

RacingPHT 该用户已被删除	18^# 发表于 2008-9-2 10:02 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
RacingPHT 该用户已被删除
	回复支持反对使用道具举报显身卡

拉娜芘的行为艺术larrabee

浏览过的版块