POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
查看: 19987|回复: 151
打印 上一主题 下一主题

拉娜芘的行为艺术larrabee

 关闭 [复制链接]
跳转到指定楼层
1#
发表于 2008-9-1 12:44 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
软件就是新硬件超越可编程着色器

硬件简介

拉娜芘主要硬件单元:
大量x86核心,新型x86核心支持16路单指令多数据指令集。
全相联一级缓存(L1D容量32KB )与二级缓存(L2容量256KB )
硬件纹理单元,纹理采样单元支持DirextX/OpenGL所有功能,并含有32KB纹理缓存。
高速双向环形总线ringbus,支持多个二级缓存之间共享数据。
 
x86核心
新型x86核心支持Pentium处理器的所有指令以及64位扩展指令。
短流水线核心采用双发射顺序执行微架构,标量指令额外延迟为0,即单周期延迟。向量指令为多周期指令,而延迟较短。 当出现分支预测错误,将刷新流水线,所以采用短流水线有利于减少性能开销。短流水线也有利于减少缓存遗失时的性能开销。4路同步多线程SMT,可以单周期线程切换,主要用于隐藏一级缓存遗失、向量指令延迟等。
 
向量处理单元
向量单元含有大量的512比特寄存器。单指令多数据流水线可以一次处理1632比特整数/浮点数据,或864比特浮点数据。向量乘加法指令的吞吐率为一个周期,绝大多数向量指令的延迟远小于8个周期。向量计算指令的两个源操作数可以是寄存器,其中有一个源操作数可以直接来自缓存,而延迟开销与寄存器一样。向量指令采用16比特预测寄存器控制向量指令的16路计算结果哪些应该写回到寄存器,哪些应该被绕过。向量浮点计算完全兼容IEEE754标准。
向量计算单元可以把float16,int8,int16等数据自动转换为32比特浮点/整数数据进行计算,因此缓存可以存放更多的数据。
向量计算单元支持集/(Gather/Scatter)计算:一条指令可以从16个不同的地址读写16个数据结果。 如果与预测寄存器协作,还可以实现数据流处理模式:自动向量化的执行标量代码,支持循环、条件、调用、堆栈等操作,良好的契合着色器语言的计算特点,16路向量计算单元相当于16SP(Scalar Processors)
 
全相联缓存
全相联一级数据缓存容量32KB,二级缓存容量256KB,二级缓存之间可以共享数据。引入了缓存行为控制逻辑,例如,可以控制数据是否直接读写到显存还是读写到缓存;还有数据预取指令,缓存替换策略指令等。多种控制手段可以精细控制缓存行为,令其如同一块芯片内部RAM(scratchpad RAM)一样。还具有可以自动预取大批量数据的自治逻辑单元。
 
纹理采样单元
为全功能DX/OGL纹理采样单元,支持所有标准纹理格式,纹理缓存容量为32KB。纹理采样单元本身是一个独立的协处理器,一个x86核心配有一个纹理采样单元,x86核心一次向纹理采样单元发送4X4—16个像素的UV坐标,而纹理采样单元把16个采样过滤结果通过L2返回给x86核心,x86核心与纹理采样单元双方都是通过二级缓存来交换命令与数据。软件需要通过内嵌函数(inline-call)来调用采样命令。
 
DirectX软件渲染器
除了纹理采样外,都是使用软件来实现。 顶点处理本质上和GPU基本一样, 主要区别是像素处理。
是把一帧图像分为多个小方格(tile/bin),小方格的大小为64X64(128X128),然后一个小方块单独由一个核心来负责渲染。 例如分辨率为1280X960时, 就被分割为20X15=300个小方块分开渲染,每个小方块大小为64X64 一个核心负责渲染一个小方块,当渲染好一个小方块后,就接着渲染下一个小方块,直到300个小方块都被渲染好为止。当核心越多时,就有越多的小方块被同时并行渲染。一个核心执行编译器产生一个程序(routine)来负责多种渲染任务,主要是读三角形、顶点、插值、读像素、前期Z变换、模板、后期Z变换、像素着色器、混合等--ReadtrianglesRead shaded verts & set up interpolantsReadfragments from binsEarly Z/stencilPerspective correction & interpolationPixelshadingLate Z/stencilRender target blend一个程序(routine)里面含有4个线程它们是由硬件同步多线程SMT负责切换,而线程里面含有多个依靠软件切换的微纤线程(fiber),常见情况下,一个纤程(fiber)一次可渲染4X4=16个像素。
 
拉娜芘的行为艺术--CPU3D图形性能,和GPU比通用运算性能。ifan感动的痛哭流涕。
 

[ 本帖最后由 gaiban 于 2008-9-1 19:59 编辑 ]
2#
发表于 2008-9-1 12:52 | 只看该作者
帮你顶了。。。。。。。。。。。。。。
回复 支持 反对

使用道具 举报

zyr488 该用户已被删除
3#
发表于 2008-9-1 14:22 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

4#
发表于 2008-9-1 17:28 | 只看该作者
有史以来最为详尽的公开描述。
涉及细节无数,GPU Fans要仔细看了哦

最后一句话应该改成:可以和CPU比通用性,和GPU比图形性能

[ 本帖最后由 Prescott 于 2008-9-1 17:30 编辑 ]
回复 支持 反对

使用道具 举报

5#
发表于 2008-9-1 17:35 | 只看该作者
”向量计算单元可以把float16,int8,int16等数据自动转换为32比特浮点数据进行计算,因此缓存可以存放更多的数据。“
这里应该错了, float16转换为float32, 而int8,int16转换为int32
回复 支持 反对

使用道具 举报

6#
发表于 2008-9-1 17:46 | 只看该作者
看上去挺美好,晴空万里,祥云缭绕。
回复 支持 反对

使用道具 举报

7#
 楼主| 发表于 2008-9-1 19:58 | 只看该作者
原帖由 Prescott 于 2008-9-1 17:28 发表
有史以来最为详尽的公开描述。
涉及细节无数,GPU Fans要仔细看了哦

最后一句话应该改成:可以和CPU比通用性,和GPU比图形性能

一般人是很难看懂的,披露的细节程度确实超越了至今为止全部中文介绍larrabee的总和。   
  以前后藤乱说了很多的废话,被翻译了一下,照样呆在“体系架构”分类里。  
  正规的介绍来了,倒被E大强行移到“一般”了。
回复 支持 反对

使用道具 举报

8#
发表于 2008-9-2 01:55 | 只看该作者
原帖由 gaiban 于 2008-9-1 19:58 发表

一般人是很难看懂的,披露的细节程度确实超越了至今为止全部中文介绍larrabee的总和。   
  以前后藤乱说了很多的废话,被翻译了一下,照样呆在“体系架构”分类里。  
  正规的介绍来了,倒被E大强行移到“一般 ...

{lol:]
可惜啊,可惜,真料来了,却没人看得懂。
我来总结一下吧,反正这里的人只关心性能:
从Larrabee的设计来看,单论shader性能,理论上32核心@2GHz的Larrabee相当于512 SP@2Ghz的G80。

这个值与Intel论文中模拟出来性能很一致,说明这个设计是达到了预期目标的。

[ 本帖最后由 Prescott 于 2008-9-2 02:07 编辑 ]
回复 支持 反对

使用道具 举报

9#
发表于 2008-9-2 02:01 | 只看该作者
原帖由 predaking 于 2008-9-1 23:57 发表
错误比较多,而且没有切中要点 呵呵

比如 P54C对于4way SMT怎么支持,Branch的机制对Inst Stream的影响,Stand和Fiber以及Thread之间的关系,Bin和Pixel以及Fragment的关系,Input Assambler和LBR Shader的关系, ...

其实这些东西都是清楚的不能再清楚的东西,你搞不懂,只能说你对CPU体系架构还有太多东西要补,你已经彻底被NV洗了脑,已经没有办法跳出传统GPU的设计来理解一个真正的图形处理器应有的样子了。
回复 支持 反对

使用道具 举报

10#
发表于 2008-9-2 02:15 | 只看该作者
{blush:] 意见保留,或许成为史上最暴力的PPU也说不定
回复 支持 反对

使用道具 举报

11#
发表于 2008-9-2 02:24 | 只看该作者
{biggrin:] 言外之意4核的larrabee可以比得上9600GT超频版?
回复 支持 反对

使用道具 举报

12#
发表于 2008-9-2 08:49 | 只看该作者
看笑话,看笑话。
回复 支持 反对

使用道具 举报

13#
发表于 2008-9-2 09:11 | 只看该作者
l like it.  希望早日买到{victory:]
回复 支持 反对

使用道具 举报

14#
发表于 2008-9-2 09:18 | 只看该作者
larrabee不需要H-Z,也不需要compression {mellow:]
回复 支持 反对

使用道具 举报

15#
发表于 2008-9-2 09:33 | 只看该作者
看来有了这显卡,就不用CPU了?
回复 支持 反对

使用道具 举报

16#
 楼主| 发表于 2008-9-2 10:00 | 只看该作者
  P大是说单论shader如何如何,larrabee还要干其他活。
  可能那是larrabee的向量单元奋斗目标, 结果还要看。
回复 支持 反对

使用道具 举报

17#
发表于 2008-9-2 10:01 | 只看该作者
原帖由 Prescott 于 2008-9-2 01:55 发表

{lol:]
可惜啊,可惜,真料来了,却没人看得懂。
我来总结一下吧,反正这里的人只关心性能:
从Larrabee的设计来看,单论shader性能,理论上32核心@2GHz的Larrabee相当于512 SP@2Ghz的G80。

这个值与Intel论 ...


请问Prescott大,Larrabee每个核心每周期到底是发射1个512bit AVX还是发射两个啊?
如果是一个,貌似达不到单精度2Tflops

[ 本帖最后由 itany 于 2008-9-2 10:05 编辑 ]
回复 支持 反对

使用道具 举报

RacingPHT 该用户已被删除
18#
发表于 2008-9-2 10:02 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

19#
发表于 2008-9-2 10:04 | 只看该作者
原帖由 我奏是马甲 于 2008-9-2 02:46 发表
这样换算的话就是:16核心的P54C等于256SP 2GHZ,灭掉GTX280,然后因为GTX280勇超扣肉QX9770 NN倍,所以16核心的P54C足够把QX9770轰渣……

又或者两年之后NV在出GF CTU380..成为世界上最强大地CPU。。。intel就出 ...


您这已经乱了
AMD的64个5D单元就相当于320个SP,为什么Intel的“16D”单元不能相当于512个SP呢?
回复 支持 反对

使用道具 举报

20#
发表于 2008-9-2 10:04 | 只看该作者
似乎只有 "向量指令采用16比特预测寄存器控制向量指令的16路计算结果哪些应该写回到寄存器" 这句话是 larrabee-manycore.pdf 里没留意到的。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2024-6-22 04:25

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表