英特尔 Larrabee 体系架构讨论主题

ic.expert · 发表于 2009-4-26 15:17

For example, can bring more mm^2 to bear – the whole chip!
原文如此....
每個core同時頂多一個tile、最多投入16個core，這是我的認知....
不過一個core(的面積)都大大地大過一般GPU的rasterizer，何況16 ...
Eji 发表于 2009-4-26 11:20

这也是我所疑问的，这样效率必然不高。必要的Fixed Function还是应予保留。

Edison · 发表于 2009-5-12 23:20

这应该是 larrabee 的裸片首次曝光了：

http://www.pcgameshardware.com/aid,683947/Detailed-Larrabee-Die-shot-shown-by-Intel/News/

ic.expert · 发表于 2009-5-13 00:19

我拭目以待看Intel如何解释32NM工艺生产出来3XX 瓦特的电老虎……

Edison · 发表于 2009-5-13 00:23

300 瓦应该是指 45nm 下。

只看该作者 · 发表于 2009-5-13 01:04

提示: 作者被禁止或删除内容自动屏蔽

zaknafein · 发表于 2009-5-13 01:52

universitaet des saarlandes不就是intel RT主力干将daniel pohl做毕设的地方么

只看该作者 · 发表于 2009-5-13 09:27

提示: 作者被禁止或删除内容自动屏蔽

yudongsha · 发表于 2009-5-15 15:23

路过路过路过路过。。。。

Prescott · 发表于 2009-5-18 00:39

我拭目以待看Intel如何解释32NM工艺生产出来3XX 瓦特的电老虎……
ic.expert 发表于 2009-5-13 00:19

300W是卡，而且是45nm

tomsmith123 · 发表于 2009-5-18 07:47

Larrabee 有若干Fixed Function部件，主要是做各种方式贴图的。
应该说AMD 不怕Larrabee，但是nVidia 就不同了，Larrabee 在HPC 上是一种划时代的东西，不过还是老话，做GPU 不会特别擅长，除非DX11对它做特别的优化。
换个思路，Larrabee 就是超宽的SIMD的全功能核心堆积的，可编程性从CT 的实验看，非常高，和CUDA比，暂时还看不出二选一的时候，为什么选CUDA。
现在我们做实验，还是把代码发给Intel 做优化评估，9月后再看。

ic.expert · 发表于 2009-5-18 15:27

LRB一直标榜的Jepg纹理呢？赫赫

Edison · 发表于 2009-5-18 15:54

tomsmith123 目前在 LRB 上有跑过稀疏矩阵吗？平均而言加速比可以做到多少呢？

tomsmith123 · 发表于 2009-5-18 18:53

337# Edison
我们做的部分实验大致是500G Flops 的实际性能，单精度。
目前我们不做稀疏矩阵。

iqu748 · 发表于 2009-5-23 19:03

各位强人能否给出一个简单的阶段性总结

比如
1.现在Larrabee 进展到什么地步了
2.以nVidia作为参照的话现阶段性能达到了什么高度
3.Larrabee 离正式面试还有多长的路要走

非常感谢

Edison · 发表于 2009-6-3 10:09

来自 thg 的 computex 报道，提到了当前 larrabee 原型芯片的性能与 gtx 285 相当，但是注意的是这个原型并非正式上市的版本，正式的版本可能会有很大的变化：

http://www.tomshardware.com/news/intel-larrabee-nvidia-geforce,7944.html

Edison · 发表于 2009-6-15 01:55

关于 tile 占用的 L2 cache 空间。

论文中提到：

An application with 32-bit depth and 32-bit color can use a 128x128 tile and fill only half of the core’s 256KB L2 cache subset.

按照这里的说法，是如果使用 32-bit 色彩和 32-bit 深度值的话，128x128 的 tile 只需要 128KB 空间。

但是这似乎有些问题。

我按照这样的公式来计算：

tile memory footprint = w*h*(Color+Z) = 128*128*(4*32bit+32bit)= 320 KB

这样意味着 "32-bit color" 很可能不是指 per channel 的，而是包括了 4 个 color channel 的，即 8-bit。

这样问题就来了，也就是说如果是遇上 fp32 的 render target，还是无法实现 128x128 的 tile size，此时就要降低为 64x64 或者 96x96（我不确定是否允许这个 tile size）。

Prescott · 发表于 2009-6-16 21:15

关于 tile 占用的 L2 cache 空间。

论文中提到：

按照这里的说法，是如果使用 32-bit 色彩和 32-bit 深度值的话，128x128 的 tile 只需要 128KB 空间。

但是这似乎有些问题。

我按照这样的公式来计算 ...
Edison 发表于 2009-6-15 01:55

G200或者R700处理fp32的也能和i8的一样的速度？

Edison · 发表于 2009-6-16 23:34

ALU 来说应该都是一样的，不过 texturing 则不是，R600 上我记得是 fp16 是全速的， FP32 则应该是 1/2，R700、G80、GT200 的 tmu 都是 fp16 是半速，fp32 是 1/4。

Prescott · 发表于 2009-6-17 13:10

来自 thg 的 computex 报道，提到了当前 larrabee 原型芯片的性能与 gtx 285 相当，但是注意的是这个原型并非正式上市的版本，正式的版本可能会有很大的变化：

http://www.tomshardware.com/news/intel-larrabee- ...
Edison 发表于 2009-6-3 10:09

这个性能，没有达到设计目标啊，打回去重做。。。。。。

Edison · 发表于 2009-6-17 14:11

http://www.tomshardware.com/reviews/geforce-gtx-285,2139-8.html

GTX 285 的 3dmark vantage GPU score 是 P12207、H8462、X5875，Prescott 能透露一下现在 LRB 32core 2GHz 的情况大概如何呢:)

帐号		自动登录	找回密码
密码			注册

RacingPHT 该用户已被删除	325^# 发表于 2009-5-13 01:04 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
RacingPHT 该用户已被删除
	回复支持反对使用道具举报显身卡

RacingPHT 该用户已被删除	327^# 发表于 2009-5-13 09:27 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
RacingPHT 该用户已被删除
	回复支持反对使用道具举报显身卡

英特尔 Larrabee 体系架构讨论主题

本帖子中包含更多资源

浏览过的版块