POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
楼主: Edison
打印 上一主题 下一主题

英特尔 Larrabee 体系架构讨论主题

[复制链接]
321#
发表于 2009-4-26 15:17 | 只看该作者
For example, can bring more mm^2 to bear – the whole chip!
原文如此....
每個core同時頂多一個tile、最多投入16個core,這是我的認知....
不過一個core(的面積)都大大地大過一般GPU的rasterizer,何況16 ...
Eji 发表于 2009-4-26 11:20


这也是我所疑问的,这样效率必然不高。必要的Fixed Function还是应予保留。
回复 支持 反对

使用道具 举报

322#
 楼主| 发表于 2009-5-12 23:20 | 只看该作者
这应该是 larrabee 的裸片首次曝光了:

http://www.pcgameshardware.com/aid,683947/Detailed-Larrabee-Die-shot-shown-by-Intel/News/

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回复 支持 反对

使用道具 举报

323#
发表于 2009-5-13 00:19 | 只看该作者
我拭目以待看Intel如何解释32NM工艺生产出来3XX 瓦特的电老虎……
回复 支持 反对

使用道具 举报

324#
 楼主| 发表于 2009-5-13 00:23 | 只看该作者
300 瓦应该是指 45nm 下。
回复 支持 反对

使用道具 举报

RacingPHT 该用户已被删除
325#
发表于 2009-5-13 01:04 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

326#
发表于 2009-5-13 01:52 | 只看该作者
universitaet des saarlandes不就是intel RT主力干将daniel pohl做毕设的地方么
回复 支持 反对

使用道具 举报

RacingPHT 该用户已被删除
327#
发表于 2009-5-13 09:27 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

328#
发表于 2009-5-15 15:23 | 只看该作者
路过路过路过路过。。。。
回复 支持 反对

使用道具 举报

329#
发表于 2009-5-18 00:39 | 只看该作者
我拭目以待看Intel如何解释32NM工艺生产出来3XX 瓦特的电老虎……
ic.expert 发表于 2009-5-13 00:19

300W是卡,而且是45nm
回复 支持 反对

使用道具 举报

330#
发表于 2009-5-18 07:47 | 只看该作者
Larrabee 有若干Fixed Function部件,主要是做各种方式贴图的。
应该说AMD 不怕Larrabee,但是nVidia 就不同了,Larrabee 在HPC 上是一种划时代的东西,不过还是老话,做GPU 不会特别擅长,除非DX11对它做特别的优化。
换个思路,Larrabee 就是超宽的SIMD的全功能核心堆积的,可编程性从CT 的实验看,非常高,和CUDA比,暂时还看不出二选一的时候,为什么选CUDA。
现在我们做实验,还是把代码发给Intel 做优化评估,9月后再看。
回复 支持 反对

使用道具 举报

331#
发表于 2009-5-18 15:27 | 只看该作者
LRB一直标榜的Jepg纹理呢?赫赫
回复 支持 反对

使用道具 举报

332#
 楼主| 发表于 2009-5-18 15:54 | 只看该作者
tomsmith123 目前在 LRB 上有跑过稀疏矩阵吗?平均而言加速比可以做到多少呢?
回复 支持 反对

使用道具 举报

333#
发表于 2009-5-18 18:53 | 只看该作者
337# Edison
我们做的部分实验大致是500G Flops 的实际性能,单精度。
目前我们不做稀疏矩阵。
回复 支持 反对

使用道具 举报

334#
发表于 2009-5-23 19:03 | 只看该作者
各位强人能否给出一个简单的阶段性总结

比如
1.现在Larrabee 进展到什么地步了
2.以nVidia作为参照的话现阶段性能达到了什么高度
3.Larrabee 离正式面试还有多长的路要走

非常感谢
回复 支持 反对

使用道具 举报

335#
 楼主| 发表于 2009-6-3 10:09 | 只看该作者
来自 thg 的 computex 报道,提到了当前 larrabee 原型芯片的性能与 gtx 285 相当,但是注意的是这个原型并非正式上市的版本,正式的版本可能会有很大的变化:

http://www.tomshardware.com/news/intel-larrabee-nvidia-geforce,7944.html
回复 支持 反对

使用道具 举报

336#
 楼主| 发表于 2009-6-15 01:55 | 只看该作者
关于 tile 占用的 L2 cache 空间。

论文中提到:

An application with 32-bit depth and 32-bit color can use a 128x128 tile and fill only half of the core’s 256KB L2 cache subset.


按照这里的说法,是如果使用 32-bit 色彩和 32-bit 深度值的话,128x128 的 tile 只需要 128KB 空间。

但是这似乎有些问题。

我按照这样的公式来计算:

tile memory footprint = w*h*(Color+Z) = 128*128*(4*32bit+32bit)= 320 KB



这样意味着 "32-bit color" 很可能不是指 per channel 的,而是包括了 4 个 color channel 的,即 8-bit。

这样问题就来了,也就是说如果是遇上 fp32 的 render target,还是无法实现 128x128 的 tile size,此时就要降低为 64x64 或者 96x96(我不确定是否允许这个 tile size)。
回复 支持 反对

使用道具 举报

337#
发表于 2009-6-16 21:15 | 只看该作者
关于 tile 占用的 L2 cache 空间。

论文中提到:



按照这里的说法,是如果使用 32-bit 色彩和 32-bit 深度值的话,128x128 的 tile 只需要 128KB 空间。

但是这似乎有些问题。

我按照这样的公式来计算 ...
Edison 发表于 2009-6-15 01:55

G200或者R700处理fp32的也能和i8的一样的速度?
回复 支持 反对

使用道具 举报

338#
 楼主| 发表于 2009-6-16 23:34 | 只看该作者
ALU 来说应该都是一样的,不过 texturing 则不是,R600 上我记得是 fp16 是全速的, FP32 则应该是 1/2,R700、G80、GT200 的 tmu 都是 fp16 是半速,fp32 是 1/4。
回复 支持 反对

使用道具 举报

339#
发表于 2009-6-17 13:10 | 只看该作者
来自 thg 的 computex 报道,提到了当前 larrabee 原型芯片的性能与 gtx 285 相当,但是注意的是这个原型并非正式上市的版本,正式的版本可能会有很大的变化:

http://www.tomshardware.com/news/intel-larrabee- ...
Edison 发表于 2009-6-3 10:09

这个性能,没有达到设计目标啊,打回去重做。。。。。。
回复 支持 反对

使用道具 举报

340#
 楼主| 发表于 2009-6-17 14:11 | 只看该作者
http://www.tomshardware.com/reviews/geforce-gtx-285,2139-8.html

GTX 285 的 3dmark vantage GPU score 是 P12207、H8462、X5875,Prescott 能透露一下现在 LRB 32core 2GHz 的情况大概如何呢:)
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-7-29 00:30

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表