POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
楼主: Edison
打印 上一主题 下一主题

英特尔 Larrabee 体系架构讨论主题

[复制链接]
141#
发表于 2008-7-18 09:12 | 只看该作者
Larrabee doesn't need DirectX

http://www.fudzilla.com/index.ph ... d=8485&Itemid=1

It's possible that Intel has developed its own API, like Voodoo's Glide, but as we don't have enough details, we can only speculate what Intel is trying to do here. Common sense would've called for full DirectX and OpenGL support, but it seems like Intel wants to do things their own way once again, for better or worse.

看清楚哦,是doesn't need,不是doesn't support
回复 支持 反对

使用道具 举报

142#
 楼主| 发表于 2008-7-18 10:10 | 只看该作者
这并不奇怪,而是本来就是如此。

另,请大家注意本讨论串的规则,对于引用的消息,请给出URL,而不是全文引用。
回复 支持 反对

使用道具 举报

143#
发表于 2008-7-22 09:48 | 只看该作者

这贴得顶{lol:]
回复 支持 反对

使用道具 举报

144#
发表于 2008-7-22 11:35 | 只看该作者
原帖由 ArthurMa 于 2008-7-22 00:08 发表
Intel使用独立API 这个凸现其野心,但是这样很难作,毕竟最大的个人PC OS是MS在控制,作为MS的标准图形接口,又岂容第三者擦足? 看看第二者OpenGL,日子都不怎么好过.

最大的标准,不是X86吗:lol:
回复 支持 反对

使用道具 举报

头像被屏蔽
145#
发表于 2008-7-22 13:05 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

146#
发表于 2008-8-4 06:16 | 只看该作者
作为larrabee,不知道它怎么搞定核心之间通讯的问题,毕竟也32核了。也许对于图形来说,这点也不是特别重要。

不过我觉得larrabee这种相对灵活的,完全依靠软件来做适配器实现DX和Opengl的技术,在同一技术水平下,应该比传统的GPU慢。

in-order我估计是不得不怎么做,第一个可以使每个核变得简单,第二是对于并行有利,否则锁个总线同个步,就要一陀晶体管来处理。
回复 支持 反对

使用道具 举报

147#
发表于 2008-8-4 09:55 | 只看该作者
真正的超多核全通用处理器雏形~INTEL从此一桶糨糊~以后就看一块PCB上满是电容电感外部接口+一块INTEL处理器横行天下。。。貌似人工智能开始了。。。
回复 支持 反对

使用道具 举报

148#
 楼主| 发表于 2008-8-4 09:58 | 只看该作者
Larrabee使用Ring-Bus作为inter-processor的通讯总线,各个Core本身可以看作有256KB iL2 cache sub-set,这个iL2 cache是目录化的一致性设计。

以atom为例,in-oreder相对OoOE来说是节省掉了25%以上的整体电力,fetch/decoder也是可以缩减为原来个体的50%,很多图形计算来说本身就是非常规则的序列,OoO的意义不是很大,主要的延迟产生自纹理存取,这时候可以用大量的threading来掩藏掉。

Larrabee应该是一个workstation应用上的怪兽。
回复 支持 反对

使用道具 举报

149#
发表于 2008-8-4 12:04 | 只看该作者
原帖由 Edison 于 2008-8-4 09:58 发表
Larrabee使用Ring-Bus作为inter-processor的通讯总线,各个Core本身可以看作有256KB iL2 cache sub-set,这个iL2 cache是目录化的一致性设计。

以atom为例,in-oreder相对OoOE来说是节省掉了25%以上的整体电力,f ...


larrabee是workstation应用上的怪兽 3D图形的矮子?:ermm:
回复 支持 反对

使用道具 举报

150#
发表于 2008-8-4 16:25 | 只看该作者
http://pc.watch.impress.co.jp/docs/2008/0804/kaigai457.htm

揭幕啦

[ 本帖最后由 jocover 于 2008-8-4 16:26 编辑 ]
回复 支持 反对

使用道具 举报

151#
发表于 2008-8-4 16:50 | 只看该作者
原帖由 jocover 于 2008-8-4 16:25 发表
http://pc.watch.impress.co.jp/docs/2008/0804/kaigai457.htm

揭幕啦


没啥新东西嘛
回复 支持 反对

使用道具 举报

152#
发表于 2008-8-4 16:58 | 只看该作者
看起来只要1个就能做游戏机了
回复 支持 反对

使用道具 举报

153#
发表于 2008-8-4 17:08 | 只看该作者
竟然是暴力软加速,目测暴力程度还不够血!腥,估计跑游戏不咋地啊{closedeyes:]
回复 支持 反对

使用道具 举报

154#
发表于 2008-8-4 17:14 | 只看该作者
o:)  woooooo

setup都是SW的
回复 支持 反对

使用道具 举报

155#
 楼主| 发表于 2008-8-4 17:19 | 只看该作者
主要特色是用实现了binning render,类似tiled based HSR,pixel read/write的带宽占用明显降低。
回复 支持 反对

使用道具 举报

156#
 楼主| 发表于 2008-8-4 17:21 | 只看该作者
原帖由 Asuka 于 2008-8-4 17:14 发表
o:)  woooooo
setup都是SW的


这样的好处是primitive成为瓶颈的机会大为降低。
回复 支持 反对

使用道具 举报

157#
 楼主| 发表于 2008-8-4 19:02 | 只看该作者
回复 支持 反对

使用道具 举报

158#
发表于 2008-8-4 19:09 | 只看该作者
这东西执行起来,batch size是多少?  1×1?
回复 支持 反对

使用道具 举报

159#
发表于 2008-8-4 19:13 | 只看该作者
原帖由 Asuka 于 2008-8-4 19:09 发表
这东西执行起来,batch size是多少?  1×1?


分支粒度是16
回复 支持 反对

使用道具 举报

160#
 楼主| 发表于 2008-8-4 19:16 | 只看该作者


"Each Larrabee core on a chip (of which it seems likely there will be some multiple of 8 in the final product) can maintain 4 simultaneous software threads (4 contexts are kept active at a time). This gives the appearance of 4 virtual physical processors to software running directly on the hardware even though all four threads are sharing a single resource. It is very likely that the major purpose of this is to hide some of the long latency we hit when going to memory for texture data and the like. "

每个片上的 Larrabee 内核(看来最终成品内核数量会是 8 的倍数)能维持 4 个并发的软件 threads(同一时间 4 个 context 保持活跃),这使得从运行于硬件上的软件的角度看有 4 个虚拟处理器,尽管所有的 4 个 thread 都共享同一份  resource。这样做的主要目的看来是为了掩藏当跑到内存抓纹理数据或者类似动作造成的长延迟。

(Larrabee 在多线程上的一些术语是沿用了 *nix 的称呼方式)

Now, for the purpose of graphics rendering using Intel's software rendering library or as it emulates DirectX and OpenGL, a thread is set up to manage the resources for a larger group of instructions and data that Intel calls a "fiber". Normally a thread will manage 8 fibers at a time. The hardware thread maintains a context in software for the fiber. The fiber's job is to manage the execution data parallel kernels on multiple groups of 16 "strands" (because the vector processor is 16-wide). A strand is what we have traditionally called a thread on other graphics hardware. The problem here is that Intel hardware is actually executing threads in a way that emulates hardware features of other architectures.
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-7-27 16:39

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表