英特尔 Larrabee 体系架构讨论主题

Edison · 发表于 2009-8-16 14:03

对 Larrabee 感兴趣的网友可以阅读一下这篇新鲜出炉的论文，这篇论文主要关注的是微多边形（例如1个像素大小的三角形）光栅化，最终提供了一个比 Pixar 更高效率的算法，值得一提的是，参与论文的有 Kurt Akeley :p

http://graphics.stanford.edu/papers/mprast/rast_hpg09.pdf

ic.expert · 发表于 2009-8-16 15:28

REYES？我看看~

只看该作者 · 发表于 2009-8-16 19:19

提示: 作者被禁止或删除内容自动屏蔽

panjanstoneborg · 发表于 2009-8-20 17:36

ATI不是在R100时代就开始宣传他的Transforming+Clipping+Lighting吗，不知道是不是和楼上说的是一个概念，或许ATI在这方面的确有优势

lik · 发表于 2009-8-24 14:21

clipping的情况是不是应该在triangle大的时候才容易出现? 我想至少要从view frustrum跨越到guard band之外才会触发clipping吧? 如果在guard band之外不是就直接cull掉了.

G80的attribute fetching的性能不行, 也许是原因.

tilong-lee · 发表于 2009-8-25 04:37

非常的期待之中

只看该作者 · 发表于 2009-8-31 23:55

提示: 作者被禁止或删除内容自动屏蔽

Edison · 发表于 2009-9-1 01:16

RacingPHT 能提供一个 clipping 方面（其实最好能比较全面的 vertex、raster processing）测试程序吗:)

只看该作者 · 发表于 2009-9-1 10:27

提示: 作者被禁止或删除内容自动屏蔽

lik · 发表于 2009-9-26 14:03

我的意思是在很多小triangles的时候不太可能出现clipping的情况, 所以clipping 的性能不是原因. 你说的后端是RBE? 那个和primitive没什么关系吧. 既然是triangle, 那一定是setup之前的pipeline部分.

triangle很大的时候, 穿越guard band的机会就很大. 尤其是横跨screen space的几乎无穷大的三角形.5 K3 X. u: d6 [$ r, w$ V
attribute fetch的话, 我没有G80的理论数据. G7x在这方面确实比较差.
! S2 o" O8 Y" z3 d4 J6 b1 b! S% l0 B" q- y4 ?
这个情况比较难解释, 不过并不是很关键的问题; f4 C0 w8 ]0 ~+ E
问题是小三角形的性能比360差一点. 这点在R6xx上体现不出来. 所以应该是后端的原因.& H/ v7 C1 R9 D, c5 x4 b1 N# _
当然这只是极端情况, 一般来说G80秒360三倍还是没什么问题的
RacingPHT 发表于 2009-8-31 23:55

lik · 发表于 2009-9-26 14:05

这个Larrabee的讨论怎么没有人贴Larrabee的最新的 IDF demo?

http://www.youtube.com/watch?v=b5TGA-IE85o

还是因为大家都和我一样觉得这个RT demo实在太差?

Edison · 发表于 2009-9-26 14:48

众所周知的原因，我上不去。

iphone · 发表于 2009-10-2 12:18

目前的情况来看是不管如何，先把第一代搞出来再说，以后再慢慢改进。芯片早就tape out了目前在debug和与ISV合作阶段

Edison · 发表于 2009-10-8 12:37

insidePC 有一个和 Intel CTO 在 Larrabee 方面的专访，其中提到今年稍后的一个 IEEE 会议上透露初步的 Larrabee 性能测试结果，其中有和 GTX 285、Nehalem 在容积渲染上显示 Larrabee 优胜的结果。

The goal of our next generation Larrabee is to take a MIMD approach to visual computing,” he says. Part of Intel’s motivation for this decision is that the platform scales from mobile devices all the way up to supercomputers. And they have early performance results that will be presented at an IEEE conference later this year that show that the Larrabee outperforms both the Nehalem and NVIDIA’s GT280 on volumetric rendering problems.

http://insidehpc.com/2009/10/06/ ... eer-justin-rattner/

Prescott · 发表于 2009-10-20 11:29

http://www.brightsideofnews.com/ ... story-revealed.aspx
这篇文章可以看看，呵呵

Edison · 发表于 2009-10-20 15:33

对其中的细节不是很了解，文章最后的观点有些莫名其妙，是说 Intel 在 LRB 上乱花钱了？

hustcp · 发表于 2009-10-20 20:36

本帖最后由 hustcp 于 2009-10-20 20:41 编辑

380# Prescott
文章第3页提到：
The 32-core silicon was [and still is] prone to numerous issues, such as cache coherency issues, cores were starving for instructions and overall, Larrabee looked like a mess.

最有一页提到：
Intel knows that they've completely messed up with the current generation and the company decided to trash away the part of current design and re-design the SIMD units from ground up. This means the current diagrams featuring 16-wide SIMD unit are out the door, because that design doesn't work. Newly designed SIMD units will still probably be 16-wide and take AVX instructions, but it will be GPU-like and not CPU-like.

不清楚现在LRB到底哪里出了问题，我猜测是线程过少，还无法完全隐藏延迟。再者就是CACHE和共享内存的设计造成的一致性问题成为瓶颈，不适合GPU应用。文章提到的更像GPU的SIMD到底指什么？应该是提高SIMD效率的方法，SIMD宽度应该不会减小，否则达不到所需的性能。

Edison · 发表于 2009-10-20 21:31

TGDaily 曾经有报道说第三代的 LRB 不会兼容之前的 LRB，当然这个说法本身其实很奇怪，从 GPU 的角度而言是不能允许这样的情况出现。

如果说是 SIMD Width 有问题，那么其实 CUDA 的 Warp 是 32-way 的 SIMD，这比 LRB 更宽。

lik · 发表于 2009-11-10 14:40

我觉得主要是个路线问题. 走software rendering的道路对software要求太高, Intel没有这个能力. 天真地认为一个many core cpu (p54c core + vector unit) + ringbus + cache + texture unit, 然后只要写写software就把DX/OGL和ray tracing通吃. 只要cpu core足够快, flops足够高, 最后的性能也差不到哪里去. 这个也还是Tim Sweeney的梦想. 不过问题是软件rendering没那么容易. 要保证所有的现有游戏都能正常运行(不crash)还要跑得足够快, 这个driver的难度太大. 到最后demo来demo去还是只有把原来CPU上面的ray tracing 算法在LRB上面跑跑. 一个不能玩现有游戏的GPU有啥用?

However, 如果LRB能拿到一个console的design win那就万事大吉了. 反正console对兼容性的要求不高, 也不需要支持那么多PC游戏. 有了一个大console的市场份额, 开发商就会下定决心开发LRB的游戏. 然后就慢慢进入良性循环. 问题是Intel是否能搞定一个console deal.

Anyway, Pat的离职估计也是Intel内部政治斗争的结果. 建议把pcinlife首页上那张Pat捧着LRB wafer的照片撤了吧. 人家都不在Intel了.

380# Prescott
不清楚现在LRB到底哪里出了问题
hustcp 发表于 2009-10-20 20:36

Edison · 发表于 2009-11-13 00:22

yeah， Dr.Dobb 上有一篇新鲜出炉的 Larrabee 执行正则表达式匹配的文章：

http://www.ddj.com/hpc-high-perf ... ng/221601028?pgno=1

帐号		自动登录	找回密码
密码			注册

RacingPHT 该用户已被删除	363^# 发表于 2009-8-16 19:19 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
RacingPHT 该用户已被删除
	回复支持反对使用道具举报显身卡

RacingPHT 该用户已被删除	367^# 发表于 2009-8-31 23:55 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
RacingPHT 该用户已被删除
	回复支持反对使用道具举报显身卡

RacingPHT 该用户已被删除	369^# 发表于 2009-9-1 10:27 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
RacingPHT 该用户已被删除
	回复支持反对使用道具举报显身卡

英特尔 Larrabee 体系架构讨论主题

浏览过的版块