英特尔 Larrabee 体系架构讨论主题

Edison · 发表于 2008-4-9 02:22

Larrabee的一个主要优势是具备程序代码无关的cache coherence protocol，这可以让程序员在编写代码的时候不用像GPU、Cell SP那样需要考虑scratch pad内数据的一致性和连贯性，但是Larrabee的cache coherence protocol代价相当大，吃掉大量的晶体管，这是一把双刃剑。

agentjones · 发表于 2008-4-9 08:28

http://www.pcper.com/article.php?aid=532

JC似乎对larrabee很不屑，他认为intel这种企图用暴力加速传统的低效raytracing算法这条道路是错误的，他已经发明了一种新的数据结构sparse voxel octree能够高效率raytracing,将被用到下一代id tech6中

(PS:intel也够无聊的，在IDF上为了突出它的raytracing，拿来做对比的竟然是一个ps1时代水准的3D demo，靠，它怎么不拿crysis,GOW来做对比:whistling: )

Eji · 发表于 2008-4-9 10:15

sparse voxel octree有個好處是，他可以用來把"需要ray tracer的區域分出來，也就是利用區域性。
實際上沒有複雜光源反射的話，ray tracer和Rasterizer相比並沒有優勢....
另外一點是，為了滿足大規模的亂數行為所做的cache model(Larrabee)的實用性也會受到質疑。

Relief Mapping算是pixel level 的 ray trace，加上sparse voxel octree的話，基本上可以說把ray tracer相對於rasterizer有利的部分都包下來了....
所以sparse voxel octree(ID Tech06)可以順利完成的話，應該不會再有人單獨使用Ray Tracer才是。

agentjones · 发表于 2008-4-9 10:38

原帖由 Eji 于 2008-4-9 10:15 发表
sparse voxel octree有個好處是，他可以用來把"需要ray tracer的區域分出來，也就是利用區域性。
實際上沒有複雜光源反射的話，ray tracer和Rasterizer相比並沒有優勢....
另外一點是，為了滿足大規模的亂數行為所 ...

E大能不能把那篇采访翻译出来，英文版的看的太累，JC的话又很饶舌~~~

Prescott · 发表于 2008-4-9 11:23

原帖由 Edison 于 2008-4-9 01:08 发表
我这里收到最新的消息，Larrabee的45nm版发热相当高，根据第三方厂商的测试，其通用性能也比对手的下一代65nm GPU产品低不少。

连silicon都没有，第三方厂商就可以测试了啊？:huh:

Edison · 发表于 2008-4-9 11:45

原帖由 Prescott 于 2008-4-9 11:23 发表
连silicon都没有，第三方厂商就可以测试了啊？:huh:

当然有了。

Prescott · 发表于 2008-4-9 12:56

原帖由 Edison 于 2008-4-9 11:45 发表

当然有了。

:funk:
好吧，就算有吧

只看该作者 · 发表于 2008-4-9 13:26

提示: 作者被禁止或删除内容自动屏蔽

droganmaster · 发表于 2008-4-9 13:28

管它三七二十一反正登出来了看具体测试
我个人感觉这卡跑专业测试跑一些纯浮点运算可能会很强游戏如何还要看与厂商的合作
架构这东西确实不好说从公布的来看估计通用计算可能会就此真正的进入民用领域 N和A的通用计算目前还是浮云 Intel的优势在于能得到更加多的通用计算软件的支持物理计算由于I有Havok估计这卡应该很强但是纯粹的3D图形渲染很难预测性能和以往的GPU差别太大

蒙大拿 · 发表于 2008-4-9 13:36

太复杂的东东性能会大打折扣. 这个里内部混乱是难免的. 就象大城的十字路口没有交警没有红绿灯, 乱得一团麻.

287381906 · 发表于 2008-4-9 13:56

看了INTEL“全球首款DX10显卡G965”的结局，我不敢对这东西抱有什么幻想:wacko:

complexmind · 发表于 2008-4-19 11:29

:w00t): :w00t): WEPC上的高手齐聚一堂啊！！
好久不见P大了，小弟这厢有礼了:lol:
  一下是小弟个人见解，说错了各大高手别笑啊:a)
  感觉Intel希望把高性能计算（典型代表：科学计算）和工业计算（典型代表：流计算）结合起来，而鼓捣出了Larrabee，所以用很多的含通用计算成分的核心做出了Larrabee，由于P大所说的通用核心和定制核心的特点，所以显得累赘了些，不过我有一些不明白：
  1.既然强调通用性，为什么用顺序结构？超标量和乱序执行为什么不加入？如果是为了控制晶体管的规模，那么这么做是不是暗示着其实现在大一统通用计算结构完全占领机箱还需要材料学，物理学的理论突破来支撑，而现在的制程技术无法支撑真正的万能通用核心进入工业计算领域而实现统一？
  2.观察GPU，一些DSP，是不是一般的定制核心都优先考虑顺序结构，如果是，那么可不可以理解为顺序计算是非通用计算的特征之一呢？
  3.多线程技术能在多大程度上取代乱序执行和超标量的作用？
  4.最后，是不是顺序计算结构在某种程度上相对乱序结构有天生缺陷？
谢谢各位大侠指惑，小弟先谢谢了:a)

[ 本帖最后由 complexmind 于 2008-4-19 11:34 编辑 ]

complexmind · 发表于 2008-4-19 12:40

这个板块怎么又变冷清了？:a)

catalufa1984 · 发表于 2008-4-19 13:22

为什么没有l3？对性能没有影响吗？

花泥 · 发表于 2008-4-19 14:00

早点出来解开疑团嘛～～～

Edison · 发表于 2008-4-19 15:51

1、通用性与微架构上的in-order、OoOE无关，是否具备通用性是看ISA。
2、同上。在Cyrix 6x86/pentium Pro之前的x86处理器都是顺序执行微架构，在IBM/Motorola Power1之前的通用处理器都是顺序执行的微架构，在CDC 6600之前的计算机硬件系统都是顺序执行架构。
3、取决于程序。
4、in-order和OoOE各有优势和缺点，人们引入OoOE的主要原因是为了改善superscalar的性能，代价是消耗更多的晶体管。

Prescott · 发表于 2008-4-19 18:05

原帖由 complexmind 于 2008-4-19 11:29 发表
  感觉Intel希望把高性能计算（典型代表：科学计算）和工业计算（典型代表：流计算）结合起来，而鼓捣出了Larrabee，所以用很多的含通用计算成分的核心做出了Larrabee，由于P大所说的通用核心和定制核心的特点，所以显得累赘了些，不过我有一些不明白：
  1.既然强调通用性，为什么用顺序结构？超标量和乱序执行为什么不加入？如果是为了控制晶体管的规模，那么这么做是不是暗示着其实现在大一统通用计算结构完全占领机箱还需要材料学，物理学的理论突破来支撑，而现在的制程技术无法支撑真正的万能通用核心进入工业计算领域而实现统一？
  2.观察GPU，一些DSP，是不是一般的定制核心都优先考虑顺序结构，如果是，那么可不可以理解为顺序计算是非通用计算的特征之一呢？
  3.多线程技术能在多大程度上取代乱序执行和超标量的作用？
  4.最后，是不是顺序计算结构在某种程度上相对乱序结构有天生缺陷？

Intel显然是希望处理器具有异常强大的浮点运算能力，未来Larrabee肯定是要作为处理器的一部分集成的

你的问题参见Edison老大的回答

efficient3d · 发表于 2008-4-19 19:32

原帖由 RacingPHT 于 2007-11-24 17:50 发表
Kyro或者PowerVR的模式?
那么首先看看这个模式的特点是什么
1: 在fill-rate上的bandwith需求很低, 因为很多东西做到on-chip
2: pixel throuphput很低, 主要用高效率来补偿
3: geometry的处理能力很低, 因为每个t ...

PS2那个填充率多了一个“零”吧，应该是4800M每秒，不过带纹理的时候会降到2400M每秒。总的说来，PS2游戏画面不比DC好太多。
粗看了一下Larrabee的介绍，咱也不懂太多更加深层次的东西，感觉这个和他们自己的CPU有一定关系，搞不好就是一个暴力运算器来的，相比CPU运行图形程序，性能更好；但是比专用的又差了一些，就是一个中间产物。但是不管怎样我还是看好Intel，不为其他，就是因为他是Intel。Intel手中掌握的图形技术应该不少－－Real3D、3Dlabs与PowerVR这些公司的图形核心技术他都有，但是一没有用出来，现在看看Intel怎么搞了。不过先前看过一些新闻，Larrabee最初的产品定位是专业绘图工作站，不知道这个架构运行OpenGL程序相比其他公司的有无优势。

complexmind · 发表于 2008-4-22 16:55

:lol: :lol: 谢谢P大和Edison大的解答！！

complexmind · 发表于 2008-4-22 17:32

:)
小弟看了回答又想到两个问题：
1。现在GPU的ISA和CPU的ISA在通用性上还有没有决定性的差异？
2。为什么CPU的内核里集成像GPU那么多的乘法器除法器和大量的寄存器来提升浮点运算效能呢？除了在制程和发热量及良品率上的考虑外，是不是在CPU定位于控制管理而不是计算这方面的考虑？也就是说在3D及物理运算上CPU劳心而GPU劳力，，而在GPU的ISA能力以外的工作CPU即劳心又劳力？这种理解对么？

帐号		自动登录	找回密码
密码			注册

来不及思考该用户已被删除	88^# 发表于 2008-4-9 13:26 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
来不及思考该用户已被删除
	回复支持反对使用道具举报显身卡