POPPUR爱换

标题: Xeon Phi真身首曝 Intel戳穿百倍加速性能假象ZZ [打印本页]

作者: tom5627 时间: 2012-11-14 13:27
标题: Xeon Phi真身首曝 Intel戳穿百倍加速性能假象ZZ
http://news.mydrivers.com/1/246/246757.htm

经过长达八年各种相关研究，Intel终于正式推出了MIC众核架构的Xeon Phi协处理器，为高性能计算带来了一股新鲜势力。
Xeon Phi协处理器在很大程度上继承了流产的独立显卡项目Larrabee的遗志，外部造型看似显卡，其实是和Tesla类似的专用加速计算卡，其架构采用顺序、双发射x86，支持64位运算，每个核心支持最多四个线程，最多61个核心、244个线程，并且每个核心都搭配一个512-bit SIMD矢量引擎。
当然了，这里的“核心”跟Tesla里边的CUDA核心是没有直接可比性的，它们分别来自CPU、GPU的世界。

前后做了这么多纸面上的介绍，想不想看看Xeon Phi究竟是个什么样子呢？田纳西州大学的田纳西高级计算中心(TACC)正在他们的新超级计算机“Stampede”(惊跑)里安装Xeon Phi，也让我们得以一睹其真容：
不明说的话肯定会以为这是块标准的显卡吧？Tesla其实也是这个样子，标准的双插槽体积PCI-E x16扩展卡，而且是因为专用于计算的，都没有视频输出接口(AMD的还有)。
Xeon Phi也有主动散热、被动散热两种版本，这里用的是被动散热的，外壳下边是大量厚重的散热片和热管，尾部则能看到一个六针和一个八针辅助供电接口，最大供电能力300W。
只可惜人家不让拆，看不到里边的样子。

至于实际性能如何，很可能现在哪儿都不具备测试条件，毕竟这玩意儿因为架构的缘故要求操作系统、工具软件都得在一定程度上重新编写和优化，Intel也一再强调优化的重要性。
Intel也没有一味夸大加速计算的优势，而是首先澄清了一个误解。Intel拿出了一段Fortran代码，先运行未优化的单线程代码，然后优化并以Xeon Phi运行，性能差异达到了恐怖的300倍。
NVIDIA Tesla宣称的性能提升差不多就是这样对比而来的，让加速计算的结果和单线程结果对比，几十乃至几百倍的提升就轻松得来。
Intel则证明了其谬误：在双路Xeon E5上重新运行相同的代码，Xeon Phi只快了大约两倍而已。也就是说，如果代码本身就针对多核心处理器做过优化，加速计算的真实优势会小得多。
在另一个C++的例子中，109倍的提升被证明其实只有2-2.5倍。

随后，Intel展示了Xeon Phi协处理加速计算所带来的真正性能提升，通过Intel MKL理论测试得到的幅度为最多2.2-2.9倍，实际应用中则普遍只有最多1.7-2.53倍，只有金融服务方面取得了10倍左右的突飞猛进(布莱克斯克尔斯期权定价模型和蒙特卡罗算法)。

Intel还请来了软件和技术供应商Altair的一名代表，让他证明把代码移植到Xeon Phi平台上是多么的简单，并证明崩溃测试模拟之类的应用一般可以带来2.5倍左右的性能提升。

作者: tom5627 时间: 2012-11-14 13:28
pia~pia~pia~

作者: aibo 时间: 2012-11-14 13:29
这到底是intel在拆nvidia的台
还是intel的cpu部门在拆intel高性能计算部门的台呢。。。。

作者: asdfjkl 时间: 2012-11-14 13:35
本帖最后由 asdfjkl 于 2012-11-14 13:38 编辑

Intel自己的计算卡做不到，就说戳穿了啥啥啥。。。；也就是别人也做不到！
AMD新一代的CPU性能还下降了，能不能说Intel的Ivy Bridge也不如SNB，干脆说Intel别推出新一代了？

这大脑逻辑有问题了！当然不是Intel，而是驱家的小便：枪文放上（极端N黑）。

作者: goldman948 时间: 2012-11-14 14:11
拿块TESLA验证不就知道了

作者: tom5627 时间: 2012-11-14 16:44

aibo 发表于 2012-11-14 13:29
这到底是intel在拆nvidia的台
还是intel的cpu部门在拆intel高性能计算部门的台呢。。。。

说明了一个事实：加速卡没有宣传的那么好用，而传统的通用计算芯片没有那么不济~多线程的效率最终拼的是软件

作者: Hyins 时间: 2012-11-14 17:14
为自己留个后路而已

作者: 66666 时间: 2012-11-14 17:31
本帖最后由 66666 于 2012-11-14 17:32 编辑

这说的不是废话吗，各种硬件都有自己擅长的计算类型，N年前深蓝那么牛逼你们知道上面装了多少专门的矢量加速单元？通用CPU再牛逼也还是需要大量独立硬件单元来配合，I5和I7性能那么强干嘛还要加独立的视频编解码模块？让合适的硬件跑对应的计算才是王道。单独只重一方面都是扯淡。

作者: Nv-fans 时间: 2012-11-14 17:44
提示: 作者被禁止或删除内容自动屏蔽

作者: disruptor 时间: 2012-11-14 18:13
其实是这样的 avx让英特尔的处理器也有两百多g的双精度性能。如果大家都优化的不错的话是不会出现上几十倍上百倍的差距的

作者: qwased 时间: 2012-11-14 18:36

Nv-fans 发表于 2012-11-14 17:44
难得看到常常抱大腿的5毛喷INTEL....

希望amd的cpu争气点，那你们的工作就好做多咯

作者: Nv-fans 时间: 2012-11-14 18:40
提示: 作者被禁止或删除内容自动屏蔽

作者: tom5627 时间: 2012-11-14 22:27

66666 发表于 2012-11-14 17:31
这说的不是废话吗，各种硬件都有自己擅长的计算类型，N年前深蓝那么牛逼你们知道上面装了多少专门的矢量加速 ...

Xeon Phi 就是简化的x86~关键是能够对x86指令集的代码兼容~而不需要重新从较为底层的层面重写~指令集对于X86的重要性非常大~相当于一个内部的专门的协处理器~比如视频转码~为毛现在cuda不提这个了？

作者: Xenomorph 时间: 2012-11-14 23:05

tom5627 发表于 2012-11-14 22:27
Xeon Phi 就是简化的x86~关键是能够对x86指令集的代码兼容~而不需要重新从较为底层的层面重写~指令集对于 ...

可能是cuda现在的生态环境建设得还可以呗……

作者: 水星思路 时间: 2012-11-15 00:14

tom5627 发表于 2012-11-14 16:44
说明了一个事实：加速卡没有宣传的那么好用，而传统的通用计算芯片没有那么不济~多线程的效率最终拼的是软 ...

Intel 自己的宣传资料你很难说是事实。Intel 绝对是不愿意宣传 Xeon Phi 的，毕竟价格低廉利润率也绝对不如 Xeon，卖的越多 Phi 就卖的越少 Xeon。Intel 说到底是做 CPU 的，就算是自己做了加速卡，为了一帮傻逼股东的利益也不会大肆宣扬 Xeon Phi。

这资料并不是说是假的，但毫无疑问是很保守的数据。不过就算是这样 Xeon Phi 的可编程性也是 Tesla 作为 GPU 永远无法企及的。

作者: 水星思路 时间: 2012-11-15 00:19

Xenomorph 发表于 2012-11-14 23:05
可能是cuda现在的生态环境建设得还可以呗……

GPGPU 的核心价值是作为民用产品带来的性价比，仅靠这一项就渗透了 Intel 已有的生态环境。

可惜可叹大环境还是在 Intel 手里。现在 Xeon Phi 在 Intel 的框架内就可以实现接近 Tesla 的性价比，除了现在还在用 Tesla 的系统之外，Tesla 是没有出路的。NV 建设了 5 年的生态系统到了最后只不过是说服 Intel 去做些对超算用户有益的事情。

作者: coollab 时间: 2012-11-15 01:04
本帖最后由 coollab 于 2012-11-15 01:07 编辑

XP虽然是x86的，但是可编程性能不会比cuda好多少，甚至就是一个档次的，难道还有人认为普通的语言去了XP上就自动拥有了优秀的并行能力？？XP的x86和桌面的x86不能互相兼容，只是为其专用的，英特尔在这方面也是才开始，所谓软件环境除了传统的编程环境和比较熟悉的语言外，基本没有太多优势，甚至并行计算方面也是全新开始。并行计算需要太多工作了，没有那么容易。

另外，cuda现在可以在x86上运行，并且也是c语言，还有现成的教材，难道都视而不见了？

作者: coollab 时间: 2012-11-15 01:09

tom5627 发表于 2012-11-14 22:27
Xeon Phi 就是简化的x86~关键是能够对x86指令集的代码兼容~而不需要重新从较为底层的层面重写~指令集对于 ...

底层个毛啊，大家都是c语言写代码，还底层有啥用？

作者: 水星思路 时间: 2012-11-15 01:49

coollab 发表于 2012-11-15 01:04
XP虽然是x86的，但是可编程性能不会比cuda好多少，甚至就是一个档次的，难道还有人认为普通的语言去了XP上就 ...

XP 的优势在于编程模型和 x86 非常接近。至少据 S|A 所言任何 x86 程序最多只要重新编译就可以在 XP 上跑。这和 CUDA 的区别在于，在 CUDA 上你没有文件系统，没有网络接口，不能访问其他设备，没有内存管理，没有系统调用，没有办法使用工具链，没有办法链接库。这些作为程序员都是非常非常常用而且方便的东西，而且现有的 x86 代码毫无疑问很多都要依赖这些。这样的代码要转移到 CUDA 上成本是非常巨大的。之所以愿意使用 CUDA 就是因为 GPU 有着无可比拟的性能和价格优势。

现在 XP 出来了，使得 x86 在超算应用上的性价比变得和 GPU 非常接近。在 XP 上你可以跑 Linux，可以做系统调用，支持标准工具链。虽然只有用 Intel 的工具链才能获得比较好的性能提升，光是熟悉的编程和分布式模型就足够让大部分程序员很快熟悉系统的基本操作。

在 CUDA 上你要做个 malloc 都很困难，更不要说如果要做并行运算中常用的互斥，信号量，条件变量，监视器一类的基本结构就要非常熟悉 CUDA 的编程模型才能知道这其中只有互斥有可能实现，其他结构都只能有条件实现。要想 fork 新的进程那也只有在 K20 上才行，而且也不是没有限制。

加速器的最佳形态就是一颗芯片上的分布式系统。相比之下 XP 才是更好的选择。

作者: 水星思路 时间: 2012-11-15 01:52

tom5627 发表于 2012-11-14 22:27
Xeon Phi 就是简化的x86~关键是能够对x86指令集的代码兼容~而不需要重新从较为底层的层面重写~指令集对于 ...

指令集不能算是非常重要的方面，毕竟同样的编程模型在 ARM 上也可以轻易实现。我想更重要的是内存和中断管理。做得好的话可以实现所有的系统调用，这样才能真正兼容现有应用。这方面看来只能等到可以买到或者用上 Xeon Phi 才能搞清楚。

作者: Xenomorph 时间: 2012-11-15 09:38

水星思路发表于 2012-11-15 00:19
GPGPU 的核心价值是作为民用产品带来的性价比，仅靠这一项就渗透了 Intel 已有的生态环境。

可惜可叹大 ...

Intel这样赔本买卖当然可以实现接近Tesla性价比啦~话说可以接近GPU的能耗比不，一个集群下来可以减少好多能耗呢……

作者: Elwin 时间: 2012-11-15 09:46
这东西本来就是拼软件，整篇废话。只有amd那样的才搞无脑肌肉货。

作者: 水星思路 时间: 2012-11-15 10:34
本帖最后由水星思路于 2012-11-15 10:35 编辑

Xenomorph 发表于 2012-11-15 09:38
Intel这样赔本买卖当然可以实现接近Tesla性价比啦~话说可以接近GPU的能耗比不，一个集群下来可以减少好多 ...

作为程序员，如果 Tesla 和 Xeon 的性价比/能耗比的比例是 1000:1，那我毫无疑问会选择 Tesla。

Tesla 的能耗比绝对比 Xeon Phi 高，但绝对没有 1000:1 这么大的差距。大致看一下恐怕也就是 2:1 到最高 4:1 这样。这种程度的性价比没有任何一个科研人员会选择 Tesla。在 Xeon Phi 下可以 ping，可以 ls，可以写脚本，可以用 Python 可以用 Perl 可以用 Lisp 可以用 Erlang 可以用 R，在 Tesla 下除了 CUDA 其他的东西想都不要想。

编程模型的成本其实是相当大的。

作者: coollab 时间: 2012-11-15 10:46

水星思路发表于 2012-11-15 10:34
作为程序员，如果 Tesla 和 Xeon 的性价比/能耗比的比例是 1000:1，那我毫无疑问会选择 Tesla。

Tesla ...

CUDA-X86你忘了么……

作者: Xenomorph 时间: 2012-11-15 11:01

水星思路发表于 2012-11-15 10:34
作为程序员，如果 Tesla 和 Xeon 的性价比/能耗比的比例是 1000:1，那我毫无疑问会选择 Tesla。

Tesla ...

谢谢指教……

作者: 水星思路 时间: 2012-11-15 11:04

coollab 发表于 2012-11-15 10:46
CUDA-X86你忘了么……

CUDA-X86 只是允许 CUDA 程序在 x86 处理器上运行。这并不能让 GPU 拥有通常 CPU 才拥有的能力。

作者: 水星思路 时间: 2012-11-15 11:05

Xenomorph 发表于 2012-11-15 09:38
Intel这样赔本买卖当然可以实现接近Tesla性价比啦~话说可以接近GPU的能耗比不，一个集群下来可以减少好多 ...

当然你说的也没错。我很好奇 Xeon Phi 的利润率能有多少。

作者: coollab 时间: 2012-11-15 11:47

水星思路发表于 2012-11-15 11:04
CUDA-X86 只是允许 CUDA 程序在 x86 处理器上运行。这并不能让 GPU 拥有通常 CPU 才拥有的能力。

问题是XP的并行性也不比Tesla好多少……

作者: 水星思路 时间: 2012-11-15 12:04

coollab 发表于 2012-11-15 11:47
问题是XP的并行性也不比Tesla好多少……

这是没错，不过如果 S|A 说的没错那么 XP 上就可以运行几乎所有现有的工具链，包括所有的编程语言和系统工具。这些东西有志做码农的人从高中就开始接触，一直接触到就业，突然让他们转去用什么都不能用的 Tesla 这如果不是有相当高的性价比那无论是在工作效率上还是感情上都是很难接受的。之前 Tesla 超高的性价比已经被 XP 拉下来了，现在只要程序员知道这东西的潜力大约 1TFLOPS 就够了，具体性能以后可以慢慢研究。毫无疑问 XP 要达到全部潜力自然也要下功夫，但入门的门槛和具体工作时的自由度都是 Tesla 无法比拟的。

真的，这仗如果不是 Intel 自己觉得卖 XP 不赚钱，那真的就没法打。NV 的降价空间当然大的很，毕竟民用版的卡和专业卡的成本差不了多少。但未来几年 Tesla 这个品牌要维持下去恐怕非常困难。GPGPU 的需求不是不会有，但总体上应该会转向使用 Geforce 的独立研究者。超算没有任何可能继续使用 Tesla。

作为 N 饭我是很伤心的。N 花了这么多年培养起来的市场只是证明了加速器有钱赚，催促 Intel 做了他们十几年前就该做得事情。值得安慰的是 Tesla 的市场毕竟不大，不会对民用 GPU 造成太大的影响。

作者: lik 时间: 2012-11-15 12:23
TACC(Texas Advanced Computing Center)是德州德大austin分校的, 怎么变成田纳西大学的了?

作者: tom5627 时间: 2012-11-15 12:26

水星思路发表于 2012-11-15 01:52
指令集不能算是非常重要的方面，毕竟同样的编程模型在 ARM 上也可以轻易实现。我想更重要的是内存和中断管 ...

恩~学习~

作者: tom5627 时间: 2012-11-15 12:31

水星思路发表于 2012-11-15 00:14
Intel 自己的宣传资料你很难说是事实。Intel 绝对是不愿意宣传 Xeon Phi 的，毕竟价格低廉利润率也绝对不 ...

http://news.mydrivers.com/1/246/246869.htm
看看这个~侧面的一个效率的验证~

作者: tom5627 时间: 2012-11-15 12:33

Xenomorph 发表于 2012-11-14 23:05
可能是cuda现在的生态环境建设得还可以呗……

其实还是很有限的~生态看起来很猛~但是至少没有体现出什么宣传的——效率以及能耗的优势~所以观察

作者: 水星思路 时间: 2012-11-15 13:02

tom5627 发表于 2012-11-15 12:31
http://news.mydrivers.com/1/246/246869.htm
看看这个~侧面的一个效率的验证~

有一部分可以归结到 22nm 制程优势吧。就算这样怎么也想不到 60 核可以有这样的效率。

S|A 的查理几个月之前还说 Larrabee 傻逼。前天昨天不知道是收钱了还是吃药了像个傻逼一样赞 XP。虽然看着蛋疼但不得不承认并非虚言。

作者: 66666 时间: 2012-11-15 13:51

tom5627 发表于 2012-11-14 22:27
Xeon Phi 就是简化的x86~关键是能够对x86指令集的代码兼容~而不需要重新从较为底层的层面重写~指令集对于 ...

intel的硬件编码跟X86指令集有啥关系？现在CUDA视频编码的局限性在于CPU和GPU之间数据交换效率太低拖累的整体速度和质量提升，所以才要集成ARM通用计算核心。

PC技术发展到现在要想不大幅提高功耗来提升计算性能，只有靠多种计算设备协同混合计算，无论是大到超算还是小到手机，专用硬件加速模块都是必须而且效率也是非常显著。

作者: Xenomorph 时间: 2012-11-15 17:54

tom5627 发表于 2012-11-15 12:33
其实还是很有限的~生态看起来很猛~但是至少没有体现出什么宣传的——效率以及能耗的优势~所以观察

拭目以待吧……

作者: Nv-fans 时间: 2012-11-15 17:55
提示: 作者被禁止或删除内容自动屏蔽

作者: NORAWITHMYCALL 时间: 2012-11-15 19:13
XEON PHI和TESLA其实是2种产品，有趣的是他们竟然在同一个市场。

作者: Xenomorph 时间: 2012-11-16 08:36

水星思路发表于 2012-11-15 11:05
当然你说的也没错。我很好奇 Xeon Phi 的利润率能有多少。

貌似Xeon Phi的实际报价不是$400了啦……

作者: Vendicare 时间: 2012-11-16 08:55
本帖最后由 Vendicare 于 2012-11-16 09:03 编辑

水星思路发表于 2012-11-15 10:34
作为程序员，如果 Tesla 和 Xeon 的性价比/能耗比的比例是 1000:1，那我毫无疑问会选择 Tesla。

Tesla ...

拜托，用过tesla和xeon phi或者至少详细了解过再发言么。

就能耗比来说，tesla和xeon phi根本就是一个水平上的都在2100mflps/watt左右徘徊。

编程难度来说两者也是完全一样的。由于极少有人会以底层汇编写程序，因此无论是CUDA还是,还是Intel Parallel Studio XE 2013从编程方法上都得从头学起（两者其实高度相似），相比较而言目前CUDA的文档和示例程序还完整一点。即使是使用底层汇编，对于xeon phi加速卡来说你要做的也是针对一个指令入口地址传输指令而已，到底是什么ISA的对你影响很小。intel自己现在都不敢说xeon phi编程比Tesla容易。

当然未来的xeon phi可能会有重大的改进不过那就是后话了。

作者: Vendicare 时间: 2012-11-16 08:59
http://software.intel.com/en-us/intel-parallel-studio-xe

我一直都在关注intel的xeon phi，这个东西和tesla简直就是针尖对麦芒。如果intel真的下大力气走下去，肯定会对老黄造成巨大的挑战。但是谁也保证不了这个就不是第二个intel 860、第二个安腾、第二个timna、第二个larrabee。

看发展吧，intel现在肯定在巨亏砸钱建立生态圈呢。xeon phi优化的软件现在就是0，期待明年xeon phi能走进专业领域。

作者: 水星思路 时间: 2012-11-16 12:55

Vendicare 发表于 2012-11-16 08:55
拜托，用过tesla和xeon phi或者至少详细了解过再发言么。

就能耗比来说，tesla和xeon phi根本就是一个 ...

是的，没错，什么 ISA 影响很小。但至少据 S|A 所说如果 x86 应用真的可以直接编译就在 XP 上跑的话，那就意味着 XP 可以处理中断和内存管理请求。有这样的能力就可以在 XP 上跑任何 x86 的程序，那么 XP 也就不是只能用 Parallel Studio XE 2013 来编程。这里的差别是非常大的。重复我前面帖子里说过的话，你在 XP 上如果能跑 python 能够用 libc，那你就比 CUDA 好了无数倍。

不要说我没用过 CUDA。我他妈之前干这个的。

作者: asdfjkl 时间: 2012-11-16 13:26

水星思路发表于 2012-11-16 12:55
是的，没错，什么 ISA 影响很小。但至少据 S|A 所说如果 x86 应用真的可以直接编译就在 XP 上跑的话，那就 ...

这里都是HPC上的运用。你以前用cuda是这个领域么？用过cuda，好想自己对此十分精通似的。。。
码农多的去了，用过C，C++，Java的，就以为自己的这个语言的大牛了？！

现在的问题是，已有的算法，编程模型和语言都是基于串行的，基于并行的才刚刚开始研究，这个才是制约例如Tesla，XP发挥性能的地方。对于HPC，指令集完全不重要。。。
因为合作的原因，基本上你写程序之前老早就知道跑在那个超算上面了，硬件规格是啥。。。都需要重新写一遍的。懂不！

作者: 水星思路 时间: 2012-11-16 13:52

asdfjkl 发表于 2012-11-16 13:26
这里都是HPC上的运用。你以前用cuda是这个领域么？用过cuda，好想自己对此十分精通似的。。。
码农多的 ...

okay，简单说，在 Tesla 上面不能链 libc，除了 CUDA 什么都不能跑，没有中断，没有内存管理。

真的，有些事情在你成为程序员之前不能随便就从高层次去看。这样就是为什么卖饮料的跑到苹果就搞砸苹果，卖机箱的跑到 AMD 就搞砸 AMD。

作者: Vendicare 时间: 2012-11-16 14:15

水星思路发表于 2012-11-16 12:55
是的，没错，什么 ISA 影响很小。但至少据 S|A 所说如果 x86 应用真的可以直接编译就在 XP 上跑的话，那就 ...

S|A的文章超过50%是完全假的，这个xeon phi轻松再编译的传闻已经被intel官方否认了。xeon phi的确有几个第三方编辑器，但是都是专用版本。

scsi卡之类具有完整x86处理器的插卡硬件多了去了，哪个能直接使用了？

作者: Vendicare 时间: 2012-11-16 14:22
本帖最后由 Vendicare 于 2012-11-16 14:26 编辑

水星思路发表于 2012-11-16 13:52
okay，简单说，在 Tesla 上面不能链 libc，除了 CUDA 什么都不能跑，没有中断，没有内存管理。

真的， ...

那个，弱弱的问句：您真的是苦逼CUDA程序员么？

CUDA C几乎照抄C语言语法，到底缺你什么了？内存管理cuda不是一样有cudamalloc和cudafree么？想要汇编的话都贴心的为你提供了asm（），你还想怎么内存管理？

另外对于一个计算卡要中断有意义没？我暂时没听说哪个tesla还能插点别的硬件..............

或许我理解太狭隘了，还望提醒。

作者: fengpc 时间: 2012-11-18 12:36

水星思路发表于 2012-11-16 13:52
okay，简单说，在 Tesla 上面不能链 libc，除了 CUDA 什么都不能跑，没有中断，没有内存管理。

真的， ...

Phi没有IO，跟Tesla一样是挂在PCIE总线上的一堆加速核心，加速卡本身是没办法直接调用磁盘和网络的，别以为是X86就可以像CPU那样跑操作系统，实现CPU一样的功能～～
至于内存管理，GPU发展到现在都已经做得很完善了，GPU上面上千个计算核心同时运行的线程数量比CPU上的多得多，更需要有效的内存管理机制。但是不管是X86的Phi也好GK110的Tesla也好，为了通用计算也只能把卡上的显存映射到CPU和系统的内存空间，通过memcpy或者DMA进行数据交换

欢迎光临 POPPUR爱换 (https://we.poppur.com/)