POPPUR爱换

标题: NVIDIA 麦斯威尔架构 GPU 将集成 Denver 架构 ARM 处理器 [打印本页]

作者: Edison 时间: 2011-1-20 14:28
标题: NVIDIA 麦斯威尔架构 GPU 将集成 Denver 架构 ARM 处理器
http://www.xbitlabs.com/news/cpu ... _Purpose_Cores.html

Nvidia Corp. will integrate general-purpose ARM processing core(s) into a chip that belongs to Maxwell family of graphics processing units (GPUs), the company revealed in an interview. The Maxwell-generation chip will be the first commercial physical implementation of Nvidia's project Denver and will also be the company's first accelerated processing unit (APU).

"The Maxwell generation will be the first end-product using Project Denver. This is a far greater resource investment for us than just licensing a design," said Mike Rayfield, general manager of mobile solutions for Nvidia, in an interview with Hexus web-site.
Nvidia's initiative code-named Denver describes an Nvidia CPU running the ARM instruction set, which will be fully integrated on the same chip as the Nvidia GPU.

Nvidia Maxwell will be launched in 2013, it was revealed at Nvidia's GPU Technology Conference in September, 2010. Given the timeframe, it is logical to expect 20nm process technology to be used for manufacturing of Maxwell. The architecture due in almost three years from now will offer whopping 14 - 16GFLOPS of double-precision performance per watt, a massive improvement over current-generation hardware.

"Between now and Maxwell, we will introduce virtual memory, pre-emption, enhance the ability of GPU to autonomously process, so that it's non-blocking of the CPU, not waiting for the CPU, relies less on the transfer overheads that we see today. These will take GPU computing to the next level, along with a very large speed up in performance," said Jen-Hsun Huang, chief executive of Nvidia, at GTC 2010.

This is the first time when Nvidia publicly reveals timeframes for project Denver. Unfortunately, not all the details are clear at this point and it is unknown whether all members of the Maxwell family will have integrated GP ARM cores. General-purpose processing cores will bring mosts benefits for compute applications and therefore Nvidia may omit ARM from low-cost designs.

作者: moonfly 时间: 2011-1-20 14:51
杀个花等翻译

作者: 380 时间: 2011-1-20 14:55
提示: 作者被禁止或删除内容自动屏蔽

作者: hxg_2001 时间: 2011-1-20 15:13
集成ARM有一定风险，不知道到那个时候，ARM在PC上够得上主流不？

作者: aaa777ly 时间: 2011-1-20 15:17
咳咳，翻译帝在哪里？

作者: gk104 时间: 2011-1-20 15:19
前景如何很难说

作者: hdht 时间: 2011-1-20 15:26
提示: 作者被禁止或删除内容自动屏蔽

作者: gz_easy 时间: 2011-1-20 15:26
Intel和NV都想集大成吗，越来越像SoC。

作者: 380 时间: 2011-1-20 15:26
提示: 作者被禁止或删除内容自动屏蔽

作者: Edison 时间: 2011-1-20 15:40
早在去年九月底，NVIDIA就预告了未来两代GPU核心架构，代号分别为“开普勒”(Kepler)和“麦克斯韦”(Maxwell)，也延续了特斯拉(Tesla)、费米(Fermi)采用知名物理学家的惯例。开普勒预计2011年底登场，采用台积电28nm工艺，麦克斯韦则安排在2013年底，进化到20nm，号称每瓦特的双精度浮点性能可达费米的十倍，大约 14-16GFlops。

今年初，NVIDIA又突然抛出了“丹佛工程”(Project Denver)，通过ARM指令集授权自行开发高性能微处理器架构，面向桌面、服务器乃至高性能计算市场。

两者看似不相关，但过不了多久便会走到一起。NVIDIA移动解决方案总经理Mike Rayfield在接受采访时透露：“在获得Cortex A15授权的同时，我们还得到了ARM架构授权，用于制造极高性能的ARM处理器，并与NVIDIA GPU图形核心组合在一起，用于超级计算。麦克斯韦将是丹佛工程的第一批实际产品。对我们来说这是一项更宏大的资源投资，而不仅仅是设计授权。”

这是NVIDIA首次提及丹佛工程的进度表，但没有再给出更多细节，也不知道麦克斯韦家族是否全部都会集成ARM通用目的处理核心，但是至少，我们有了一个两年多的等待期限。

http://www.cnbeta.com/articles/132846.htm

作者: hakase 时间: 2011-1-20 15:41
以后可以直接在显卡上跑win8了……YY

作者: disruptor 时间: 2011-1-20 16:09
也就是说Denver的cpu部分会是基于a15的喽？a15有啥特性，64bit吗，有超线程吗，乱序是必须的吧

作者: gzpony 时间: 2011-1-20 16:15

disruptor 发表于 2011-1-20 16:09
也就是说Denver的cpu部分会是基于a15的喽？a15有啥特性，64bit吗，有超线程吗，乱序是必须的吧

当然不会是A15.

2年后的产品不会是现在已经存在cpu的规格了

作者: 梦游的猪 时间: 2011-1-20 16:20
NV的算盘其实很实用，ARM的整数性能对于一般应用已经足够，浮点确实孱弱，可是都可以交给NV的GPU完成。

作者: gz_easy 时间: 2011-1-20 16:43
ARM做逻辑控制，其余交给自家GPU, NV的如意算盘不错。

作者: 鱼儿水中游 时间: 2011-1-20 16:45
非常威武啊，就是不知道那时候桌面应用在显卡上是否会更全面。

作者: BDFMK2 时间: 2011-1-20 17:28
还是为了通用计算吧。

过几年TOP500里前10，全都是ARM，intel不得汗死

作者: inmark 时间: 2011-1-20 17:53
集体YY 贴

作者: zzzworm 时间: 2011-1-20 17:57
麦克斯韦功耗应在180-300W, 丹佛又得100-200W ,俩放一起,不敢想象.只怕28nm也架不住.
可能会集成低版本的丹佛

作者: Kepler680 时间: 2011-1-20 18:18
如果GPU集成ARM的话，那WIN8出来后NV就牛B了

作者: aibo 时间: 2011-1-20 18:19
我觉得民用版的不会集成cpu

集成cpu的是专门给hpc用的

作者: amdxp4800 时间: 2011-1-20 19:18
做手机平板的吧....

作者: crespo021 时间: 2011-1-20 19:23
还要等2-3年，估计WIN9时，NV的CPUGPU可以完工

作者: 开普勒 时间: 2011-1-20 20:35
本帖最后由开普勒于 2011-1-20 20:36 编辑

我想这是给HPC用的。ARM取代x86 CPU可以执行一些串行工作或者调度工作。与目前的GPU+x86CPU异构架构相比，ARM和GPU可以直接通过显存甚至是Cache（或Shared memory）交换数据，避免PCIE等高延时低带宽总线。当然在民用领域的话我想光线追踪之类的应用也比较适合这种架构。

作者: yebx 时间: 2011-1-20 20:52
非常冒险的赌博

作者: SnakeLee 时间: 2011-1-20 21:53
似乎是很合理的发展战略，对NV也只能如此了

作者: eternal0 时间: 2011-1-20 22:15
可以肯定的是，现有的x86软件都不能在上边运行，而现有的ARM软件也无法利用GPU强大的运算能力。

作者: saskey7 时间: 2011-1-20 22:45
老黄还是很有眼光的
逐渐开阔，慢慢蚕食

作者: lacri 时间: 2011-1-21 00:01
我觉得这个不是出现在桌面的吧，应该是为HPC设计的。

作者: 020301583 时间: 2011-1-21 00:12
搞吧搞吧

作者: 骨刺 时间: 2011-1-21 08:25
本帖最后由骨刺于 2011-1-21 08:25 编辑

哈哈 intel真正的对手来了移动领域的 ARM+NV 麦克斯韦值得期待啊

作者: 黎明前的辉煌 时间: 2011-1-21 09:57
用PC上网在国外算非主流吧？

作者: rickerlian 时间: 2011-1-21 10:05
这是很合理的，nv只是想自己掌握cpu技术，结合自己的并行运算技术，以平台为单位推出解决方案，不再依赖第三方。
我之前也说过，nv的运算设备(就是那卡)必须拥有自己的内/外部io能力，才能充分发挥其作用，arm处理器就是充当内/外部io调度器这个角色。

作者: yyzjp 时间: 2011-1-21 10:14
哪里危险？我觉得Intel要完犊子了

作者: yyzjp 时间: 2011-1-21 10:16
连微软都不得不支持ARM，说明ARM确实是未来的主流（平板，上网等）

作者: mooncocoon 时间: 2011-1-21 12:34
总不能是脑抽的把ARM丢进去彻底取代现在的core吧……
我实在想不出除此之外单独放CPU进去的理由了

作者: Edison 时间: 2011-1-21 12:48

mooncocoon 发表于 2011-1-21 12:34
总不能是脑抽的把ARM丢进去彻底取代现在的core吧……
我实在想不出除此之外单独放CPU进去的理由了

Denver 的角色类似于 Cell 里的 PXE，负责调度排程之类的。

作者: mooncocoon 时间: 2011-1-21 12:53

Edison 发表于 2011-1-21 12:48
Denver 的角色类似于 Cell 里的 PXE，负责调度排程之类的。

我考虑过，费米要想在分支和乱序方面更像CPU代价颇大，最简洁的方式就是扔个小号CPU进去，但我觉得扔一整个ARM进去专门干这个代价似乎也太大了点吧……

另外，编程方面，先前CELL不是就被各种骂娘么，赶上哪个大条的一个不留神，大篇大篇的shader被写给了ARM来跑，接着人家不明就里的骂娘怎么办啊……

作者: sunrie 时间: 2011-1-21 12:59
好像不关民用什么事啊？

作者: PRAM 时间: 2011-1-21 15:07
TSMC的28比40还烂。NV等死吧

作者: gzeasy2006 时间: 2012-12-17 22:09
Maxwell不会集成ARM，Maxwell本身还是个图形计算的架构，NVIDIA已经有丹佛的ARM CPU计划了，主打就是高性能的CPU市场，跟英特尔有得一拼

作者: kuginck 时间: 2012-12-17 22:21
这坟挖的。。

作者: Xenomorph 时间: 2012-12-17 22:32

gzeasy2006 发表于 2012-12-17 22:09
Maxwell不会集成ARM，Maxwell本身还是个图形计算的架构，NVIDIA已经有丹佛的ARM CPU计划了，主打就是高性能 ...

在下认为Maxwell本来就是指一个计算架构，也包括对应的图形架构。也许规模小的做成Tegra，规模大的做成Tesla……

作者: gzeasy2006 时间: 2012-12-17 22:49
本帖最后由 gzeasy2006 于 2012-12-17 22:49 编辑

Xenomorph 发表于 2012-12-17 22:32
在下认为Maxwell本来就是指一个计算架构，也包括对应的图形架构。也许规模小的做成Tegra，规模大的做成Te ...

照你这么说来GM104比GK104和GK110的分离还要彻底咯？GK104还是给了双精度的计算单元只是没给寄存器而已，GM104估计连双精度单元都不会给，GM110不会集成ARM CPU，而下代Tesla就是丹佛CPU+GM110的产物，估计GM110的寄存器比GK110还要少，剩余大量的晶体管拿来强化图形与计算单元了。

作者: divx001 时间: 2012-12-18 09:23
本帖最后由 divx001 于 2012-12-18 09:24 编辑

gzeasy2006 发表于 2012-12-17 22:49
照你这么说来GM104比GK104和GK110的分离还要彻底咯？GK104还是给了双精度的计算单元只是没给寄存器而已 ...

Maxwell时代用22nm做目前GK104大小的die至少也有50亿晶体管，集成3-4个Denver 核心并不奇怪。

E大之前已经说的很清楚Denver 在Maxwell里扮演的角色类似于PS3 CELL的PPE角色，集成通用处理器可以大幅度提升计算效率和降低优化难度，对于游戏物理计算和视频编码等效果也很显著。

作者: Xenomorph 时间: 2012-12-18 10:40

gzeasy2006 发表于 2012-12-17 22:49
照你这么说来GM104比GK104和GK110的分离还要彻底咯？GK104还是给了双精度的计算单元只是没给寄存器而已 ...

那就不清楚了。不过为何如此肯定Graphic of Maxwell的产品没有ARM CPU呢？毕竟这个核心是负责调度排程之类，而不是强大到可以直接运行操作系统……

作者: wzglwoc 时间: 2012-12-18 12:07
提示: 作者被禁止或删除内容自动屏蔽

作者: gzeasy2006 时间: 2012-12-18 21:37

divx001 发表于 2012-12-18 09:23
Maxwell时代用22nm做目前GK104大小的die至少也有50亿晶体管，集成3-4个Denver 核心并不奇怪。

E大之前 ...

Maxwell时代用20纳米做GM104这种300mm2规模上下的芯片至少能到80亿晶体管，请参考GF110的30亿和GK104的36.5亿

集成通用处理器如何能提高计算效率和降低优化难度呢？至于游戏物理计算那是靠CUDA核心的多寡来决定性能高低，视频编码也是如此

作者: gzeasy2006 时间: 2012-12-18 21:47
本帖最后由 gzeasy2006 于 2012-12-18 21:53 编辑

Xenomorph 发表于 2012-12-18 10:40
那就不清楚了。不过为何如此肯定Graphic of Maxwell的产品没有ARM CPU呢？毕竟这个核心是负责调度排程之类 ...

因为GK110本身就有线程调度器啊~动态并行调度机制Dynamic Parallelism以及Hyper-Q等可以快速的刷新出新的线程,所以我找不出GM110还需要放入ARM核心来当线程调度器的理由？

作者: divx001 时间: 2012-12-19 10:58

gzeasy2006 发表于 2012-12-18 21:37
Maxwell时代用20纳米做GM104这种300mm2规模上下的芯片至少能到80亿晶体管，请参考GF110的30亿和GK104的36 ...

目前CUDA效率的主要问题在于GPU和CPU通信延迟太大，即使是并行部分能有很好的加速效果，但是给效率低下的总线传输一拖也没多少优势。加入通用CPU核心之后这个问题可以得到最大程度的缓解。

即使是A15这样的核心不连L2缓存晶体管数量也只有7000万左右，四个才2.8亿放在一个近80亿晶体管数量的die里面对计算能力影响非常有限。

集成CPU核心之后很多物理判断可以放在GPU里面做，现在所谓GPU物理特效还仅仅至是一个视觉效果而已，真正的物理判定还是得靠CPU来完成。H264里面有大量不能并行处理的模块，现在CUDA编码说实话无论速度和效率跟软件编码相比并不是非常显著，编码1080P视频我的560SE也仅仅只有25%左右的负载，大部分运算能力都浪费在跟CPU通信上了。

作者: Xenomorph 时间: 2012-12-19 12:09

gzeasy2006 发表于 2012-12-18 21:47
因为GK110本身就有线程调度器啊~动态并行调度机制Dynamic Parallelism以及Hyper-Q等可以快速的刷新出新 ...

之前在下也是这么想的，就是Dynamic Parallelism可以使GPU几乎完全摆脱对CPU的依赖，当时也是对Maxwell的做法感到惊奇。现在想来，可能是在某些应用场合下，CPU的分支预测能力和串行运算能力始终是GPU所不能及的，所以还是得加入这个ARM核心……

作者: gzeasy2006 时间: 2012-12-19 20:19

divx001 发表于 2012-12-19 10:58
目前CUDA效率的主要问题在于GPU和CPU通信延迟太大，即使是并行部分能有很好的加速效果，但是给效率低下的 ...

虽说2.8亿的ARM放在80亿晶体管的GPU里不算什么，但是GM104游戏卡又不是主攻HPC市场，有什么理由放个ARM进去呢？

作者: gzeasy2006 时间: 2012-12-19 20:25
本帖最后由 gzeasy2006 于 2012-12-19 20:26 编辑

Xenomorph 发表于 2012-12-19 12:09
之前在下也是这么想的，就是Dynamic Parallelism可以使GPU几乎完全摆脱对CPU的依赖，当时也是对Maxwell的 ...

能说说具体在什么应用场合下CPU的分支预测能力和串行运算能力始终是GPU所不能及的？加入这个ARM核心能带来什么翻天覆地的变化？因为我觉得Dynamic Parallelism已经可以让GPU完全摆脱对CPU的依赖了,所以我对Maxwell的做法感到不解？难道仅仅是为了HPC市场才增加的这个ARM核心吗？

作者: Xenomorph 时间: 2012-12-20 11:02

gzeasy2006 发表于 2012-12-19 20:25
能说说具体在什么应用场合下CPU的分支预测能力和串行运算能力始终是GPU所不能及的？加入这个ARM核心能带 ...

Dynamic Parallelism允许更多种并行算法在GPU上执行，包括不同数量的并行嵌套循环、串行控制任务线程的并行队或卸载到GPU的简单串行控制代码，以便促进应用程序并行部分的数据局部化。Dynamic Parallelism的目的是允许更多的并行代码直接由GPU本身启动，减少CPU的干预，但是对于复杂的串行代码，依然是无能为力的。否则Hyper-Q这个可以让多个CPU内核为单个GPU同时发射工作任务从而实现显著地提升GPU效率和减少CPU呆滞时间的技术有什么意义呢……

作者: gzeasy2006 时间: 2012-12-26 10:48

Xenomorph 发表于 2012-12-20 11:02
Dynamic Parallelism允许更多种并行算法在GPU上执行，包括不同数量的并行嵌套循环、串行控制任务线程的并 ...

HPC会用到复杂的串行代码吗？如果不需要的话~~ARM无用也

作者: Xenomorph 时间: 2012-12-26 10:55

gzeasy2006 发表于 2012-12-26 10:48
HPC会用到复杂的串行代码吗？如果不需要的话~~ARM无用也

那倒是……她出来以后再看看吧……

作者: Vendicare 时间: 2012-12-26 11:15
本帖最后由 Vendicare 于 2012-12-26 11:16 编辑

gzeasy2006 发表于 2012-12-26 10:48
HPC会用到复杂的串行代码吗？如果不需要的话~~ARM无用也

这个，我没看出内在逻辑在哪里.........

1、HPC自然会遇到复杂的串行代码，只不过在运算这种代码的时候效率极低而已。根据阿姆达尔定律，超级计算机的性能极限就是不可分解的串行代码的最小执行时间。

2、就因为HPC面对的问题是海量并行，所以ARM才有用武之地。论单线程性能的话，ARM处理器会被X86芯片秒到连渣都不剩。

3、Project Denver根据nvidia高级工程师马路撒的话说，就是为了取代现有Geforce芯片中的GTE引擎而设计的。目前Geforce的性能限制很大程度上是在GTE身上，线程管理能力进一步加强的话消失的二分频流处理器很可能会回来。

作者: gzeasy2006 时间: 2012-12-28 07:22
本帖最后由 gzeasy2006 于 2012-12-28 07:23 编辑

Vendicare 发表于 2012-12-26 11:15
这个，我没看出内在逻辑在哪里.........

1、HPC自然会遇到复杂的串行代码，只不过在运算这种代码的时候 ...

如果Maxwell内置ARM能让两倍主频的Shader回来我也没啥意见

作者: PS5 时间: 2012-12-28 22:15

Vendicare 发表于 2012-12-26 11:15
这个，我没看出内在逻辑在哪里.........

1、HPC自然会遇到复杂的串行代码，只不过在运算这种代码的时候 ...

海量并行最适合ARM了，希望能取代X86，同时也希望二分频流处理器能回来，真能回来的话图形性能就太梦幻了

作者: lik 时间: 2012-12-29 01:58
其实就和Intel CPU集成GPU是一个想法. 现在用GPU的HPC都还需要Intel/AMD CPU. NV想把这块也吃下来. 其它的都是这个梦想的附带产品.

作者: krisman 时间: 2012-12-29 09:58
GK110性能先超过690再说吧，麦克斯韦还是2014年的事呢。

作者: R620 时间: 2012-12-29 23:08

lik 发表于 2012-12-29 01:58
其实就和Intel CPU集成GPU是一个想法. 现在用GPU的HPC都还需要Intel/AMD CPU. NV想把这块也吃下来. 其它的都 ...

用在超算里的CPU和GPU应该还是独立的模块，这样才能保证系统的高效率

作者: R620 时间: 2012-12-30 23:54
等待MAXWELL的降临，性能有望比GK110翻番

作者: divx001 时间: 2012-12-31 09:12

R620 发表于 2012-12-29 23:08
用在超算里的CPU和GPU应该还是独立的模块，这样才能保证系统的高效率

问题是现在要解决串行部分和并行的通讯效率，如果能把某些串行算法放在GPU里面运行肯定效率远远超过单独的CPU+GPU

作者: R620 时间: 2012-12-31 12:26

divx001 发表于 2012-12-31 09:12
问题是现在要解决串行部分和并行的通讯效率，如果能把某些串行算法放在GPU里面运行肯定效率远远超过单独的 ...

现在不管是CPU整合GPU还是GPU整合CPU都是性能低下的低端产品，高端还是要独立CPU+独立GPU

作者: R620 时间: 2013-1-1 00:08

Vendicare 发表于 2012-12-26 11:15
这个，我没看出内在逻辑在哪里.........

1、HPC自然会遇到复杂的串行代码，只不过在运算这种代码的时候 ...

我觉得现阶段Geforce的性能限制很大程度上是在显存带宽上，带宽不足严重地制约了3D性能

作者: G81 时间: 2013-1-3 00:18

Vendicare 发表于 2012-12-26 11:15
这个，我没看出内在逻辑在哪里.........

1、HPC自然会遇到复杂的串行代码，只不过在运算这种代码的时候 ...

问题1 既然HPC最大问题是不可分解的穿行代码可以用CPU的服务器集群来解决阿没必要要用GPGPU

作者: coollab 时间: 2013-1-3 00:19
我深深怀疑楼上一堆人以及还有好几个ID的来历到底是什么……

元芳，你怎么看？

作者: Vendicare 时间: 2013-1-3 12:26

G81 发表于 2013-1-3 00:18
问题1 既然HPC最大问题是不可分解的穿行代码可以用CPU的服务器集群来解决阿没必要要用GPGPU

答案1：达到同样的并行序数量GPU的成本乃是CPU超算的几十分之一，达到同样的浮点吞吐量价格也是几十分之一。归根结底还是成本。

作者: 莱家栋123456 时间: 2013-1-3 23:42

Vendicare 发表于 2012-12-26 11:15
这个，我没看出内在逻辑在哪里.........

1、HPC自然会遇到复杂的串行代码，只不过在运算这种代码的时候 ...

貌似现在的软件没几个是单线程的吧？几乎都是支持多CPU的

Maxwell Geforce用Denver取代GTE引擎只是为了让两倍频率的流处理器回来吗？

作者: 莱家栋123456 时间: 2013-1-4 21:55

krisman 发表于 2012-12-29 09:58
GK110性能先超过690再说吧，麦克斯韦还是2014年的事呢。

麦克斯韦搞不好2013年纸面发布哦

作者: 飛天舞 时间: 2013-1-4 22:54
好像很厉害的样子～！

作者: eDRAM 时间: 2013-1-10 21:39
按照Maxwell那么庞大的流处理器单元数量要多少个ARM或者说是多少的计算量才能满足线程调度的需求啊

作者: 32nm 时间: 2013-1-17 22:49
Maxwell为什么不能集成个I7处理器当线程调度器？实在不行I5和I3也可以啊~

用ARM也太垃圾了吧

作者: boltblade 时间: 2013-1-17 23:10

hakase 发表于 2011-1-20 15:41
以后可以直接在显卡上跑win8了……YY

win8 RT,谢谢。

作者: lik 时间: 2013-1-19 13:47

32nm 发表于 2013-1-17 22:49
Maxwell为什么不能集成个I7处理器当线程调度器？实在不行I5和I3也可以啊~
用ARM也太垃圾了吧

如何集成? 你能从Intel那里买到 i7/5/3的IP吗? 如果只能买到芯片, 如何集成到自己的芯片里面?

作者: NG6 时间: 2013-1-19 14:26
编程人员怎么办？专为Maxwell写程序，还是淫威大自己想解决办法，总之很不现实

欢迎光临 POPPUR爱换 (https://we.poppur.com/)