NVIDIA 麦斯威尔架构 GPU 将集成 Denver 架构 ARM 处理器

gzeasy2006 · 发表于 2012-12-17 22:09

Maxwell不会集成ARM，Maxwell本身还是个图形计算的架构，NVIDIA已经有丹佛的ARM CPU计划了，主打就是高性能的CPU市场，跟英特尔有得一拼

kuginck · 发表于 2012-12-17 22:21

这坟挖的。。

Xenomorph · 发表于 2012-12-17 22:32

gzeasy2006 发表于 2012-12-17 22:09
Maxwell不会集成ARM，Maxwell本身还是个图形计算的架构，NVIDIA已经有丹佛的ARM CPU计划了，主打就是高性能 ...

在下认为Maxwell本来就是指一个计算架构，也包括对应的图形架构。也许规模小的做成Tegra，规模大的做成Tesla……

gzeasy2006 · 发表于 2012-12-17 22:49

本帖最后由 gzeasy2006 于 2012-12-17 22:49 编辑

Xenomorph 发表于 2012-12-17 22:32
在下认为Maxwell本来就是指一个计算架构，也包括对应的图形架构。也许规模小的做成Tegra，规模大的做成Te ...

照你这么说来GM104比GK104和GK110的分离还要彻底咯？GK104还是给了双精度的计算单元只是没给寄存器而已，GM104估计连双精度单元都不会给，GM110不会集成ARM CPU，而下代Tesla就是丹佛CPU+GM110的产物，估计GM110的寄存器比GK110还要少，剩余大量的晶体管拿来强化图形与计算单元了。

divx001 · 发表于 2012-12-18 09:23

本帖最后由 divx001 于 2012-12-18 09:24 编辑

gzeasy2006 发表于 2012-12-17 22:49
照你这么说来GM104比GK104和GK110的分离还要彻底咯？GK104还是给了双精度的计算单元只是没给寄存器而已 ...

Maxwell时代用22nm做目前GK104大小的die至少也有50亿晶体管，集成3-4个Denver 核心并不奇怪。

E大之前已经说的很清楚Denver 在Maxwell里扮演的角色类似于PS3 CELL的PPE角色，集成通用处理器可以大幅度提升计算效率和降低优化难度，对于游戏物理计算和视频编码等效果也很显著。

Xenomorph · 发表于 2012-12-18 10:40

gzeasy2006 发表于 2012-12-17 22:49
照你这么说来GM104比GK104和GK110的分离还要彻底咯？GK104还是给了双精度的计算单元只是没给寄存器而已 ...

那就不清楚了。不过为何如此肯定Graphic of Maxwell的产品没有ARM CPU呢？毕竟这个核心是负责调度排程之类，而不是强大到可以直接运行操作系统……

wzglwoc · 发表于 2012-12-18 12:07

提示: 作者被禁止或删除内容自动屏蔽

gzeasy2006 · 发表于 2012-12-18 21:37

divx001 发表于 2012-12-18 09:23
Maxwell时代用22nm做目前GK104大小的die至少也有50亿晶体管，集成3-4个Denver 核心并不奇怪。

E大之前 ...

Maxwell时代用20纳米做GM104这种300mm2规模上下的芯片至少能到80亿晶体管，请参考GF110的30亿和GK104的36.5亿

集成通用处理器如何能提高计算效率和降低优化难度呢？至于游戏物理计算那是靠CUDA核心的多寡来决定性能高低，视频编码也是如此

gzeasy2006 · 发表于 2012-12-18 21:47

本帖最后由 gzeasy2006 于 2012-12-18 21:53 编辑

Xenomorph 发表于 2012-12-18 10:40
那就不清楚了。不过为何如此肯定Graphic of Maxwell的产品没有ARM CPU呢？毕竟这个核心是负责调度排程之类 ...

因为GK110本身就有线程调度器啊~动态并行调度机制Dynamic Parallelism以及Hyper-Q等可以快速的刷新出新的线程,所以我找不出GM110还需要放入ARM核心来当线程调度器的理由？

divx001 · 发表于 2012-12-19 10:58

gzeasy2006 发表于 2012-12-18 21:37
Maxwell时代用20纳米做GM104这种300mm2规模上下的芯片至少能到80亿晶体管，请参考GF110的30亿和GK104的36 ...

目前CUDA效率的主要问题在于GPU和CPU通信延迟太大，即使是并行部分能有很好的加速效果，但是给效率低下的总线传输一拖也没多少优势。加入通用CPU核心之后这个问题可以得到最大程度的缓解。

即使是A15这样的核心不连L2缓存晶体管数量也只有7000万左右，四个才2.8亿放在一个近80亿晶体管数量的die里面对计算能力影响非常有限。

集成CPU核心之后很多物理判断可以放在GPU里面做，现在所谓GPU物理特效还仅仅至是一个视觉效果而已，真正的物理判定还是得靠CPU来完成。H264里面有大量不能并行处理的模块，现在CUDA编码说实话无论速度和效率跟软件编码相比并不是非常显著，编码1080P视频我的560SE也仅仅只有25%左右的负载，大部分运算能力都浪费在跟CPU通信上了。

Xenomorph · 发表于 2012-12-19 12:09

gzeasy2006 发表于 2012-12-18 21:47
因为GK110本身就有线程调度器啊~动态并行调度机制Dynamic Parallelism以及Hyper-Q等可以快速的刷新出新 ...

之前在下也是这么想的，就是Dynamic Parallelism可以使GPU几乎完全摆脱对CPU的依赖，当时也是对Maxwell的做法感到惊奇。现在想来，可能是在某些应用场合下，CPU的分支预测能力和串行运算能力始终是GPU所不能及的，所以还是得加入这个ARM核心……

gzeasy2006 · 发表于 2012-12-19 20:19

divx001 发表于 2012-12-19 10:58
目前CUDA效率的主要问题在于GPU和CPU通信延迟太大，即使是并行部分能有很好的加速效果，但是给效率低下的 ...

虽说2.8亿的ARM放在80亿晶体管的GPU里不算什么，但是GM104游戏卡又不是主攻HPC市场，有什么理由放个ARM进去呢？

gzeasy2006 · 发表于 2012-12-19 20:25

本帖最后由 gzeasy2006 于 2012-12-19 20:26 编辑

Xenomorph 发表于 2012-12-19 12:09
之前在下也是这么想的，就是Dynamic Parallelism可以使GPU几乎完全摆脱对CPU的依赖，当时也是对Maxwell的 ...

能说说具体在什么应用场合下CPU的分支预测能力和串行运算能力始终是GPU所不能及的？加入这个ARM核心能带来什么翻天覆地的变化？因为我觉得Dynamic Parallelism已经可以让GPU完全摆脱对CPU的依赖了,所以我对Maxwell的做法感到不解？难道仅仅是为了HPC市场才增加的这个ARM核心吗？

Xenomorph · 发表于 2012-12-20 11:02

gzeasy2006 发表于 2012-12-19 20:25
能说说具体在什么应用场合下CPU的分支预测能力和串行运算能力始终是GPU所不能及的？加入这个ARM核心能带 ...

Dynamic Parallelism允许更多种并行算法在GPU上执行，包括不同数量的并行嵌套循环、串行控制任务线程的并行队或卸载到GPU的简单串行控制代码，以便促进应用程序并行部分的数据局部化。Dynamic Parallelism的目的是允许更多的并行代码直接由GPU本身启动，减少CPU的干预，但是对于复杂的串行代码，依然是无能为力的。否则Hyper-Q这个可以让多个CPU内核为单个GPU同时发射工作任务从而实现显著地提升GPU效率和减少CPU呆滞时间的技术有什么意义呢……

gzeasy2006 · 发表于 2012-12-26 10:48

Xenomorph 发表于 2012-12-20 11:02
Dynamic Parallelism允许更多种并行算法在GPU上执行，包括不同数量的并行嵌套循环、串行控制任务线程的并 ...

HPC会用到复杂的串行代码吗？如果不需要的话~~ARM无用也

Xenomorph · 发表于 2012-12-26 10:55

gzeasy2006 发表于 2012-12-26 10:48
HPC会用到复杂的串行代码吗？如果不需要的话~~ARM无用也

那倒是……她出来以后再看看吧……

Vendicare · 发表于 2012-12-26 11:15

本帖最后由 Vendicare 于 2012-12-26 11:16 编辑

gzeasy2006 发表于 2012-12-26 10:48
HPC会用到复杂的串行代码吗？如果不需要的话~~ARM无用也

这个，我没看出内在逻辑在哪里.........

1、HPC自然会遇到复杂的串行代码，只不过在运算这种代码的时候效率极低而已。根据阿姆达尔定律，超级计算机的性能极限就是不可分解的串行代码的最小执行时间。

2、就因为HPC面对的问题是海量并行，所以ARM才有用武之地。论单线程性能的话，ARM处理器会被X86芯片秒到连渣都不剩。

3、Project Denver根据nvidia高级工程师马路撒的话说，就是为了取代现有Geforce芯片中的GTE引擎而设计的。目前Geforce的性能限制很大程度上是在GTE身上，线程管理能力进一步加强的话消失的二分频流处理器很可能会回来。

gzeasy2006 · 发表于 2012-12-28 07:22

本帖最后由 gzeasy2006 于 2012-12-28 07:23 编辑

Vendicare 发表于 2012-12-26 11:15
这个，我没看出内在逻辑在哪里.........

1、HPC自然会遇到复杂的串行代码，只不过在运算这种代码的时候 ...

如果Maxwell内置ARM能让两倍主频的Shader回来我也没啥意见

PS5 · 发表于 2012-12-28 22:15

Vendicare 发表于 2012-12-26 11:15
这个，我没看出内在逻辑在哪里.........

1、HPC自然会遇到复杂的串行代码，只不过在运算这种代码的时候 ...

海量并行最适合ARM了，希望能取代X86，同时也希望二分频流处理器能回来，真能回来的话图形性能就太梦幻了

lik · 发表于 2012-12-29 01:58

其实就和Intel CPU集成GPU是一个想法. 现在用GPU的HPC都还需要Intel/AMD CPU. NV想把这块也吃下来. 其它的都是这个梦想的附带产品.

帐号		自动登录	找回密码
密码			注册

wzglwoc wzglwoc 当前离线积分 4 IP卡狗仔卡头像被屏蔽	47^# 发表于 2012-12-18 12:07 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
wzglwoc wzglwoc 当前离线积分 4 IP卡狗仔卡头像被屏蔽
	回复支持反对使用道具举报显身卡