POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
楼主: Edison
打印 上一主题 下一主题

NVIDIA 麦斯威尔架构 GPU 将集成 Denver 架构 ARM 处理器

[复制链接]
41#
发表于 2012-12-17 22:09 | 只看该作者
Maxwell不会集成ARM,Maxwell本身还是个图形计算的架构,NVIDIA已经有丹佛的ARM CPU计划了,主打就是高性能的CPU市场,跟英特尔有得一拼
回复 支持 反对

使用道具 举报

42#
发表于 2012-12-17 22:21 来自手机 | 只看该作者
这坟挖的。。
回复 支持 反对

使用道具 举报

43#
发表于 2012-12-17 22:32 | 只看该作者
gzeasy2006 发表于 2012-12-17 22:09
Maxwell不会集成ARM,Maxwell本身还是个图形计算的架构,NVIDIA已经有丹佛的ARM CPU计划了,主打就是高性能 ...

在下认为Maxwell本来就是指一个计算架构,也包括对应的图形架构。也许规模小的做成Tegra,规模大的做成Tesla……
回复 支持 反对

使用道具 举报

44#
发表于 2012-12-17 22:49 | 只看该作者
本帖最后由 gzeasy2006 于 2012-12-17 22:49 编辑
Xenomorph 发表于 2012-12-17 22:32
在下认为Maxwell本来就是指一个计算架构,也包括对应的图形架构。也许规模小的做成Tegra,规模大的做成Te ...


照你这么说来GM104比GK104和GK110的分离还要彻底咯?GK104还是给了双精度的计算单元只是没给寄存器而已,GM104估计连双精度单元都不会给,GM110不会集成ARM CPU,而下代Tesla就是丹佛CPU+GM110的产物,估计GM110的寄存器比GK110还要少,剩余大量的晶体管拿来强化图形与计算单元了。
回复 支持 反对

使用道具 举报

45#
发表于 2012-12-18 09:23 | 只看该作者
本帖最后由 divx001 于 2012-12-18 09:24 编辑
gzeasy2006 发表于 2012-12-17 22:49
照你这么说来GM104比GK104和GK110的分离还要彻底咯?GK104还是给了双精度的计算单元只是没给寄存器而已 ...

Maxwell时代用22nm做目前GK104大小的die至少也有50亿晶体管,集成3-4个Denver 核心并不奇怪。

E大之前已经说的很清楚Denver 在Maxwell里扮演的角色类似于PS3 CELL的PPE角色,集成通用处理器可以大幅度提升计算效率和降低优化难度,对于游戏物理计算和视频编码等效果也很显著。
回复 支持 反对

使用道具 举报

46#
发表于 2012-12-18 10:40 | 只看该作者
gzeasy2006 发表于 2012-12-17 22:49
照你这么说来GM104比GK104和GK110的分离还要彻底咯?GK104还是给了双精度的计算单元只是没给寄存器而已 ...

那就不清楚了。不过为何如此肯定Graphic of Maxwell的产品没有ARM CPU呢?毕竟这个核心是负责调度排程之类,而不是强大到可以直接运行操作系统……
回复 支持 反对

使用道具 举报

头像被屏蔽
47#
发表于 2012-12-18 12:07 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

48#
发表于 2012-12-18 21:37 | 只看该作者
divx001 发表于 2012-12-18 09:23
Maxwell时代用22nm做目前GK104大小的die至少也有50亿晶体管,集成3-4个Denver 核心并不奇怪。

E大之前 ...

Maxwell时代用20纳米做GM104这种300mm2规模上下的芯片至少能到80亿晶体管,请参考GF110的30亿和GK104的36.5亿

集成通用处理器如何能提高计算效率和降低优化难度呢?至于游戏物理计算那是靠CUDA核心的多寡来决定性能高低,视频编码也是如此
回复 支持 反对

使用道具 举报

49#
发表于 2012-12-18 21:47 | 只看该作者
本帖最后由 gzeasy2006 于 2012-12-18 21:53 编辑
Xenomorph 发表于 2012-12-18 10:40
那就不清楚了。不过为何如此肯定Graphic of Maxwell的产品没有ARM CPU呢?毕竟这个核心是负责调度排程之类 ...


因为GK110本身就有线程调度器啊~动态并行调度机制Dynamic Parallelism以及Hyper-Q等可以快速的刷新出新的线程,所以我找不出GM110还需要放入ARM核心来当线程调度器的理由?
回复 支持 反对

使用道具 举报

50#
发表于 2012-12-19 10:58 | 只看该作者
gzeasy2006 发表于 2012-12-18 21:37
Maxwell时代用20纳米做GM104这种300mm2规模上下的芯片至少能到80亿晶体管,请参考GF110的30亿和GK104的36 ...

目前CUDA效率的主要问题在于GPU和CPU通信延迟太大,即使是并行部分能有很好的加速效果,但是给效率低下的总线传输一拖也没多少优势。加入通用CPU核心之后这个问题可以得到最大程度的缓解。

即使是A15这样的核心不连L2缓存晶体管数量也只有7000万左右,四个才2.8亿放在一个近80亿晶体管数量的die里面对计算能力影响非常有限。

集成CPU核心之后很多物理判断可以放在GPU里面做,现在所谓GPU物理特效还仅仅至是一个视觉效果而已,真正的物理判定还是得靠CPU来完成。H264里面有大量不能并行处理的模块,现在CUDA编码说实话无论速度和效率跟软件编码相比并不是非常显著,编码1080P视频我的560SE也仅仅只有25%左右的负载,大部分运算能力都浪费在跟CPU通信上了。
回复 支持 反对

使用道具 举报

51#
发表于 2012-12-19 12:09 | 只看该作者
gzeasy2006 发表于 2012-12-18 21:47
因为GK110本身就有线程调度器啊~动态并行调度机制Dynamic Parallelism以及Hyper-Q等可以快速的刷新出新 ...

之前在下也是这么想的,就是Dynamic Parallelism可以使GPU几乎完全摆脱对CPU的依赖,当时也是对Maxwell的做法感到惊奇。现在想来,可能是在某些应用场合下,CPU的分支预测能力和串行运算能力始终是GPU所不能及的,所以还是得加入这个ARM核心……
回复 支持 反对

使用道具 举报

52#
发表于 2012-12-19 20:19 | 只看该作者
divx001 发表于 2012-12-19 10:58
目前CUDA效率的主要问题在于GPU和CPU通信延迟太大,即使是并行部分能有很好的加速效果,但是给效率低下的 ...

虽说2.8亿的ARM放在80亿晶体管的GPU里不算什么,但是GM104游戏卡又不是主攻HPC市场,有什么理由放个ARM进去呢?
回复 支持 反对

使用道具 举报

53#
发表于 2012-12-19 20:25 | 只看该作者
本帖最后由 gzeasy2006 于 2012-12-19 20:26 编辑
Xenomorph 发表于 2012-12-19 12:09
之前在下也是这么想的,就是Dynamic Parallelism可以使GPU几乎完全摆脱对CPU的依赖,当时也是对Maxwell的 ...


能说说具体在什么应用场合下CPU的分支预测能力和串行运算能力始终是GPU所不能及的?加入这个ARM核心能带来什么翻天覆地的变化?因为我觉得Dynamic Parallelism已经可以让GPU完全摆脱对CPU的依赖了,所以我对Maxwell的做法感到不解?难道仅仅是为了HPC市场才增加的这个ARM核心吗?
回复 支持 反对

使用道具 举报

54#
发表于 2012-12-20 11:02 | 只看该作者
gzeasy2006 发表于 2012-12-19 20:25
能说说具体在什么应用场合下CPU的分支预测能力和串行运算能力始终是GPU所不能及的?加入这个ARM核心能带 ...

Dynamic Parallelism允许更多种并行算法在GPU上执行,包括不同数量的并行嵌套循环、串行控制任务线程的并行队或卸载到GPU的简单串行控制代码,以便促进应用程序并行部分的数据局部化。Dynamic Parallelism的目的是允许更多的并行代码直接由GPU本身启动,减少CPU的干预,但是对于复杂的串行代码,依然是无能为力的。否则Hyper-Q这个可以让多个CPU内核为单个GPU同时发射工作任务从而实现显著地提升GPU效率和减少CPU呆滞时间的技术有什么意义呢……
回复 支持 反对

使用道具 举报

55#
发表于 2012-12-26 10:48 | 只看该作者
Xenomorph 发表于 2012-12-20 11:02
Dynamic Parallelism允许更多种并行算法在GPU上执行,包括不同数量的并行嵌套循环、串行控制任务线程的并 ...

HPC会用到复杂的串行代码吗?如果不需要的话~~ARM无用也
回复 支持 反对

使用道具 举报

56#
发表于 2012-12-26 10:55 | 只看该作者
gzeasy2006 发表于 2012-12-26 10:48
HPC会用到复杂的串行代码吗?如果不需要的话~~ARM无用也

那倒是……她出来以后再看看吧……
回复 支持 反对

使用道具 举报

57#
发表于 2012-12-26 11:15 | 只看该作者
本帖最后由 Vendicare 于 2012-12-26 11:16 编辑
gzeasy2006 发表于 2012-12-26 10:48
HPC会用到复杂的串行代码吗?如果不需要的话~~ARM无用也

这个,我没看出内在逻辑在哪里.........

1、HPC自然会遇到复杂的串行代码,只不过在运算这种代码的时候效率极低而已。根据阿姆达尔定律,超级计算机的性能极限就是不可分解的串行代码的最小执行时间。

2、就因为HPC面对的问题是海量并行,所以ARM才有用武之地。论单线程性能的话,ARM处理器会被X86芯片秒到连渣都不剩。

3、Project Denver根据nvidia高级工程师马路撒的话说,就是为了取代现有Geforce芯片中的GTE引擎而设计的。目前Geforce的性能限制很大程度上是在GTE身上,线程管理能力进一步加强的话消失的二分频流处理器很可能会回来。
回复 支持 反对

使用道具 举报

58#
发表于 2012-12-28 07:22 | 只看该作者
本帖最后由 gzeasy2006 于 2012-12-28 07:23 编辑
Vendicare 发表于 2012-12-26 11:15
这个,我没看出内在逻辑在哪里.........

1、HPC自然会遇到复杂的串行代码,只不过在运算这种代码的时候 ...


如果Maxwell内置ARM能让两倍主频的Shader回来我也没啥意见
回复 支持 反对

使用道具 举报

59#
发表于 2012-12-28 22:15 | 只看该作者
Vendicare 发表于 2012-12-26 11:15
这个,我没看出内在逻辑在哪里.........

1、HPC自然会遇到复杂的串行代码,只不过在运算这种代码的时候 ...

海量并行最适合ARM了,希望能取代X86,同时也希望二分频流处理器能回来,真能回来的话图形性能就太梦幻了
回复 支持 反对

使用道具 举报

60#
发表于 2012-12-29 01:58 | 只看该作者
其实就和Intel CPU集成GPU是一个想法. 现在用GPU的HPC都还需要Intel/AMD CPU. NV想把这块也吃下来. 其它的都是这个梦想的附带产品.
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-12-30 07:06

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表