POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
查看: 4922|回复: 25
打印 上一主题 下一主题

AMD难道不知道APU架构的瓶颈?

[复制链接]
跳转到指定楼层
1#
发表于 2011-6-17 19:50 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
APU创造性的把CPU和GPU融合到一个die上。
AMD有APU这个Idea的是时候,应该仔细去考虑过各个Unit的效率和功能。
从目前发布的APU,明眼人都看的出来:内存带宽过窄;完全无法满足APU内部计算核心的需要;
对比中端的5750/5770:128bit,4.6G的GDDR5;带宽是:  73.6GB/s。
目前最顶级的APU,如果用DDR3 1666的内存,是双通道128bit;CPU+GPU的带宽:26.7GB/s。


这样巨大的内存带宽,AMD难道看不到吗? 如果一直这样的跛脚,怎么可能发挥所谓APU融合GPU的实力呢?
而且从内存的发展来看,这个差距不是暂时的;我是指显存带宽的进步只会比内存带宽得更快!
难不成AMD准备了更加核心的技术来化解这个内存带宽巨大差距的问题;

题外话,我想问APU融合的极致是什么?
从APU发布的AMD技术文档和未来,我仿佛到了Intel larrabee的身影。
融合,融合的极致是什么?
先说这样几个概念: 推土机内核,浮点计算单元;GPU的SIMD;
未来APU,再融合;在我的理解看来最多是GPU的SIMD可以融合进入CPU内核的浮点计算单元;
但如果这样话,这和Larrabee用x86核心做显卡有什么区别呢?
如果融合的极致不是这个?
GPU的计算单元,没有融入CPU内核的浮点运算单元;
这种如果是未来;从数据带宽上看我觉得还是GPU融合CPU更加合理,这样的产品在HPC上更有竞争力。

欢迎大家积极讨论APU的未来。
2#
发表于 2011-6-17 19:53 | 只看该作者
AMD当然不知道了
只有LZ你知道嘛{lol:]
回复 支持 反对

使用道具 举报

3#
 楼主| 发表于 2011-6-17 20:03 | 只看该作者
gtx5 发表于 2011-6-17 19:53
AMD当然不知道了
只有LZ你知道嘛

我把帖子发到这个区,就不是想和某些人打嘴仗的;

这里牛人多,回复的也有深度;我想想讨论下未来这个问题可否解决,现有储备的技术有哪些。
回复 支持 反对

使用道具 举报

4#
发表于 2011-6-17 20:32 | 只看该作者
amd的apu是提供一种业界发展方向,及融合潮流,具体到产品的话,第一代apu难免有很多不足,你若是真的关心这个,你静候推土机核心的apu的出现不久好了啊
回复 支持 反对

使用道具 举报

5#
发表于 2011-6-17 20:35 | 只看该作者
只是,GPU和CPU想从架构底层融合并非简单的事。为此,AMD拟定了四步走的方案。第一步“物理整合”(Physical Integration),CPU、GPU集成在一块硅芯片上,辅以高带宽集成内存控制器,再借助开放的软件生态系统促成异构计算基本形态。此步的第一个任务就是消除现有平台上各部分之间的互连瓶颈。其实,当前部分北桥模块和内存控制器都已经集成在CPU内部,但是二者之间、内存控制器与内存之间的带宽都只有17GB/s左右,北桥模块与GPU集成显卡之间的带宽更是仅有7GB/s左右,已经成为瓶颈,特别是集成显卡与内存通信时需要绕道北桥部分。

回复 支持 反对

使用道具 举报

6#
发表于 2011-6-17 20:45 | 只看该作者
顺便说一句,pcie x16的带宽只有5gb/s,显卡与显存无论有多少带宽,只能通过pcie总线,发送给cpu,而pcie总线带宽就那么点,你说apu有没有意义?
回复 支持 反对

使用道具 举报

7#
发表于 2011-6-17 20:49 | 只看该作者
pcie总线可不是只提供给显卡用的,还要给网卡,声卡,等所有的板载设备共用,这样一来,能分给显卡的带宽就更少了。。。。
回复 支持 反对

使用道具 举报

8#
 楼主| 发表于 2011-6-17 20:56 | 只看该作者
drdhl 发表于 2011-6-17 20:45
顺便说一句,pcie x16的带宽只有5gb/s,显卡与显存无论有多少带宽,只能通过pcie总线,发送给cpu,而pcie总 ...

谢谢你参与我的讨论,我的确是有些问题不太明白,才发这个帖子的;

1)现在的APU的确是第一代,不成熟;但这个内存带宽不足的问题,我觉得以后的一代,或者说是用推土机的APU仍然是存在的。
例如你说:CPU、GPU集成在一块硅芯片上,辅以高带宽集成内存控制器;什么叫 ”辅以高带宽集成内存控制器“,
APU首先还是作为CPU在卖,这样它不得不支持已有的内存标准。
内存速度发展,显存速度也发展;但是显存的速度发展还要快一些;这鸿沟是在扩大。

2)NV的方案中,
GPU的数据在自己的显存里面;这个显存带宽是极大的;GF110是384bit+4G GDDR5;
CPU的数据放在内存里面,这个是CPU独享的带宽;
GPU从外界读入数据或者命令,的确如你所说目前通过PCIE接口。但如果是命令内容一般比较小,数据的话会慢点。
但最新的PCI-E 3.0架构单信道(x1)单向带宽即可接近1GB/s,十六信道(x16)双向带宽更是可达32GB/s。
这也也相当大的带宽了。  

回复 支持 反对

使用道具 举报

9#
发表于 2011-6-17 22:54 | 只看该作者
本帖最后由 ptmd 于 2011-6-17 23:00 编辑
asdfjkl 发表于 2011-6-17 19:50
APU创造性的把CPU和GPU融合到一个die上。
AMD有APU这个Idea的是时候,应该仔细去考虑过各个Unit的效率和功 ...

融合的极致不是把CPU跟GPU也融掉成超合金。

硬体上的层面已经完成了,第一代APU 就是了。现在就只欠缺架构上的融合和软体/OS 方面的融合。但是架构上的融合并不是指把GPU 和CPU 都掉到一个镬子里下调科炒在一起,他们还是分开炒、分开上菜的。

架构上的融合是指让GPU 也能有pagable 的内存,GPU 也能有和APU/CPU 的coherency,GPU 跟CPU 共享同一个寻址空间等等架构特性相关的内容。你不能把CPU 内的Flex FP 给替换作GPU 的Compute Unit,同样道理也能用在GPU 身上,因为他们的设计目的并不一样。 CPU 是设计分支串行Code 跑的,GPU 是设计给可以大规模平行的Code 跑的。你把这两种的东西融在一起,就跟要一个只有两条快速步行的腿的人,用几百条脚走路一样。

AMD 的目标只是把一切CPU 和GPU 之间的通讯、设计尽可能简化,并且把GPU 打造为和CPU 同等级的处理单元。代码上的融合,这并不是硬体的事情,这是FSA 这个类LLVM 的事情。所以最终APU 还是会保持CPU Cores + GPU Compute Units 的结构。所以最终APU 还是会保持CPU Cores + GPU Compute Units 的结构。 Serial 的跑CPU,Parallel 的跑GPU,混杂的就在两者之间执行。

至于带宽,这个固然是问题,解决方案也有很多。但 AMD claim 的是 CPU & GPU share memory & zero-copy benefit. 如何在不破坏这点的前提下提升内存带宽至足够运算工作使用是他们的目标,但足够 fGPU 的图形工作就不一定了。他们会提供相约的性能,但是相对集显来说还是会较弱,直至有高速的Stacked Memory 出现为止。
回复 支持 反对

使用道具 举报

10#
发表于 2011-6-20 12:08 | 只看该作者
lz是你盲目地认为cpu上整合一个gpu,所有才会有所谓带宽不够这样的疑问。
事实上,cpu上整合的并不是gpu,而是一个并行运算设备。而且,以后的应用程序将会充分利用这个并行运算设备,但是,这些程序很大一部分不是实时互动的3d程序,所以,对带宽需求不强烈。程序使用并行运算设备处理一个请求可能要2秒甚至更多,但也不影响用户体验,但如果没有这个并行运算设备,单纯在cpu上跑,可能需要几个小时。这种时间的差别就是APU存在的理由。
回复 支持 反对

使用道具 举报

11#
发表于 2011-6-20 15:54 | 只看该作者
立体堆叠封装可能在未来 5 年都很难在桌面处理器上出现,原因是这个技术会导致测试、制造成本大大提高,不仅是金钱的问题,还有上市的时间会因此延后不少,如果采用这个技术的话,就要有延后半年上市的准备,半年时间对于现在的 PC 产业来说已经是半代产品了。
回复 支持 反对

使用道具 举报

12#
 楼主| 发表于 2011-6-20 18:42 | 只看该作者
Edison 发表于 2011-6-20 15:54
立体堆叠封装可能在未来 5 年都很难在桌面处理器上出现,原因是这个技术会导致测试、制造成本大大提高,不仅 ...

请问E大,我考虑了AMD面对内存带宽瓶颈的问题可能的方法:

1)发展内存速度,发展内存位宽(从双通道到3通道等等。)
2)如果GPU可以共享CPU的二级或者三级缓存,这样可以起到化解带宽瓶颈的作用吗?
对此我感觉可以,但是我也没先到直接的原因。你对此怎么看呢?
回复 支持 反对

使用道具 举报

13#
 楼主| 发表于 2011-6-20 18:43 | 只看该作者
rickerlian 发表于 2011-6-20 12:08
lz是你盲目地认为cpu上整合一个gpu,所有才会有所谓带宽不够这样的疑问。
事实上,cpu上整合的并不是gpu, ...

你这就不用说了,GPU对带宽的渴求是明显的;不然独立显卡也没必要发展GDDR5的显存;对吧? 看看AMD官方的说法:


现在Fusion APU内的CPU和GPU核心共享内存控制器,GPU核心甚至会比CPU核心有优先访问权。AMD首席技术官Eric Demers透露,目前四核处理器的内存带宽大致在8-12GB/s,单从处理器角度来看,内存提升带来的性能变化并不大,AMD平台从1333MHz到1600MHz性能并没有本质提升,不过如果是集成GPU调用就不一样了,因此AMD重新设计了内存控制器,以让带宽能够达到30GB/s,满足GPU高带宽需求,这种情况下,内存频率从DDR3-1333超频到DDR3-1866会带来很大性能提升。

不是我盲目呀,真的是你盲目。
回复 支持 反对

使用道具 举报

14#
发表于 2011-6-20 22:39 | 只看该作者
回复 asdfjkl 的帖子

在整篇回复里,都是GPU,在你眼里,就只有GPU,只有3D渲染,没有其他了???
APU是什么,其中的A代表什么,为什么不叫CGPU???
回复 支持 反对

使用道具 举报

15#
发表于 2011-6-20 23:44 | 只看该作者
asdfjkl 发表于 2011-6-20 18:42
请问E大,我考虑了AMD面对内存带宽瓶颈的问题可能的方法:

1)发展内存速度,发展内存位宽(从双通道到 ...

这取决于具体的应用,如果是 SVP 插帧,我相信 L4/L3/L2 cache 共享的 APU 比现有的 PCIE 挂 GPU 强大许多。{titter:]
回复 支持 反对

使用道具 举报

16#
 楼主| 发表于 2011-6-21 12:32 | 只看该作者
rickerlian 发表于 2011-6-20 22:39
回复 asdfjkl 的帖子

在整篇回复里,都是GPU,在你眼里,就只有GPU,只有3D渲染,没有其他了???

把GPU融进去CPU,3D的根本的目的;否则我为啥为这不需要的功能买单!
回复 支持 反对

使用道具 举报

17#
发表于 2011-6-21 13:15 | 只看该作者
asdfjkl 发表于 2011-6-21 12:32
把GPU融进去CPU,3D的根本的目的;否则我为啥为这不需要的功能买单!

你既然知道架构的瓶颈,也知道根本目的,你自己做一个自己满意的出来不就行了。

你埋不埋单是你自己的事情,不要把它变成大家的事情。

CPU整合并行运算单元,是业界追求的目标,是对CPU性能及功能的补完,也是未来CPU性能增长的主要手段,单此手段的目的并不在于3D实时渲染。

CPU整合GPU,或者说依靠CPU增加某些运算单元以支持实时3D渲染,一直都不是业界追求的目标,以前不是,现在不是,未来10年也不会是,如果10内,单靠CPU(管你有没有整合GPU)能在当时主流分辨率下主流特效下跑60帧主流游戏(更不要提那些连最牛逼GPU也跑不到60帧的游戏了,单靠CPU能做到吗?),我把那颗CPU吃到肚子里,欢迎10年内随时挖坟,现在时间是20110621。{:5_198:}{:5_198:}
回复 支持 反对

使用道具 举报

18#
 楼主| 发表于 2011-6-21 21:12 | 只看该作者
rickerlian 发表于 2011-6-21 13:15
你既然知道架构的瓶颈,也知道根本目的,你自己做一个自己满意的出来不就行了。

你埋不埋单是你自己的 ...

现在的独立GPU不是很好解决你说的一切问题了吧?

只是需要GPU的性能发展得更快些;GPU自己的功耗已经撞墙;你难不成还想把它融进CPU? {titter:]{titter:]{titter:]
回复 支持 反对

使用道具 举报

19#
发表于 2011-6-21 22:37 | 只看该作者
回复 asdfjkl 的帖子

我究竟提出了什么问题?独立GPU究竟解决了我什么问题?
你的回复令我觉得莫名其妙。请不用浪费时间,男人的话说些有实际性的东西。

再次重申,你既然知道架构的瓶颈,也知道根本目的,你自己做一个自己满意的出来不就行了。
之前说融合以3D为目的,现在又来问我想不想把GPU融进CPU,你这是代表AMD还是Intel来需求调研啊,我到是很期待你的最终产品是什么,哈哈哈哈{lol:] {lol:]

最后,这是技术讨论区,你的回复要是都没有任何立场、观点,我拒绝再次回复你。

回复 支持 反对

使用道具 举报

20#
发表于 2011-6-22 07:55 | 只看该作者
本帖最后由 mooncocoon 于 2011-6-22 08:09 编辑

其实即便是跑并行处理和通用计算加速,目前还没有挂上L3的APU也是不合格的。
没有cache直连共享以及合适的编译环境,我觉得说APU怎么能够加速并行计算以及有多快的设备响应都是白扯,丢进去的GPU部分既不支持cache,也没有统一定址的能力,对CPU来说完全就是一坨大大的马赛克,这几乎已经接近宣判了这部分APU做通用计算加速的死刑。AMD现在非常明确的就是在不遗余力的宣传APU的集成度,甚至说难听点,AMD起码在目前的策略上就是将APU当做一个低功耗高集成度的平台在处理。简单地说,就是买CPU送显卡。

另外,从谁挂在谁的角度上出发,我觉得AMD新构架的ECC支持,已经是枪毙了目前APU的融合思路。如果AMD坚持以CPU为主,GPU挂在CPU的MC上做FP加速来用,并将之作为未来HPC领域的解决方案的话,他根本犯不着为GPU MC添加ECC支持,有CPU的MC足以。

现在出这么一个uncore克隆费米、core学习larrabee的玩意基本上就是在自打耳光,而且还是一打就是两下。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-4-9 23:54

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表