POPPUR爱换

标题: 秒杀集显只是开始:Llano APU首发评测 [打印本页]

作者: gtx5    时间: 2011-6-14 21:54
标题: 秒杀集显只是开始:Llano APU首发评测
2006年7月24日:AMD正式宣布收购ATI,获得了后者的GPU图形芯片、芯片组业务。
2006年7月25日:AMD宣布计划将GPU原生整合到CPU处理器中。
2006年10月25日:AMD宣布完成对ATI的收购,同时将CPU+GPU整合项目命名为“Fusion”,计划2008年底到2009年初发布首款产品。
2007年12月24日:AMD给CPU+GPU整合处理器取了新名字“Accelerated Processing Unit”(加速处理器),简称APU,产品发布时间定为2009年下半年。
2008年9月18日:AMD启动新的宣传品牌推广计划“The future is fusion”(融聚未来),正式将Fusion写入公司理念。
2009年9月10日:AMD发布新品牌“VISION” (视•觉),3A平台联系更加紧密。
2011年1月5日:AMD发布第一套APU平台“Brazos”和第一批APU处理器C/E系列,随后又增加了面向嵌入式市场的G系列,Fusion融合时代终于正式开启。
2011年6月14日:AMD发布第二套APU平台“Sabine”和第二批APU处理器Llano A系列,Fusion开始占领主流市场。
几乎整整六年过去了,AMD拼死买下ATI的赌博式壮举终于开始全面开花结果了,期间经历的种种磨难远远不是上边八个日子和八句话所能涵盖的。作为唯一一家与半导体巨无霸Intel抗衡这么多年而屹立不倒的芯片厂商,AMD正在以自己的魄力,带领我们走入一个新的时代。虽然全新架构的“推土机”(Bulldozer)处理器仍在酝酿之中,但是Fusion APU现在终于走上了正轨,一方面相关产品接连出炉,另一方面融合理念也获得了业界和用户的普遍认可。毫无疑问,Fusion APU已经成为AMD公司发展的第一战略,研发和推广力度也是前所未有。
今天发布的Llano A系列移动平台Sabine就是AMD Fusion APU的第二波,同时也是VISION视•觉平台的新一代,主要面向主流和高性能移动领域。针对当今移动PC市场的需求,A系列平台只用一颗芯片就带来了最多四个32nm Stars处理器核心(俗称的K10架构)和最多400个DX11 Radeon流处理器核心,搭配的单芯片设计芯片组也提供了SATA 6Gbps、USB 3.0、PCI-E 2.0等高速互连界面,并且特别支持处理器整合图形核心、独立移动显卡的双显自动切换与联合加速。
其实早在一个月前,AMD就邀请全球近50家知名IT媒体,前往阿联酋阿布扎比内部深入预览了Llano APU的方方面面,并限量发放了全球第一批Llano APU笔记本样机,驱动之家有幸也拿到了第一台。有趣的是,这是AMD第一次在新的笔记本平台发布之前就送出评测样品,足见准备之充分。今天我们就借此展示一下Llano APU的综合性能,看看它究竟能给移动世界带来什么新的变化。

作者: gtx5    时间: 2011-6-14 21:55
【APU联合加速计算实例:粒子模拟】
之所以说AMD APU并不仅仅是CPU、GPU整合到一块芯片上那么简单,关键就在于这两部分可以组成一个平衡的异构计算体系,利用OpenCL、DirectCompute等技术进行联合加速,这正是其它平台所不具备的。Intel Sandy Bridge虽然处理器性能强劲,但是集成显卡还是太弱,并不支持OpenCL,也就谈不上异构计算了。
下边我们就通过AMD官方提供的一个内部演示DEMO,看看Fusion APU是如何做到负载均衡异构计算的。在这个DEMO中有大约3.2万个移动的小粒子、400个或固定或移动的大粒子。如果小、小粒子碰撞,就交给GPU去利用OpenCL检测;计算如果是大、小粒子或者大、大粒子碰撞,则交给CPU负责。由于CPU、GPU之间实现了零拷贝(zero-copy),就不需要绕过PCI总线去进行数据交换,执行效率大大提高,不过同时必须确保CPU、GPU的负载均衡和同步,这就涉及到编程中的技巧了。
AMD给这种大小粒子碰撞设计的环境是一台造波机(Wave Machine),像跷跷板那样左右来回晃动,推动粒子的反复碰撞。其中用到的DX11技术包括环境光遮蔽、粒子混合流体模式、Alpha混合透明、阴影等等,一切都在APU上完成。
有趣的是,这个程序还可以搭配X360 Kinect,支持人体姿势的感应与识别,也就是说你只要舞动双手就可以控制程序的运行和造波机的移动。
只可惜这只是AMD内部做的一个模拟测试,没有公开发放,这里也无法给大家做具体演示。

作者: gtx5    时间: 2011-6-14 21:56
【视频解码与画质增强:视频稳定】
在各项画质增强技术中,除了已有的各项功能之外,新面世的“AMD Steady Video”(视频稳定)尤其吸引人,也颇具实用价值。顾名思义,它就是能把视频变得更稳定。该技术采用了AMD自己的高级算法,在后台对视频进行分析,消除其中的晃动和不稳定因素。要注意的是,该技术是基于AMD APP加速计算技术的AMD平台独享功能,不支持NVIDIA、Intel显卡。
AMD Steady Video将随催化剂11.6公开面世,今后还会不断改进算法、优化效果。热衷于拿着手机、iPod之类的移动设备到处拍摄的拍客们肯定会非常喜欢这种技术。
Steady Video视频稳定技术是AMD APP加速计算的应用体现之一,能充分调动CPU、GPU双方的积极性,为它们分配最合适的工作,比如抖动查找是双方共同完成的,使用了CPU的智能处理和GPU的并行处理、多媒体指令,统计部分交给了CPU,前期的视频解码和后期的抖动处理与修正则又是GPU搞定的。
下边简单看一下该技术的实现原理和过程:
利用统计数据决定镜头移动的模型,测量每一帧之间的离散变化,合成出一条更平滑的移动路径,对每一帧都进行平移、旋转、缩放等操作,使之逐一趋近于平滑路径,最终实现稳定效果。
在决定两帧之间的运动偏移的时候,AMD使用了并行的动作搜索指令来进行像素对比,找到最接近的匹配。
丢失的像素被放置在图像边缘,并借助上一帧的相应像素进行填补。
填补缺失像素的同时,画面位置也会被准确校正。
最终无缝合成出新的图像。
通过VISION引擎控制中心(从前的催化剂控制中心),用户还可以完全掌握Steady Video技术的各项参数,包括强度(1-3)、延迟(0-6)和缩放(75-100),从而控制视频修正的力度。如果你想对比观察开关效果,可以选择启用演示模式,然后选择拆分屏幕模式。
如果你的系统内既有APU集成显卡,也有AMD独立显卡,还可以分别调节两块显卡在这项技术上的参数。
注意:要想在笔记本海桑开启Steady Video技术,必须满足两个条件:1、安装AMD APP SDK加速计算开发包。2、使用交流电源而不是电池。事实上,在电池模式下很多视频技术都是无法打开的。
下边我们就来实际考验一下Steady Video技术。视频源是AMD官方提供的一段在航空母舰上拍摄的F-14熊猫战斗机,因为环境影响抖动得非常厉害。测试显卡采用APU集成的Radeon HD 6620G,强度3,延迟0,缩放100,开启分屏演示模式。
事实证明Steady Video技术还是颇有效果的,左右对比就可以看出经过修复后的视频明显稳当了许多。

作者: gtx5    时间: 2011-6-14 21:58
【双显技术:智能切换+交火加速】
之所以将这一部分安排在型号规格之后,主要是因为具体支持情况与显卡型号有关系,而且最初还牵涉双显交火之后诞生“新显卡”的问题。
AMD 3A平台之前就支持Hybrid CrossFire混合交火技术,由芯片组集成显卡和特定型号的独立显卡搭配提升性能,但是因为技术、驱动都不太成熟,适用范围很有限。“Dual Graphics”则是混合交火的全新进化版本,已经有了很强的实用性。
APU集成的图形核心已经相当强大,堪比上代主流独立显卡,全面支持DX11、高清解码,并且功耗不高,但是独立显卡仍然有更强大的动力去面对多屏输出(Eyefinity)、大型游戏、加速计算等应用,因此双显卡合作还是有很大的实用价值的。当然了,这种配置必然仅限于3A平台,NVIDIA显卡在AMD平台上不会有任何加速,AMD显卡在Intel平台上同样如此。
双显卡搭配在型号方面也是有一定限制的。首先,独立显卡必须是最新的Radeon HD 6000M系列,上代Mobility Radeon HD 5000系列就不行,也不知道未来是否会加入。A8、A6系列四核心可以搭配从Radeon HD 6770M到Radeon HD 6450M的八款型号,A4系列双核心则只能搭配Radeon HD 6400M系列的四款型号。
以下就是支持双显卡技术的APU与独立显卡组合搭配。AMD原本计划给双显卡组合取一个更高级的名字,不过最终放弃了这种繁复的做法,改成了更简单的方式。举例来说,如果是A4-3800M处理器和独立显卡Radeon HD 6630M的组合,就叫做AMD Radeon HD (6620G+6630M) 双显卡,其中括号内前面是APU内集成的显卡型号,后面是系统的独立显卡型号。
下边再介绍一下双显卡的使用方式。NVIDIA Optimus技术采用的方式是由系统和驱动程序掌管,结合配置档案,自动控制应用程序是使用集显还是独显。这种做法的好处是不需要用户过多干预,更加智能化,但缺点是无法保证每次都能给应用程序顺利分配合适的显卡,也引来了不少抱怨。
AMD Dual Graphics技术目前的做法则差不多相反,更多地是需要用户在驱动程序附带的VISION引擎控制中心(原催化剂控制中心)里自行指定某个应用程序是使用集显还是独显,虽然麻烦点儿但是却能保证不会出错。也希望今后AMD能够加入相应的配置档案,给一些标准的应用程序提前做好分配,比如碰到大型3D游戏就启动独显,网页浏览和文字办公之类的就启动集显。
如果首次运行某个涉及3D图形和/或视频性能的应用程序,系统会自动弹出对话框,提示它还没有与特定的显卡相关联,可以自行配置。
点击配置按钮就会来到VISION引擎控制中心,可以看到“可切换显示卡”页面中已经在“最近用过的应用程序”中列出了最近运行的程序,后边跟着黄色的“未分配”按钮
点击“未分配”按钮,就可以在红色的“高性能”、绿色的“省电”之间切换,分别代表将这个程序分配给独立显卡、APU内显卡。
如果运行程序没有弹出提示对话框,或者想提前分配好,可以在桌面空白处点击右键,选择“Configure Switchable Graphics”(配置可切换显卡)。
这样同样可以来到VISION引擎控制中心的相关页面。点击下方的“浏览”按钮,找到欲分配的应用程序可执行文件,再选择高性能或者省电就OK了。
让双显交火更加简单,只需在游戏或者性能类别的“AMD CrossFire”标签页中选中“启用CrossFire”就可以了。
不过现在的驱动还不是很完善,即使这里开启了CrossFire,在可切换显示卡页面里依然能够切换高性能或者集显,而按理说此时那里是应该不可选的。同时试验,我们发现在开启交火的时候最好在可切换显示卡页面里将相应程序对应到高性能的独显上,否则可能会影响性能。希望后续版本的催化剂能够优化一下这方面的设置。

作者: 7800gt    时间: 2011-6-14 21:59
几年+几十亿=APU
作者: gtx5    时间: 2011-6-14 22:05
GPU游戏性能测试:DX11】CPU处理器部分不是很给力,GPU图形核心就要发飙了。DX11、OpenCL、400个流处理器、UVD3这在以往对于集成显卡来说都是完全不可思议的规格,纵然如今也只能在中端的主流独显中才能看到。更关键的是,它还能与做伴的DX11 Radeon HD 6000M系列独显组成真正意义上的双显卡系统,可以自由切换,或者组合交火。
首先来看独一无二的DX11游戏性能表现。测试项目除了基准考察的3DMark 11之外还有四款流行的DX11游戏。测试过程中分别考察APU内集显、独显和双显交火。
3DMark 11我们使用了刚刚升级的1.02版本,完善了对新硬件的支持,但无论E模式还是P模式都差不多,独显相比于集显几乎没有任何不同,P模式下只高出两分,完全属于误差范围,E模式下也不过十几分。按理说独显Radeon HD 6630M多了80个流处理器,还有独立显存,似乎不应该这样。
好在双显交火效率令人满意,E模式下提升了35%,突破E2000分大关,P模式下更是达到了42%,超过P1400分。
得益于Codemasters与AMD的良好合作,新近发行的DX11热门拉力赛车游戏《尘埃3》对Llano APU的支持还是相当到位的。720p分辨率和中等画质下,集显就跑出了37.8FPS的流畅帧率,换成独显超过40FPS,双线较厚之后更是接近了50FPS,交火效率25.7%
DX11测试必备项目《鹰击长空2》也相当不错,同样的设置下集显也非常流畅,双显交火更是逼近60FPS,效率高达61.1%
FPS热门大作《战地:叛逆连队2》也没有让我们失望,1366×768分辨率和中等画质下集显也超过了30FPS,不过独显没有拉开明显差距,只比集显高出3.5FPS,好在52.2%的双显交火效率非常不错,几乎达到了50FPS。
《异形大战铁血战士》也是我们常用的测试项目,对显卡要求非常高。Llano APU集显这次终于顶不住了,只跑出了15FPS,独显也无法幸免,幸好双显交火继续发力,高达80%的效率将帧率提升到了27FPS,基本达到了流畅水准。
简单一句话:Llano APU的双显系统在DX11游戏中几近完美,相信随着驱动的改进还能更上一层楼。


作者: gtx5    时间: 2011-6-14 22:09
APU加速计算性能测试:NBody】Fusion APU处理器的最大亮点无遗就是不但单芯片原生集成CPU、GPU,还特别支持两者的协同加速计算,尤其是都支持开放的业界标准OpenCL,这在如今是绝无仅有的(Intel要到下一代Ivy Bridge才行),自然也就成了最值得宣传的地方。目前支持GPU加速的应用已经非常广泛,不过能够同时发挥CPU、GPU两方面运算能力的工具和软件还不是非常丰富。这个环节我们找来了三个项目。
首先是来自微软DirectX SDK开发包中的NBody (多体粒子渲染),是衡量GPU计算能力的一个典型案例,也是常用项目。测试中分别使用DX10模式的NBodyGravity、DX11模式NBodyGravityCS11,分辨率800×600,关闭垂直同步。DX11模式下因为使用了新的计算着色器(Compute Shader),渲染效率更高。
无论DX10还是DX11模式,独显的计算能力都比集显更强一些,分别胜出25.7%、16.3%,但是双显交火之后几乎没有任何提升,而是继续停留在独显级别上。显然,这个NBody还不支持双显联合渲染
另外可以看到,DX11模式下的渲染速度确实要比DX10模式下快得多,集显提升了73.3%,独显也提升了60%,Compute Shader果然不是盖的。

作者: gtx5    时间: 2011-6-14 22:10
【APU加速计算性能测试:HC Benchmark】
第二个项目是中国计量科学院最近刚刚开发完成的HC Benchmark,全球第一款真正的异构计算基准测试工具,能够真正同时调用CPU、GPU资源,可以说是为APU量身打造的。
这个工具的测试有办公应用、视频体验、上网体验、游戏体验四部分,可自由选择进行测试,完成后给出四个子分数和一个总分数。如果系统中有APU这种异构系统,程序就会自动为CPU、GPU分配计算任务。如果说GPU不支持加速计算,就会全部交给CPU执行。
测试过程中除了考察A8-3500M APU的表现之外,我们还借用官方数据,加入了Intel Sandy Bridge Core i5-2410M的对比,因为这毕竟是个全新的项目,单看数据无法了解具体是什么档次。当然了,因为测试环境的不同,Core i5的成绩仅供参考。
Llano APU的异构计算着实得到了体现,总分领先Core i5 14%。办公应用因为CPU性能稍弱而拖了后腿,只有Core i5的一半,但是其他三个项目都取得了领先,其中视频体验33%、上网体验5%,游戏体验更是惊人的183%

作者: gtx5    时间: 2011-6-14 22:11
【APU加速计算性能测试:OpenCL】
最后是一款个人的小工具DirectCompute & OpenCL Benchmark,世界上第一款能够测试DirectCompute性能的软件,后来也加入了对OpenCL的支持。它不但能够同时支持CPU、GPU OpenCL,而且如果系统内有多显卡,还能为按照计算能力为它们分配不同比例的工作负载。   
应该是软件支持还不到位的缘故,在测试中适配器部分只能选择集成的Radeon HD 6620G,而没有独立的Radeon HD 6630M,不过计算过程中还是能够给两块卡分配不同的工作量,而且另外无论在VISION引擎控制中心中选择集显、独显还是双显交火都会这样,因此最后得到的OpenCL计算分数都差不多,交火只高了不到十分。看来加速计算的基准测试还需要继续改进才行。


作者: gtx5    时间: 2011-6-14 22:12
整整一个月前,AMD邀请全球多家IT媒体前往阿联酋阿布扎比,内部预览了Llano APU平台,同时发放了移动平台的评测样机。这是AMD第一次在移动平台发布之前就递出评测样机,也是我们第一次有如此充裕的时间对一款新产品进行深入评测。
经过的长达四年半的磨砺,Fusion APU引领的融合时代终于从今年初正式开启。Brazos C/E/G系列APU平台糅合了全新设计的“山猫”(Bobcat) 架构处理器和DX11 GPU图形核心,专为入门级笔记本、上网本(AMD称为高清小本)、一体机、HTPC、嵌入式设备等需要低功耗的紧凑型应用而打造,发布之后就迅速笼络了不少厂商和消费的青睐,相关产品层出不穷,价格也是日渐趋于合理。就在不久前,衍生而来的Z系列APU还开始试验性地向火热朝天的平板机发起了冲击。
根据AMD公布的数据,Brazos APU处理器迄今为止已经累计出货了500多万颗
Fusion APU初战告捷,第二波面向主流桌面和移动领域的新款Llano也是顺风顺水,今年四月初就宣告正式开始供货(桌面零售版也在五月份跟进),目标第三季度出货至少300万颗。
成熟的处理器架构、成功的DX11图形架构、真正的双显切换与加速、全新的制造工艺、均衡的互连设计、完善的细节增强……Llano APU堪称处理器设计的完美典范,只用228平方毫米的核心面积就提供了四个x86处理器核心、400个流处理器、UVD3解码引擎,热设计功耗最高也只有45W,为笔记本提供了一站式的解决方案。正因为APU如此高的集成度,传统南北桥芯片组简化成了单颗芯片,充当原本南桥的角色,而且还带来了SATA 6Gbps、USB 3.0双高速接口的原生支持,尤其后者还是业内的第一次。
和之前的Brazos APU有些类似,处理器性能也是Llano APU的软肋,毕竟内核架构在那里摆着,而且为了控制功耗,移动版的主频也不高。从测试成绩看,Llano APU的处理器性能基本和AM3 Athlon II X4系列四核心的低频型号差不多,不算很出众,但是对付主流级别的日常应用也已经绰绰有余了,而且还引入了Turbo Core智能超频技术,能够兼顾频率和线程密集型应用。
图形性能毫无疑问是Llano APU最为闪耀的地方。400个流处理器,这本是当今中端主流级别独立显卡的配置,却赫然出现在了集成显卡中。尽管频率被刻意拉低,尽管没有独立显存,但是Llano APU横扫集成显卡的世界还是小菜一碟。根据测试,Llano APU已经可以在720p高清分辨率和中等画质下流畅运行各款DX11游戏,对付DX10、DX9游戏更是不在话下,这在以往对集成显卡来说无异于是痴人说梦。可以预料的是,五百元以下价位的独立显卡今后将基本将失去活路
凭借着3A一体化平台的背景,Llano APU还带来了真正意义上的双显卡技术,不但支持集显、独显之间的切换,还能将二者联合起来、协同加速。由于驱动程序方面的不甚完善,这种技术目前在使用起来还不是很方面,经常需要手动切换,而且在对交火技术支持不是很好的应用中效率比较一般,DX10/9游戏基本看不到提升,但是DX11游戏中已经几近完美,提升幅度动不动就超过50%,游戏帧率也从基本流畅跃升到了完全流畅。
Llano APU移动版处理器的热设计功耗有35W、45W两种,看起来似乎很高,但着毕竟包括了处理器、显卡、北桥和众多控制器模块,分摊下来其实并没有多少,况且还有大量的电源管理和节能技术。实际体验证明,即使是工程样机这样的粗糙品都能把温度和功耗控制得相当到位,大热天的连续使用也基本不会感到烫手,电池续航时间也基本令人满意,普通应用环境中坚持两三个小时很轻松。
视频方面本来就是AMD的优势项目,Llano APU也继承了这一良好传统,不但有第三代解码引擎UVD3,能够全面接管各种编码格式的视频解码工作,还特别带来了视频稳定技术AMD Steady Video,既具实用价值,也展现了CPU/GPU协同加速的魅力。(唯一遗憾的就是Eyefinity多屏输出技术被砍掉了,但好在移动平台上基本也不会用到三屏或者更多显示器。)
说到协同加速,很显然这才是Fusion APU的真正精髓。通过整合四核心处理器与主流独显级别图形核心,Llano APU的计算能力已经超过500GFlops,下一代Trinity更是有望接近1TFlops,达到不久前旗舰级独立显卡的水准。经过AMD对生态系统的长期建设,迄今为止支持Fusion APU加速的应用程序已经有五六十款,还有AMD Steady Video这样能够同时调用CPU、GPU资源的新技术正在浮现出来。在这些加速应用中,不但有常规的GPU硬件加速,还有CPU+GPU两部分联手的加速计算。值得一提的是,Llano APU的CPU、GPU两部分都支持OpenCL标准,尤其后者目前在集成显卡领域内尚属独一份,因此在加速计算方面的优势是显而易见的。
按照AMD的规划,将CPU、GPU集成到一块芯片上的“物理整合”仅仅是万里长征的第一步,接下来经过“平台优化”、“架构整合”,最终会实现真正的大一统“架构与操作系统整合”,届时CPU、GPU将完全融为一体、不分彼此。
至于Llano APU在移动平台上的前景,我们也可以做出比较乐观的展望。VISION视•觉品牌已经在移动领域内站稳了脚跟,无论理念还是产品都赢得了市场和消费者的认可。在迎来APU之后,VISION平台也将开始新一轮的进化,相关笔记本机型肯定会更加丰富,消费者面临的选择余地也会更广。价格方面现在还没有很确切的说法,不过至少在北美地区A8/A6系列高端四核机型会主攻599-699美元价位,折合人民币4000元上下,A4双核机型则面向399-499美元价位,也就是3000元左右,已经相当实惠了。
不要走开,后边更精彩:Llano APU桌面版、推土机、28nm、推土机APU……

作者: goldman948    时间: 2011-6-14 22:13
gpu视频播放加速处理很一般吧...
sb连硬件视频压缩都有了
作者: 043265    时间: 2011-6-14 22:14
中科院都来了。震惊
作者: westlee    时间: 2011-6-14 22:17
提示: 作者被禁止或删除 内容自动屏蔽




欢迎光临 POPPUR爱换 (https://we.poppur.com/) Powered by Discuz! X3.4