POPPUR爱换

标题: Arm的big.LITTLE技术 [打印本页]

作者: Tempestglen    时间: 2012-12-26 08:54
提示: 作者被禁止或删除 内容自动屏蔽
作者: frankincense    时间: 2012-12-26 09:03
A7/A15的技术参数没什么特别的
影响Big-Little效率最关键的问题:
1、操作系统或者CPU本身在一个线程初始化时如何判断是继续在A7上运行还是启动A15来执行;
2、启动A15所需的时钟周期,以及把一个在A7执行的线程迁移到A15所需的时钟周期。
我倒是想看看ARM有什么天顶星技术能高效的解决这两个问题,不然的话可能效果甚至比nVIDIA的4+1还糟糕。
作者: 66666    时间: 2012-12-26 09:31
frankincense 发表于 2012-12-26 09:03
A7/A15的技术参数没什么特别的
影响Big-Little效率最关键的问题:
1、操作系统或者CPU本身在一个线程初始 ...

还有一个切换延迟的问题,ARM当初给的参考延迟数据真是惨不忍睹,不知道现在优化的怎么样了
作者: raini    时间: 2012-12-26 09:36
“结论,32nm HKMG同样制程下 ,medfield和A15的性耗比是旗鼓相当的。这还是atom有超线程相助的情况下,如果atom去掉超线程,性耗比会下降。”
旗鼓相当?哈哈!超线程?哈哈!有本事让A15也弄个超线程呀!YY有个P用!我还说A15是双核,而Atom只是单核呢?有本事比单核的性能呀!实际就是Atom的性耗比要比A15的好!你个SB尽可以放心大胆地觉得A15好好了,不过生产厂商可没个SB!
作者: raini    时间: 2012-12-26 09:39
“A15性能达到A7的2倍的时候,功耗是A7的6倍左右”
也就是你承认A15是个垃圾喽?
作者: Tempestglen    时间: 2012-12-26 09:41
提示: 作者被禁止或删除 内容自动屏蔽
作者: Tempestglen    时间: 2012-12-26 09:46
提示: 作者被禁止或删除 内容自动屏蔽
作者: Tempestglen    时间: 2012-12-26 09:49
提示: 作者被禁止或删除 内容自动屏蔽
作者: frankincense    时间: 2012-12-26 10:06
T神你不懂计算机就不要瞎吹了。
同一线程在核心之间切换从来都是性能的大忌。而核心间数据交换延迟达到ms级别在高性能领域已经可以说简直不能见人了。
线程载入和线程执行是两码事,程序、进程与线程同样是三码事。
就一个单线程的程序来说,执行过程中一个进程可能同时产生多个线程(当然只有一个主线程),即使是用于运算的主线程,也可能是多个线程首尾相接。
程序在载入时可能在等,因为需要时间从慢速的闪存载入到内存乃至多级缓存中,然后执行呢?一个程序产生一个进程,而这个进程产生多个线程,ARM如何判断哪个线程是主线程需要用A15运行?发觉这个线程需要用A15执行,花ms级别的时间去启动A15然后把数据迁移到A15,下一个主线程继续如此,这种等待的消耗可不是在程序载入时用掉的哦。
BigLittle不能解决这两个问题的话,只会动不动就要启动A15,然后ms级别的延时会让性能不如直接给A15执行,最终不仅没起到节能效果,而且空闲的A7还要继续耗电。

相反的nVIDIA 4+1虽然简单傻逼,但待机时强制关闭4个A9核心,只启动一个低频A9,在应对Android拥有不少待机时都还在运行的后台进程这个问题上,其节能效果绝对比4个A9不知道关闭哪个更好。
作者: slice    时间: 2012-12-26 10:11
本帖最后由 slice 于 2012-12-26 10:14 编辑
frankincense 发表于 2012-12-26 09:03
A7/A15的技术参数没什么特别的
影响Big-Little效率最关键的问题:
1、操作系统或者CPU本身在一个线程初始 ...

4+1的1只是用来待机的超低负载。。。
但事实上,4+1也没见Tegra 3待机更给力,是为什么呢。这里不特指RT。

作者: frankincense    时间: 2012-12-26 10:14
Tempestglen 发表于 2012-12-26 09:49
不需要优化,如果我的big.little手机一整天仅仅打电话,发短信,微博,上上mobile版网页,那么一整天内A1 ...

是否需要切换A15不是你说了算也不要想当然了。
就算仅仅是打电话发短信刷微博上mobile网页,总会有那么一两个线程需要较多的运算能力(或许只是那么几秒乃至几十毫秒)而被迁移到A15里头,这还没算上Android各种后台服务和进程。
作者: Prescott    时间: 2012-12-26 10:17
我觉得联发科真是聪明,走对了。
主流手机,A7差不多就够了。

作者: xx88xx88    时间: 2012-12-26 10:25
Prescott 发表于 2012-12-26 10:17
我觉得联发科真是聪明,走对了。
主流手机,A7差不多就够了。

联发科那个8核A7也overkill了吧
作者: frankincense    时间: 2012-12-26 10:25
Prescott 发表于 2012-12-26 10:17
我觉得联发科真是聪明,走对了。
主流手机,A7差不多就够了。

似乎还有另一家IC也在搞A7四核。
其实A7配个好点的GPU应付手机和猴板的应用是够了。
当然MTK之流恐怕短期内也拿不到可以压住四核A15功耗的制程,双核A15卖点又不够。
作者: Tempestglen    时间: 2012-12-26 10:39
提示: 作者被禁止或删除 内容自动屏蔽
作者: frankincense    时间: 2012-12-26 10:47
一刀切这BigLittle就更傻逼更没用了,最终恐怕大部分时间A15开着瞎等,而A7因为不会关闭也在继续吃电,同时还要对操作系统的进程调度进行修改,还不如搞好类似Atom那样的晶体管节能技术,直接搞四核A15来得简单直接。
作者: acqwer    时间: 2012-12-26 10:54
双核+GPU满载1.7和单核CPU满载2.5W怎么就相当了,T神倒是给个说法来看看啊
作者: Prescott    时间: 2012-12-26 10:59
xx88xx88 发表于 2012-12-26 10:25
联发科那个8核A7也overkill了吧

要说overkill,4核就overkill。双核就够了,但是没卖点啊。但是8核,多唬人。

作者: Tempestglen    时间: 2012-12-26 11:05
提示: 作者被禁止或删除 内容自动屏蔽
作者: acqwer    时间: 2012-12-26 11:10
本帖最后由 acqwer 于 2012-12-26 11:19 编辑
Tempestglen 发表于 2012-12-26 09:49
不需要优化,如果我的big.little手机一整天仅仅打电话,发短信,微博,上上mobile版网页,那么一整天内A1 ...


一个最基础的应用,上网。CPU的平均使用率不超过5%,但是瞬时占用率会到接近100%,比如说图片缩放,HTML解析、HTML5的各种特效,每次的持续时间非常短(几十ms级别),但是会有很多次(1s几次到几十次)。这时A15是启动还是不启动?
作者: darkangel308    时间: 2012-12-26 11:16
这种大小核切换的方式,还是等着实物看效果吧,目前都是推测没有意义,切换策略对于最终效果影响很大。另外不知道是否有厂商推出异步多核的A15产品,从三星异步的A9四核来看,似乎效果还是不错的。
作者: Tempestglen    时间: 2012-12-26 11:22
提示: 作者被禁止或删除 内容自动屏蔽
作者: acqwer    时间: 2012-12-26 11:25
Tempestglen 发表于 2012-12-26 11:22
big.little是软件来实现切换,这个切换方案是可调的,arm方面提到过防止A15被过于频繁得激活的问题。

...

我说是软件切换的时候,T神是怎么满地打滚的不承认的?还扯出BIOS控制那些笑话。

再说了,如果上网的时候不开启,那么JS测试的时候开启吗?

另:ATOM的上网功耗你就不用担心了,只比A7高了不到0.1W
作者: acqwer    时间: 2012-12-26 11:26
对了,T神的工艺提升果然升级了。从比40nm LP降低50%变成比28nm LP降低50%,是因为昨天的测试吗?
作者: Prescott    时间: 2012-12-26 11:31
Tempestglen 发表于 2012-12-26 11:22
big.little是软件来实现切换,这个切换方案是可调的,arm方面提到过防止A15被过于频繁得激活的问题。
...

你怎么知道这是个突发性需求,现在A7满载了2ms了,你切换不?说不定还有0.005ms就跑完了哦。

最好的解决办法就是尽快完成任务,尽快休眠。做到切换时间和开销尽量短,待机功耗尽量低。
作者: kinno    时间: 2012-12-26 11:35
哟哟切克瑙
作者: frankincense    时间: 2012-12-26 11:39
Atom的节能超简单超好理解啊,不管整个CPU是否塞满了线程是否处于100%,只要监测到哪一个部分(细化到某个运算单元、缓存乃至解码器等等)没有运作的,都直接关闭以节约电力,而且完全由CPU自己控制,操作系统所做的不过是给CPU发送S1或者S3指令。
除了极少数诸如IBT之类烧机用的程序外,极少进程能完全塞满一个CPU的流水线和运算资源,这也是HT乃至TurboBoost的基础。
作者: qqisqq    时间: 2012-12-26 11:49
big专用于跑分,little专用于日常使用。。。。  
作者: the_god_of_pig    时间: 2012-12-26 12:00
"A15的IPC是A7的2倍,A7的性耗比是A15的3倍"

你YY低载有什么用,跑高载到性能和Atom相当时,A15的性耗比会急剧下降

"敢问32nm atom tdp 1.7w的时候,specint明显超过1680分?"

你弱智阿?联发科的图是拿单线程成绩乘比例乘出来的多线程分数,z2760大概2000-2100分

作者: slice    时间: 2012-12-26 12:02
qqisqq 发表于 2012-12-26 11:49
big专用于跑分,little专用于日常使用。。。。  [titter>

亮了,按T神的逻辑,我们上网一直都是A7的性能。。。。

作者: Tempestglen    时间: 2012-12-26 12:05
提示: 作者被禁止或删除 内容自动屏蔽
作者: acqwer    时间: 2012-12-26 12:08
本帖最后由 acqwer 于 2012-12-26 12:09 编辑
Tempestglen 发表于 2012-12-26 12:05
昨天说32nm HKMG比40nm sion省电一半。

今天说28nm HKMG比28nm sion 省电一半。


T神给大家解释一下32nm HKMG的GS3为什么和40nm sion的OneX续航差不多啊,性能差距也就20%
作者: raini    时间: 2012-12-26 12:12
Tempestglen 发表于 2012-12-26 09:41
nvdia的 4+1,win8 RT根本不支持。nvdia就愿意自己瞎捣鼓,非常令人反感,老老实实做它的丹佛,别在低功耗 ...

“nvdia的 4+1,win8 RT根本不支持。nvdia就愿意自己瞎捣鼓,非常令人反感”
你瞎YY更加令人反感!RT就是搭载用特瓜3开发的,不支持?你麻痹的以为微软脑子出问题了?不支持干嘛还用这颗CPU作为开发的原型?不懂就不要出来瞎嚷嚷!为了证明屎一样的A15优越,都可以胡乱抹灭别人的劳动成果!只有在你脑内的东西才是真理,是吧!去见你的马克思吧!
作者: raini    时间: 2012-12-26 12:12
Tempestglen 发表于 2012-12-26 09:49
不需要优化,如果我的big.little手机一整天仅仅打电话,发短信,微博,上上mobile版网页,那么一整天内A1 ...

“不需要优化”
你麻痹的那还在嚷嚷RT不支持个屁呀!
作者: the_god_of_pig    时间: 2012-12-26 12:29
Tempestglen 发表于 2012-12-26 12:05
昨天说32nm HKMG比40nm sion省电一半。

今天说28nm HKMG比28nm sion 省电一半。

32nm HKMG比40nm sion多了HKMG和线宽缩减
28nm HKMG比28nm sion只多了HKMG,你能不能告诉我为什么这两个工艺变更的提升幅度会是一样的
作者: the_god_of_pig    时间: 2012-12-26 12:31
"这还是atom有超线程相助的情况下,如果atom去掉超线程,性耗比会下降"

去掉L2,A15的性耗比也会下降,我以后对比的时候是不是应该把A15的L2去掉才算数?

作者: acqwer    时间: 2012-12-26 12:59
本帖最后由 acqwer 于 2012-12-26 13:00 编辑
Tempestglen 发表于 2012-12-26 12:05
昨天说32nm HKMG比40nm sion省电一半。

今天说28nm HKMG比28nm sion 省电一半。




Tablet Power Consumption (including Display)
iPad 2,4
iPad 2
iPad (3rd generation)
Homescreen
2.7 W
2.9 W
6.1 W
Sunspider
3.4 W
4.3 W
7.6 W
Moonbat (20 x 4)
3.9 W
5.0 W
8.3 W
GLBench Egypt (native res)
3.8 W
4.5 W
9.6 W
GLBench Egypt (offscreen 720p)
4.1 W
4.8 W
10.0 W
Infinity Blade 2
4.3 W
5.1 W
10.3 W
Riptide GP
3.9 W
4.7 W
10.2 W
Video Playback (720p HP)
2.2 W
2.4 W
4.9 W
45nm的sion对32nmHKMG,功耗按双核满载的Moonbat(一个页面上同时运行数个Sunspider)和1.2核的Sunspider来对比,这两个场景基本上只有CPU功耗不同(从IPad3和IPad2的对比可以看出)。功耗差是0.5对0.7,离T神的减半差很多。
作者: sim0831    时间: 2012-12-26 13:03
本帖最后由 sim0831 于 2012-12-26 13:04 编辑

"四核A7@1.2gzh,specint 2000有1680分,此时在28nm LP工艺下是1.2w,那么四核低频A15达到1680分就有3.6w,换成32nm HKMG就是1.8w,敢问32nm atom tdp 1.7w的时候,specint明显超过1680分?"

28nm LP 3.6W换成32nm HKMG变成1.8W??
这是什麽理论?
作者: raini    时间: 2012-12-26 13:05
the_god_of_pig 发表于 2012-12-26 12:29
32nm HKMG比40nm sion多了HKMG和线宽缩减
28nm HKMG比28nm sion只多了HKMG,你能不能告诉我为什么这两个 ...

因为天顶星技术呀!脑内技术一向是无敌的
作者: YsMilan    时间: 2012-12-26 13:20
无论big.LETTEL,花样翻新的深度休眠技术还是别的什么招数都无助于满载功耗这一最本质问题的解决,甚至big.LETTEL技术本身在充满了对比拼硬件性能这一行为的辛辣嘲讽的同时,还导致了更加严重的性能流失问题:作为LETTLE核心出现的A7处理器同A15处理器之间的L2数据交换延迟,竟然是常规内核数据交换延迟的100倍(2ms VS 20μs)。这些看似新颖实则见招拆招,连数据处理过程的最短板都翻越不过去却想要获得良好的效果的解决方案,是不可能从根本上达到目的的。
作者: Tempestglen    时间: 2012-12-26 13:24
提示: 作者被禁止或删除 内容自动屏蔽
作者: the_god_of_pig    时间: 2012-12-26 13:26
Tempestglen 发表于 2012-12-26 13:24
你家z2580频率比2760低一些。

四核A7@1.2Ghz和z2580都是1700分的档次,性能需求在1700以下的时候,A7  ...

就算有个1700-2000分区间需要A15出马,也是性耗比和atom相当

不用做梦了

http://we.pcinlife.com/thread-2038094-1-1.html

作者: Tempestglen    时间: 2012-12-26 13:26
提示: 作者被禁止或删除 内容自动屏蔽
作者: the_god_of_pig    时间: 2012-12-26 13:29
Tempestglen 发表于 2012-12-26 13:24
你家z2580频率比2760低一些。

四核A7@1.2Ghz和z2580都是1700分的档次,性能需求在1700以下的时候,A7  ...

"你家z2580频率比2760低一些"

你在梦里帮它降的?

作者: dennyq    时间: 2012-12-26 13:44
我很好奇,在RT的任务管理器中,究竟是8个框框还是4个框框?我觉得ARM是春哥上身了,究竟这么搞意义何在?看不懂,希望到时候T神不会再一次被抽脸。
作者: Tempestglen    时间: 2012-12-26 13:44
提示: 作者被禁止或删除 内容自动屏蔽
作者: Tempestglen    时间: 2012-12-26 13:47
提示: 作者被禁止或删除 内容自动屏蔽
作者: the_god_of_pig    时间: 2012-12-26 13:51
Tempestglen 发表于 2012-12-26 13:47
28nm sion 面积是40nm sion的一半,按理说应该大幅度降低功耗,但是实际结果不是这样。正说明HKMG的必要性 ...

别转移话题,我就问你
32nm HKMG比40nm sion多了HKMG和线宽缩减
28nm HKMG比28nm sion只多了HKMG,为什么这两个工艺变更的提升幅度会是一样的?
作者: Tempestglen    时间: 2012-12-26 13:53
提示: 作者被禁止或删除 内容自动屏蔽
作者: Tempestglen    时间: 2012-12-26 13:53
提示: 作者被禁止或删除 内容自动屏蔽
作者: raini    时间: 2012-12-26 13:55
Tempestglen 发表于 2012-12-26 13:44
你整天喷粪烦不烦?能看懂鸟文就自己看,否则闭嘴,滚。

你怎么不滚呢?脑子的大便呀
作者: raini    时间: 2012-12-26 13:56
Tempestglen 发表于 2012-12-26 13:53
那编辑sb,不知道A7和A15的切换机制。

呵呵,你懂了?还是不懂装懂?
作者: raini    时间: 2012-12-26 13:57
Tempestglen 发表于 2012-12-26 13:26
那是笔误。exynos5450是28nm HKMG A7+A15

SB神,A7+A15可都是4核呢,三爽哪好意思叫5450呢,至少交个5850呀!
作者: Tempestglen    时间: 2012-12-26 13:59
提示: 作者被禁止或删除 内容自动屏蔽
作者: raini    时间: 2012-12-26 14:00
Tempestglen 发表于 2012-12-26 13:59
在达到同样性能的 前提下,

如果45nm sion/poly功耗=1

“因为台积电说28nm sion只比40 nm G sion省电20%,远不是你估计的50%。”
哇,把自己喷的大便吃下去了
作者: the_god_of_pig    时间: 2012-12-26 14:13
Tempestglen 发表于 2012-12-26 13:59
在达到同样性能的 前提下,

如果45nm sion/poly功耗=1

"32nm HKMG的功耗=0.4 "

这个出处在哪,别以为加个括号脑补就不是脑补了

三棒实测32nm HKMG比45nm功耗低一半撑死了(GPU功耗只低40%),最乐观也只能是0.5




"台积电说28nm sion只比40 nm G sion省电20%"

tsmc说的20%是28nm LP和40nm LP比,LP、HP特性差得多了

工艺参数多了去了,不可能跟你似得脑补几个比例就把工艺性能概括了

作者: the_god_of_pig    时间: 2012-12-26 14:19
三棒的45nm=>32nm HKMG功耗下降算是50%,给台积电28nm LP加上HKMG根本不可能达到一代工艺更新的尺寸缩减+HKMG才能达到的提升幅度

所谓28 LP增加HKMG可以功耗减半顶多作为i饭在讨论时使用的保守算法而已,某人就不要拿来当救命稻草了,因为根本就达不到
作者: the_god_of_pig    时间: 2012-12-26 14:24
按台积电40nm LP与28nm LP相差20%性能,三棒45nm=〉32nm HKMG功耗减半来算,HKMG可以提供大概25%或37.5%(看拿谁当除数了)的性能提升/功耗降低而已,某人所谓的功耗砍半是不用想了,4核A15功耗能不能低过5w都是问题
作者: acqwer    时间: 2012-12-26 14:27
本帖最后由 acqwer 于 2012-12-26 14:27 编辑
Tempestglen 发表于 2012-12-26 13:53
http://www.anandtech.com/show/6529/busting-the-x86-power-myth-indepth-clover-trail-power-analysis/ ...


我说的两个场景ipad2和ipad3功耗差相同,说明这两个情况下GPU使用的功耗没有区别。而且GPU同样是45nm VS 32nm HKMG。
作者: Tempestglen    时间: 2012-12-26 14:28
提示: 作者被禁止或删除 内容自动屏蔽
作者: the_god_of_pig    时间: 2012-12-26 14:30
Tempestglen 发表于 2012-12-26 14:28
三棒自己说32nm hkmg 比45nm sion poly节能60%,怎么到你嘴里就是50%?

三棒会拿官方实测自抽脸?


作者: Tempestglen    时间: 2012-12-26 14:37
提示: 作者被禁止或删除 内容自动屏蔽
作者: acqwer    时间: 2012-12-26 14:44
Tempestglen 发表于 2012-12-26 14:37
exynos4412是1.5Ghz, 4410是1.2Ghz

貌似功耗和频率不是正比关系。

隔壁的GPU就是同频的了,何必自己编数据。
作者: raini    时间: 2012-12-26 16:37
Tempestglen 发表于 2012-12-26 14:37
exynos4412是1.5Ghz, 4410是1.2Ghz

貌似功耗和频率不是正比关系。

“折合4412@1.2GHz的1603(看图像是1650)”
图上明明写了1603,连这个都想否认!
这脸皮呀,真的厚到没边了!
作者: the_god_of_pig    时间: 2012-12-26 17:23
本帖最后由 the_god_of_pig 于 2012-12-26 17:27 编辑
Tempestglen 发表于 2012-12-26 14:37
exynos4412是1.5Ghz, 4410是1.2Ghz

貌似功耗和频率不是正比关系。

那个图上是瞬时值,平均值人不是跟你标出来了嘛,40%

"貌似功耗和频率不是正比关系"

你不要把功耗和性耗比搞混了,性耗比会急剧下降主要是因为性能/频率急剧下降,在一定范围内功耗和频率是线性关系
0.6*1.2/1.5=48%

另外GPU图摆在那里,你打算怎么抵赖阿?

作者: YsMilan    时间: 2012-12-26 20:05
本帖最后由 YsMilan 于 2012-12-26 20:09 编辑
Tempestglen 发表于 2012-12-26 13:53
那编辑sb,不知道A7和A15的切换机制。

嗯,尽管连TDP都不认识,也完全不妨碍T神的永远正确
作者: PRAM    时间: 2012-12-27 11:33
B+L不行的话 A15就完蛋了
作者: the_god_of_pig    时间: 2013-5-17 20:43
Big Little技术帮助ARM实现了在低功耗、高性能两个工况下同时被对手虐爆的壮举

[attach]2261661[/attach]

作者: the_god_of_pig    时间: 2013-5-17 20:47
Tempestglen 发表于 2012-12-26 09:46
medfield的性耗比即使比A15强,也仅仅强个10%,如果说A7性耗比秒杀A15,A15就是垃圾,那么atom也是同样的垃 ...

z2580比5250性能更强,功耗低了一倍多,还10%? 100%都打不住,哈哈哈,笑死人了,脑残ARM粉已经死无葬身之地

作者: the_god_of_pig    时间: 2013-5-17 20:49
Tempestglen 发表于 2012-12-26 09:49
不需要优化,如果我的big.little手机一整天仅仅打电话,发短信,微博,上上mobile版网页,那么一整天内A1 ...

是啊,从性耗比被秒50%的A15切换到性耗比被秒100%的A7,多么先进的技术啊,真不愧是电池杀手、下限的希望ARM啊

作者: Tempestglen    时间: 2013-5-17 21:56
提示: 作者被禁止或删除 内容自动屏蔽
作者: the_god_of_pig    时间: 2013-5-17 22:20
Tempestglen 发表于 2013-5-17 21:56
5250@1.8Ghz使用台积电28nm hpm生产就是1.5w,与z2580的功耗和性能都相当,台积电28nm hpm和intel 32nm也 ...

别YY什么Intel 32nm LP=TSMC 28nm HPM啦,你应该吹Intel32nm LP 比台积电16nm FF好,这样满地找牙时捡回的脸才更多啊
同是32nm HKMG, 5250性耗比被z2580秒了100%以上,哈哈哈哈哈哈





欢迎光临 POPPUR爱换 (https://we.poppur.com/) Powered by Discuz! X3.4