POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
楼主: 罗菜鸟
打印 上一主题 下一主题

终于第一款ARM64出来了

[复制链接]
161#
发表于 2013-10-18 10:39 | 只看该作者
ifu 发表于 2013-10-18 10:16
这解释挺好挺专业比满嘴跑飞机的JoseyWales强多了
btw:人家也没有无视Geekbench嘛[lol>

人家是用GeekBench中哪些性能没有增长的测试来证实他的观点的吧。
回复 支持 反对

使用道具 举报

162#
发表于 2013-10-18 10:42 | 只看该作者
本帖最后由 largewc 于 2013-10-18 10:45 编辑
qqisqq 发表于 2013-10-18 10:37
大概意思是这样。
不过他同时也说了将内存存取改为顺序方式是非常规的做法,这不是程序员必须考虑的事情 ...

有些地方改不了内存顺序,物理是较为典型的,因为东西总是在动的,大量动态增加删除的东西,内存树结构也是在动的。

连续内存就是对流数据有意义,但是这东西我认为不会是cpu主要的应用点。


不过对于a7意义较大,这样就可以大幅度改观a7双核软解的软肋了。
回复 支持 反对

使用道具 举报

163#
发表于 2013-10-18 10:46 | 只看该作者
largewc 发表于 2013-10-18 10:42
有些地方改不了内存顺序,物理是较为典型的,因为东西总是在动的,大量动态增加删除的东西,内存树结构也 ...

但是提高连续内存性能对某些跑分很有效,比如说geekbench,连续内存性能和随机内存性能的评分权重是一样的。
回复 支持 反对

使用道具 举报

164#
发表于 2013-10-18 10:47 | 只看该作者
largewc 发表于 2013-10-18 10:36
其实也就是a7对流处理有大量优化,对于逻辑部分加成有限。

错,对逻辑部分是大大的加成
If you pull this function out of Bullet and bench it separately, you do see a 2x speed increase.
The result seems to be that if the soft bodies are arranged in memory so that the CPU can access them in a sequential fashion, you get a 2x to 3x increase in speed
回复 支持 反对

使用道具 举报

165#
发表于 2013-10-18 10:47 | 只看该作者
largewc 发表于 2013-10-18 10:36
其实也就是a7对流处理有大量优化,对于逻辑部分加成有限。

比较可能的是,流处理这类A7内部是交给GPU去跑了
回复 支持 反对

使用道具 举报

166#
发表于 2013-10-18 10:50 | 只看该作者
本帖最后由 largewc 于 2013-10-18 10:54 编辑
ifu 发表于 2013-10-18 10:47
错,对逻辑部分是大大的加成
If you pull this function out of Bullet and bench it separately, you  ...

还是这个,顺序内存有加成,但是大部分程序逻辑是不可能顺序的


a7对于流处理有加成是可以理解的了,比如说jpeg加载之类,这些顺序项目加成较多,浏览器性能因此也会被加成。

不过未来仍然我认为没前途,因为jpeg加载这类东西,ie11已经变成gpu加载,gpu做这些比cpu有本质提升,顺序流处理未来将是apu这种构架的天下。

frankincense的说法也靠谱,可能苹果编译的代码已经被gpu加速了,这是苹果的优势,统一的优势。
回复 支持 反对

使用道具 举报

167#
发表于 2013-10-18 10:52 | 只看该作者
本帖最后由 largewc 于 2013-10-18 11:02 编辑
frankincense 发表于 2013-10-18 10:47
比较可能的是,流处理这类A7内部是交给GPU去跑了

有可能,也许是苹果以前提倡的opencl在这个版本改进了,成为c++默认选项了,循环被默认gpu加速了。

因为pc的dx11仍然不是强制标准,不能被默认编译,安卓离得则更远。

这个确实是苹果的优势。

如果是这样就讽刺了,amd极力推广的apu优势,被苹果发扬了。
回复 支持 反对

使用道具 举报

168#
发表于 2013-10-18 11:11 | 只看该作者
3Dmark这个iphone5s这个物理得分低的原因还在于随机访问造成的cache miss。
A7的运算资源已经足够丰富,futuremark也提到了在顺序执行时能获得2x-3x的性能加成。
真正的随机访问对谁来说都是无解,不可预测的。
一般来说cache命中和不命中的执行速度差了一到两个数量级。如果每次访存都是一次miss那A7再强的执行资源也是白搭,对于A7来说3Dmark的物理测试就变成了随机访存测试
可能提高A7在这种随机访存测试中成绩的方法:
1)提高主频。主频高了L/S执行频率也就多了,但L/S始终是瓶颈
2)增加cachesize 现在A7是1MB L2 ,增加到2MB或者更多 L2也许就能涵盖这测试的数据规模
3)再加一组L/S...
4)加核,也就相当于多一组L/S。
回复 支持 反对

使用道具 举报

169#
发表于 2013-10-18 11:14 | 只看该作者
本帖最后由 largewc 于 2013-10-18 11:15 编辑
ifu 发表于 2013-10-18 11:11
3Dmark这个iphone5s这个物理得分低的原因还在于随机访问造成的cache miss。
A7的运算资源已经足够丰富,fu ...

我觉得frankincense的说法更靠谱,不是cpu提升的,而是gpu。
amd一直推行的apu在pc举步维艰,但是苹果优先实用化了。
回复 支持 反对

使用道具 举报

170#
发表于 2013-10-18 11:15 | 只看该作者
本帖最后由 ifu 于 2013-10-18 11:17 编辑
largewc 发表于 2013-10-18 10:50
还是这个,顺序内存有加成,但是大部分程序逻辑是不可能顺序的

大部分程序数据局部性很好,3dmark这事在于数据规模超出了A7的1MB L2 cache
回复 支持 反对

使用道具 举报

171#
发表于 2013-10-18 11:17 | 只看该作者
本帖最后由 largewc 于 2013-10-18 11:18 编辑
ifu 发表于 2013-10-18 11:15
大部分程序数据局部性很好,3dmark这事在于数据规模超出了A7的1MB

1mb?随便一个解压就超过了,随便一个图片处理,或者脚本都能超过,3dmark绝对跟内存量没关。


这个确实可以对大量的顺序进行加成的,这个是肯定的,我认为apu的模式是趋势,未来的c++编译器应该可以自动为gpu优化才行。


之前ps4测试过一个,忘了哪里看到的,就是解压也用了apu的gpu加速模式,速度根本不是cpu能比的。
回复 支持 反对

使用道具 举报

172#
发表于 2013-10-18 11:18 | 只看该作者
largewc 发表于 2013-10-18 11:14
我觉得frankincense的说法更靠谱,不是cpu提升的,而是gpu。
amd一直推行的apu在pc举步维艰,但是苹果优 ...

APU也就刚刚实现统一内存寻址
Intel未正式支持内部GPU加速,软件就不会那么快跟上的
回复 支持 反对

使用道具 举报

173#
发表于 2013-10-18 11:20 | 只看该作者
largewc 发表于 2013-10-18 11:17
1mb?随便一个解压就超过了,随便一个图片处理,或者脚本都能超过,3dmark绝对跟内存量没关。

大部分程序数据局部性很好,每次访问都一个cache miss,  haswell来了也瞎掰。对于现代处理器而言大多情况下cache命中率都>90%
回复 支持 反对

使用道具 举报

174#
发表于 2013-10-18 11:20 | 只看该作者
本帖最后由 largewc 于 2013-10-18 11:38 编辑
frankincense 发表于 2013-10-18 11:18
APU也就刚刚实现统一内存寻址
Intel未正式支持内部GPU加速,软件就不会那么快跟上的

是的,但是这个是趋势是没错的。

其他家arm和intel,我估计暂时不可能推广这种模式。

如果四核完全普及了,短时间内可以开启编译器的多核优化,用这个加速单线程的程序,这个是目前比较靠谱的做法。
就是打开OPENMP,我又查了一下,xcode5貌似仍然不支持OpenMP,不知道是否支持GPU加速,看看有没有开关。


微软是在vs2012中加入了c++ amp,可以把c++代码进行gpu加速。
回复 支持 反对

使用道具 举报

175#
发表于 2013-10-18 11:32 | 只看该作者
本帖最后由 acqwer 于 2013-10-18 11:32 编辑
ifu 发表于 2013-10-18 11:15
大部分程序数据局部性很好,3dmark这事在于数据规模超出了A7的1MB L2 cache


自己到3dmark官网查查老Core2,512K、1M、2M L2的区别啊
回复 支持 反对

使用道具 举报

176#
发表于 2013-10-18 12:15 | 只看该作者
ifu 发表于 2013-10-18 11:15
大部分程序数据局部性很好,3dmark这事在于数据规模超出了A7的1MB L2 cache

正常的程序有不超过L2的吗?那还要内存干吗?

倒是某些数学跑分经常连L2都占不满

回复 支持 反对

使用道具 举报

177#
发表于 2013-10-18 12:31 来自手机 | 只看该作者
the_god_of_pig 发表于 2013-10-18 12:15
正常的程序有不超过L2的吗?那还要内存干吗?[sweat>

倒是某些数学跑分经常连L2都占不满[wink>

文科生吧?
回复 支持 反对

使用道具 举报

178#
发表于 2013-10-18 12:32 | 只看该作者
the_god_of_pig 发表于 2013-10-18 12:15
正常的程序有不超过L2的吗?那还要内存干吗?[sweat>

倒是某些数学跑分经常连L2都占不满[wink>

局部性并不是指整个程序放cache里面
回复 支持 反对

使用道具 举报

头像被屏蔽
179#
发表于 2013-10-18 15:02 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

180#
发表于 2013-10-18 19:32 | 只看该作者
ifu 发表于 2013-10-18 11:20
大部分程序数据局部性很好,每次访问都一个cache miss,  haswell来了也瞎掰。对于现代处理器而言大多情况 ...

intel能做到命中率过90%,等于AMD什么的玩意儿也能做到?
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-1-23 17:44

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表