POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
楼主: ifu
打印 上一主题 下一主题

6发射。。。A7这么强的raw power,A8再改进恐怕得玩多线程了

[复制链接]
shadowlich 该用户已被删除
41#
发表于 2013-10-31 13:37 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

42#
 楼主| 发表于 2013-10-31 13:50 | 只看该作者
acqwer 发表于 2013-10-31 12:52
不知和只有1L 1S的Nehalem或者Core2相比,哪个更瓶颈呢?

这不能简单直接比,还涉及到TLB size和cache size之类
回复 支持 反对

使用道具 举报

43#
发表于 2013-10-31 14:01 | 只看该作者
ifu 发表于 2013-10-31 13:50
这不能简单直接比,还涉及到TLB size和cache size之类

和双核的Nahelem比Cache也是A7大,TLB size A7没数据,你是不是要脑补个很低的数字出来啊。

最核心的问题在于,连你和T神这种智商的外行都看得出来的而且并不难解决的问题,苹果的开发人员居然看不出,你是黑苹果呢还是黑苹果呢还是黑苹果呢?
回复 支持 反对

使用道具 举报

44#
发表于 2013-10-31 14:09 | 只看该作者
acqwer 发表于 2013-10-31 14:01
和双核的Nahelem比Cache也是A7大,TLB size A7没数据,你是不是要脑补个很低的数字出来啊。

最核心的问 ...

继续搬出之前的结论

T神根本不是果粉,是最近很流行的一个词,反串黑

这位大神,不作评论
回复 支持 反对

使用道具 举报

45#
 楼主| 发表于 2013-10-31 14:21 | 只看该作者
acqwer 发表于 2013-10-31 14:01
和双核的Nahelem比Cache也是A7大,TLB size A7没数据,你是不是要脑补个很低的数字出来啊。

最核心的问 ...

还没发生的事你就别急吼吼的脑补扣帽子了。
苹果的开发人员是有所取舍的,无序随机访问在他们关注的领域占多大比重还在是个问号。所有处理器在设计时都有它们针对的目标应用领域。目前看来A7在平板电脑和手机所关注的浏览器性能上相比A6提升了一倍性能,从这个意义上说A7是成功的。
回复 支持 反对

使用道具 举报

46#
发表于 2013-10-31 14:27 | 只看该作者
ifu 发表于 2013-10-31 14:21
还没发生的事你就别急吼吼的脑补扣帽子了。
苹果的开发人员是有所取舍的,无序随机访问在他们关注的领域 ...

别转进嘛,给出个合理的解释来。

说无序随机访问的作用,基本上所有的系统都是无序随机,能做到循序内存访问用的并不多,Cache优化的重点是无序随机访问,循序内存访问主要用在数据流,基本上是Cache无关,因为Cache再大也不够用。

当然,作为果黑,这样说的确没问题,水果就是搞个跑分高的烂货忽悠果粉,一到实际应用就露馅了。
回复 支持 反对

使用道具 举报

47#
发表于 2013-10-31 14:31 | 只看该作者
本帖最后由 acqwer 于 2013-10-31 14:32 编辑
目前看来A7在平板电脑和手机所关注的浏览器性能上相比A6提升了一倍性能,从这个意义上说A7是成功的。

平板电脑关注的是浏览器性能?都测试这个是因为平板手机上面压根就没几个靠谱的测试好吧,3dmark、GFX和Geekbench这种都把每个项目单独列出来才能凑出几页测试。
回复 支持 反对

使用道具 举报

48#
发表于 2013-10-31 16:19 | 只看该作者
largewc 发表于 2013-10-31 11:07
haswell确实也只有两个,但是haswell支持avx,加入向量矩阵的专项指令显然可以大幅度加速3d程序。
arm可 ...

avx已经扩展到双发射256位,马上要拓展到512甚至1024位。
128位的东西有什么资格差不多?
回复 支持 反对

使用道具 举报

49#
 楼主| 发表于 2013-10-31 18:01 | 只看该作者
acqwer 发表于 2013-10-31 14:27
别转进嘛,给出个合理的解释来。

说无序随机访问的作用,基本上所有的系统都是无序随机,能做到循序内 ...

通过futuremark工作人员的描述和实验仅能将瓶颈定位为无序访存,要进一步精确定位就需要用performance monitor之类咚咚通过硬件计数器来查看程序运行时情况。
我理解你果黑的立场,但3DMark物理测试何尝不是跑分,总不能因为它使得A7跑分低就被抬高到实际应用一类。
回复 支持 反对

使用道具 举报

50#
 楼主| 发表于 2013-10-31 18:02 | 只看该作者
acqwer 发表于 2013-10-31 14:31
平板电脑关注的是浏览器性能?都测试这个是因为平板手机上面压根就没几个靠谱的测试好吧,3dmark、GFX和G ...

对大多数人来说上网绝对是平板的主要应用。
嗯,我也希望有更多的跨平台benchmark
回复 支持 反对

使用道具 举报

51#
发表于 2013-10-31 18:07 | 只看该作者
ifu 发表于 2013-10-31 18:01
通过futuremark工作人员的描述和实验仅能将瓶颈定位为无序访存,要进一步精确定位就需要用performance mo ...

我认为不是缓存问题,最大的问题还是a7的浮点仍然是两个的缘故

不过a7比我想象的出色,上网a7确实理想,我怀疑intel受此影响,明年的cherry trail整数叠到三组。
回复 支持 反对

使用道具 举报

52#
 楼主| 发表于 2013-10-31 18:14 | 只看该作者
shadowlich 发表于 2013-10-31 13:37
这图只说明了ESRAM是挂在GMC上的,为何CPU不能访问?是否因为DRAM是挂在NB上的,所以GPU也不能访问呢?

A7这4MB SRAM对CPU来说被当作L3 cache,是透明的。ESRAM能么?笑话。
你再好好看看那个图
回复 支持 反对

使用道具 举报

53#
 楼主| 发表于 2013-10-31 18:20 | 只看该作者
largewc 发表于 2013-10-31 18:07
我认为不是缓存问题,最大的问题还是a7的浮点仍然是两个的缘故

不过a7比我想象的出色,上网a7确实理想 ...

futuremark的人把数据layout优化后性能提升了2倍,要是浮点资源不足的话layout优化也是白搭
希望明年Intel能升级架构,有竞争才有进步
回复 支持 反对

使用道具 举报

54#
发表于 2013-10-31 18:22 | 只看该作者
ifu 发表于 2013-10-31 18:20
futuremark的人把数据layout优化后性能提升了2倍,要是浮点资源不足的话layout优化也是白搭
希望明年Int ...

另外一个帖子我已经贴了t神说的那个函数,还是那个问题,不连续化的只有碰撞检测的物体,如果把碰撞体连续化了,simd指令会自动起作用了。
回复 支持 反对

使用道具 举报

55#
 楼主| 发表于 2013-10-31 18:43 | 只看该作者
largewc 发表于 2013-10-31 18:22
另外一个帖子我已经贴了t神说的那个函数,还是那个问题,不连续化的只有碰撞检测的物体,如果把碰撞体连续 ...

采不采用simd指令在程序执行之前已经决定了的。
除非futuremark的测试中针对layout写了有simd的和没simd的两个版本你的观点才成立。但futuremark的开发人员描述中未提到这一点
回复 支持 反对

使用道具 举报

56#
发表于 2013-10-31 18:45 | 只看该作者
ifu 发表于 2013-10-31 18:43
采不采用simd指令在程序执行之前已经决定了的。
除非futuremark的测试中针对layout写了有simd的和没simd ...

嗯,这个我同意了,我加大内存量,试试core有没有所谓的这个缓存点,测试一下就好了
回复 支持 反对

使用道具 举报

57#
发表于 2013-10-31 19:06 | 只看该作者
ifu 发表于 2013-10-31 18:43
采不采用simd指令在程序执行之前已经决定了的。
除非futuremark的测试中针对layout写了有simd的和没simd ...

futuremark说了已经编译器已经simd化了,后来为了测试,又手工simd化也不影响性能,说明默认编译的simd性能还可以。


或许是因为a6的simd + 内存乱序都到了瓶颈,所以顺序以后,simd本身仍然存在很大瓶颈,并不会加速。

而a7的simd已经冗余了,内存部分瓶颈会带来整体瓶颈。
回复 支持 反对

使用道具 举报

58#
 楼主| 发表于 2013-10-31 19:46 | 只看该作者
largewc 发表于 2013-10-31 19:06
futuremark说了已经编译器已经simd化了,后来为了测试,又手工simd化也不影响性能,说明默认编译的simd性 ...

嗯,A6的计算资源没有A7这么暴力所以在A6上访存不成为瓶颈,或者说计算能力和随机访存性能在3DMark物理跑分上是合拍的。
A7更为强大的prefetch加重了访存压力,无效的prefetch使得访存瓶颈更为明显。所以就出现A7得分不如A6的一幕
回复 支持 反对

使用道具 举报

头像被屏蔽
59#
发表于 2013-10-31 20:19 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

60#
发表于 2013-10-31 20:27 | 只看该作者
Tempestglen 发表于 2013-10-31 20:19
你的英语令人着急啊。

futuremark的意思是,编译器确实开启了SIMD(neon),但是,没有效果,之后手动 ...

编译器已经开了simd,但是对于性能没有效果,手动编写simd,仍然对性能没有效果,是这个意思难道不对?

这个说明默认的simd性能已经足够高了
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-1-23 11:15

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表