POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
楼主: ifu
打印 上一主题 下一主题

6发射。。。A7这么强的raw power,A8再改进恐怕得玩多线程了

[复制链接]
101#
 楼主| 发表于 2013-10-31 23:11 | 只看该作者
话说A7 A6 这些soc没有硬件计数器统计 pipeline stall ,cache miss,TLB miss等等做性能分析吗?
回复 支持 反对

使用道具 举报

102#
发表于 2013-10-31 23:22 | 只看该作者
ifu 发表于 2013-10-31 23:02
这个很容易,最傻瓜的方法贪婪预取就行了。按照具体实现还可以有进一步的优化。
这些文章你可以参考一下 ...

贪婪的大体概念是什么呢?如何加速?

现在已知PSolve_links的计算和内存消耗是对等的,对于我的3630而言,大体相等,完全取消计算,纯内存访问也要消耗一半的时间。

即使局部遍历是不可能的,多一遍计算将会抵消掉所有内存带来的优势。
回复 支持 反对

使用道具 举报

103#
 楼主| 发表于 2013-11-1 09:45 | 只看该作者
largewc 发表于 2013-10-31 23:22
贪婪的大体概念是什么呢?如何加速?

现在已知PSolve_links的计算和内存消耗是对等的,对于我的3630而 ...

在处理当前节点时,插入prefetch指令预读所有子节点。
当然这是最笨的方法,还可以进一步优化。我上面贴的两篇文章里都有二叉树的prefetch优化介绍
回复 支持 反对

使用道具 举报

104#
发表于 2013-11-1 10:16 来自手机 | 只看该作者
largewc 发表于 2013-10-31 22:08
但是s800和bt确实可以更高频,而且bt可以稳定频率去跑,最终拼的还是最终性能,而不是一个理论的同频性能 ...

同频BT大于A15大于swift。
Cyclone同频整数强于swift而已,浮点毫无进步,同频性能无法翻倍的话靠什么跟2.4g的BT打平?

折算所谓的1C1T同频性能有很多问题,1是测试选取的合理性,2是频率性能非线性增长,高频u吃亏,3是四核u多核效率远低于双核u,多核u吃亏。

都不需要谈什么降频不降频了。
回复 支持 反对

使用道具 举报

shadowlich 该用户已被删除
105#
发表于 2013-11-1 11:28 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

头像被屏蔽
106#
发表于 2013-11-1 11:36 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

107#
发表于 2013-11-1 11:45 | 只看该作者
本帖最后由 largewc 于 2013-11-1 11:46 编辑
xf-108 发表于 2013-11-1 10:16
同频BT大于A15大于swift。
Cyclone同频整数强于swift而已,浮点毫无进步,同频性能无法翻倍的话靠什么跟 ...


浮点因为双发射neon加入,simd浮点是接近于同频2倍于bt的,浮点因为双发射neon加成实际性能也提升了不少。

所以综合a7低频跟bt高频相当还是靠谱的,不过a7这样堆发射,带来功耗激增的事实。

我觉得intel做的更平衡而已,对那么多运算单元目前没必要,core在14-10nm时代,无风扇化也是必然趋势,core仍然存在很明显的优势。

我的观点是,堆运算单元,又没有苹果这种给一个特定芯片节点优化做到足够的arm,其他家估计功耗将会很惨淡,除去苹果勉强接近相当,估计其他家都会明显弱于atom的。
回复 支持 反对

使用道具 举报

108#
发表于 2013-11-1 11:59 | 只看该作者
Tempestglen 发表于 2013-11-1 11:36
这得多低的智商才能说出这种话??

bt的IPC比A15也就高个5%,在你嘴里一句“大于”就ok了?你都是这么 ...

是吗?A15两倍IPC怎么被6589艹了啊?
回复 支持 反对

使用道具 举报

头像被屏蔽
109#
发表于 2013-11-1 12:16 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

头像被屏蔽
110#
发表于 2013-11-1 12:17 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

头像被屏蔽
111#
发表于 2013-11-1 12:19 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

112#
发表于 2013-11-1 12:38 | 只看该作者
Tempestglen 发表于 2013-11-1 12:16
3dmark的测试说明,就计算能力而言,cyclone的IPC是A15的2倍,就IO能力而言, 和双核A15 1M L2一样,

...

计算能力?哈哈哈,不要搞笑了

只有你在这么YY而已,还计算能力?CPU的主要瓶颈从来都不是执行资源而是如何喂饱执行单元,当你开始YY “计算能力”的时候就已经说明A7是个失败烂货


还IPC,哈哈哈;论浮点跑linpack k10 IPC快是k8的两倍了,跑SPECfp提升连10%都到不了,YY计算能力个屁啊?哈哈哈
回复 支持 反对

使用道具 举报

potomac 该用户已被删除
113#
发表于 2013-11-1 12:55 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

头像被屏蔽
114#
发表于 2013-11-1 13:00 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

115#
发表于 2013-11-1 13:21 | 只看该作者
Tempestglen 发表于 2013-11-1 13:00
3dmark ice storm physics对于S800/bay trail/5420/A7来说,就是个随机缓存测试,各家或多或少都是卡在I/ ...

又来张嘴瞎说了!
你懂什么叫随机吗?
回复 支持 反对

使用道具 举报

头像被屏蔽
116#
发表于 2013-11-1 13:30 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

117#
发表于 2013-11-1 13:58 | 只看该作者
Tempestglen 发表于 2013-11-1 13:30
我们已经证明physcis测试,既无法测cpu的整数性能也无法测试cpu的浮点,只能测随机访存的IO能力。

所 ...

谁说不能测试浮点?你想多了,3630我测试过了这个函数浮点计算仍然占据了50%的性能消耗



而且PSolve_Links我认为不会是全部消耗,公司网络太慢,不然我下载一个3dmark用性能分析一下就知道了,前端消耗也会占据一半,前端基本没办法simd化,浮点和分支条件为主
回复 支持 反对

使用道具 举报

118#
发表于 2013-11-1 14:00 来自手机 | 只看该作者
Tempestglen 发表于 2013-11-1 13:30
我们已经证明physcis测试,既无法测cpu的整数性能也无法测试cpu的浮点,只能测随机访存的IO能力。

所 ...

哀嚎有用吗?

就你这点水平还好意思给别人的程序定性啊?先去futuremark切手指把源码要来再来扯你的2B结论,屁都没有就靠YY+哀嚎,这种表演已经过时了
回复 支持 反对

使用道具 举报

119#
发表于 2013-11-1 14:02 | 只看该作者
the_god_of_pig 发表于 2013-11-1 14:00
哀嚎有用吗?

就你这点水平还好意思给别人的程序定性啊?先去futuremark切手指把源码要来再来扯你的2B ...

猪神你教育天生智力障碍的人所花去的精力远远超过了本可以干正事的精力
回复 支持 反对

使用道具 举报

120#
发表于 2013-11-1 14:06 来自手机 | 只看该作者
Tempestglen 发表于 2013-11-1 13:00
3dmark ice storm physics对于S800/bay trail/5420/A7来说,就是个随机缓存测试,各家或多或少都是卡在I/ ...

干嚎有用吗?

3dmark说明的事情很简单。A7跑简单数学跑分还可以,一跑大型复杂程序就要吃屎。

早就盖棺定论,再怎么打滚转进,有用吗?哈哈
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-1-23 11:18

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表