POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
楼主: ifu
打印 上一主题 下一主题

6发射。。。A7这么强的raw power,A8再改进恐怕得玩多线程了

[复制链接]
61#
发表于 2013-10-31 20:30 | 只看该作者
Tempestglen 发表于 2013-10-31 20:19
你的英语令人着急啊。

futuremark的意思是,编译器确实开启了SIMD(neon),但是,没有效果,之后手动 ...

simd肯定是起作用了,只不过瓶颈确实不在这里,这个我现在认可了,有什么问题吗?
回复 支持 反对

使用道具 举报

头像被屏蔽
62#
发表于 2013-10-31 20:37 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

63#
发表于 2013-10-31 20:49 | 只看该作者
本帖最后由 largewc 于 2013-10-31 20:50 编辑
Tempestglen 发表于 2013-10-31 20:37
编译器开了SIMD,没有效果,意思就是和没开SIMD一样,根本没有矢量化。

所以,哪里来的默认的SIMD性能 ...


我刚编译过PSolve_Links,可以肯定,100%进行simd编译了,无论是xcode还是vs 2012下,而且这个函数属于simd较为理想的情况。

手动simd的话还是可以显著继续提高性能,在基于avx指令的情况下,对PSolve_Links我初步修改了一些结构,初步试验了一下。

明天我找一个iphone5测试一下吧,现在手上没有设备。

我的3630qm大体在小额内存的情况下(200-300k左右),连续可以提升25%左右
而在大额内存的情况下(20m附近),连续可以提升50%性能
回复 支持 反对

使用道具 举报

64#
发表于 2013-10-31 20:52 | 只看该作者
Tempestglen 发表于 2013-10-31 20:37
编译器开了SIMD,没有效果,意思就是和没开SIMD一样,根本没有矢量化。

所以,哪里来的默认的SIMD性能 ...

这个仅限于测试,并不能用在物理引擎中,因为没办法连续
回复 支持 反对

使用道具 举报

头像被屏蔽
65#
发表于 2013-10-31 20:54 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

头像被屏蔽
66#
发表于 2013-10-31 20:56 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

67#
发表于 2013-10-31 20:58 | 只看该作者
本帖最后由 largewc 于 2013-10-31 21:01 编辑
Tempestglen 发表于 2013-10-31 20:54
那么futuremark那人的意思,是指对5S进行了simd编译,没有相对于iphone5的更好效果?这就讲得通了。

你 ...


嗯,更正一下,3630qm小额的情况下确实连续只能影响不到10%性能

也就是a7的缓存问题带来瓶颈,双发射的neon指令优化也毫无价值,被缓存问题掩盖了

就是working set
回复 支持 反对

使用道具 举报

68#
发表于 2013-10-31 21:00 | 只看该作者
Tempestglen 发表于 2013-10-31 20:56
没办法连续不要紧,连有规律的访存都做不到?有规律而不连续,prefetch一样起作用。

没办法,还是这个问题,碰到的东西是随机的,这玩意肯定是new出来的,而不是一个整体内存。
回复 支持 反对

使用道具 举报

头像被屏蔽
69#
发表于 2013-10-31 21:01 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

70#
发表于 2013-10-31 21:05 | 只看该作者
Tempestglen 发表于 2013-10-31 21:01
也就是说3dmark physics这种复杂程度的场景所需要的working set,对于双核A7的1M L2来说太大了?所以随机 ...

很有可能,a7的simd还是比较强的,毕竟是avx级别的。
回复 支持 反对

使用道具 举报

头像被屏蔽
71#
发表于 2013-10-31 21:07 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

头像被屏蔽
72#
发表于 2013-10-31 21:12 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

73#
发表于 2013-10-31 21:17 | 只看该作者
Tempestglen 发表于 2013-10-31 21:12
http://ark.intel.com/products/71459/Intel-Core-i7-3630QM-Processor-6M-Cache-up-to-3_40-GHz

3630qm ...

2.x m的时候,大概性能影响20%

4.x m - 6.x的时候,大概性能影响30%

13.xm的时候,大概影响就有40%了

估计3dmark不是1m的数据量,而是若干m。
回复 支持 反对

使用道具 举报

74#
 楼主| 发表于 2013-10-31 21:22 | 只看该作者
largewc 发表于 2013-10-31 20:49
我刚编译过PSolve_Links,可以肯定,100%进行simd编译了,无论是xcode还是vs 2012下,而且这个函数属于 ...

最好有个iphone5s跟iphone5以及haswell做对比这样才知道哪个数据规模是拐点以及消除了访存屏障后和haswell的差距究竟有多大。
回复 支持 反对

使用道具 举报

75#
发表于 2013-10-31 21:22 | 只看该作者
Tempestglen 发表于 2013-10-31 21:12
http://ark.intel.com/products/71459/Intel-Core-i7-3630QM-Processor-6M-Cache-up-to-3_40-GHz

3630qm ...

仔细测试了一下,大概发现3630qm的阈值大概是1m附近,低于1m以后,连续内存影响度就很小了
回复 支持 反对

使用道具 举报

76#
发表于 2013-10-31 21:23 | 只看该作者
本帖最后由 largewc 于 2013-10-31 21:24 编辑
ifu 发表于 2013-10-31 21:22
最好有个iphone5s跟iphone5以及haswell做对比这样才知道哪个数据规模是拐点以及消除了访存屏障后和h ...


你赞助我一个iphone5s就可以测试

a7看来内存瓶颈是存在的

我仍然保留a7非simd部分的浮点性能,没有simd的部分a7浮点不会有太多加成。
回复 支持 反对

使用道具 举报

头像被屏蔽
77#
发表于 2013-10-31 21:31 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

78#
发表于 2013-10-31 21:31 | 只看该作者
ifu 发表于 2013-10-31 21:22
最好有个iphone5s跟iphone5以及haswell做对比[lol>这样才知道哪个数据规模是拐点以及消除了访存屏障后和h ...

而且这个是柔体部分,我觉得意义也不大,物理要是测cpu,还是纯跑刚体合适。

柔体交给gpu较为合理,反正pc端的游戏大都是这样的,不会用cpu跑柔体的。
回复 支持 反对

使用道具 举报

头像被屏蔽
79#
发表于 2013-10-31 21:32 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

80#
发表于 2013-10-31 21:34 | 只看该作者
Tempestglen 发表于 2013-10-31 21:32
3630qm的L2到底多大呢?

处理器信息
  
处理器 Intel(R) Core(TM) i7-3630QM CPU @ 2.40GHz
运行速度 2400.0 MHz
核心/线程 四核
核心代号 Ivy Bridge-MB SV
功耗 45.0 W
插座 rPGA988B
一级缓存 指令: 32 KBytes, Data: 32 KBytes
二级缓存 集成: 256 KBytes
三级缓存 6 MB
特性 MMX SSE SSE-2 SSE-3 SSSE-3 SSE4.1 SSE4.2 AVX EMT64 VT EIST TM1 TM2 Turbo Boost
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-1-23 11:28

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表