POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
查看: 2740|回复: 16
打印 上一主题 下一主题

怎样c ,fortran 编程才能提高cpu指令级并行程度?

[复制链接]
头像被屏蔽
跳转到指定楼层
1#
发表于 2008-8-31 03:54 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
提示: 作者被禁止或删除 内容自动屏蔽
2#
发表于 2008-8-31 07:37 | 只看该作者
太高深了,我只看看,我不说话
回复 支持 反对

使用道具 举报

3#
发表于 2008-8-31 12:03 | 只看该作者
这问题你不应该来GZ问...
回复 支持 反对

使用道具 举报

4#
发表于 2008-8-31 15:50 | 只看该作者
提高cpu指令级并行?
太高深了
充分利用CPU的多核芯多线程?
太深奥了
回复 支持 反对

使用道具 举报

5#
发表于 2008-8-31 15:57 | 只看该作者
尽量使用矢量或矩阵?{titter:]

因为Intel的CPU都有超级乱序功能(配合编译器的优化),所以你根本不必操心这个问题。换句话说,想了也是白想,除非你是直接用汇编语言而非这类高级语言。
回复 支持 反对

使用道具 举报

6#
发表于 2008-8-31 16:10 | 只看该作者
自己写编译器。。。。
回复 支持 反对

使用道具 举报

头像被屏蔽
7#
 楼主| 发表于 2008-8-31 16:53 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

8#
发表于 2008-8-31 17:23 | 只看该作者
java可以写出多线程的东西来,但我不知道实际运行中是真的多线程还是仅仅是模拟多线程的方法
回复 支持 反对

使用道具 举报

9#
发表于 2008-8-31 23:41 | 只看该作者
原帖由 larrabee 于 2008-8-31 16:53 发表


我楼顶发贴时就在想有菜鸟说只有汇编才能影响cpu指令级并行,不幸而言中。

我很菜,你比我更菜。。。。看完那本“软件优化手册 --IA32平台高性能手册“ ,再来教导我吧。


所谓的软件优化,无非是针对某种或者某一类编译器来写代码,让编译器能够编译出高性能的机器码来而已。
最简单的例子就是
i++;   =>  得到的机器指令是 inc
i+1;   =>  得到的机器指令是 add
两者效率相差极大,虽然干的事情一模一样。

但是机器不是人,某些时候它就是死活出不来好的代码,所以才有嵌入汇编码这种事情发生。

所以,说到底,想要有好的机器码,你就要去研究编译器,无论是别人写的还是自己写的。
回复 支持 反对

使用道具 举报

10#
发表于 2008-8-31 23:45 | 只看该作者
原帖由 larrabee 于 2008-8-31 16:53 发表


我楼顶发贴时就在想有菜鸟说只有汇编才能影响cpu指令级并行,不幸而言中。

我很菜,你比我更菜。。。。看完那本“软件优化手册 --IA32平台高性能手册“ ,再来教导我吧。


你说错了,
只有汇编才能保证cpu 指令级的效率。

高级语言里,这样写或者那样写,实现的是同一个算法,但是完全可能带来极大的效率差异,这只能说明编译器比较
愚蠢,在你某种写法的时候不能识别出这个算法的并行性,从而效率低下。
回复 支持 反对

使用道具 举报

头像被屏蔽
11#
 楼主| 发表于 2008-9-1 01:26 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

12#
发表于 2008-9-1 01:37 | 只看该作者
哎,这些要是能用几句话说清楚,那就好办了。
回复 支持 反对

使用道具 举报

13#
发表于 2008-9-1 02:03 | 只看该作者
原帖由 netmask254 于 2008-8-31 15:57 发表
尽量使用矢量或矩阵?{titter:]

因为Intel的CPU都有超级乱序功能(配合编译器的优化),所以你根本不必操心这个问题。换句话说,想了也是白想,除非你是直接用汇编语言而非这类高级语言。

用汇编也控制不了超标量和乱序。
回复 支持 反对

使用道具 举报

头像被屏蔽
14#
 楼主| 发表于 2008-9-1 02:06 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

15#
发表于 2008-9-1 02:07 | 只看该作者
估计楼主是在找能被乱序和超标量流水线优化执行的最佳实践或指导方针吧
总的来说就是相关性不大,容易被预测(至少在不长的代码中)的程序,避免条件跳转(包括循环)。
当然这是理论上的,娃哈哈
回复 支持 反对

使用道具 举报

头像被屏蔽
16#
 楼主| 发表于 2008-9-1 02:12 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

17#
发表于 2008-9-1 03:10 | 只看该作者
原帖由 larrabee 于 2008-9-1 02:12 发表
是不是就是这样:
1)选择一个对simd支持更好的编译器,代码首先考虑对simd优化;
2)然后考虑 尽量减少simd指令之间的数据关联,
simd指令及其乱序执行效率 ,有点类似于openmp与mpi混合编程模型?

1)你可以使用Intel的SIMD数据类型以显式的SIMD化,这样比编译器的识别优化靠谱
2)这是对的,还要尽可能避免跳转
另外,乱序执行只是CPU内部的动态优化手段,实际上是个黑盒,我们只可能根据猜测去确定它如何执行,和openmp与mpi并不相似。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-1-3 23:01

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表