那位编程举个例子, 把sse的"威力"释放一下?

acqwer · 发表于 2007-9-30 12:16

原帖由紫色于 2007-9-30 12:05 发表

我没有看到那个程序的源码，不敢说更多。
质数判定可能是整数编程吧？判定质数需要解析数论的知识从而引入浮点计算么？who knows?
我说了，最好有源码，大家动手编一遍跑一遍，否则你只能去猜。

你当Spec的人是请注意文明用词啊，整数测试放在SpecFP里。
如果你要反驳，请拿出合理的解释，两倍以上的性能提升已经摆在这了，你认为是怎么来的？

xxxyyy · 发表于 2007-9-30 12:21

提示: 作者被禁止或删除内容自动屏蔽

_MyST_Spring · 发表于 2007-9-30 12:39

AMD可以瞑目了，每次Intel推出SSE指令集的时候，AMD都pdpd的第一时间跟上。

如此看来，AMD真是浪费了无数的晶体管来做这种根本对性能提升无意义的事情啊

Prescott · 发表于 2007-9-30 14:32

晕死，随便来个简单的吧

#include <stdio.h>
#include <stdlib.h>
float a[512][512], b[512][512], c;
int main () {
srand(0);
for (int i=0; i < 512; i++){
for (int j = 0; j < 512; j++){
a[i][j] = (double)rand() / RAND_MAX;
b[i][j] = (double)rand() / RAND_MAX;
}
}
for (int N = 1; N < 10000; N++)
for (int i=0; i < 512; i++){
for (int j = 0; j < 512; j++){
c = a[i][j] + a[i][j] * b[i][j];
}
}
printf ("result of c is %fn", c);
return 0;
}
[test]$ g++ -O3 -mfpmath=387 main.cc -o a.gcc.387
[test]$ g++ -O3 -mfpmath=sse -ftree-vectorize -ftree-vectorizer-verbose=5 main.cc -o a.gcc.sse
main.cc:10: note: not vectorized: unhandled data-ref
main.cc:18: note: not vectorized: live stmt not supported: D.3579_28 = a[i_78][j_79]
main.cc:18: note: vectorized 0 loops in function.
（笨笨的gcc，这么简单的循环居然都不会向量化）
[test]$ icc -fast main.cc -o a.icc
ipo: remark #11001: performing single-file optimizations
ipo: remark #11005: generating object file /tmp/ipo_iccRoENV3.o
main.cc(17): (col. 5) remark: LOOP WAS VECTORIZED.
（还是icc聪明）
[test]$ time ./a.gcc.387
result of c is 1.596053
real 0m3.545s
user 0m3.540s
sys 0m0.004s
[test]$ time ./a.gcc.sse
result of c is 1.596053
real 0m3.454s
user 0m3.451s
sys 0m0.003s
[test]$ time ./a.icc
result of c is 1.596053
real 0m0.766s
user 0m0.765s
sys 0m0.001s

复制代码

[ 本帖最后由 Prescott 于 2007-9-30 14:57 编辑 ]

_MyST_Spring · 发表于 2007-9-30 15:01

原帖由 Prescott 于 2007-9-30 14:32 发表
晕死，随便来个简单的吧
#include
#include

float a[512][512], b[512][512], c;

int main () {

srand(0);
for (int i=0; i < 512; i++){
for (int j = 0; j < 512; j++){
...

老P又不厚道了一回

Prescott · 发表于 2007-9-30 15:09

原帖由 _MyST_Spring 于 2007-9-30 15:01 发表

老P又不厚道了一回

:unsure:

又怎么不厚道了？

晶晶守护神 · 发表于 2007-9-30 15:12

提示: 作者被禁止或删除内容自动屏蔽

_MyST_Spring · 发表于 2007-9-30 15:19

原帖由 Prescott 于 2007-9-30 15:09 发表

:unsure:

又怎么不厚道了？

也不给人楼主留点face啊。。

紫色 · 发表于 2007-9-30 15:30

原帖由 Prescott 于 2007-9-30 14:32 发表
晕死，随便来个简单的吧
#include
#include

float a[512][512], b[512][512], c;

int main () {

srand(0);
for (int i=0; i < 512; i++){
for (int j = 0; j < 512; j++){
...

8错的例子。不过只不过是比较了gcc和icc。
你的程序看似循环了512*512次，但每次循环都是独立的对c赋值。其实c最终就等于a(512，512)+a(512，512)*b(512，512)？聪明点的编译器把它优化到运行时间0.0001秒都有可能。
对icc，有其他优化选项完全相同，仅有浮点单元是sse/x87的一点区别的数据提供吗？

PS：能否说一下cpu是啥。类似的程序我跑过不少，p4上加了sse优化,(以下缩水）。

c = a[j] + a[j] * b[j]这种表达式利用不了sse。也许icc能利用sse每次计算两个循环，如果不能保证这一点就改善一下你的代码，让它好利用sse。

[ 本帖最后由紫色于 2007-9-30 16:27 编辑 ]

Prescott · 发表于 2007-9-30 16:19

原帖由紫色于 2007-9-30 15:30 发表

8错的例子。不过只不过是比较了gcc和icc。
对icc，有其他优化选项完全相同，仅有浮点单元是sse/x87的一点区别的数据提供吗？

PS：能否说一下cpu是啥。类似的程序我跑过不少，p4上加了sse优化，速度还 ...

[~]$ uname -a
Linux xxxxxxxx 2.6.18-8.el5 #1 SMP Fri Jan 26 14:15:14 EST 2007 x86_64 x86_64 x86_64 GNU/Linux
[~]$ cat /proc/cpuinfo
...
model name : Intel(R) Core(TM)2 CPU 6700 @ 2.66GHz
...

复制代码

不好意思，gcc很笨只能生成标量的SSE，icc不支持在64bit环境下生成x87代码。

Prescott · 发表于 2007-9-30 17:21

原帖由紫色于 2007-9-30 15:30 发表

8错的例子。不过只不过是比较了gcc和icc。
你的程序看似循环了512*512次，但每次循环都是独立的对c赋值。其实c最终就等于a(512，512)+a(512，512)*b(512，512)？聪明点的编译器把它优化到运行时间0.0001 ...

稍微修改一下程序，满足你一下：

#include <stdio.h>
#include <stdlib.h>
float a[512][512], b[512][512], c[512][512], d = 0;
int main () {
int i,j,N;
srand(0);
for (i = 0; i < 512; i++){
for (j = 0; j < 512; j++){
a[i][j] = ((float)rand() / RAND_MAX) - 0.5;
b[i][j] = ((float)rand() / RAND_MAX) - 0.5;
c[i][j] = 0;
}
}
for (N = 1; N < 100000; N++)
for (i = 0; i < 512; i++){
for (j = 0; j < 512; j++ ){
c[i][j] = c[i][j] + a[i][j] * b[i][j];
}
}
i = rand() % 512;
j = rand() % 512;
printf ("result of c[%d][%d] is %fn", i, j, c[i][j]);
return 0;
}
[test]$ g++ -O3 -mfpmath=387 main.cc -o a.gcc.387
[test]$ g++ -O3 -mfpmath=sse -ftree-vectorize -ftree-vectorizer-verbose=5 main.cc -o a.gcc.sse
main.cc:12: note: not vectorized: unhandled data-ref
main.cc:21: note: dependence distance = 0.
main.cc:21: note: accesses have the same alignment.
main.cc:21: note: dependence distance modulo vf == 0 between c[i_89][j_91] and c[i_89][j_91]
main.cc:21: note: dependence distance = 0.
main.cc:21: note: accesses have the same alignment.
main.cc:21: note: dependence distance modulo vf == 0 between c[i_89][j_91] and c[i_89][j_91]
main.cc:21: note: LOOP VECTORIZED.
main.cc:21: note: vectorized 1 loops in function.
[test]$ icc -fast main.cc -o a.icc.sse
ipo: remark #11001: performing single-file optimizations
ipo: remark #11005: generating object file /tmp/ipo_iccjm6Zar.o
main.cc(20): (col. 5) remark: LOOP WAS VECTORIZED.
[test]$ time ./a.gcc.387
result of c[25][391] is -297.068634
real 0m35.912s
user 0m35.903s
sys 0m0.004s
[test]$ time ./a.gcc.sse
result of c[25][391] is -297.068634
real 0m17.791s
user 0m17.783s
sys 0m0.005s
[test]$ time ./a.icc.sse
result of c[25][391] is -297.068634
real 0m17.041s
user 0m17.035s
sys 0m0.003s

复制代码

slice · 发表于 2007-9-30 19:23

:loveliness:
扯那么多干嘛，AMD的U主板bios有个功能可以关掉SSE支持。intel就不知道如何屏蔽了。
如果你是用的X2之类的，大可以关掉SSE回到远古时代，看看会不会是世界末日。
结果是不会，还好Windows不是OSX，没SSE照样工作。倒是KMPlayer直接罢工了，不怕，用WMP11，放个720P的WMV不过也就CPU占用高了10%多而已。
TS的倒是高了%好几十，不过可能是用WMP没SSE视频加速给弄没了吧，倒不是SSE的作用。
在没有SSE的日子里。你才能体会到SSE的好处。
所以我决定再体验三天没有SSE的日子，大家说我能坚持3天不:loveliness: 。有句话不是说失去了才懂得珍惜么。

acqwer · 发表于 2007-9-30 19:45

原帖由 slice 于 2007-9-30 19:23 发表
:loveliness:
扯那么多干嘛，AMD的U主板bios有个功能可以关掉SSE支持。intel就不知道如何屏蔽了。
如果你是用的X2之类的，大可以关掉SSE回到远古时代，看看会不会是世界末日。
结果是不会，还好Windows不是 ...

跑个3dmarks看看。

Intelife · 发表于 2007-9-30 19:47

原帖由 slice 于 2007-9-30 19:23 发表
:loveliness:
扯那么多干嘛，AMD的U主板bios有个功能可以关掉SSE支持。intel就不知道如何屏蔽了。
如果你是用的X2之类的，大可以关掉SSE回到远古时代，看看会不会是世界末日。
结果是不会，还好Windows不是 ...

只关掉一个核心上的SSE，还是关掉了两个？

NehalemSunK11 · 发表于 2007-9-30 19:57

:lol: 什么显卡，跑个OPENGL游戏看看

slice · 发表于 2007-9-30 20:33

原帖由 acqwer 于 2007-9-30 19:45 发表

跑个3dmarks看看。

试了下Mark03。
My God！跑还是能跑，结果有点匪夷所思！放720P的WMVCPU也就30%多变成40%多而已。没想到Mark03会这样子。谁能tell me why？
关SSE简直就是超级幻灯片啊，92分。不关是720分。w00t) 问题出在哪里，Mark03发现没SSE脑袋秀逗了？

viewlg · 发表于 2007-9-30 20:44

以前用sse一直是处理视频图象没搞过数值计算随便试了下单精度的计算

var                s,sbasic:single;
      param1,param2,param3:single;
               tb,te,tf:int64;
begin
sbasic:=1.0;
param1:=19.12;
param2:=19.13;
param3:=0.1;

queryperformancefrequency(tf);
queryperformanceCounter(tb);

//包括加/乘/除各一次循环1000万次并对前次结果依赖不会产生优化

//x87指令
Asm
mov ecx, 10000000
fld s
  @loop:
fmul param1
fdiv param2
fadd param3
dec ecx
jnz @loop
fstp s
end;
queryperformanceCounter(te);

//输出时间消耗
memo1.Lines.Append(format('x87 %f ms %f  ', [(te-tb)/tf*1000,s]) );

queryperformanceCounter(tb);

//SSE指令
Asm
   mov ecx, 10000000
   movss xmm0, sbasic
@loop:
   movss xmm1, param1
   movss xmm2, param2
   movss xmm3, param3
   mulss xmm0, xmm1
   divss xmm0, xmm2
   addss xmm0, xmm3
   dec  ecx
   jnz  @loop
   movss s, xmm0
end;
queryperformanceCounter(te);

   //输出时间消耗
memo1.Lines.Append(format('SSE %f ms %f  ', [(te-tb)/tf*1000,s]) );

测试结果
x87 170.98 ms 191.33
SSE 93.73 ms 191.32

证明即使是不使用SIMD优化,只是替代x87浮点指令为sse指令就能获得接近一倍的速度提高.

但是可以发现, 2者的计算结果有一定的差异. 而双精度的计算结果是191.30,计算结果上反而是SSE更加精确. 所以在浮点计算时采用sse那是很有效果的,如果考虑到SIMD的并行计算,那提高不是一点半点啊.

注: 手头的 delphi 7只支持 sse,不支持sse2 ,没法试双精度了.我想应该区别不大.因为 sse里不管是使用
ps后缀并行计算4个还是采用ss后缀单独计算一个速度是没区别的.

[ 本帖最后由 viewlg 于 2007-9-30 20:46 编辑 ]

the_god_of_pig · 发表于 2007-9-30 20:45

SIMD无用论，竟然这么长时间了还有人在YY(_(

好吧，LZ永远是对的，IBM,Intel,AMD都是250，就LZ有远见，发现了客观事实的真理，佩服，在下一定铭记在心:huh:

viewlg · 发表于 2007-9-30 20:54

原帖由 slice 于 2007-9-30 20:33 发表

试了下Mark03。
My God！跑还是能跑，结果有点匪夷所思！放720P的WMVCPU也就30%多变成40%多而已。没想到Mark03会这样子。谁能tell me why？
关SSE简直就是超级幻灯片啊，92分。不关是720分。w00t) 问题出 ...

SSE的Sqrt计算比FP的Sqrt计算快10倍以上(单运算而不考虑simd,考虑simd则是接近50倍).而开方计算是3d驱动里最常见的计算.

acqwer · 发表于 2007-9-30 21:00

原帖由 slice 于 2007-9-30 20:33 发表

试了下Mark03。
My God！跑还是能跑，结果有点匪夷所思！放720P的WMVCPU也就30%多变成40%多而已。没想到Mark03会这样子。谁能tell me why？
关SSE简直就是超级幻灯片啊，92分。不关是720分。w00t) 问题出 ...

03也就罢了，05、06没SSE根本不让你跑。

帐号		自动登录	找回密码
密码			注册

xxxyyy xxxyyy 当前离线积分 48 IP卡狗仔卡头像被屏蔽	62^# 发表于 2007-9-30 12:21 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
xxxyyy xxxyyy 当前离线积分 48 IP卡狗仔卡头像被屏蔽
	回复支持反对使用道具举报显身卡

晶晶守护神晶晶守护神当前离线积分 21 IP卡狗仔卡头像被屏蔽	67^# 发表于 2007-9-30 15:12 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
晶晶守护神晶晶守护神当前离线积分 21 IP卡狗仔卡头像被屏蔽
	回复支持反对使用道具举报显身卡

那位编程举个例子, 把sse的"威力"释放一下?

本帖子中包含更多资源

本帖子中包含更多资源