多路系统K10优势的启示

itany · 发表于 2007-9-13 14:43

原帖由紫色于 2007-9-13 12:48 发表

这句话10年以后差不多，现在免了。
下了，吃饭去。你就不必吃饭了我看，吃sse2就行了:funk:

别吃饭了，别人吃饭是产生生产力，您老人家呢？
还是吃x64算了……

[ 本帖最后由 itany 于 2007-9-13 14:44 编辑 ]

托斯卡纳的太阳 · 发表于 2007-9-13 15:23

提示: 作者被禁止或删除内容自动屏蔽

托斯卡纳的太阳 · 发表于 2007-9-13 15:29

提示: 作者被禁止或删除内容自动屏蔽

随便啦 · 发表于 2007-9-13 15:55

开始上马甲了 :huh:

the_god_of_pig · 发表于 2007-9-13 18:15

原帖由 potomac 于 2007-9-12 21:18 发表

一代构架用6年还是蛮合适的。
所以甭指望2008年有翻天覆地的变化。
这代构架唯一的例外就是半路杀出的GPGPU。:p

就是说啊，就传统的通用部分，我估摸着Nehalem估计也就提升个30%来几，YY度并不高:charles:

CSI嘛，再牛也就是叫Intel多弄些世界记录，让AMD更山穷水尽一点儿而已:ph34r:

但是那个CGPU似乎才是重点o:)

Intel这次似乎铁了心要完成sony,IBM未完成的事业-_-

GPU从思路上很多应用都前途无量啊(又无视内存延迟，又有很YY的峰值)，可惜现在的GPU有天生缺陷，可用性太差，如果Intel够牛，这次可能会给很多领域革命:charles:

只看该作者 · 发表于 2007-9-13 18:24

提示: 作者被禁止或删除内容自动屏蔽

spinup · 发表于 2007-9-13 18:27

原帖由 the_god_of_pig 于 2007-9-13 18:15 发表

就是说啊，就传统的通用部分，我估摸着Nehalem估计也就提升个30%来几，YY度并不高:charles:

CSI嘛，再牛也就是叫Intel多弄些世界记录，让AMD更山穷水尽一点儿而已:ph34r:

但是那个CGPU似乎才是重点 ...

你不是喜欢spec.org的数据?
现在power6和K10的数据都开始上了.
你可以去看一下.

itany · 发表于 2007-9-13 21:01

进行人身攻击的某马甲，请你自己先和谐一下
不然小心你只能再换个马甲了！

ConroeXE · 发表于 2007-9-13 21:24

提示: 作者被禁止或删除内容自动屏蔽

itany · 发表于 2007-9-14 01:36

原帖由紫色于 2007-9-13 12:33 发表

没说sse没用，只是说别吹过头了，你列举一个sse应用，别人能列举10个、100个非sse应用，你还列举了干啥
我也在用sse，而且是在linux下。intel fortran 8.x,9.x,10.x支持sse，我很激动:p
问题是广大人民呢 ...

To print some "Hello, world?"

maxmusic · 发表于 2007-9-14 02:54

原帖由 Rock·Will 于 2007-9-11 21:57 发表

1、CSI是一定会引入桌面的。这不劳您费心~
2、即使Intel不将IMC引入到桌面也不要紧。更不用您去担心。因为IFan不像AFan那么穷，IFan只要想玩，就会去买LGA 1366的Socket B服务器版本CPU。不就双路吗？ ...

1 引不引你说了算?
2 你去买双路是吧,A饭拿和你一样的钱买了套四路又如何?
3 我装系统好像没打过补丁,也没发现什么不得了的BUG,倒是某次拿着新U发现旧板用不了,一气之下在自己用的平台上不再使用INTEL.

itany · 发表于 2007-9-14 09:41

原帖由 maxmusic 于 2007-9-14 02:54 发表

1 引不引你说了算?
2 你去买双路是吧,A饭拿和你一样的钱买了套四路又如何?
3 我装系统好像没打过补丁,也没发现什么不得了的BUG,倒是某次拿着新U发现旧板用不了,一气之下在自己用的平台上不再使用INTEL.

1 引不引进现在已经很明确了，搞不明白情况的只能说是后知后觉
2 pro-A能拿和Intel双路的钱买4路？ orz。到时候AMD会不会倒阿？另外，就是买4路，绝大多数桌面应用还是满地找牙
3 拿着扣肉新U，突然发现939的旧板不能用？

boris_lee · 发表于 2007-9-14 12:39

原帖由 maxmusic 于 2007-9-14 02:54 发表

2 你去买双路是吧,A饭拿和你一样的钱买了套四路又如何?

结果四路还不如双路性能又如何？w00t)

mxyou · 发表于 2007-9-14 13:51

紫色在这里发贴是工作

老MX在这里看贴是学习

紫色 · 发表于 2007-9-14 23:43

哦。
今天我随便编了个程序（名为tx1.f95），主要计算量就是双精度浮点运算。用gfortran编译，当然是在linux下面。使用gcc的-mfpmath=sse 与 -mfpmath=387 分别选择387和sse进行浮点计算。
具体是：
1）使用387
gfortran -fopenmp -mtune=pentium4 -mfpmath=387 tx1.f95
2) 使用sse
gfortran -fopenmp -mtune=pentium4 -msse2 -mfpmath=sse tx1.f95

跑的机器是台双Xeon 2.4G, 支持到sse2, 即不支持sse3。结果运行时间几乎相同。一个是117秒，一个是118。我去掉-mtune=pentium4效果也一样。
各位解释一下，对于双精度浮点运算，是不是对于老P4的两周期一条sse指令，其实速度就等于387？
手上没有扣肉机器，不知道单周期sse的力量到底怎么样？能提高接近一倍速度？
还有,巴塞罗那的sse性能有网站出测试结果没有？

程序：
=============================================
program testsse
use omp_lib
implicit none
integer(kind=8),parameter :: N=800000000_8
integer(kind=8) :: i
real(kind=10) :: fu=1.0_10,tmp=1.0_10
type etime_type
real :: time
real :: tarray(2)
end type etime_type
type (etime_type) :: time1,time2
integer :: itime1,itime2
integer :: omp_get_thread_num
intrinsic mod,etime,system_clock
call etime(time1%tarray,time1%time)
print *,"An openmp test program :"
print *,"============================"
print *,"etime :",time1
print *,
call system_clock(itime1)
print *,"system_clock :",itime1
print *,
print *,"begin :"
fu=1.0_10
!$omp parallel do schedule(static) private(tmp) reduction(*:fu)
do i=1_8,N
if(mod(i,N/100)==0) print *,i/(N/100),omp_get_thread_num()
tmp=tan(real(i,10))*tan(real(i,10)*2)
fu=fu*tmp
enddo
!$omp end parallel do
print *,"result=",fu
print *,
call etime(time2%tarray,time2%time)
call system_clock(itime2)
print *,"etime :",time2
print *,"etime : it lasts",time2%time-time1%time,"second"
print *,
print *,"system_clock :",itime2
print *,"system_clock : it lasts",(itime2-itime1)/1000,"second"
end program testsse

[ 本帖最后由紫色于 2007-9-15 14:21 编辑 ]

boris_lee · 发表于 2007-9-15 00:02

原帖由紫色于 2007-9-14 23:43 发表
哦。
今天我随便编了个程序（名为tx1.f95），主要计算量就是双精度浮点运算。用gfortran编译。使用gcc的-mfpmath=sse 与 -mfpmath=387 分别选择387和sse进行浮点计算。
具体是：
1）使用387
gfortran -fope ...

我以为，从某个Open Source的多媒体程序里找一段可能会更明显一点

紫色 · 发表于 2007-9-15 00:40

对。不过我这里不谈那个问题。
我的程序说白了就是无聊地把(tan(i)*tan(i*2)从1算到8亿，这公式只涉及浮点乘除，不涉及sse指令集里面的图形图像那些指令（那些指令我永远都用不上，别人当然会有用）。
跑110秒只相差1秒，所以我认为，对于P4家族，使用sse2与使用浮点单元速度相等。sse虽然是simd，单指令两个双精度乘除，但p4运行一条sse需要2周期，结果正好等于一个浮点单元的速度。我错了没有？
与此类推到酷睿，其浮点性能应该是与K10相等（假设同频等等）：酷睿是单周期一条sse，k10是两个浮点单元，正好各是p4的两倍。core2虽然另有浮点单元，但编译器不能同时链接到sse和浮点单元，只能选择其一。
所以对于这样的需求，Barcelona能跟nehalem拼。

[ 本帖最后由紫色于 2007-9-15 14:22 编辑 ]

Prescott · 发表于 2007-9-15 00:52

阁下是我见到的用GNU Fortran作科学计算第一人。

紫色 · 发表于 2007-9-15 01:01

原帖由 Prescott 于 2007-9-15 00:52 发表
阁下是我见到的用GNU Fortran作科学计算第一人。

那么我再给你推荐100人。见google fortran BBS：
http://groups.google.com/group/comp.lang.fortran/topics?lnk=srg

[ 本帖最后由紫色于 2007-9-15 02:39 编辑 ]

Prescott · 发表于 2007-9-15 01:35

原帖由紫色于 2007-9-15 01:01 发表

那么我再给你推荐100人。见google fortran BBS：
http://groups.google.com/group/comp.lang.fortran/topics?lnk=srg
我这里诚恳建议你：说那种话要小心，说明你自己无知。

我认为对数值程序，酷睿与K ...

GNUfortran比其他任何编译器都不只慢一点点，你喜欢我也没办法。写写代码也可以，实际上线跑也用gfortran那是和自己的机时过不去。

如果你觉得写一个根本不可能用SSE优化的源代码来证明SSE没有用，这种做法很有趣，那你就继续自己玩吧。或者你就是喜欢X87，还有人就是喜欢唱片呢，起码也显得品味啊。

K10同频浮点能力本来就是和Core一样，不需要你来发现什么。

[ 本帖最后由 Prescott 于 2007-9-15 02:00 编辑 ]

帐号		自动登录	找回密码
密码			注册

托斯卡纳的太阳托斯卡纳的太阳当前离线积分 1 IP卡狗仔卡头像被屏蔽	142^# 发表于 2007-9-13 15:23 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
托斯卡纳的太阳托斯卡纳的太阳当前离线积分 1 IP卡狗仔卡头像被屏蔽
	回复支持反对使用道具举报显身卡

托斯卡纳的太阳托斯卡纳的太阳当前离线积分 1 IP卡狗仔卡头像被屏蔽	143^# 发表于 2007-9-13 15:29 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
托斯卡纳的太阳托斯卡纳的太阳当前离线积分 1 IP卡狗仔卡头像被屏蔽
	回复支持反对使用道具举报显身卡

potomac 该用户已被删除	146^# 发表于 2007-9-13 18:24 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
potomac 该用户已被删除
	回复支持反对使用道具举报显身卡

ConroeXE ConroeXE 当前离线积分 5 IP卡狗仔卡头像被屏蔽	149^# 发表于 2007-9-13 21:24 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
ConroeXE ConroeXE 当前离线积分 5 IP卡狗仔卡头像被屏蔽
	回复支持反对使用道具举报显身卡

多路系统K10优势的启示

浏览过的版块