POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
楼主: itany
打印 上一主题 下一主题

多路系统K10优势的启示

[复制链接]
141#
 楼主| 发表于 2007-9-13 14:43 | 只看该作者
原帖由 紫色 于 2007-9-13 12:48 发表


这句话10年以后差不多,现在免了。
下了,吃饭去。你就不必吃饭了我看,吃sse2就行了:funk:


别吃饭了,别人吃饭是产生生产力,您老人家呢?
还是吃x64算了……

[ 本帖最后由 itany 于 2007-9-13 14:44 编辑 ]
回复 支持 反对

使用道具 举报

142#
发表于 2007-9-13 15:23 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

143#
发表于 2007-9-13 15:29 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

144#
发表于 2007-9-13 15:55 | 只看该作者
开始上马甲了 :huh:
回复 支持 反对

使用道具 举报

145#
发表于 2007-9-13 18:15 | 只看该作者
原帖由 potomac 于 2007-9-12 21:18 发表

一代构架用6年还是蛮合适的。
所以甭指望2008年有翻天覆地的变化。
这代构架唯一的例外就是半路杀出的GPGPU。:p


就是说啊,就传统的通用部分,我估摸着Nehalem估计也就提升个30%来几,YY度并不高:charles:

CSI嘛,再牛也就是叫Intel多弄些世界记录,让AMD更山穷水尽一点儿而已:ph34r:

但是那个CGPU似乎才是重点o:)

Intel这次似乎铁了心要完成sony,IBM未完成的事业-_-

GPU从思路上很多应用都前途无量啊(又无视内存延迟,又有很YY的峰值),可惜现在的GPU有天生缺陷,可用性太差,如果Intel够牛,这次可能会给很多领域革命:charles:
回复 支持 反对

使用道具 举报

potomac 该用户已被删除
146#
发表于 2007-9-13 18:24 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

147#
发表于 2007-9-13 18:27 | 只看该作者
原帖由 the_god_of_pig 于 2007-9-13 18:15 发表


就是说啊,就传统的通用部分,我估摸着Nehalem估计也就提升个30%来几,YY度并不高:charles:

CSI嘛,再牛也就是叫Intel多弄些世界记录,让AMD更山穷水尽一点儿而已:ph34r:

但是那个CGPU似乎才是重点 ...

你不是喜欢spec.org的数据?
现在power6和K10的数据都开始上了.
你可以去看一下.
回复 支持 反对

使用道具 举报

148#
 楼主| 发表于 2007-9-13 21:01 | 只看该作者
进行人身攻击的某马甲,请你自己先和谐一下
不然小心你只能再换个马甲了!
回复 支持 反对

使用道具 举报

头像被屏蔽
149#
发表于 2007-9-13 21:24 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

150#
 楼主| 发表于 2007-9-14 01:36 | 只看该作者
原帖由 紫色 于 2007-9-13 12:33 发表


没说sse没用,只是说别吹过头了,你列举一个sse应用,别人能列举10个、100个非sse应用,你还列举了干啥
我也在用sse,而且是在linux下。intel fortran 8.x,9.x,10.x支持sse,我很激动:p
问题是广大人民呢 ...


To print some "Hello, world?"
回复 支持 反对

使用道具 举报

151#
发表于 2007-9-14 02:54 | 只看该作者
原帖由 Rock·Will 于 2007-9-11 21:57 发表




1、CSI是一定会引入桌面的。这不劳您费心~
2、即使Intel不将IMC引入到桌面也不要紧。更不用您去担心。因为IFan不像AFan那么穷,IFan只要想玩,就会去买LGA 1366的Socket B服务器版本CPU。不就双路吗? ...

1 引不引你说了算?
2 你去买双路是吧,A饭拿和你一样的钱买了套四路又如何?
3 我装系统好像没打过补丁,也没发现什么不得了的BUG,倒是某次拿着新U发现旧板用不了,一气之下在自己用的平台上不再使用INTEL.
回复 支持 反对

使用道具 举报

152#
 楼主| 发表于 2007-9-14 09:41 | 只看该作者
原帖由 maxmusic 于 2007-9-14 02:54 发表

1 引不引你说了算?
2 你去买双路是吧,A饭拿和你一样的钱买了套四路又如何?
3 我装系统好像没打过补丁,也没发现什么不得了的BUG,倒是某次拿着新U发现旧板用不了,一气之下在自己用的平台上不再使用INTEL.


1 引不引进现在已经很明确了,搞不明白情况的只能说是后知后觉
2 pro-A能拿和Intel双路的钱买4路? orz。到时候AMD会不会倒阿?另外,就是买4路,绝大多数桌面应用还是满地找牙
3 拿着扣肉新U,突然发现939的旧板不能用?
回复 支持 反对

使用道具 举报

153#
发表于 2007-9-14 12:39 | 只看该作者
原帖由 maxmusic 于 2007-9-14 02:54 发表

2 你去买双路是吧,A饭拿和你一样的钱买了套四路又如何?

结果四路还不如双路性能又如何?w00t)
回复 支持 反对

使用道具 举报

154#
发表于 2007-9-14 13:51 | 只看该作者
紫色在这里发贴是工作

老MX在这里看贴是学习
回复 支持 反对

使用道具 举报

155#
发表于 2007-9-14 23:43 | 只看该作者
哦。
今天我随便编了个程序(名为tx1.f95),主要计算量就是双精度浮点运算。用gfortran编译,当然是在linux下面。使用gcc的-mfpmath=sse 与 -mfpmath=387 分别选择387和sse进行浮点计算。
具体是:
1)使用387
gfortran -fopenmp -mtune=pentium4 -mfpmath=387 tx1.f95
2) 使用sse
gfortran -fopenmp -mtune=pentium4 -msse2 -mfpmath=sse tx1.f95

跑的机器是台双Xeon 2.4G, 支持到sse2, 即不支持sse3。结果运行时间几乎相同。一个是117秒,一个是118。我去掉-mtune=pentium4效果也一样。
各位解释一下,对于双精度浮点运算,是不是对于老P4的两周期一条sse指令,其实速度就等于387?
手上没有扣肉机器,不知道单周期sse的力量到底怎么样?能提高接近一倍速度?
还有,巴塞罗那的sse性能有网站出测试结果没有?


程序:
=============================================
program testsse
use omp_lib
implicit none
integer(kind=8),parameter :: N=800000000_8
integer(kind=8) :: i
real(kind=10) :: fu=1.0_10,tmp=1.0_10
type etime_type
    real :: time
    real :: tarray(2)
end type etime_type
type (etime_type) :: time1,time2
integer :: itime1,itime2
integer :: omp_get_thread_num
intrinsic mod,etime,system_clock
call etime(time1%tarray,time1%time)
print *,"An openmp test program :"
print *,"============================"
print *,"etime :",time1
print *,
call system_clock(itime1)
print *,"system_clock :",itime1
print *,
print *,"begin :"
fu=1.0_10
!$omp parallel do schedule(static) private(tmp) reduction(*:fu)
do i=1_8,N
   if(mod(i,N/100)==0)  print *,i/(N/100),omp_get_thread_num()
   tmp=tan(real(i,10))*tan(real(i,10)*2)  
   fu=fu*tmp
enddo
!$omp end parallel do
print *,"result=",fu
print *,
call etime(time2%tarray,time2%time)
call system_clock(itime2)
print *,"etime :",time2
print *,"etime : it lasts",time2%time-time1%time,"second"
print *,
print *,"system_clock :",itime2
print *,"system_clock : it lasts",(itime2-itime1)/1000,"second"
end program testsse

[ 本帖最后由 紫色 于 2007-9-15 14:21 编辑 ]
回复 支持 反对

使用道具 举报

156#
发表于 2007-9-15 00:02 | 只看该作者
原帖由 紫色 于 2007-9-14 23:43 发表
哦。
今天我随便编了个程序(名为tx1.f95),主要计算量就是双精度浮点运算。用gfortran编译。使用gcc的-mfpmath=sse 与 -mfpmath=387 分别选择387和sse进行浮点计算。
具体是:
1)使用387
gfortran -fope ...

我以为,从某个Open Source的多媒体程序里找一段可能会更明显一点
回复 支持 反对

使用道具 举报

157#
发表于 2007-9-15 00:40 | 只看该作者
对。不过我这里不谈那个问题。
我的程序说白了就是无聊地把(tan(i)*tan(i*2)从1算到8亿,这公式只涉及浮点乘除,不涉及sse指令集里面的图形图像那些指令(那些指令我永远都用不上,别人当然会有用)。
跑110秒只相差1秒,所以我认为,对于P4家族,使用sse2与使用浮点单元速度相等。sse虽然是simd,单指令两个双精度乘除,但p4运行一条sse需要2周期,结果正好等于一个浮点单元的速度。我错了没有?
与此类推到酷睿,其浮点性能应该是与K10相等(假设同频等等):酷睿是单周期一条sse,k10是两个浮点单元,正好各是p4的两倍。core2虽然另有浮点单元,但编译器不能同时链接到sse和浮点单元,只能选择其一。
所以对于这样的需求,Barcelona能跟nehalem拼。

[ 本帖最后由 紫色 于 2007-9-15 14:22 编辑 ]
回复 支持 反对

使用道具 举报

158#
发表于 2007-9-15 00:52 | 只看该作者
阁下是我见到的用GNU Fortran作科学计算第一人。
回复 支持 反对

使用道具 举报

159#
发表于 2007-9-15 01:01 | 只看该作者
原帖由 Prescott 于 2007-9-15 00:52 发表
阁下是我见到的用GNU Fortran作科学计算第一人。


那么我再给你推荐100人。见google fortran BBS:
http://groups.google.com/group/comp.lang.fortran/topics?lnk=srg

[ 本帖最后由 紫色 于 2007-9-15 02:39 编辑 ]
回复 支持 反对

使用道具 举报

160#
发表于 2007-9-15 01:35 | 只看该作者
原帖由 紫色 于 2007-9-15 01:01 发表


那么我再给你推荐100人。见google fortran BBS:
http://groups.google.com/group/comp.lang.fortran/topics?lnk=srg
我这里诚恳建议你:说那种话要小心,说明你自己无知。

我认为对数值程序,酷睿与K ...


GNUfortran比其他任何编译器都不只慢一点点,你喜欢我也没办法。写写代码也可以,实际上线跑也用gfortran那是和自己的机时过不去。

如果你觉得写一个根本不可能用SSE优化的源代码来证明SSE没有用,这种做法很有趣,那你就继续自己玩吧。或者你就是喜欢X87,还有人就是喜欢唱片呢,起码也显得品味啊。

K10同频浮点能力本来就是和Core一样,不需要你来发现什么。

[ 本帖最后由 Prescott 于 2007-9-15 02:00 编辑 ]
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-9-5 16:39

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表