POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
查看: 7246|回复: 49
打印 上一主题 下一主题

不用等到07年年中,现在最快的Woodcrest在浮点上已经被2.6GHz Opteron打死了

[复制链接]
跳转到指定楼层
1#
发表于 2006-9-12 10:25 | 只看该作者 回帖奖励 |正序浏览 |阅读模式
Sun Microsystems
Sun Fire X2200 M2
SPECfp_rate2000 = 117   
SPECfp_rate_base2000 = 101   
SPEC license # 6Tested by: Sun Microsystems, Santa ClaraTest date: Jul-2006Hardware Avail: Aug-2006Software Avail: Jul-2006
[/td]BenchmarkBase
CopiesBase
RuntimeBase
RatioCopiesRuntimeRatio[/tr]

168.wupwise458.9  126    457.6  129   

171.swim476.3  188    473.8  195   

172.mgrid4118    70.7  4112    74.6  

173.applu498.1  99.3  491.4  107   

177.mesa488.5  73.4  471.6  90.8  

178.galgel4102    132    469.2  194   

179.art433.5  360    415.8  763   

183.equake447.4  127    444.1  137   

187.facerec469.7  127    449.6  178   

188.ammp4158    64.5  4159    64.0  

189.lucas4134    69.3  4134    69.1  

191.fma3d4124    78.3  4122    79.7  

200.sixtrack4143    35.7  4139    36.6  

301.apsi4123    97.8  4111    108   
SPECfp_rate_base2000101   
SPECfp_rate2000117   

Model Name:Sun Fire X2200 M2 CPU:AMD Opteron (TM) 2218CPU MHz:2600FPU:IntegratedCPU(s) enabled:4 cores, 2 chips, 2 cores/chipCPU(s) orderable:1,2 (order by # of chips)Parallel:NoPrimary Cache:64KBI + 64KBD (on chip) per coreSecondary Cache:1024KB (I+D) (on chip) per coreL3 Cache:N/AOther Cache:N/AMemory:16GB (8x2GB, DDR2-667 CL5 ECC Reg)Disk Subsystem:SATA,250GB,7200RPMOther Hardware:None
HardwareHardware Vendor:Sun Microsystems
SoftwareOperating System:Solaris 10 6/06Compiler:Sun Studio 11 with PatchesFile System:ufsSystem State:Multi-userNotes / Tuning InformationCompiler invocation:   C: cc  F90: f90  F77: f90     FDO:  PASS1= -xprofile=collect:./feedback PASS2= -xprofile=use:./feedback      fdo_pre0:  rm -rf ./feedback.profileFloating point base flags:  Fortran: -fast -xipo=2 -xarch=amd64 -xprefetch_level=3 ONESTEP=yes        C: -fast -xipo=2 -xalias_level=std -xpagesize=2m ONESTEP=yes Floating point peak flags: ONESTEP=yes for all benchmarks  168.wupwise:   -fast -xautopar -xpad=common:3969 -xipo=2 -xarch=amd64 -xprefetch_level=3  -xpagesize_heap=2m 171.swim:      -fast -xpad=common:3969 -xipo=2 -xvector=simd -xprefetch_level=3 -Qoption iropt                 -Atile:skewp,-Ainline:cs=700 -xarch=amd64 -Qoption ube_ipa -inl_alt                 -xpagesize_stack=2m 172.mgrid:     -fast -xautopar -stackvar -xpad=common:900 -xipo=2 -xarch=amd64 -xprefetch_level=3                 -xvector -xpagesize=2m -Qoption ld -M,/usr/lib/ld/map.bssalign 173.applu:     -fast -xautopar -unroll=5 -stackvar -xO4 -xipo=2 -xprefetch_level=3 -xarch=amd64a                -qoption iropt -Rloop_dist -xpagesize_heap=2m 177.mesa:      -fast -xautopar -xO4 -xipo=2 -Wd,-iropt-prof -xarch=amd64 -xalias_level=strong -xpagesize=2m +FDO 178.galgel:   -fast -xcache=64/32/4:1024/64/4 -xipo=2 -xpagesize_heap=2m -xvector=simd -xarch=amd64  -xprefetch_level=3                RM_SOURCES=lapak.f90                EXTRA_LIBS=-xlic_lib=sunperf 179.art:       -fast -xipo=2 -xalias_level=strong -xprefetch -Wd,-iropt-prof -xpagesize=2m +FDO 183.equake:    -fast -Wd,-iropt-prof -xipo=2 -xprefetch -xalias_level=strong -xpagesize=2m -lmopt -lm +FDO 187.facerec:   -fast -xO4 -xipo=2 -xprefetch_level=3 -xpagesize=2m                RM_SOURCES=cfftb.f90 cffti.f90 cfftf.f90                EXTRA_LIBS=-xlic_lib=sunperf 188.ammp:      -fast -xcache=64/32/4:1024/64/4 -xO4 -xipo=2 -xarch=amd64a -xalias_level=std -xpagesize_heap=2m -lmopt -lm 189.lucas:     -fast -Qoption ube_ipa -inl_alt -xipo=2 -xarch=amd64 -xprefetch_level=3 191.fma3d:     -fast -xcache=64/32/4:1024/64/4 -unroll=5 -fsimple=1 -xipo=2                -xprefetch_level=3 -xarch=amd64 -xpagesize_heap=2m +FDO 200.sixtrack:  -fast -xipo=2 -O -xprefetch_level=3 -xarch=amd64                 -xpagesize_heap=2m -Qoption ld -M,/usr/lib/ld/map.bssalign +FDO 301.apsi:      -fast -xO4 -xipo=2 -xprefetch_level=3 -xarch=amd64a -xpagesize=2mPortability: 178.galgel:  -fixed Shell Environments:  Stack size set to unlimited via "ulimit -s unlimited"        PARALLEL was not set, therefore each copy of the benchmark  ran single-threaded using only one core.     The following patches were applied to Sun Studio 11 compiler:120759-07 : x86/x64121016-03 : x86 C121020-03 : x86 F90121018-03 : x86 C++    Processes were bound to CPUs using submit=pbindDefault BIOS setting was used



Supermicro
Motherboard X7DB8-X ( 3.00GHz, Intel Xeon 5160 processor)
SPECfp_rate2000 = 80.6  
SPECfp_rate_base2000 = 80.8  
SPEC license # 001176Tested by: SupermicroTest date: Jun-2006Hardware Avail: May-2006Software Avail: Mar-2006
[/td]BenchmarkBase
CopiesBase
RuntimeBase
RatioCopiesRuntimeRatio[/tr]

168.wupwise469.1  107    469.1  107   

171.swim4263    54.8  4262    54.8  

172.mgrid4164    50.8  4164    50.8  

173.applu4190    51.3  4190    51.3  

177.mesa452.6  124    452.6  124   

178.galgel457.7  233    457.8  233   

179.art458.0  208    458.0  208   

183.equake487.3  69.1  487.3  69.1  

187.facerec489.9  98.1  490.7  97.2  

188.ammp4139    73.5  4142    71.9  

189.lucas4172    54.0  4172    54.0  

191.fma3d4167    58.5  4167    58.5  

200.sixtrack493.9  54.4  495.4  53.5  

301.apsi4187    64.6  4187    64.6  
SPECfp_rate_base200080.8  
SPECfp_rate200080.6  

Model Name:Motherboard X7DB8-X ( 3.00GHz, Intel Xeon 5160 processor)CPU:Intel Xeon 5160 processor ( 3.00GHz, 4MB L2 shared, 1333 MHz bus)CPU MHz:3000FPU:IntegratedCPU(s) enabled:4 cores, 2 chips, 2 cores/chip CPU(s) orderable:1, 2Parallel:NoPrimary Cache:32KBI + 32KBD on chip per coreSecondary Cache:4MB(I+D) on chip sharedL3 Cache:N/AOther Cache:N/AMemory:8x 2GB 667MHz CL5 DDR2 FB-DIMMDisk Subsystem:1 X WD 2500 250GB SATAOther Hardware:N/A
HardwareHardware Vendor:Supermicro
SoftwareOperating System:Windows server 2003 Enterprise Edition 32-bits W/ SP1Compiler:Intel C++ and Fortran Compiler 9.1 for 32-bit applications
Build 20060323Z Package ID: W_FC_P_9.1.020
Microsoft Visual Studio 2005(for libraries)
SmartHeap Library Version 8.0 from http://www.microquill.com/File System:NTFSSystem State:DefaultNotes / Tuning Information +FDO: PASS1=  -Qprof_gen  PASS2=-Qprof_use  Base tuning for Fortran programs:  -fast -Qansi_alias +FDO  Base tuning for C programs: -fast shlW32M.lib +FDO  Portability: 178.galgel:   -FI /F32000000 Peak tuning: 168.wupwise:  -fast -Qansi_alias +FDO 171.swim:     -fast -Qansi_alias +FDO 172.mgrid:    -fast -Qansi_alias +FDO 173.applu:  basepeak=yes 177.mesa:   basepeak=yes 178.galgel:   -fast -Qansi_alias +FDO 179.art:      basepeak=yes 183.equake:   -QxP -Oa -Qrcd -Qipo  +FDO  shlW32M.lib 187.facerec:  -fast -Qunroll1 -Qscalar_rep- +FDO  188.ammp:     -fast -Oa +FDO  shlW32M.lib 189.lucas:    -fast -Qprefetch- +FDO 191.fma3d:    basepeak=yes 200.sixtrack: -Qipo -QxP +FDO 301.apsi:     -fast +FDO  Tested systems can be used with SC825S2-R700LPV case,   To ensure system stability, a 500W (minimum) ATX power supply  [4-pin (+12V), 8-pin (+12V) and 24-pin are required]  Product description located as of X7DB8-X:  http://www.supermicro.com/produc ... 3/5000P/X7DB8-X.cfm  The system bus runs at 1333 MHz
50#
发表于 2006-10-1 14:51 | 只看该作者
原帖由 NONO 于 2006-9-12 12:14 发表
弱弱的問一下各位DX
在遊戲中是強調CPU的浮点還是整數???
如果是浮點,那照理說A64在遊戲中並不會几乎完敗Conroe吧
還是說以K8的架構要多way才能体現出浮點的优勢??:unsure:



浮点分两种,一种是SIMD的浮点,另一种是X87浮点

P4```不说其深流水线的问题,就算不是这个问题,他的X87浮点也很明显是弱化了的!比起K8来说有一定差距!弱化X87是业界制定的标准与目标,未来完成形态的64bitCPU是不需要什么硬件协助处理器的!未来一条SIMD足以代替,N个X87的效能,相对起来~X87这种东西又占地方又多消耗成本```是属于该蜕化腐朽玩意!

不过如今不是又有个问题!听高人侃过,说SSE2浮点在如今游戏中,还没有谁对其做针对优化也不容易做到全局优化,如今游戏都还是主要靠X87浮点,所以````P4比K8差是很正常的!
回复 支持 反对

使用道具 举报

49#
 楼主| 发表于 2006-9-13 16:48 | 只看该作者
几个架构使用一个简单数据布局优化获得的效果比较:

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回复 支持 反对

使用道具 举报

48#
 楼主| 发表于 2006-9-13 16:43 | 只看该作者
这是用Itanium 1 733MHz跑的一些执行时间占用百分比,可以看出它跑art时候的data cache miss rate占用的时间相当高。

Hans的测试中缺乏这方面的细节。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回复 支持 反对

使用道具 举报

47#
发表于 2006-9-13 16:35 | 只看该作者
原帖由 roadrunner 于 2006-9-13 13:14 发表
安腾跑art还只需要13秒呢, 如果Opteron跑16秒是作弊的话, 那么安腾作弊也是没有疑问的了



这样推导的结果绝对是错误的。Itanium还是有很多独得的地方,如果真的要优化Itanium2的成绩恐怕还不用13秒。

P.S 突然发现RR、Prescott重出江湖,让我想起2004年那场IA大战:lol:

[ 本帖最后由 dennis 于 2006-9-13 16:37 编辑 ]
回复 支持 反对

使用道具 举报

46#
发表于 2006-9-13 16:08 | 只看该作者
原帖由 roadrunner 于 2006-9-13 13:37 发表


你最好能讲得清楚为何Itanium的13秒成绩不算作弊, 而Opteron的16秒成绩为何必然是作弊, 你讲不清楚就算了, 没必要再在这扯废话.

现在很明显的情况是: 即使换用相同的编译器, WoodCrest在4核2路跑fp rates也 ...


小同学,不懂就虚心请教。

虽然你这么不懂礼貌,我还是大人不记小人过,告诉你算了:179.art的footprint很小,6M的L3就够把所有需要的数据全部装进去。而且art访问内存的方式相当不规律,当cache比较小的时候,miss rate非常高。所以,Itanium的128个寄存器,单周期L1D,5cycle L2,加上6ML3跑得快就很正常了。

[ 本帖最后由 Prescott 于 2006-9-13 16:30 编辑 ]
回复 支持 反对

使用道具 举报

45#
 楼主| 发表于 2006-9-13 13:40 | 只看该作者
A64 5000+使用Intel ICC 9.1 二进制代码:
http://www.pcinlife.com/article/ ... 4158113d191_26.html
回复 支持 反对

使用道具 举报

44#
发表于 2006-9-13 13:37 | 只看该作者
原帖由 Prescott 于 2006-9-13 13:23 发表

你知道art是干什么的吗?怎么“优化”吗?就敢下这样的结论。

Itanium的体系结构中有些其他处理器都没有达到的指标。


你最好能讲得清楚为何Itanium的13秒成绩不算作弊, 而Opteron的16秒成绩为何必然是作弊, 你讲不清楚就算了, 没必要再在这扯废话.

现在很明显的情况是: 即使换用相同的编译器, WoodCrest在4核2路跑fp rates也不是Opteron的对手.
回复 支持 反对

使用道具 举报

43#
发表于 2006-9-13 13:31 | 只看该作者
specCPU 2006我觉得在fp rates方面依旧会很依赖内存带宽

比较一下P4EE 3.73G双核心和Xeon 3.8G双U的成绩

3.73P4EE: http://www.spec.org/cpu2006/resu ... 20060513-00011.html

3.8GXeon: http://www.spec.org/cpu2006/resu ... 20060513-00025.html

两者用同样的编译器, Xeon主频更高, 但是P4EE反而分数高出15%, 明显是赢在内存上. 可见spec CPU 2006 FP RATES一样是对内存带宽十分敏感, 多路Opteron依旧会有好表现

至于2008, 也实在远了点吧
回复 支持 反对

使用道具 举报

42#
发表于 2006-9-13 13:23 | 只看该作者
原帖由 roadrunner 于 2006-9-13 13:14 发表
安腾跑art还只需要13秒呢, 如果Opteron跑16秒是作弊的话, 那么安腾作弊也是没有疑问的了

你知道art是干什么的吗?怎么“优化”吗?就敢下这样的结论。

Itanium的体系结构中有些其他处理器都没有达到的指标。
回复 支持 反对

使用道具 举报

41#
发表于 2006-9-13 13:14 | 只看该作者
安腾跑art还只需要13秒呢, 如果Opteron跑16秒是作弊的话, 那么安腾作弊也是没有疑问的了
回复 支持 反对

使用道具 举报

40#
发表于 2006-9-13 13:09 | 只看该作者
在specfp,尤其是art子项上“优化”各大厂商都有,只不过是程度问题。“优化”过度了也就变成了作弊。

双U,4Core系统中,Woodcrest的Specfp成绩确实不是很突出,这是系统的问题。这项上面也是唯一一个Opteron没有被Woodcrest打得满地找牙的项目了。

4U,8Core系统,就不谈了,没什么可说的,只能等2008吧,2008的夏天和2006的夏天一样会值得激动。

另外SpecCPU2006已经出来了。

[ 本帖最后由 Prescott 于 2006-9-13 13:13 编辑 ]
回复 支持 反对

使用道具 举报

39#
发表于 2006-9-13 12:59 | 只看该作者
:huh:
wintel组合显然在服务器上搞不过sun+amdw00t)
回复 支持 反对

使用道具 举报

38#
发表于 2006-9-13 11:58 | 只看该作者
pathscale的成绩也不弱

http://www.spec.org/osg/cpu2000/ ... 20060721-06583.html

pathscale 2.3  CPU是2.8G, base得分87.9 peak得分96.0

也足够击败woodcrest了, 应当说Opteron在多路浮点上可以轻松击败woodcrest是没有疑问的了.

而且woodcrest得分85分的那个测试中是混用了pathscale的编译器和icc编译器, 更没有pathscale作弊使k8得利的可能了
回复 支持 反对

使用道具 举报

37#
发表于 2006-9-13 11:23 | 只看该作者
其中art一项测试,打了patch后快了11倍!

即使是base,也比没有patch的peak快了5倍多!

这的确太象作弊了, 但是作弊能把base成绩提升那么多, 也够不简单的, 但是如果是作弊的话, 要抓它证据应该很轻松吧, 比抓gpu驱动作弊简单多了, 国外应该老早有讨论才是
回复 支持 反对

使用道具 举报

36#
发表于 2006-9-13 11:01 | 只看该作者
2218和285毕竟是不同的……

这测试本来就沾内存的光。
回复 支持 反对

使用道具 举报

35#
发表于 2006-9-13 10:32 | 只看该作者
如果没有作弊的话,sun编译器的这个patch真的很厉害,比较下面两个链接:
http://www.spec.org/osg/cpu2000/ ... 20051114-05067.html
http://www.spec.org/osg/cpu2000/ ... 20060815-06997.html
软硬件配置基本相同,但是这个patch硬是把成绩提高了40%。:funk:
这是单U的成绩:
http://www.spec.org/osg/cpu2000/ ... 20060815-07000.html
双U+16G内存 vs 单U + 4G内存,成绩提高超过了100%
回复 支持 反对

使用道具 举报

34#
发表于 2006-9-13 10:23 | 只看该作者

回复 #3 hbdavidlee 的帖子

卡吧的问题无非还是线程优先级的问题,把他的优先级降低,K8和P4HT差不多.说P4的指令性能比K8好,那倒不至于,指令性能好不好,游戏一测就知道.

不过楼主这个帖子倒是
回复 支持 反对

使用道具 举报

33#
 楼主| 发表于 2006-9-13 10:17 | 只看该作者
Intel的编译器还弄厂商识别呢。
回复 支持 反对

使用道具 举报

32#
发表于 2006-9-13 10:16 | 只看该作者
SUN的编译器在单U成绩下并不突出, 如果是作弊, 为什么单U不能把WOODCREST打得落花流水?

我觉得成绩提升来自对NUMA更有效的利用.

WOODCREST系统的内存带宽多少? 喂得饱4个单核SPECFP2000得分在2500以上的核心吗?
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-12-27 18:25

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表