PCINLIFE新测试报告发表：英特尔 Core 2 Duo 处理器全面深入评析

Edison · 发表于 2006-8-5 00:23

http://www.pcinlife.com/article/ ... 1154158113d191.html

英特尔新一代处理器Core 2 Duo测试报告文章的各章节:
第1页 - 英特尔Core 2微体系架构的前世今生——从586到NetBurst
第2页 -  Pentium Pro家族微架构
第3页 -  NetBurst体系架构
第4页 -  英特尔Core新体系架构问世背景
第5页 -  新方向——全面切换至双核、多核方案
第6页 -  65纳米Yonah双内核Core Duo T2000微架构
第7页 -  Yonah微架构的死穴？
第8页 -  Conroe微体系架构深入分析——前端（Front End）
第9页 -  Conroe的乱序执行单元——更多的指令端口及增强的向量处理能力
第10页 -  Conroe的Memory Disambiguation——内存投机资料装载消歧机制
第11页 -  Conroe的高速缓存、预拾取、外部总线、主内存系统
第12页 -  Conroe的电力控制——控制粒度更细化
第13页 -  Conroe上市时程、产品规格、价格、制造成本
第14页 -  Core 2 Duo E6700实体及具体规格
第15页 -  参测主板——基于nForce4 IE SLI16X的P5N32 SLI Deluxe SE
第16页 -  参测主板——基于i975x MCH的P5W DH Deluxe 1.02G
第17页 -  参测主板——基于Q965的GA-8IBW-RH
第18页 -  Windows XP Pro SP2 测试平台配置
第19页 -  内存带宽测试——流式数据传输性能
第20页 -  内存延迟测试——平均内存延迟
第21页 -  L1 D-cache与L2 cache之间连接带宽测试
第22页 -  L1 D-cache/L2 Cache延迟性能测试
第23页 -  指令解码执行效率
第24页 -  多内核/多线程资料交换延迟测试(cache to cache)
第25页 -  浮点性能测试——英特尔版Linpack 3.01
第26页 -  浮点性能测试——High Performance Linpack 1.0a(Top 500)
第27页 -  SPEC.org CPU2000测试
第28页 -  Futuremark PCMark05 1.10
第29页 -  Futuremark 3DMARK06 1.02
第30页 -  游戏性能测试
第31页 -  人工智能性能测试——国际象棋引擎Fritz 9
第32页 -  音频压缩测试——LAME 3.97多线程版
第33页 -  H.264视频编码测试——X264-CLI Build 533
第34页 -  3D渲染——NewTek Lightwave 3D 8.0
第35页 -  性能延伸比较——1.86GHz~2.67GHz
第36页 -  Windows XP Pro 64bit/32bit下性能比较测试
第37页 -  耗电比较
第38页 -  Conroe测试结果分析——理论和实际的距离
第39页 -  Conroe问世意味着什么？
第40页 -  Conroe的性能追加计划——Media Boost(SSE4)
第41页 -  写在最后

欢迎大家在这里发表阅读的感想。

Edison · 发表于 2006-8-5 15:45

我之前测试的时候，只有一个14.21的GMA 3000驱动，性能很糟糕。

Edison · 发表于 2006-8-6 01:40

Conroe也许目前来说还是不错的，但是从一些测试来看，x86的包袱越来越重了，问题也越来越突出了。

Edison · 发表于 2006-8-6 13:29

原帖由 fayerlxy 于 2006-8-6 02:15 发表

设计理念的不同吧，从当前常见实际应用程序的代码、指令的组合统计概率上来看，conroe应该还是很平衡的。纯理论测试方面就有些效率上的落差了，这和netburst似乎恰好相反。不知道我这样理解对不对。

在我看来CPU2000是真实的应用测试而不是纯理论测试。

Edison · 发表于 2006-8-7 13:59

原帖由 tschj 于 2006-8-7 12:10 发表
大概看了一下这个测试，LINPACK部分测试的结果问题很大，可以看出对于LINPACK，测试者是基本不了解的。
12GFLOPS的结果比正常值低了很多，从实测中得到的数据应该是大于16GFLOPS的。
根据GOTO BLAS的作者自己提 ...

请注意，Kazushige Goto在他的mail list所说的测试结果是把N是拉到了31000，这需要大概31000*31000*8byte=7GB内存，换句话说，需要的内存容量是8GB等级。

我在测试中都是把N拉成了14000(cygwin+HPL)或者15000(Intel linpack 3.01)，这是受到测试平台以及cygwin本身的内存容量限制。

我测试报告中给出的Windows XP 64bit linpack测试结果是15.x GFLOPS。

Kazushige Goto所指的测试结果也不是目前的1.04所测试出来的：
“I’m about to release next version. Now Woodcrest version is a little bit better than before.”

这里有一个日本的HPC测试网站提供的同样是N=15000时候的HPL测试结果。
http://www.hpc.co.jp/hit/benchmark/benchmark_xeon.html

Edison · 发表于 2006-8-7 14:27

原帖由 tschj 于 2006-8-7 14:13 发表
我提到的16GFLOPS是用Intel LINPACK 3.01在Linux上，4GB内存可以达到的结果。
使用GOTO BLAS 1.03都可以得到这样的结果，Kazushige Goto用1.03得到的结果是这样的，
Linapck (HPL, N=31000) : 1 CPU … 9.00G ...

实际上根据我的经验，用1.03+cygwin+core 2make出来的hpl根本跑不了，1.03虽然号称支持Core 2，但是出来的hpl会提示内存分配错误，Kazushige Goto在1.03发布后几天后就马上发布了修订的1.04。

Core 2在1.02上用Prescott profile跑出来的结果只有8.xGFLOPS（单核4.XGFLOPS）。

我说的15.XGFLOPS是在2GB内存上用N=15000+64bit OS上跑的，12.XGFLOPS是32bit OS上跑的，这和你说的并不矛盾。

我们对Core2的NB设定是232（192也尝试过，差别不大），PxQ是1x2，其他的设定对单机或者说单socket影响非常小。

[font=Courier New]N : 14000
NB : 232
PMAP : Row-major process mapping
P : 1
Q : 2
PFACT : Right
NBMIN : 4
NDIV : 2
RFACT : Right
BCAST : 2ringM
DEPTH : 1
SWAP : Mix (threshold = 64)
L1 : transposed form
U : transposed form
EQUIL : yes
ALIGN : 8 double precision words[/font]

复制代码

Edison · 发表于 2006-8-7 14:40

linux下和windows下差别不是很大，不过windows的主要问题是目前只能用cygwin来跑，而windows的Cluster版还没有正式推出，暂时不想在这个上浪费时间。

Edison · 发表于 2006-8-7 15:13

你的NBs是切成多少的？

Edison · 发表于 2006-8-11 03:36

something increasing !

X6800 @2.93GHz

Edison · 发表于 2006-8-11 15:42

http://www.gigabyte.com.tw/Suppo ... ame=GA-8I945G%20Pro

不能。

Edison · 发表于 2006-8-12 21:32

原帖由 RacingPHT 于 2006-8-12 20:33 发表

what happens? :huh:

HPL的效率现在增加到了82.5%了，比之前测试的7X%算是高了不少了，不过L2 cache的带宽问题看来也很难冲破。

Edison · 发表于 2006-8-15 09:39

原帖由 神的马甲 于 2006-8-15 03:13 发表
刚发现一个很BT的事情，用XP的记事本打开一个电影里的字幕，查找替换标点符号把英文的逗号改写成中文的逗号，全替换，CoreDuo T2500的CPU占用率居然一直维持在40%-60%。好恐怖。

我想用写字板的话速度会快一些，notepad的内存管理不够好。

帐号		自动登录	找回密码
密码			注册