POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
楼主: RacingPHT
打印 上一主题 下一主题

Clovertown的科学性能太渣了点吧

[复制链接]
21#
发表于 2007-11-25 22:35 | 只看该作者
原帖由 itany 于 2007-11-25 16:44 发表
科学计算!=拼内存带宽

  :sleeping:


:lol: :lol:
回复 支持 反对

使用道具 举报

22#
发表于 2007-11-25 22:35 | 只看该作者
Intel CSI一来,我看AMD还怎么跳!!!
回复 支持 反对

使用道具 举报

23#
发表于 2007-11-25 23:09 | 只看该作者
intel的智能内存+大缓存能应付office,IE,但是在一个数组就有2G的那些数值计算程序面前显然力不从心,酷睿就象个跛子,一条腿长一条腿短。
回复 支持 反对

使用道具 举报

24#
发表于 2007-11-25 23:25 | 只看该作者
原帖由 紫色 于 2007-11-25 23:09 发表
intel的智能内存+大缓存能应付office,IE,但是在一个数组就有2G的那些数值计算程序面前显然力不从心,酷睿就象个跛子,一条腿长一条腿短。


酷睿像跛子?那Opteron就可以去参加某刚闭幕不久的运动会了……
一个数组2GB?先看看一个Node的内存能不能放得下再说吧……
另外,谁说酷睿的缓存技术对于一个数组2GB的应用就无能为力了?缓存的最浅显机理就是空间重复性和时间重复性,这一点没搞清楚就来说事,还不如陪同Op一起去参赛呢
回复 支持 反对

使用道具 举报

25#
发表于 2007-11-25 23:40 | 只看该作者
原帖由 紫色 于 2007-11-25 23:09 发表
intel的智能内存+大缓存能应付office,IE,但是在一个数组就有2G的那些数值计算程序面前显然力不从心,酷睿就象个跛子,一条腿长一条腿短。




这样的算法确实不能体现L2的作用, 不是肉不行,而是这个算法确实体现不出L2的预测作用, 不信拿同频不同L2的肉比比,不会有任何区别.

for (i = 0; i < m; ++i) {
double y0 = y;
for (k = ptr; k < ptr[i+1]; ++k)
y0 += val[k] * x[ind[k]];
y = y0;
}



:w00t):

改成这样,肉立马翻盘:
for (i = 0; i < m; ++i) {
double y0 = y;
for (k = ptr; k < ptr[i+1]; ++k)
y0 += val[k] * x[ind[k]] * val[k-1] * x[ind[k-1]];
y = y0;
}
回复 支持 反对

使用道具 举报

26#
发表于 2007-11-26 00:09 | 只看该作者
一个数组2G不奇怪。
谁告诉你那些是重复性操作了?象matlab,fortran这样的语言都提供“mask矩阵”之类的东西,想预测下一个该操作的是哪个数组元素?难着呢。
回复 支持 反对

使用道具 举报

27#
发表于 2007-11-26 01:08 | 只看该作者
原帖由 紫色 于 2007-11-26 00:09 发表
一个数组2G不奇怪。
谁告诉你那些是重复性操作了?象matlab,fortran这样的语言都提供“mask矩阵”之类的东西,想预测下一个该操作的是哪个数组元素?难着呢。


2GB的矩阵mask要多少内存? 阁下
回复 支持 反对

使用道具 举报

28#
发表于 2007-11-26 03:09 | 只看该作者
你们说的这个mask矩阵什么意思?

原帖由 itany 于 2007-11-26 01:08 发表


2GB的矩阵mask要多少内存? 阁下
回复 支持 反对

使用道具 举报

29#
发表于 2007-11-26 09:10 | 只看该作者
原帖由 紫色 于 2007-11-26 00:09 发表
一个数组2G不奇怪。
谁告诉你那些是重复性操作了?象matlab,fortran这样的语言都提供“mask矩阵”之类的东西,想预测下一个该操作的是哪个数组元素?难着呢。



呵呵,你说的有道理,但也不要太极端了,不然还需要CPU缓存干什么?
回复 支持 反对

使用道具 举报

30#
发表于 2007-11-26 11:16 | 只看该作者
这些和我们没什么关系吧。
我只关心CPU的渲染能力。
回复 支持 反对

使用道具 举报

RacingPHT 该用户已被删除
31#
 楼主| 发表于 2007-11-26 13:50 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

32#
发表于 2007-11-26 14:26 | 只看该作者
原帖由 RacingPHT 于 2007-11-26 13:50 发表




拼单核心的当然不是没有可能, 比如superpi ?

但是如果是多线程的话, 大概是什么情况呢?

我当然不是指单线程,单线程E6550赢过今年能买到的任何Barcelona都没问题。
其实任何系统都是有短板的,Clovertown系统的短板就是FSB,如果一个程序在Clovertown上面大幅度落后于Barcelona或者Opteron,99%的情况是FSB满了。所以,如果针对Clovertown系统作优化,基本上就是两板斧:1. 向量化。2.把FSB使用降下来。
Opteron一样也有问题,比较大的问题就是1.NUMA,HT带宽不够。2.缓存太小。3.核心太弱。幸运的是,这些问题都不太容易造成大幅度的下降。总的来说,Opteron的短板要少一些。
所以,Opteron要击败Clovertown很简单,找一个对内存带宽需求超过11GB/s的程序,Clovertown就输定了,如果超过15GB/s,两个Opteron就可以打平4个Tigerton。反过来,只要内存带宽需求不超过11GB/s,Barcelona几乎就输定了,如果对缓存的需求在4MB到8MB/12MB之间,Barcelona就输得裤子都没有了。
很不幸,你的那篇文章中,每FLOPS需要4个Byte/s的内存带宽。这超出了任何一个系统的内存带宽和FLOPS的比值,最终所有的系统都被内存带宽限制,变成了内存带宽测试。所以你的题目改成:“Clovertown的内存性能相对它的浮点处理能力太渣了点吧”,我就没法有任何意见了。

[ 本帖最后由 Prescott 于 2007-11-26 14:30 编辑 ]
回复 支持 反对

使用道具 举报

RacingPHT 该用户已被删除
33#
 楼主| 发表于 2007-11-26 18:21 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

34#
发表于 2007-11-26 18:52 | 只看该作者
for dense matrix, cache works very well.
blas3/lapack routines can get more than 80% of cpu's peak performance.


for sparse matrix, try to buy a machine with more bandwidth is the only way.
However, flop/bw=4 is the extreme case.
原帖由 RacingPHT 于 2007-11-26 18:21 发表
受教
不过如果根本没有办法把FSB降下来, 那怎么办?你应该不会否认稀疏矩阵对科学/模拟计算的意义吧。包括稠密矩阵, 也是一样的, 算法本身就有固定的flop/bw比值。

幸好一般常用的程序, working set是大于4MB的情 ...
回复 支持 反对

使用道具 举报

35#
发表于 2007-11-26 18:54 | 只看该作者
most of vector machine have NO cache.

:p

原帖由 HardCoded 于 2007-11-26 09:10 发表



呵呵,你说的有道理,但也不要太极端了,不然还需要CPU缓存干什么?
回复 支持 反对

使用道具 举报

36#
发表于 2007-11-26 19:08 | 只看该作者
原帖由 RacingPHT 于 2007-11-26 18:21 发表
受教
不过如果根本没有办法把FSB降下来, 那怎么办?你应该不会否认稀疏矩阵对科学/模拟计算的意义吧。包括稠密矩阵, 也是一样的, 算法本身就有固定的flop/bw比值。

幸好一般常用的程序, working set是大于4MB的情 ...


降FSB还是有很多办法的,如果根本降不下来那只好认输呗,顺便阿Q一下Nehalem了。
回复 支持 反对

使用道具 举报

potomac 该用户已被删除
37#
发表于 2007-11-26 19:09 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

RacingPHT 该用户已被删除
38#
 楼主| 发表于 2007-11-26 19:30 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

39#
发表于 2007-11-26 19:31 | 只看该作者
流处理器或者是向量机中,Cache的作用是没有那么大的

楼上的,用菜羊不值得啊。不过确实也可以组成强力处理器阵列。

Google用的处理器都不是最快的,但是Google拥有的计算能力是惊人的。
回复 支持 反对

使用道具 举报

RacingPHT 该用户已被删除
40#
 楼主| 发表于 2007-11-26 19:33 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-8-9 18:46

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表