POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
楼主: 什么?
打印 上一主题 下一主题

Rv870原本是一个核心面积和G200b一样大的大家伙,结果被砍了

[复制链接]
121#
发表于 2010-2-18 11:04 | 只看该作者
不喜欢做的那么大,风扇更是老大了
回复 支持 反对

使用道具 举报

122#
 楼主| 发表于 2010-2-18 11:12 | 只看该作者
本帖最后由 什么? 于 2010-2-18 11:19 编辑
这个说得就比较客观了 ,不像LZ那样逢N必踩逢A必挺的恶心+虚伪AFAN,我严重怀疑LZ没用过N卡!
bennylim 发表于 2010-2-18 01:09



    这帖子里我有踩N么?我只引用一个说HD5系是R600翻版的N饭别叫他如此饭N而已。我哪里做得过分了,引得你如此肆意攻击A饭
回复 支持 反对

使用道具 举报

123#
发表于 2010-2-18 12:44 | 只看该作者
这除了说明GPGPU是废材,Larrabee才是王道,对于AN之间不能说明什么
itany 发表于 2010-2-18 10:48
拉拉比与费米相比,一个是无限期延后,一个是暂时延后,我更看好费米

造不出来空说的东西,比PPT性能,比得过NV吗?
回复 支持 反对

使用道具 举报

124#
发表于 2010-2-18 12:46 | 只看该作者
回复  slr
41%已经是GPGPU 惊人的高效率了,GPU 的峰值是按照MA 算的,通常很难拼一个MA 一起做,还要考 ...
tomsmith123 发表于 2010-2-18 10:53

请问GPU跑linpack极限在45%是怎么算出来的?
回复 支持 反对

使用道具 举报

125#
发表于 2010-2-18 12:46 | 只看该作者
回复 支持 反对

使用道具 举报

126#
发表于 2010-2-18 13:07 | 只看该作者
回复 144# slr
实验结果,Linpack 是一个高斯消元解大规模线性方程,从profilling 的结果,单GPU 忽略节点间同步时间,忽略CPU GPU 时间也只能得到45%的效率。
优化最好的Linpack for GPU,也只能在少数几条计算指令中同时做MA。
回复 支持 反对

使用道具 举报

127#
发表于 2010-2-18 13:21 | 只看该作者
拉拉比与费米相比,一个是无限期延后,一个是暂时延后,我更看好费米

造不出来空说的东西,比PPT性能,比 ...
slr 发表于 2010-2-18 12:44


延期是延期,Intel QPI总线出来就比拱了三代的HT总线要好
延期是对行业和个人用户负责的态度,比A社强推TLB Bug Phenom强多了
回复 支持 反对

使用道具 举报

128#
发表于 2010-2-18 13:31 | 只看该作者
延期是延期,Intel QPI总线出来就比拱了三代的HT总线要好
延期是对行业和个人用户负责的态度,比A社强 ...
itany 发表于 2010-2-18 13:21

但是不能否认K8在HT的帮助下杀的PD路都不见。能否说,像G92一样,AMD靠HT顶了三代
回复 支持 反对

使用道具 举报

129#
发表于 2010-2-18 13:33 | 只看该作者
回复  slr
实验结果,Linpack 是一个高斯消元解大规模线性方程,从profilling 的结果,单GPU 忽略节点间同 ...
tomsmith123 发表于 2010-2-18 13:07

单GPU也得针对哪种GPU来说,A和N的硬件架构不同,效率也能直接比较?
回复 支持 反对

使用道具 举报

130#
发表于 2010-2-18 14:03 | 只看该作者
本帖最后由 tomsmith123 于 2010-2-18 14:06 编辑

回复 150# slr
主要实验是基于CUDA 的,Tesla 1060/1070,针对FireStream 9270 我们也做过,做的时间少一点,效率总体差不多。
回复 支持 反对

使用道具 举报

131#
发表于 2010-2-18 14:34 | 只看该作者
桌面应用没看出什么需要“如此强大”的GPU来帮忙运算。要我说,先把CUDA编码做好,不支持2-pass的编码方式 ...
slr 发表于 2010-2-15 20:44

我估计加上2-PASS和X264比就没比较大的速度优势了,CUDA比较鸡肋
,也就急用的时候还不错
回复 支持 反对

使用道具 举报

132#
发表于 2010-2-18 14:36 | 只看该作者
我估计加上2-PASS和X264比就没比较大的速度优势了,CUDA比较鸡肋
,也就急用的时候还不错
零号 发表于 2010-2-18 14:34

2pass后时间多一倍还是比CPU少,但是就是没有。没有2pass等于浪费大家传输带宽,质量和大小都不行
回复 支持 反对

使用道具 举报

133#
发表于 2010-2-18 14:38 | 只看该作者
回复  slr
主要实验是基于CUDA 的,Tesla 1060/1070,针对FireStream 9270 我们也做过,做的时间少一点, ...
tomsmith123 发表于 2010-2-18 14:03

这个45%是通过统计运算结构后得出的一般性结论还是?
回复 支持 反对

使用道具 举报

134#
发表于 2010-2-18 14:43 | 只看该作者
我觉得老拿费米来说事,你要分清楚,就跟统一渲染单元一样
费米是划时代的,人家注重的是科学计 ...
akcadia 发表于 2010-2-15 20:41



    科学运算你有多少机会能用得上?对于大多数人来说,说白了就要的是游戏性能好,发热量低,价格不高而已。
回复 支持 反对

使用道具 举报

135#
发表于 2010-2-18 14:50 | 只看该作者
回复 154# slr
仅仅是Linpack,其他应用普遍低于Linpack 效率。
回复 支持 反对

使用道具 举报

136#
发表于 2010-2-18 14:56 | 只看该作者
跑linpack是分布式运算的一个行业标准了。其它应用低也是大家一起低,拼拼互联带宽。
回复 支持 反对

使用道具 举报

137#
发表于 2010-2-18 15:06 | 只看该作者


On the workstation, the biggest problem that can be solved  with the available memory is N = 32320 and the Linpack  score is now 90 Gflops, 72% of peak performance.

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
回复 支持 反对

使用道具 举报

138#
发表于 2010-2-18 15:10 | 只看该作者
回复 157# slr
差别还是很大的,效率从3%到最高45%。
回复 支持 反对

使用道具 举报

139#
发表于 2010-2-18 15:11 | 只看该作者
================================================================================
HPLinpack 2.0  --  High-Performance Linpack benchmark  --   September 10, 2008
Written by A. Petitet and R. Clint Whaley,  Innovative Computing Laboratory, UTK
Modified by Piotr Luszczek, Innovative Computing Laboratory, UTK
Modified by Julien Langou, University of Colorado Denver
================================================================================

An explanation of the input/output parameters follows:
T/V    : Wall time / encoded variant.
N      : The order of the coefficient matrix A.
NB     : The partitioning blocking factor.
P      : The number of process rows.
Q      : The number of process columns.
Time   : Time in seconds to solve the linear system.
Gflops : Rate of execution for solving the linear system.

The following parameter values will be used:

N      :   24000
NB     :    1024
PMAP   : Column-major process mapping
P      :       1
Q      :       1
PFACT  :   Crout
NBMIN  :       8
NDIV   :       2
RFACT  :   Crout
BCAST  :  1ringM
DEPTH  :       0
SWAP   : Mix (threshold = 192)
L1     : transposed form
U      : transposed form
EQUIL  : yes
ALIGN  : 8 double precision words

================================================================================
T/V                N    NB     P     Q               Time                 Gflops
--------------------------------------------------------------------------------
WC01C2C8       24000  1024     1     1             112.86              8.167e+01
================================================================================

Finished      1 tests with the following results:
              1 tests completed without checking,
              0 tests skipped because of illegal input values.
--------------------------------------------------------------------------------

End of Tests.
================================================================================


geforce gtx 275 896mb + phenom ii 3.0ghz

geforce gtx 275 = 1404mhz * 240 /8 = 84.240 gflops
phenom ii 3.0ghz = 3000mhz*4*4 = 48 gflops

total = 132.24 gflops

computational efficiency = 81.67/132.24 ~ 62%
回复 支持 反对

使用道具 举报

140#
发表于 2010-2-18 15:42 | 只看该作者
为什么不用IBM代工?
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-1-30 16:27

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表