Rv870原本是一个核心面积和G200b一样大的大家伙，结果被砍了

ALibra · 发表于 2010-2-18 11:04

不喜欢做的那么大，风扇更是老大了

什么？ · 发表于 2010-2-18 11:12

本帖最后由什么？于 2010-2-18 11:19 编辑

这个说得就比较客观了，不像LZ那样逢N必踩逢A必挺的恶心+虚伪AFAN，我严重怀疑LZ没用过N卡！
bennylim 发表于 2010-2-18 01:09

这帖子里我有踩N么？我只引用一个说HD5系是R600翻版的N饭别叫他如此饭N而已。我哪里做得过分了，引得你如此肆意攻击A饭

slr · 发表于 2010-2-18 12:44

这除了说明GPGPU是废材，Larrabee才是王道，对于AN之间不能说明什么
itany 发表于 2010-2-18 10:48

拉拉比与费米相比，一个是无限期延后，一个是暂时延后，我更看好费米

造不出来空说的东西，比PPT性能，比得过NV吗？

slr · 发表于 2010-2-18 12:46

回复 slr
41％已经是GPGPU 惊人的高效率了，GPU 的峰值是按照MA 算的，通常很难拼一个MA 一起做，还要考 ...
tomsmith123 发表于 2010-2-18 10:53

请问GPU跑linpack极限在45%是怎么算出来的？

cky3 · 发表于 2010-2-18 12:46

tomsmith123 · 发表于 2010-2-18 13:07

回复 144# slr
实验结果，Linpack 是一个高斯消元解大规模线性方程，从profilling 的结果，单GPU 忽略节点间同步时间，忽略CPU GPU 时间也只能得到45％的效率。
优化最好的Linpack for GPU，也只能在少数几条计算指令中同时做MA。

itany · 发表于 2010-2-18 13:21

拉拉比与费米相比，一个是无限期延后，一个是暂时延后，我更看好费米

造不出来空说的东西，比PPT性能，比 ...
slr 发表于 2010-2-18 12:44

延期是延期，Intel QPI总线出来就比拱了三代的HT总线要好
延期是对行业和个人用户负责的态度，比A社强推TLB Bug Phenom强多了

slr · 发表于 2010-2-18 13:31

延期是延期，Intel QPI总线出来就比拱了三代的HT总线要好
延期是对行业和个人用户负责的态度，比A社强 ...
itany 发表于 2010-2-18 13:21

但是不能否认K8在HT的帮助下杀的PD路都不见。能否说，像G92一样，AMD靠HT顶了三代

slr · 发表于 2010-2-18 13:33

回复 slr
实验结果，Linpack 是一个高斯消元解大规模线性方程，从profilling 的结果，单GPU 忽略节点间同 ...
tomsmith123 发表于 2010-2-18 13:07

单GPU也得针对哪种GPU来说，A和N的硬件架构不同，效率也能直接比较？

tomsmith123 · 发表于 2010-2-18 14:03

本帖最后由 tomsmith123 于 2010-2-18 14:06 编辑

回复 150# slr
主要实验是基于CUDA 的，Tesla 1060/1070，针对FireStream 9270 我们也做过，做的时间少一点，效率总体差不多。

零号 · 发表于 2010-2-18 14:34

桌面应用没看出什么需要“如此强大”的GPU来帮忙运算。要我说，先把CUDA编码做好，不支持2-pass的编码方式 ...
slr 发表于 2010-2-15 20:44

我估计加上2-PASS和X264比就没比较大的速度优势了，CUDA比较鸡肋
，也就急用的时候还不错

slr · 发表于 2010-2-18 14:36

我估计加上2-PASS和X264比就没比较大的速度优势了，CUDA比较鸡肋
，也就急用的时候还不错
零号发表于 2010-2-18 14:34

2pass后时间多一倍还是比CPU少，但是就是没有。没有2pass等于浪费大家传输带宽，质量和大小都不行

slr · 发表于 2010-2-18 14:38

回复 slr
主要实验是基于CUDA 的，Tesla 1060/1070，针对FireStream 9270 我们也做过，做的时间少一点， ...
tomsmith123 发表于 2010-2-18 14:03

这个45%是通过统计运算结构后得出的一般性结论还是？

随风飘过 · 发表于 2010-2-18 14:43

我觉得老拿费米来说事，你要分清楚，就跟统一渲染单元一样
费米是划时代的，人家注重的是科学计 ...
akcadia 发表于 2010-2-15 20:41

科学运算你有多少机会能用得上？对于大多数人来说，说白了就要的是游戏性能好，发热量低，价格不高而已。

tomsmith123 · 发表于 2010-2-18 14:50

回复 154# slr
仅仅是Linpack，其他应用普遍低于Linpack 效率。

slr · 发表于 2010-2-18 14:56

跑linpack是分布式运算的一个行业标准了。其它应用低也是大家一起低，拼拼互联带宽。

Edison · 发表于 2010-2-18 15:06

On the workstation, the biggest problem that can be solved with the available memory is N = 32320 and the Linpack score is now 90 Gflops, 72% of peak performance.

tomsmith123 · 发表于 2010-2-18 15:10

回复 157# slr
差别还是很大的，效率从3％到最高45％。

Edison · 发表于 2010-2-18 15:11

================================================================================
HPLinpack 2.0  --  High-Performance Linpack benchmark  -- September 10, 2008
Written by A. Petitet and R. Clint Whaley,  Innovative Computing Laboratory, UTK
Modified by Piotr Luszczek, Innovative Computing Laboratory, UTK
Modified by Julien Langou, University of Colorado Denver
================================================================================

An explanation of the input/output parameters follows:
T/V : Wall time / encoded variant.
N    : The order of the coefficient matrix A.
NB    : The partitioning blocking factor.
P    : The number of process rows.
Q    : The number of process columns.
Time : Time in seconds to solve the linear system.
Gflops : Rate of execution for solving the linear system.

The following parameter values will be used:

N    : 24000
NB    : 1024
PMAP : Column-major process mapping
P    :    1
Q    :    1
PFACT  : Crout
NBMIN  :    8
NDIV :    2
RFACT  : Crout
BCAST  :  1ringM
DEPTH  :    0
SWAP : Mix (threshold = 192)
L1    : transposed form
U    : transposed form
EQUIL  : yes
ALIGN  : 8 double precision words

================================================================================
T/V             N NB    P    Q             Time                Gflops
--------------------------------------------------------------------------------
WC01C2C8    24000  1024    1    1          112.86             8.167e+01
================================================================================

Finished    1 tests with the following results:
            1 tests completed without checking,
            0 tests skipped because of illegal input values.
--------------------------------------------------------------------------------

End of Tests.
================================================================================

geforce gtx 275 896mb + phenom ii 3.0ghz

geforce gtx 275 = 1404mhz * 240 /8 = 84.240 gflops
phenom ii 3.0ghz = 3000mhz*4*4 = 48 gflops

total = 132.24 gflops

computational efficiency = 81.67/132.24 ~ 62%

Loongson · 发表于 2010-2-18 15:42

为什么不用IBM代工？

帐号		自动登录	找回密码
密码			注册

Rv870原本是一个核心面积和G200b一样大的大家伙，结果被砍了

本帖子中包含更多资源

浏览过的版块