POPPUR爱换

标题: NVIDIA来狠招了,NVIDIA和Intel的口水战结果 [打印本页]

作者: privater    时间: 2008-5-26 12:51
标题: NVIDIA来狠招了,NVIDIA和Intel的口水战结果
印象中NVIDIA对Intel的宣传作风一直都很低调,这次IDF上两家对骂的事倒是难得一见。
从口水 演变到PPT、广告,现在NVIDIA来个更狠的:建立了一个名叫优化你的PC的专区,打开里面的优化器,赫然一个GPU+CPU搭配图,更为难得是里面提供了相当完整和详细的测试参考数据。

这下那些觉得自己测试成绩有误,或者OC的人士也能在上面找到准确的数据
比起ORB那难用的搜索、大量夸张的数据,这个显得更加方便和实用

[attach]873956[/attach]

专区地址:
中文版的:http://www.nvidia.cn/object/balancedpc_cn.html
英文版的:http://www.nvidia.com/object/balancedpc.html (推荐,里面有个很华丽的宣传视频)
优化器地址
http://www.nvidia.com/content/opc/v2/configurator.asp
这个优化器好像没看见中文版的,不过上面的英文实在是很少。

视频比较大,下载地址:http://www.nvidia.com/content/opc/OPC_Header2.swf

附NVIDIA的测试平台:
Benchmark Details*

NVIDIA® GeForce®-based graphics cards used are GeForce 8400 GS with 256MB DDR2 memory, GeForce 8500 GT with 256MB GDDR3, GeForce 8600 GT with 256MB GDDR3, GeForce 9600 GT with 512MB GDDR3, and GeForce 8800 GT with 512MB GDDR3 at default clocks.

NVIDIA GPU benchmarks are run on an EVGA nForce® 790i Ultra SLI motherboard with 2 GB DDR3 system memory using Windows Vista SP1. NVIDIA GPU driver is 174.74.

Intel GMA 3100 benchmarks are run on an Asus P5K-VM motherboard (Intel G33-based) with 2 GB DDR2 system memory using Windows Vista SP1. Intel CPUs are run at default clocks. Intel graphics media accelerator driver is 15.8.0.1437.

3DMark Vantage is run in Performance mode, 3DMark 06 is at 12x10 & 1x1x setting, PCMark Vantage is run at 10x7 setting, Company of Heroes is run at 12x10 & 4x8x setting, Sims2 is run at 12x10 & 4x8x setting, and Bioshock is run at 12x10 & 4x8x setting.

Intel GMA 3100 FPS score on Bioshock, Company of Heroes, and Sims2 are considered fails, as Intel GMA 3100 is not capable of running at 12x10 with anti-aliasing. 3DMark Vantage requires DX10, which GMA 3100 does not support.

The Adobe Photoshop image processing test uses deconvolution algorithms to deblur a 1024x1024 RGB color image. The Traditional PC is tested using a CPU to run an 'Interactive Deconvolution' filter available in the Fovea Pro 4.0 software developed by Reindeer Graphics. The Optimized PC is tested using a GPU to run a 'Lucy-Richard Deconvolution' algorithm available in a CUDA-based Photoshop plug-in developed by NVIDIA.

The HD Video Encoding test measures the time required to transcode a MPEG-2 1280x720x30 @ 20Mb/S video file to the iTunes Apple TV format. The CPU is tested with iTunes to do the transcoding. The GPU is tested using the RapiHD Transcoder from Elemental Technologies.

Relative PC performance is calculated as a mean of all successfully running benchmarks of Optimized PC as compared to Traditional PC.

* Refers to PC configurators located on the following web sites: www.nvidia.com/balancedpc, www.nvidia.com/balancedpc/config, www.nvidia.com/optimizedpc, and www.nvidia.com/optimizedpc/config.


如果你比较不同的配置,你会惊喜的发现:
1.至少8500GT级别的显卡都可以支持CUDA加速 和GPU编码视频,效率对于CPU来说高得多。
根据NVIDIA的惯例,就算不支持的爱好者也能强行让他支持。想想你压箱底的老显卡,说不定拿出来压片比Q6600还快。
2.8800GT级别的显卡转视频和CUDA执行效率比8500GT高得多,PS里面大概快5倍、转视频快10倍
看来以后做设计的也要败显卡了。
3.8800GT比Q6600转视频快6倍。
2小时的电影,8800GT再oc一下的话,能让你在15min内转完



综上所述:总的来说这是一次并非纯水的口水战,NVIDIA并非在吹牛,他确实有和INTEL口水战的实力。
还有什么好多说的,希望其中的优化插件能早日公布,让更多的用户享受到GPU的实惠,愿这种口水来得更猛烈一些。。。:):)


[ 本帖最后由 privater 于 2008-5-27 15:37 编辑 ]
作者: 北方睡神    时间: 2008-5-26 12:56
提示: 作者被禁止或删除 内容自动屏蔽
作者: boris_lee    时间: 2008-5-26 12:56
cuda凶猛:funk:
作者: yyzjp    时间: 2008-5-26 12:58
我个人觉得NV 的CUDA 是最可怕的.

编译器层面做得很好, 就如同MS一样, 大家都很乐意用你的C编译器, GPU自然就利用的非常好.

其实Intel做拉拉比也正是说明他们的担忧.
作者: Edison    时间: 2008-5-26 13:02
CUDA其实非常需要开源社区的参与,但是开源社区传统上不喜欢CUDA的封闭环境:p
作者: ikinari    时间: 2008-5-26 13:02
提示: 作者被禁止或删除 内容自动屏蔽
作者: 93blue    时间: 2008-5-26 13:30
有点意思 。。。。。。。。。。。
作者: gz_easy    时间: 2008-5-26 13:48
因为IDF上Intel副总基辛格的一句话引来如此多的纷争估计其本人也始料未及。
作者: 三毛妮    时间: 2008-5-26 13:55
不会要玩真的哟
作者: fenchang    时间: 2008-5-26 13:58
提示: 作者被禁止或删除 内容自动屏蔽
作者: Prescott    时间: 2008-5-26 14:00
充分反映了NV内心的恐慌
作者: 阿蓝2代    时间: 2008-5-26 14:31
提示: 作者被禁止或删除 内容自动屏蔽
作者: rtyou    时间: 2008-5-26 14:32
原帖由 Prescott 于 2008-5-26 14:00 发表
充分反映了NV内心的恐慌

嗯~ 感觉Nv现在有点神经质了
作者: Edison    时间: 2008-5-26 14:34
原帖由 maxs 于 2008-5-26 14:32 发表
这专用转换器,ATI不是在X1时代就有了么,没人用的

ATI的transcoder都是CPU完成的,和GPU没关系。
作者: punk100    时间: 2008-5-26 14:37
ms会怎么想呢?这个问题值得大家思考!
作者: k10    时间: 2008-5-26 16:01
提示: 作者被禁止或删除 内容自动屏蔽
作者: gz_easy    时间: 2008-5-26 16:31
可能是言者无意听者有心。:)
作者: gz_easy    时间: 2008-5-26 16:33
原帖由 punk100 于 2008-5-26 14:37 发表
ms会怎么想呢?这个问题值得大家思考!

MS正在潜心开发Win7,没闲心看新闻了。:)
作者: ak2000    时间: 2008-5-26 16:44
:funk: :funk:
作者: bin_li    时间: 2008-5-26 17:50
[ninja>  凶猛啊!
作者: winfast007    时间: 2008-5-26 18:00
有总比没有来得好
作者: xiaxiaf    时间: 2008-5-26 19:22
提示: 作者被禁止或删除 内容自动屏蔽
作者: 54001069    时间: 2008-5-26 20:48
提示: 作者被禁止或删除 内容自动屏蔽
作者: ITers    时间: 2008-5-26 22:39
CPU和GPU不同用途的东西,没有大的可比性,如果NV说他比较牛,那他就应该拿他自己的CPU来和Intel的CPU比,这样才有说服力。仅以游戏性能,不足以衡量全部。
作者: henry9527    时间: 2008-5-26 23:25
PMP播放器的春天……
作者: rickerlian    时间: 2008-5-27 08:43
只要我们的电脑还要插cpu,那么gpu niub死了也只是个gpu

如果电脑只插gpu就ok了,那就另当别论
作者: GZboy    时间: 2008-5-27 09:35
提示: 作者被禁止或删除 内容自动屏蔽
作者: NONO    时间: 2008-5-27 10:55
原帖由 rickerlian 于 2008-5-27 08:43 发表
只要我们的电脑还要插cpu,那么gpu niub死了也只是个gpu

如果电脑只插gpu就ok了,那就另当别论


如果電腦只插著GPU,並且能做所有CPU能做的事,那這GPU該稱為GPU還是CPU?
作者: GZboy    时间: 2008-5-27 10:59
提示: 作者被禁止或删除 内容自动屏蔽
作者: keepwalking    时间: 2008-5-27 11:54
GPU取代CPU吧...以后都是单U..单片机?
作者: kingofmx200    时间: 2008-5-27 12:29
nv的口水不比双A差了:p
作者: pentium    时间: 2008-5-27 13:10
编码器.... 一直没找到下载
作者: 飞鸟真    时间: 2008-5-27 13:11
汗死,pci的if看了还不疯掉?

革命在大家迷糊时早已展开:loveliness:
作者: 飘飘叶子    时间: 2008-5-27 14:11
原帖由 NONO 于 2008-5-27 10:55 发表
如果電腦只插著GPU,並且能做所有CPU能做的事,那這GPU該稱為GPU還是CPU?

称为APU...
作者: naze    时间: 2008-5-27 14:11
原帖由 飞鸟真 于 2008-5-27 13:11 发表
汗死,pci的if看了还不疯掉?

革命在大家迷糊时早已展开:loveliness:


我只知道一点
几年后 amd活得比nv滋润
作者: gz_easy    时间: 2008-5-27 14:35
那个PicLens挺cool的。
建议用Vista的xd试一下。
作者: lzy24    时间: 2008-5-27 15:13
http://www.elementaltechnologies.com/ 逛了一下,发现RapiHD Transcoder及类似产品很多,但此类软件显然是价格不菲

软件支持不足,运算力再强也没用

[ 本帖最后由 lzy24 于 2008-5-27 15:15 编辑 ]
作者: tedsun    时间: 2008-5-27 15:42
原帖由 lzy24 于 2008-5-27 15:13 发表
http://www.elementaltechnologies.com/ 逛了一下,发现RapiHD Transcoder及类似产品很多,但此类软件显然是价格不菲

软件支持不足,运算力再强也没用

盗版,或者开源的东西很快会出来的。
其实对于CPU的应用来说,又有几个人买正版了?
压片,用Mencoder的很少吧,还是都商业软件
图像处理,用photoshop的谁买得起啊

软件支持不足,运算力再强也没用
对CPU同样适用
作者: lzy24    时间: 2008-5-27 15:54
原帖由 tedsun 于 2008-5-27 15:42 发表

盗版,或者开源的东西很快会出来的。
其实对于CPU的应用来说,又有几个人买正版了?
压片,用Mencoder的很少吧,还是都商业软件
图像处理,用photoshop的谁买得起啊

软件支持不足,运算力再强也没用
对CPU同 ...

引用E老大的话“CUDA其实非常需要开源社区的参与,但是开源社区传统上不喜欢CUDA的封闭环境”

可以说x86 CPU目前不存在软件支持不足的问题
作者: Prescott    时间: 2008-5-27 18:16
原帖由 cinlo 于 2008-5-27 15:07 发表
偶是想看看几个月后PCI是没了NFAN还是没了IFAN,哈哈,打吧,小板凳已经搬来了。。。:p :p


明年这个时候,显卡区会和现在的U区一样某种水产。
作者: fineday    时间: 2008-5-27 19:28
原帖由 Prescott 于 2008-5-27 18:16 发表


明年这个时候,显卡区会和现在的U区一样某种水产。

:funk: Prescott的意思是AMD活不过今年?
作者: haiou123    时间: 2008-5-27 20:11
提示: 作者被禁止或删除 内容自动屏蔽
作者: Prescott    时间: 2008-5-28 13:42
原帖由 fineday 于 2008-5-27 19:28 发表

:funk: Prescott的意思是AMD活不过今年?


这事和AMD有什么关系?
作者: Kim~Forever    时间: 2008-5-28 14:56
NV这样搞是找死,不过不搞是等死
作者: littlemouse    时间: 2008-5-28 21:48
等吧,无视口水,就等gpu版的x264能不能出来。
不过intel不是也在做gpu?
估计也会弄一套东西出来的吧?
作者: Edison    时间: 2008-5-28 21:55
标题: 回复 49# littlemouse 的帖子
x264开发者Dark Shikari在NVIDIA CUDA开发者论坛上问道:

http://forums.nvidia.com/index.php?showtopic=53172
作者: westlee    时间: 2008-5-28 22:02
提示: 作者被禁止或删除 内容自动屏蔽
作者: rtyou    时间: 2008-5-28 22:19
原帖由 westlee 于 2008-5-28 22:02 发表


intel就算再强,想要一次搞定nv还是有困难的,如果要死掉一家的话除了amd还有谁呢?


这三家如果有一家先死的话,一定是Nv,AMD的生存几率要大的多。当然,希望某种水产共处,不过只是良好的愿望。
作者: gzcjb    时间: 2008-5-28 22:28
假如可以真正加速ps的2D处理的话,我马上买一个高端的NV卡,这个功能对于不玩游戏的人来说实在太有用了!!
作者: jhj9    时间: 2008-5-28 22:28
原帖由 rtyou 于 2008-5-28 22:19 发表


这三家如果有一家先死的话,一定是Nv,AMD的生存几率要大的多。当然,希望某种水产共处,不过只是良好的愿望。


死不死是看什么呢?比有钱?NV的总股本已经大于AMD,比盈利?现在NV每季度盈利2亿左右,而AMD亏3亿多。
怎么比?
作者: westlee    时间: 2008-5-28 22:40
提示: 作者被禁止或删除 内容自动屏蔽
作者: rtyou    时间: 2008-5-28 22:51
原帖由 jhj9 于 2008-5-28 22:28 发表


死不死是看什么呢?比有钱?NV的总股本已经大于AMD,比盈利?现在NV每季度盈利2亿左右,而AMD亏3亿多。
怎么比?


因为Larrabee的不确定因素,一但成功,可以说是革命性的。Nv受到的冲击最大,其他硬因素其实很明显,AMD要比Nv有利。
作者: lsdcd    时间: 2008-5-28 23:42
:loveliness: :loveliness:
作者: Prescott    时间: 2008-5-29 00:58
标题: 回复 50# Edison 的帖子
我预测他不需要在Larrabee的什么论坛上问类似的问题
作者: jhj9    时间: 2008-5-29 01:02
原帖由 Prescott 于 2008-5-29 00:58 发表
我预测他不需要在Larrabee的什么论坛上问类似的问题


是啊,要问也是问24线程编程如何协调的问题
不过要是Larrabee的Setup、ROP、TMU都不是固定式的,那么性能差距可就跟现在的显卡差距大了。
毕竟GT200光是Shader就接近1T了,加上别的恐怕远远不止1T那么点
作者: Prescott    时间: 2008-5-29 01:34
原帖由 jhj9 于 2008-5-29 01:02 发表


是啊,要问也是问24线程编程如何协调的问题
不过要是Larrabee的Setup、ROP、TMU都不是固定式的,那么性能差距可就跟现在的显卡差距大了。
毕竟 ...

笑死人了,你对Larrabee知道多少?你连Larrabee怎么设计的都不知道就敢乱喷,你还不如说火星人长得没你帅算了。

你对CUDA知道多少?这里比我懂CUDA的不超过3个。我原先不明白GPU,以为这边都是高人,看了几天资料发现GPU区没几个人懂GPU,更没几个人懂G80为什么要这么设计。

NV现在比你紧张多了,而你呢,无知者就会无畏。

[ 本帖最后由 Prescott 于 2008-5-29 01:48 编辑 ]
作者: jhj9    时间: 2008-5-29 01:47
原帖由 Prescott 于 2008-5-29 01:34 发表

笑死人了,你对Larrabee知道多少?你对CUDA知道多少?这里比我懂CUDA的不超过3个。我原先不明白GPU,以为这边都是高人,看了几天资料发现GPU区没几个人懂GPU,更没几个人懂G80为什么要这么设计。

NV比你紧张多了 ...


我现在没有时间去看而已
如果你懂为什么不写点程序来证明一下?在Intel上班这么闲吗?
要不你试试用Larrabee跑一下Crysis DX10 VeryHigh 1920*1200 4AA来看看?
作者: Prescott    时间: 2008-5-29 01:55
原帖由 jhj9 于 2008-5-29 01:47 发表


我现在没有时间去看而已
如果你懂为什么不写点程序来证明一下?在Intel上班这么闲吗?
要不你试试用Larrabee跑一下Crysis DX10 VeryHigh 1920* ...


还需要写程序来证明?K10/Conroe大概是什么样的性能,我只需要知道几个参数就够了。
我到现在也没有摸过PS3,但是几年前参数一公布我就知道它跑游戏跑不过Xbox360。
预测什么体系架构跑什么样的程序性能大概怎么样,本就是我工作的一部分。
作者: Edison    时间: 2008-5-29 02:14
拥有 cache coherence protocol 当然是很好的设计,但是这个东西的延伸性如何目前还不得而知,初期的Larrabee设计目标是24 cores(后来加码到32 cores),如果未来cores倍增再倍增的话,这个cache的 traffic 不知道能不能应付?traffic负荷在理论上至少是n^1/2的速度增加。

Intel选择这个设计,其实是因为它的硬件实现比较难,这使得它在竞争中可以比较有优势,对NVIDIA/AMD来说,设计一个类似Larrabee这样有coherence cache的东西是比较困难的事情,当然这其中又以NVIDIA会感到最头痛。

NVIDIA 的 CUDA ,每跑一次 kernel 都有出现一次 overhead ,为了减少 kernel 的 overhead , 最好还是把这些程序集合在一起,不然光是 kernel 的 overhead 就够大的。Dark Shikari 这里需要的是 block based 的 SAD 用于 motion estimation  ,针对浮点运算的 CUDA BLAS 不会有这样的功能提供,不过 motion estimation 是比较经常使用到的 video encoding 操作,NVIDIA 应该予以集成为 CUDA 里,目前只有 sample code 供参考毕竟不是那么易用, Intel 的Ct 则有点这个意思。
作者: 紫夜星辰    时间: 2008-5-29 05:40
争来争去没啥意思
作者: kingofmx200    时间: 2008-5-29 09:56
这里腥味越来越浓了  
作者: lptt3    时间: 2008-5-29 10:34
呵呵~·人多讨论真好看,不过未来的生死应该掌握在微软手里。。。
作者: rtyou    时间: 2008-5-29 10:40
原帖由 lptt3 于 2008-5-29 10:34 发表
呵呵~·人多讨论真好看,不过未来的生死应该掌握在微软手里。。。


在利益和实力手里
作者: acqwer    时间: 2008-5-29 11:01
原帖由 jhj9 于 2008-5-29 01:02 发表


是啊,要问也是问24线程编程如何协调的问题
不过要是Larrabee的Setup、ROP、TMU都不是固定式的,那么性能差距可就跟现在的显卡差距大了。
毕竟 ...

像压片这种多线程下几乎完全独立的操作,多核的任务分配不是交给操作系统就可以了吗?
作者: GZboy    时间: 2008-5-29 11:08
提示: 作者被禁止或删除 内容自动屏蔽
作者: jhj9    时间: 2008-5-29 11:44
原帖由 acqwer 于 2008-5-29 11:01 发表

像压片这种多线程下几乎完全独立的操作,多核的任务分配不是交给操作系统就可以了吗?


你是想说压片都是几十个片一起压?
现在的多线程程序在2-4个核的时候还好说,几十个核的时候任务该如何分配?有些核心可能先算完,有些后算完,这时该如何调度?
这些都是现在的程序一句代码都不改就能搞定的吗?
作者: acqwer    时间: 2008-5-29 12:22
原帖由 jhj9 于 2008-5-29 11:44 发表


你是想说压片都是几十个片一起压?
现在的多线程程序在2-4个核的时候还好说,几十个核的时候任务该如何分配?有些核心可能先算完,有些后算完,这时该如何调度?
这些都是现在的程序一句代码都不改就能搞定的吗 ...

我理解的多线程压片是视频分成N*N的小块,一个线程压一块,先算完的核心继续算其他没有算的块。现在的视频压缩多线程难道不是这样的?

PS:既然128个sp的GPU都可以充分利用了,几十个X86的核不是更容易,CUDA的程序移植到Larrabee远比现在开发CUDA的程序容易,想想3dnow!、X64,intel直接摘桃子的事也做过不少。

[ 本帖最后由 acqwer 于 2008-5-29 12:23 编辑 ]
作者: jhj9    时间: 2008-5-29 13:05
原帖由 acqwer 于 2008-5-29 12:22 发表

我理解的多线程压片是视频分成N*N的小块,一个线程压一块,先算完的核心继续算其他没有算的块。现在的视频压缩多线程难道不是这样的?

PS:既然128个sp的GPU都可以充分利用了,几十个X86的核不是更容易,CUDA的 ...


理论上应该如此,但是目前压缩软件没有真正做到,因为多核心之间的任务调度也是需要消耗一定额外的资源的。
现在就有这样的压缩软件,只支持双核而不支持四核,这个跟程序的设计有关系。
CUDA的代码是针对性编写的,程序本身就是以高并行度的计算方式来设计,与CPU还有线程之间的管理方式不同。
如果Larrabee是以支持CUDA的方式来运行,那恐怕无法发挥x86本身的效率和优势了,x86指令集这时不但不是优势,反而成为累赘。
作者: acqwer    时间: 2008-5-29 13:28
原帖由 jhj9 于 2008-5-29 13:05 发表


理论上应该如此,但是目前压缩软件没有真正做到,因为多核心之间的任务调度也是需要消耗一定额外的资源的。
现在就有这样的压缩软件,只支持双核而不支持四核,这个跟程序的设计有关系。
CUDA的代码是针对性编 ...

GPU本身似乎也没有有任务调度的能力啊,Larrabee同样也不需要做调度,CPU总不能光看着不做事吧。

另,X86指令只是一种汇编到机器码的解释方式,和是否是适合于高并行度运算好像毫无关系。那是任务分配的事,与运算器本身无关。
作者: jhj9    时间: 2008-5-29 13:41
原帖由 acqwer 于 2008-5-29 13:28 发表

GPU本身似乎也没有有任务调度的能力啊,Larrabee同样也不需要做调度,CPU总不能光看着不做事吧。

另,X86指令只是一种汇编到机器码的解释方式,和是否是适合于高并行度运算好像毫无关系。那是任务分配的事,与运 ...


这你就错了,你以为GPU内部的Threading是干嘛的?
G80效率之所以高就是因为有一个强力的调度控制部分,而Larrabee目前来看,如何调度要靠驱动或者软件本身来进行。
CUDA给GPU的指令都是GPU自己原本的指令集,这与x86是不同的,用x86单元来执行的效率目前还是问号。
作者: Edison    时间: 2008-5-29 13:48
CUDA的开发,对程序员来说,就是给单个的SP写程序以及把程序切细到让16KB share memory尽可能塞进更多的thread,当然也可以使用到诸如TMU等单元。
作者: acqwer    时间: 2008-5-29 13:49
原帖由 jhj9 于 2008-5-29 13:41 发表


这你就错了,你以为GPU内部的Threading是干嘛的?
G80效率之所以高就是因为有一个强力的调度控制部分,而Larrabee目前来看,如何调度要靠驱动或者软件本身来进行。
CUDA给GPU的指令都是GPU自己原本的指令集,这 ...

软件方式的实现要比硬件灵活,通用性也更好,任务分配对闲着的CPU来说也不是什么负担,硬件分配效率上的优势也展现不出来。

另外,我说的是CUDA的程序移植到Larrabee上而不是Larrabee用什么兼容方式来执行(其实用兼容方式来执行也做得到,效率也未必差,类C语言的编译器明显是intel有优势)。
作者: 9998702    时间: 2008-5-29 18:35
nvidia 斗不过 intel 的
作者: tonyru    时间: 2008-5-29 23:30
提示: 作者被禁止或删除 内容自动屏蔽




欢迎光临 POPPUR爱换 (https://we.poppur.com/) Powered by Discuz! X3.4