NVIDIA来狠招了，NVIDIA和Intel的口水战结果

privater · 发表于 2008-5-26 12:51

印象中NVIDIA对Intel的宣传作风一直都很低调，这次IDF上两家对骂的事倒是难得一见。
从口水演变到PPT、广告，现在NVIDIA来个更狠的：建立了一个名叫优化你的PC的专区，打开里面的优化器，赫然一个GPU+CPU搭配图，更为难得是里面提供了相当完整和详细的测试参考数据。

这下那些觉得自己测试成绩有误，或者OC的人士也能在上面找到准确的数据
比起ORB那难用的搜索、大量夸张的数据，这个显得更加方便和实用

专区地址：
中文版的：http://www.nvidia.cn/object/balancedpc_cn.html
英文版的：http://www.nvidia.com/object/balancedpc.html （推荐，里面有个很华丽的宣传视频）
优化器地址：http://www.nvidia.com/content/opc/v2/configurator.asp
这个优化器好像没看见中文版的，不过上面的英文实在是很少。

视频比较大，下载地址：http://www.nvidia.com/content/opc/OPC_Header2.swf

附NVIDIA的测试平台：
Benchmark Details*

NVIDIA® GeForce®-based graphics cards used are GeForce 8400 GS with 256MB DDR2 memory, GeForce 8500 GT with 256MB GDDR3, GeForce 8600 GT with 256MB GDDR3, GeForce 9600 GT with 512MB GDDR3, and GeForce 8800 GT with 512MB GDDR3 at default clocks.

NVIDIA GPU benchmarks are run on an EVGA nForce® 790i Ultra SLI motherboard with 2 GB DDR3 system memory using Windows Vista SP1. NVIDIA GPU driver is 174.74.

Intel GMA 3100 benchmarks are run on an Asus P5K-VM motherboard (Intel G33-based) with 2 GB DDR2 system memory using Windows Vista SP1. Intel CPUs are run at default clocks. Intel graphics media accelerator driver is 15.8.0.1437.

3DMark Vantage is run in Performance mode, 3DMark 06 is at 12x10 & 1x1x setting, PCMark Vantage is run at 10x7 setting, Company of Heroes is run at 12x10 & 4x8x setting, Sims2 is run at 12x10 & 4x8x setting, and Bioshock is run at 12x10 & 4x8x setting.

Intel GMA 3100 FPS score on Bioshock, Company of Heroes, and Sims2 are considered fails, as Intel GMA 3100 is not capable of running at 12x10 with anti-aliasing. 3DMark Vantage requires DX10, which GMA 3100 does not support.

The Adobe Photoshop image processing test uses deconvolution algorithms to deblur a 1024x1024 RGB color image. The Traditional PC is tested using a CPU to run an 'Interactive Deconvolution' filter available in the Fovea Pro 4.0 software developed by Reindeer Graphics. The Optimized PC is tested using a GPU to run a 'Lucy-Richard Deconvolution' algorithm available in a CUDA-based Photoshop plug-in developed by NVIDIA.

The HD Video Encoding test measures the time required to transcode a MPEG-2 1280x720x30 @ 20Mb/S video file to the iTunes Apple TV format. The CPU is tested with iTunes to do the transcoding. The GPU is tested using the RapiHD Transcoder from Elemental Technologies.

Relative PC performance is calculated as a mean of all successfully running benchmarks of Optimized PC as compared to Traditional PC.

* Refers to PC configurators located on the following web sites: www.nvidia.com/balancedpc, www.nvidia.com/balancedpc/config, www.nvidia.com/optimizedpc, and www.nvidia.com/optimizedpc/config.

如果你比较不同的配置，你会惊喜的发现：
1.至少8500GT级别的显卡都可以支持CUDA加速和GPU编码视频，效率对于CPU来说高得多。
根据NVIDIA的惯例，就算不支持的爱好者也能强行让他支持。想想你压箱底的老显卡，说不定拿出来压片比Q6600还快。
2.8800GT级别的显卡转视频和CUDA执行效率比8500GT高得多，PS里面大概快5倍、转视频快10倍
看来以后做设计的也要败显卡了。
3.8800GT比Q6600转视频快6倍。
2小时的电影，8800GT再oc一下的话，能让你在15min内转完

综上所述：总的来说这是一次并非纯水的口水战，NVIDIA并非在吹牛，他确实有和INTEL口水战的实力。
还有什么好多说的，希望其中的优化插件能早日公布，让更多的用户享受到GPU的实惠，愿这种口水来得更猛烈一些。。。:):)

[ 本帖最后由 privater 于 2008-5-27 15:37 编辑 ]

tonyru · 发表于 2008-5-29 23:30

提示: 作者被禁止或删除内容自动屏蔽

9998702 · 发表于 2008-5-29 18:35

nvidia 斗不过 intel 的

acqwer · 发表于 2008-5-29 13:49

原帖由 jhj9 于 2008-5-29 13:41 发表

这你就错了，你以为GPU内部的Threading是干嘛的？
G80效率之所以高就是因为有一个强力的调度控制部分，而Larrabee目前来看，如何调度要靠驱动或者软件本身来进行。
CUDA给GPU的指令都是GPU自己原本的指令集，这 ...

软件方式的实现要比硬件灵活，通用性也更好，任务分配对闲着的CPU来说也不是什么负担，硬件分配效率上的优势也展现不出来。

另外，我说的是CUDA的程序移植到Larrabee上而不是Larrabee用什么兼容方式来执行（其实用兼容方式来执行也做得到，效率也未必差，类C语言的编译器明显是intel有优势）。

Edison · 发表于 2008-5-29 13:48

CUDA的开发，对程序员来说，就是给单个的SP写程序以及把程序切细到让16KB share memory尽可能塞进更多的thread，当然也可以使用到诸如TMU等单元。

jhj9 · 发表于 2008-5-29 13:41

原帖由 acqwer 于 2008-5-29 13:28 发表

GPU本身似乎也没有有任务调度的能力啊，Larrabee同样也不需要做调度，CPU总不能光看着不做事吧。

另，X86指令只是一种汇编到机器码的解释方式，和是否是适合于高并行度运算好像毫无关系。那是任务分配的事，与运 ...

这你就错了，你以为GPU内部的Threading是干嘛的？
G80效率之所以高就是因为有一个强力的调度控制部分，而Larrabee目前来看，如何调度要靠驱动或者软件本身来进行。
CUDA给GPU的指令都是GPU自己原本的指令集，这与x86是不同的，用x86单元来执行的效率目前还是问号。

acqwer · 发表于 2008-5-29 13:28

原帖由 jhj9 于 2008-5-29 13:05 发表

理论上应该如此，但是目前压缩软件没有真正做到，因为多核心之间的任务调度也是需要消耗一定额外的资源的。
现在就有这样的压缩软件，只支持双核而不支持四核，这个跟程序的设计有关系。
CUDA的代码是针对性编 ...

GPU本身似乎也没有有任务调度的能力啊，Larrabee同样也不需要做调度，CPU总不能光看着不做事吧。

另，X86指令只是一种汇编到机器码的解释方式，和是否是适合于高并行度运算好像毫无关系。那是任务分配的事，与运算器本身无关。

jhj9 · 发表于 2008-5-29 13:05

原帖由 acqwer 于 2008-5-29 12:22 发表

我理解的多线程压片是视频分成N*N的小块，一个线程压一块，先算完的核心继续算其他没有算的块。现在的视频压缩多线程难道不是这样的？

PS：既然128个sp的GPU都可以充分利用了，几十个X86的核不是更容易，CUDA的 ...

理论上应该如此，但是目前压缩软件没有真正做到，因为多核心之间的任务调度也是需要消耗一定额外的资源的。
现在就有这样的压缩软件，只支持双核而不支持四核，这个跟程序的设计有关系。
CUDA的代码是针对性编写的，程序本身就是以高并行度的计算方式来设计，与CPU还有线程之间的管理方式不同。
如果Larrabee是以支持CUDA的方式来运行，那恐怕无法发挥x86本身的效率和优势了，x86指令集这时不但不是优势，反而成为累赘。

acqwer · 发表于 2008-5-29 12:22

原帖由 jhj9 于 2008-5-29 11:44 发表

你是想说压片都是几十个片一起压？
现在的多线程程序在2-4个核的时候还好说，几十个核的时候任务该如何分配？有些核心可能先算完，有些后算完，这时该如何调度？
这些都是现在的程序一句代码都不改就能搞定的吗 ...

我理解的多线程压片是视频分成N*N的小块，一个线程压一块，先算完的核心继续算其他没有算的块。现在的视频压缩多线程难道不是这样的？

PS：既然128个sp的GPU都可以充分利用了，几十个X86的核不是更容易，CUDA的程序移植到Larrabee远比现在开发CUDA的程序容易，想想3dnow!、X64，intel直接摘桃子的事也做过不少。

[ 本帖最后由 acqwer 于 2008-5-29 12:23 编辑 ]

jhj9 · 发表于 2008-5-29 11:44

原帖由 acqwer 于 2008-5-29 11:01 发表

像压片这种多线程下几乎完全独立的操作，多核的任务分配不是交给操作系统就可以了吗？

你是想说压片都是几十个片一起压？
现在的多线程程序在2-4个核的时候还好说，几十个核的时候任务该如何分配？有些核心可能先算完，有些后算完，这时该如何调度？
这些都是现在的程序一句代码都不改就能搞定的吗？

GZboy · 发表于 2008-5-29 11:08

提示: 作者被禁止或删除内容自动屏蔽

acqwer · 发表于 2008-5-29 11:01

原帖由 jhj9 于 2008-5-29 01:02 发表

是啊，要问也是问24线程编程如何协调的问题
不过要是Larrabee的Setup、ROP、TMU都不是固定式的，那么性能差距可就跟现在的显卡差距大了。
毕竟 ...

像压片这种多线程下几乎完全独立的操作，多核的任务分配不是交给操作系统就可以了吗？

rtyou · 发表于 2008-5-29 10:40

原帖由 lptt3 于 2008-5-29 10:34 发表
呵呵~·人多讨论真好看，不过未来的生死应该掌握在微软手里。。。

在利益和实力手里

lptt3 · 发表于 2008-5-29 10:34

呵呵~·人多讨论真好看，不过未来的生死应该掌握在微软手里。。。

kingofmx200 · 发表于 2008-5-29 09:56

这里腥味越来越浓了

紫夜星辰 · 发表于 2008-5-29 05:40

争来争去没啥意思

Edison · 发表于 2008-5-29 02:14

拥有 cache coherence protocol 当然是很好的设计，但是这个东西的延伸性如何目前还不得而知，初期的Larrabee设计目标是24 cores（后来加码到32 cores），如果未来cores倍增再倍增的话，这个cache的 traffic 不知道能不能应付？traffic负荷在理论上至少是n^1/2的速度增加。

Intel选择这个设计，其实是因为它的硬件实现比较难，这使得它在竞争中可以比较有优势，对NVIDIA/AMD来说，设计一个类似Larrabee这样有coherence cache的东西是比较困难的事情，当然这其中又以NVIDIA会感到最头痛。

NVIDIA 的 CUDA ，每跑一次 kernel 都有出现一次 overhead ，为了减少 kernel 的 overhead ，最好还是把这些程序集合在一起，不然光是 kernel 的 overhead 就够大的。Dark Shikari 这里需要的是 block based 的 SAD 用于 motion estimation ，针对浮点运算的 CUDA BLAS 不会有这样的功能提供，不过 motion estimation 是比较经常使用到的 video encoding 操作，NVIDIA 应该予以集成为 CUDA 里，目前只有 sample code 供参考毕竟不是那么易用， Intel 的Ct 则有点这个意思。

Prescott · 发表于 2008-5-29 01:55

原帖由 jhj9 于 2008-5-29 01:47 发表

我现在没有时间去看而已
如果你懂为什么不写点程序来证明一下？在Intel上班这么闲吗？
要不你试试用Larrabee跑一下Crysis DX10 VeryHigh 1920* ...

还需要写程序来证明？K10/Conroe大概是什么样的性能，我只需要知道几个参数就够了。
我到现在也没有摸过PS3，但是几年前参数一公布我就知道它跑游戏跑不过Xbox360。
预测什么体系架构跑什么样的程序性能大概怎么样，本就是我工作的一部分。

jhj9 · 发表于 2008-5-29 01:47

原帖由 Prescott 于 2008-5-29 01:34 发表

笑死人了，你对Larrabee知道多少？你对CUDA知道多少？这里比我懂CUDA的不超过3个。我原先不明白GPU，以为这边都是高人，看了几天资料发现GPU区没几个人懂GPU，更没几个人懂G80为什么要这么设计。

NV比你紧张多了 ...

我现在没有时间去看而已
如果你懂为什么不写点程序来证明一下？在Intel上班这么闲吗？
要不你试试用Larrabee跑一下Crysis DX10 VeryHigh 1920*1200 4AA来看看？

Prescott · 发表于 2008-5-29 01:34

原帖由 jhj9 于 2008-5-29 01:02 发表

是啊，要问也是问24线程编程如何协调的问题
不过要是Larrabee的Setup、ROP、TMU都不是固定式的，那么性能差距可就跟现在的显卡差距大了。
毕竟 ...

笑死人了，你对Larrabee知道多少？你连Larrabee怎么设计的都不知道就敢乱喷，你还不如说火星人长得没你帅算了。

你对CUDA知道多少？这里比我懂CUDA的不超过3个。我原先不明白GPU，以为这边都是高人，看了几天资料发现GPU区没几个人懂GPU，更没几个人懂G80为什么要这么设计。

NV现在比你紧张多了，而你呢，无知者就会无畏。

[ 本帖最后由 Prescott 于 2008-5-29 01:48 编辑 ]

帐号		自动登录	找回密码
密码			注册

tonyru tonyru 当前离线积分 3 IP卡狗仔卡头像被屏蔽	74^# 发表于 2008-5-29 23:30 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
tonyru tonyru 当前离线积分 3 IP卡狗仔卡头像被屏蔽
	回复支持反对使用道具举报显身卡

GZboy GZboy 当前离线积分 19 IP卡狗仔卡头像被屏蔽	65^# 发表于 2008-5-29 11:08 \| 只看该作者提示: 作者被禁止或删除内容自动屏蔽
GZboy GZboy 当前离线积分 19 IP卡狗仔卡头像被屏蔽
	回复支持反对使用道具举报显身卡

NVIDIA来狠招了，NVIDIA和Intel的口水战结果

本帖子中包含更多资源