POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
楼主: privater
打印 上一主题 下一主题

NVIDIA来狠招了,NVIDIA和Intel的口水战结果

[复制链接]
61#
发表于 2008-5-29 09:56 | 只看该作者
这里腥味越来越浓了  
回复 支持 反对

使用道具 举报

62#
发表于 2008-5-29 10:34 | 只看该作者
呵呵~·人多讨论真好看,不过未来的生死应该掌握在微软手里。。。
回复 支持 反对

使用道具 举报

63#
发表于 2008-5-29 10:40 | 只看该作者
原帖由 lptt3 于 2008-5-29 10:34 发表
呵呵~·人多讨论真好看,不过未来的生死应该掌握在微软手里。。。


在利益和实力手里
回复 支持 反对

使用道具 举报

64#
发表于 2008-5-29 11:01 | 只看该作者
原帖由 jhj9 于 2008-5-29 01:02 发表


是啊,要问也是问24线程编程如何协调的问题
不过要是Larrabee的Setup、ROP、TMU都不是固定式的,那么性能差距可就跟现在的显卡差距大了。
毕竟 ...

像压片这种多线程下几乎完全独立的操作,多核的任务分配不是交给操作系统就可以了吗?
回复 支持 反对

使用道具 举报

头像被屏蔽
65#
发表于 2008-5-29 11:08 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

66#
发表于 2008-5-29 11:44 | 只看该作者
原帖由 acqwer 于 2008-5-29 11:01 发表

像压片这种多线程下几乎完全独立的操作,多核的任务分配不是交给操作系统就可以了吗?


你是想说压片都是几十个片一起压?
现在的多线程程序在2-4个核的时候还好说,几十个核的时候任务该如何分配?有些核心可能先算完,有些后算完,这时该如何调度?
这些都是现在的程序一句代码都不改就能搞定的吗?
回复 支持 反对

使用道具 举报

67#
发表于 2008-5-29 12:22 | 只看该作者
原帖由 jhj9 于 2008-5-29 11:44 发表


你是想说压片都是几十个片一起压?
现在的多线程程序在2-4个核的时候还好说,几十个核的时候任务该如何分配?有些核心可能先算完,有些后算完,这时该如何调度?
这些都是现在的程序一句代码都不改就能搞定的吗 ...

我理解的多线程压片是视频分成N*N的小块,一个线程压一块,先算完的核心继续算其他没有算的块。现在的视频压缩多线程难道不是这样的?

PS:既然128个sp的GPU都可以充分利用了,几十个X86的核不是更容易,CUDA的程序移植到Larrabee远比现在开发CUDA的程序容易,想想3dnow!、X64,intel直接摘桃子的事也做过不少。

[ 本帖最后由 acqwer 于 2008-5-29 12:23 编辑 ]
回复 支持 反对

使用道具 举报

68#
发表于 2008-5-29 13:05 | 只看该作者
原帖由 acqwer 于 2008-5-29 12:22 发表

我理解的多线程压片是视频分成N*N的小块,一个线程压一块,先算完的核心继续算其他没有算的块。现在的视频压缩多线程难道不是这样的?

PS:既然128个sp的GPU都可以充分利用了,几十个X86的核不是更容易,CUDA的 ...


理论上应该如此,但是目前压缩软件没有真正做到,因为多核心之间的任务调度也是需要消耗一定额外的资源的。
现在就有这样的压缩软件,只支持双核而不支持四核,这个跟程序的设计有关系。
CUDA的代码是针对性编写的,程序本身就是以高并行度的计算方式来设计,与CPU还有线程之间的管理方式不同。
如果Larrabee是以支持CUDA的方式来运行,那恐怕无法发挥x86本身的效率和优势了,x86指令集这时不但不是优势,反而成为累赘。
回复 支持 反对

使用道具 举报

69#
发表于 2008-5-29 13:28 | 只看该作者
原帖由 jhj9 于 2008-5-29 13:05 发表


理论上应该如此,但是目前压缩软件没有真正做到,因为多核心之间的任务调度也是需要消耗一定额外的资源的。
现在就有这样的压缩软件,只支持双核而不支持四核,这个跟程序的设计有关系。
CUDA的代码是针对性编 ...

GPU本身似乎也没有有任务调度的能力啊,Larrabee同样也不需要做调度,CPU总不能光看着不做事吧。

另,X86指令只是一种汇编到机器码的解释方式,和是否是适合于高并行度运算好像毫无关系。那是任务分配的事,与运算器本身无关。
回复 支持 反对

使用道具 举报

70#
发表于 2008-5-29 13:41 | 只看该作者
原帖由 acqwer 于 2008-5-29 13:28 发表

GPU本身似乎也没有有任务调度的能力啊,Larrabee同样也不需要做调度,CPU总不能光看着不做事吧。

另,X86指令只是一种汇编到机器码的解释方式,和是否是适合于高并行度运算好像毫无关系。那是任务分配的事,与运 ...


这你就错了,你以为GPU内部的Threading是干嘛的?
G80效率之所以高就是因为有一个强力的调度控制部分,而Larrabee目前来看,如何调度要靠驱动或者软件本身来进行。
CUDA给GPU的指令都是GPU自己原本的指令集,这与x86是不同的,用x86单元来执行的效率目前还是问号。
回复 支持 反对

使用道具 举报

71#
发表于 2008-5-29 13:48 | 只看该作者
CUDA的开发,对程序员来说,就是给单个的SP写程序以及把程序切细到让16KB share memory尽可能塞进更多的thread,当然也可以使用到诸如TMU等单元。
回复 支持 反对

使用道具 举报

72#
发表于 2008-5-29 13:49 | 只看该作者
原帖由 jhj9 于 2008-5-29 13:41 发表


这你就错了,你以为GPU内部的Threading是干嘛的?
G80效率之所以高就是因为有一个强力的调度控制部分,而Larrabee目前来看,如何调度要靠驱动或者软件本身来进行。
CUDA给GPU的指令都是GPU自己原本的指令集,这 ...

软件方式的实现要比硬件灵活,通用性也更好,任务分配对闲着的CPU来说也不是什么负担,硬件分配效率上的优势也展现不出来。

另外,我说的是CUDA的程序移植到Larrabee上而不是Larrabee用什么兼容方式来执行(其实用兼容方式来执行也做得到,效率也未必差,类C语言的编译器明显是intel有优势)。
回复 支持 反对

使用道具 举报

73#
发表于 2008-5-29 18:35 | 只看该作者
nvidia 斗不过 intel 的
回复 支持 反对

使用道具 举报

头像被屏蔽
74#
发表于 2008-5-29 23:30 | 只看该作者
提示: 作者被禁止或删除 内容自动屏蔽
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2026-2-6 00:24

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表