POPPUR爱换

 找回密码
 注册

QQ登录

只需一步,快速开始

手机号码,快捷登录

搜索
12
返回列表 发新帖
楼主: mmyj
打印 上一主题 下一主题

CUDA视频编码只是一神话?

[复制链接]
21#
发表于 2008-11-5 19:21 | 只看该作者
原帖由 mmyj 于 2008-11-5 18:31 发表
唉!我怎么发现现在有些人,回贴都不看原贴的。上面的贴图显卡类型、素材类型、最终转换类型都有。还有说CUDA只能做这不能做哪的,那图中的“CUDA=39.5%”是在做什么的呢?我不是N饭也不是A饭,只是希望CUDA能发挥潜 ...

官方是说只能做Filter和Mpeg Decode.
其实选项里也很清楚吧,两个复选框。
回复 支持 反对

使用道具 举报

22#
发表于 2008-11-5 19:39 | 只看该作者
我发现Smart Sharpen这个滤镜CUDA的提升非常大
还有,SSE4的提升也很大,如果关闭SSE4的话,在我的配置下,CUDA和CPU MPEG Decode的差距没有刚才13VS15那么大,大概是15分VS 16分的样子。
回复 支持 反对

使用道具 举报

23#
发表于 2008-11-5 19:58 | 只看该作者
原帖由 jeandja 于 2008-11-5 19:47 发表


关闭sse4的差距减小了?那应该是sse4副作用比较大的意思吧……

不是SSE副作用大,而是同样使用CUDA作MPEG2 解码的话,SSE4打开关闭时间不变,都是16分半左右
而不开CUDA,使用CPU做MPEG2 解码,SSE4 打开只要13分多,SSE4关闭就要15分钟了。
从我自己测得的数据综合猜测, E2+96GSO的配置打开CUDA还是不错的
回复 支持 反对

使用道具 举报

24#
发表于 2008-11-5 20:29 | 只看该作者
把H.264的金刚转了转,有CUDA和没CUDA时间差不多。
MPEG的黑客帝国似乎有CUDA还慢,但没转完,其实应该是差不多。显示时间可能不准。
回复 支持 反对

使用道具 举报

25#
 楼主| 发表于 2008-11-5 20:36 | 只看该作者
原帖由 boris_lee 于 2008-11-5 19:39 发表
我发现Smart Sharpen这个滤镜CUDA的提升非常大
还有,SSE4的提升也很大,如果关闭SSE4的话,在我的配置下,CUDA和CPU MPEG Decode的差距没有刚才13VS15那么大,大概是15分VS 16分的样子。


试了一下这个滤镜确实提升很大。看来硬解是不如纯CPU(在我的机子上是这样),而Filters好象也不是全部都支持CUDA,正在看Help文件,看看有没有说明那个支持那个不支持.
回复 支持 反对

使用道具 举报

26#
发表于 2008-11-5 20:40 | 只看该作者
原帖由 jeandja 于 2008-11-5 20:09 发表


哦,我错误理解你的意思了:p
这么看来cuda是不是可能代替了一部分sse的指令,但是执行效率可能不如cpu呢?

不是替代了SSE指令,CUDA是达不到替代CPU指令的级别的
同样的MPEG2流 解码工作,用CUDA实现和用X86(含MMX,SSE1-4)实现而已,调用两个不同的连接库..
回复 支持 反对

使用道具 举报

27#
 楼主| 发表于 2008-11-5 21:01 | 只看该作者
试下来几个运算量比较大的Filters确实有很大的速度提升,如高斯模糊、反闪烁、锐化等。
回复 支持 反对

使用道具 举报

28#
 楼主| 发表于 2008-11-5 21:13 | 只看该作者
汗一个!降噪这个滤镜竟然不支持CUDA。估计设计者想用高斯来替代?
回复 支持 反对

使用道具 举报

29#
发表于 2008-11-5 21:24 | 只看该作者
看来还是软件的问题亚
回复 支持 反对

使用道具 举报

30#
 楼主| 发表于 2008-11-5 21:58 | 只看该作者
原帖由 GOOGLEME 于 2008-11-5 21:54 发表
除非片源就质量很差  否则决不轻易使用滤镜  又是锐化又是去噪 又是加饱和对比之类的 只会让片子越压越难看


说的是,做为一个转换软件,这些功能其实用处不是很大。真要做这些处理基本上是在剪片和合成里完成。
回复 支持 反对

使用道具 举报

31#
发表于 2008-11-5 23:04 | 只看该作者
如果这东西真能进入实用化,那还真是个人压片的黄金时代来临了啊
回复 支持 反对

使用道具 举报

32#
发表于 2008-11-6 00:20 | 只看该作者
pice瓶颈太大,造成encoder很多地方不适合使用cuda,现在所有流行编解码标准本身在定义时还没有考虑到目前的并行性会提升到如此,需要实现者自行调整结构来达到并行的目的,H.264以后标准的spec定义肯定会增加很多可以并行运算的相关算法.
回复 支持 反对

使用道具 举报

33#
发表于 2008-11-6 00:37 | 只看该作者
看看{lol:]
回复 支持 反对

使用道具 举报

34#
发表于 2008-11-6 00:48 | 只看该作者
原帖由 bigbug 于 2008-11-6 00:20 发表
pice瓶颈太大,造成encoder很多地方不适合使用cuda,现在所有流行编解码标准本身在定义时还没有考虑到目前的并行性会提升到如此,需要实现者自行调整结构来达到并行的目的,H.264以后标准的spec定义肯定会增加很多可以并 ...

我的板子还是965,估计楼主的也差不多,Q66么。
不知道换2.0的会不会有改变。
回复 支持 反对

使用道具 举报

35#
发表于 2008-11-6 04:44 | 只看该作者
CUDA占用40% 显卡温度根本不变的 负载有多少

[ 本帖最后由 ckyyii 于 2008-11-6 05:10 编辑 ]
回复 支持 反对

使用道具 举报

36#
发表于 2008-11-6 07:50 | 只看该作者
原帖由 ckyyii 于 2008-11-6 04:44 发表
CUDA占用40% 显卡温度根本不变的 负载有多少

那个是指CUDA在整个编码过程中占的比例罢。而且不知道算法是啥。
回复 支持 反对

使用道具 举报

37#
 楼主| 发表于 2008-11-6 09:20 | 只看该作者
原帖由 boris_lee 于 2008-11-6 00:48 发表

我的板子还是965,估计楼主的也差不多,Q66么。
不知道换2.0的会不会有改变。


我的是P35,也不支持2.0。不过估计就算2.0也好不到哪去。Fliters之所以有改善,应该是一帧内就可以执行并行处理,所以能体现出优势来。而视频编码,则需要在多帧间进行处理。除了带宽外,我想显存大小应该也是个重要的因素。
回复 支持 反对

使用道具 举报

38#
发表于 2008-11-6 12:54 | 只看该作者
Fliter仅仅是包含decoder模块的容器,现在cuda的瓶颈主要在于存储器间的数据拷贝,包括system memory到video memory以及video memory到GPU内部的shared memory等,现在GPU的处理单元没有cpu那样大规模的cache,所以用cuda加速时的技巧性很强。要避免大数据量的多次拷贝,否则性能不升反降。encoder内部其实包含了decoder的部分逻辑,而某些算法,比如DCT或Quant仅仅是decoder端的逆运算。
回复 支持 反对

使用道具 举报

39#
发表于 2008-11-6 13:00 | 只看该作者
原帖由 mmyj 于 2008-11-6 09:20 发表


我的是P35,也不支持2.0。不过估计就算2.0也好不到哪去。Fliters之所以有改善,应该是一帧内就可以执行并行处理,所以能体现出优势来。而视频编码,则需要在多帧间进行处理。除了带宽外,我想显存大小应该也是个 ...

视频编码 TMPGEnc好像根本没有用CUDA.....
回复 支持 反对

使用道具 举报

40#
发表于 2008-11-6 14:58 | 只看该作者
明显是软件对CUDA技术的研究还不够深入
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

广告投放或合作|网站地图|处罚通告|

GMT+8, 2025-3-12 20:38

Powered by Discuz! X3.4

© 2001-2017 POPPUR.

快速回复 返回顶部 返回列表