POPPUR爱换

标题: CUDA视频编码只是一神话? [打印本页]

作者: mmyj    时间: 2008-11-5 04:14
标题: CUDA视频编码只是一神话?
今天找到 小日本支持CUDA的4.6版,兴奋之余,赶紧试了一下,结果大失所望。
CPU是Q6600 OC 450X8,内存8G,Vista 64,下面用图说话:

[attach]946758[/attach]

[attach]946759[/attach]

[attach]946760[/attach]

[attach]946761[/attach]

[attach]946762[/attach]
作者: fevaoctwh    时间: 2008-11-5 04:39
提示: 作者被禁止或删除 内容自动屏蔽
作者: boa520    时间: 2008-11-5 09:08
这软件只适用CUDA解码 并不是编码
要怪就怪软件吧
作者: mmyj    时间: 2008-11-5 09:10
原帖由 fevaoctwh 于 2008-11-5 04:39 发表
到底什么情况?看不太懂……


就是打开CUDA反而比用纯CPU转换更慢啦。用相同的1080i素材转成相同的DVD格式。
作者: mmyj    时间: 2008-11-5 09:15
原帖由 boa520 于 2008-11-5 09:08 发表
这软件只适用CUDA解码 并不是编码
要怪就怪软件吧


应该是用上了解码了吧?也就是1080i的解码。编码真还没感觉到用上,因为两者转换出来的大小是一样的,画质也看不出差别。
作者: Fengsirgz    时间: 2008-11-5 11:05
Added - NVIDIA CUDA 2.0 support. Can be used with filters and the MPEG-1/2 decoder. CUDA-capable graphics card required. For more information on CUDA, CUDA supported video cards, and downloading the latest drivers, please see NVIDIA's website.

LZ应该先看看这个2.6的版本增加了些什么支持
然后再测试
CUDA只在滤镜和Mpeg-1/2解码的情况下有效
楼主怎么不把源文件的格式公布一下呢?
作者: mmyj    时间: 2008-11-5 11:37
原帖由 GOOGLEME 于 2008-11-5 10:57 发表
原来是对mpeg2支持不好 我这里自己录的1080i 5.1ch mpeg2 有些能导入 有些导入失败  威力导演和会声会影都没问题


就算CUDA不怎样,还是不用急着删,不用它就是了。小日本其它方面还是不错的。AC3的解码问题,不仅小日本有,其它如canpos的ProCoder一样存在。我个人的经验是,当转码软件不支持的时候,就借助AC3Filter等其它插件来完成。
作者: boris_lee    时间: 2008-11-5 11:41
早上自己转的一个,E3110 No OC,9600GSO 550/1375/1600,随便选了个Denoise 滤镜
FROM 1080i MPEG2  TS To PAL DVD
开启CUDA 1h 19min

关闭CUDA,还没转完,不过最终用时间应该和估计时间差不太多,3H10min左右


[ 本帖最后由 boris_lee 于 2008-11-5 11:44 编辑 ]
作者: hornbill    时间: 2008-11-5 12:20
13937帧的视频,不过几分钟,怎么会编码一个多小时,楼上数据有问题啊
作者: HuaErZ    时间: 2008-11-5 12:44
楼主发着帖子我也不知是啥意思。{lol:]
楼主在用什么显卡?如果是N卡,起码已经有了可用的软件,badaboom家庭版的破解已经出了,支持1080P h.264格式的输出。这东西只算显卡的附加功能,家庭玩玩还是不错的,如果想出商业使用的产品,还是等等专业版的或者使用更成熟的软件编码。
如果是A卡,就继续用你的A卡,没必要为CUDA换N卡,如果是A卡的话,测试怎么来的?{titter:]
作者: boris_lee    时间: 2008-11-5 12:45
原帖由 hornbill 于 2008-11-5 12:20 发表
13937帧的视频,不过几分钟,怎么会编码一个多小时,楼上数据有问题啊

Filter的问题,分辨率也比较高1080
刚才懒得等中途取消了,不过时间没什么问题,转了47多分钟后显示剩余2小时22分钟
作者: boris_lee    时间: 2008-11-5 12:48
原帖由 HuaErZ 于 2008-11-5 12:44 发表
楼主发着帖子我也不知是啥意思。{lol:]
楼主在用什么显卡?如果是N卡,起码已经有了可用的软件,badaboom家庭版的破解已经出了,支持1080P h.264格式的输出。这东西只算显卡的附加功能,家庭玩玩还是不错的,如果想 ...

图片里有,88GTS
刚才测了下另一组Filter设置下,CUDA的确比不开还慢
关闭的情况

开启的情况,估计需要32分钟左右


PS,我不是楼主{lol:]
作者: woriamd    时间: 2008-11-5 12:49
如果N卡如果支持CUDA压片的时候应该会有CUDA的分配%比显示的。很奇怪LZ的软件怎么没CUDA的提示。{sweat:]
作者: woriamd    时间: 2008-11-5 12:53
谁放个100多M的支持CUDA转换的视频原文件。大家下了后转转看结果就知道了。
作者: hornbill    时间: 2008-11-5 13:04
用CUDA完成filter功能, 需要把每帧数据通过PCIE传上传下的,IO 的开销估计不小。
作者: boris_lee    时间: 2008-11-5 13:16
原帖由 jeandja 于 2008-11-5 13:01 发表


cuda还真起副作用了?……
那是不是以后如果不使用某些特殊滤镜,还是把cuda给关掉比较好呢……

都是随便乱点了几个选项,还没有搞清楚哪些选项有正/负的影响,另外还和CPU/GPU的配置有关吧?
毕竟,Q9+94GT的品牌机和E2+98GT的高性价比游戏机都是客观存在的......
不使用除了自动DeInterlace和Resize外的任何Filter的情况
16.5min(Enable) Vs 13min(Disable)


看起来对我的配置而言CUDA在Mpeg2 Decode方面不如CPU.
优势应该只是在Filter上,好在TMPGEnc里可以选择分别开启
作者: cellwing    时间: 2008-11-5 13:44
提示: 作者被禁止或删除 内容自动屏蔽
作者: fevaoctwh    时间: 2008-11-5 13:52
提示: 作者被禁止或删除 内容自动屏蔽
作者: zhg9970025    时间: 2008-11-5 15:19
一般的家用还真用不上
作者: mmyj    时间: 2008-11-5 18:31
唉!我怎么发现现在有些人,回贴都不看原贴的。上面的贴图显卡类型、素材类型、最终转换类型都有。还有说CUDA只能做这不能做哪的,那图中的“CUDA=39.5%”是在做什么的呢?我不是N饭也不是A饭,只是希望CUDA能发挥潜力,帮助日常漫长的压片工作而已。
作者: boris_lee    时间: 2008-11-5 19:21
原帖由 mmyj 于 2008-11-5 18:31 发表
唉!我怎么发现现在有些人,回贴都不看原贴的。上面的贴图显卡类型、素材类型、最终转换类型都有。还有说CUDA只能做这不能做哪的,那图中的“CUDA=39.5%”是在做什么的呢?我不是N饭也不是A饭,只是希望CUDA能发挥潜 ...

官方是说只能做Filter和Mpeg Decode.
其实选项里也很清楚吧,两个复选框。
作者: boris_lee    时间: 2008-11-5 19:39
我发现Smart Sharpen这个滤镜CUDA的提升非常大
还有,SSE4的提升也很大,如果关闭SSE4的话,在我的配置下,CUDA和CPU MPEG Decode的差距没有刚才13VS15那么大,大概是15分VS 16分的样子。
作者: boris_lee    时间: 2008-11-5 19:58
原帖由 jeandja 于 2008-11-5 19:47 发表


关闭sse4的差距减小了?那应该是sse4副作用比较大的意思吧……

不是SSE副作用大,而是同样使用CUDA作MPEG2 解码的话,SSE4打开关闭时间不变,都是16分半左右
而不开CUDA,使用CPU做MPEG2 解码,SSE4 打开只要13分多,SSE4关闭就要15分钟了。
从我自己测得的数据综合猜测, E2+96GSO的配置打开CUDA还是不错的
作者: D65    时间: 2008-11-5 20:29
把H.264的金刚转了转,有CUDA和没CUDA时间差不多。
MPEG的黑客帝国似乎有CUDA还慢,但没转完,其实应该是差不多。显示时间可能不准。
作者: mmyj    时间: 2008-11-5 20:36
原帖由 boris_lee 于 2008-11-5 19:39 发表
我发现Smart Sharpen这个滤镜CUDA的提升非常大
还有,SSE4的提升也很大,如果关闭SSE4的话,在我的配置下,CUDA和CPU MPEG Decode的差距没有刚才13VS15那么大,大概是15分VS 16分的样子。


试了一下这个滤镜确实提升很大。看来硬解是不如纯CPU(在我的机子上是这样),而Filters好象也不是全部都支持CUDA,正在看Help文件,看看有没有说明那个支持那个不支持.
作者: boris_lee    时间: 2008-11-5 20:40
原帖由 jeandja 于 2008-11-5 20:09 发表


哦,我错误理解你的意思了:p
这么看来cuda是不是可能代替了一部分sse的指令,但是执行效率可能不如cpu呢?

不是替代了SSE指令,CUDA是达不到替代CPU指令的级别的
同样的MPEG2流 解码工作,用CUDA实现和用X86(含MMX,SSE1-4)实现而已,调用两个不同的连接库..
作者: mmyj    时间: 2008-11-5 21:01
试下来几个运算量比较大的Filters确实有很大的速度提升,如高斯模糊、反闪烁、锐化等。
作者: mmyj    时间: 2008-11-5 21:13
汗一个!降噪这个滤镜竟然不支持CUDA。估计设计者想用高斯来替代?
作者: uestczgm    时间: 2008-11-5 21:24
看来还是软件的问题亚
作者: mmyj    时间: 2008-11-5 21:58
原帖由 GOOGLEME 于 2008-11-5 21:54 发表
除非片源就质量很差  否则决不轻易使用滤镜  又是锐化又是去噪 又是加饱和对比之类的 只会让片子越压越难看


说的是,做为一个转换软件,这些功能其实用处不是很大。真要做这些处理基本上是在剪片和合成里完成。
作者: 爱老婆的傻狐狸    时间: 2008-11-5 23:04
如果这东西真能进入实用化,那还真是个人压片的黄金时代来临了啊
作者: bigbug    时间: 2008-11-6 00:20
pice瓶颈太大,造成encoder很多地方不适合使用cuda,现在所有流行编解码标准本身在定义时还没有考虑到目前的并行性会提升到如此,需要实现者自行调整结构来达到并行的目的,H.264以后标准的spec定义肯定会增加很多可以并行运算的相关算法.
作者: binbin    时间: 2008-11-6 00:37
看看{lol:]
作者: boris_lee    时间: 2008-11-6 00:48
原帖由 bigbug 于 2008-11-6 00:20 发表
pice瓶颈太大,造成encoder很多地方不适合使用cuda,现在所有流行编解码标准本身在定义时还没有考虑到目前的并行性会提升到如此,需要实现者自行调整结构来达到并行的目的,H.264以后标准的spec定义肯定会增加很多可以并 ...

我的板子还是965,估计楼主的也差不多,Q66么。
不知道换2.0的会不会有改变。
作者: ckyyii    时间: 2008-11-6 04:44
CUDA占用40% 显卡温度根本不变的 负载有多少

[ 本帖最后由 ckyyii 于 2008-11-6 05:10 编辑 ]
作者: boris_lee    时间: 2008-11-6 07:50
原帖由 ckyyii 于 2008-11-6 04:44 发表
CUDA占用40% 显卡温度根本不变的 负载有多少

那个是指CUDA在整个编码过程中占的比例罢。而且不知道算法是啥。
作者: mmyj    时间: 2008-11-6 09:20
原帖由 boris_lee 于 2008-11-6 00:48 发表

我的板子还是965,估计楼主的也差不多,Q66么。
不知道换2.0的会不会有改变。


我的是P35,也不支持2.0。不过估计就算2.0也好不到哪去。Fliters之所以有改善,应该是一帧内就可以执行并行处理,所以能体现出优势来。而视频编码,则需要在多帧间进行处理。除了带宽外,我想显存大小应该也是个重要的因素。
作者: bigbug    时间: 2008-11-6 12:54
Fliter仅仅是包含decoder模块的容器,现在cuda的瓶颈主要在于存储器间的数据拷贝,包括system memory到video memory以及video memory到GPU内部的shared memory等,现在GPU的处理单元没有cpu那样大规模的cache,所以用cuda加速时的技巧性很强。要避免大数据量的多次拷贝,否则性能不升反降。encoder内部其实包含了decoder的部分逻辑,而某些算法,比如DCT或Quant仅仅是decoder端的逆运算。
作者: boris_lee    时间: 2008-11-6 13:00
原帖由 mmyj 于 2008-11-6 09:20 发表


我的是P35,也不支持2.0。不过估计就算2.0也好不到哪去。Fliters之所以有改善,应该是一帧内就可以执行并行处理,所以能体现出优势来。而视频编码,则需要在多帧间进行处理。除了带宽外,我想显存大小应该也是个 ...

视频编码 TMPGEnc好像根本没有用CUDA.....
作者: Sinker    时间: 2008-11-6 14:58
明显是软件对CUDA技术的研究还不够深入




欢迎光临 POPPUR爱换 (https://we.poppur.com/) Powered by Discuz! X3.4