|
转一篇文章。。。
4 u& L% b: v5 Y' ?$ x数字音频基础作者:南京狐狸
Z$ f: M/ e4 ]7 X
- Q5 Z- b( n( N声音是携带信息极为重要的媒体,是多媒体技术研究的一个重要的内容。随着个人PC的发展,信息技术的日益成熟,利用计算机处理音频越来越受到人们的重视,人们越来越觉得个人计算机的声音系统的方便性。QQ在短短的时间内红遍大江南北;越来越多的音乐人开始接触和转向数字音乐等等这些,可以预言,数字音频是未来声音处理的必然趋势。然而,在数字化音频的时代,人们的数字音频的一些的基础知识还是知之甚微。本文着重从基础谈起,希望对基础知识渴望的读者有所帮助。
/ N9 O5 L9 N5 s" U% X5 S+ P! Y: D1 J) }; O! e6 Q
从留声机发明以后,人们希望通过介质保存声音的愿望变为现实,近几百年来,音频处理的发展不仅仅停留在单纯的记忆声音了,音频处理技术在90年代后期伴随着个人PC的发展和普及得到迅速的发展。大家可能都知道,传统的模拟录音是用磁介质的,比如我们常见的磁带,它是通过直接记录音频信号的波形来记录各种声音的,重放是通过唱针或放音磁头来重现声音的。显然在这个过程中,不可避免受电磁的影响很大,磁带的频率微小的差异都会对录音质量产生很大的影响,目前模拟录音的动态范围可以达到80dB。数字音频技术是通过将声波波形转换成一连串的二进制的数据来再现声音的,实现这个步骤是数/模转换器,它以每秒钟上万次的速率对声波进行采样,每一个采样都会记录下原始模拟声波在某一时刻的状态,我们称之为采样样本。将一连串样本连接起来,就可以描述一段声波了,而每一秒采样的数目我们称它为采样频率,单位是Hz(赫兹)。对于没一个采样,系统会分配一定的储存位数(bit数)来表达声波的振幅状态,称之为采样精度,采样精度越高,声音被还原的就越细腻。; ~! A# V2 b4 `- I/ F* Z
1 H9 M6 g2 F7 _+ X, n k2 t在模拟音频技术中,用模拟电压来表示声音的强弱,原因很容易理解,因为声音是机械振动,震动越强,声音越大,而花筒则是模拟录音中常用的工具,他把机械振动转换为电信号,因此,模拟音频是用模拟电压来表示声音的强弱的。如0.5V电压用数字20表示,2V用80表示,依此类推。然而,模拟电压在某个电平范围内仍有无穷多个,而数字音频只能用有限个数字来表示无穷多个电压,我们把这一种在一个电压幅度范围内用一个数字表示叫做量化。从而,我们很明显的看出,模拟电压是连续的,也可以叫做在时间上的连续。而数字表示的声音则是一个数字序列,在时间上只可能是断断续续的,因此,当把模拟声音变为数字声音时,需要每一个时间间隔在模拟录音上取一个幅度值,这一个过程称为抽样。时间的间隔称为抽样周期(其倒数是采样频率)。因此我们可以看出数字声音是经过模拟声音抽样、量化后得到的。6 ?( r: [! k/ H s7 f6 E8 `
U' n4 C3 f; Z9 G4 ] {! y% @目前,多媒体声音的形式主要有三种:波形音频、CD音频、MIDI音频。前面刚提到数字音频是经过采样、量化得到的。采样就是每隔一段时间就读一次声音信号的幅度;量化就是把采样得到的声音信号幅度值。时间上的离散叫采样,幅度上的离散叫量化。
) s ], u0 U% m$ o* w! k0 t2 y+ u* r" l0 f' c
上面,介绍了关于数字音频的一些基本知识,现在再为其中出现的相关术语做进一步的详细说明。
4 p$ A g' Y/ w1 N
5 \* C* E5 j% J4 h' m1.采样频率(Sampling Rate)
n5 L& P f$ K0 u# F9 n. b, k6 s2 g7 p" @2 l8 M' ?& a
采样频率是指将模拟声音波形数字化,每秒钟所抽取的声波幅度的样本次数,其单位为kHz(千赫兹)。采样频率高低决定了声音失真程度的大小,高采样频率意味着其存储音频的数据量越大,失真越小,反之,则上阵越大。但是,高采样频率意味着其存储音频的数据量越大,采样频率的高低是根据奈奎特采样定理和声音信号本身的最高频率决定的。该定理指出:采样频率不应低于原始声音的最高频率的2倍,这样才能把以数字表达的声音还原成原来的声音。总所周知,人耳的响应频率范围在20Hz---20kHz,根据奈奎特采样定理,为保证声音不失真,采样频率应该在40kHz左右,因此,我们经常在一些音频方面的文章上的8kHz、16kHz、44kHz就不难理解了。
3 O$ {5 E/ [: M# d$ b0 h) w. f' w+ _0 e
8 f* W' D5 t. r6 e- X% ?2.量化数据位数(也称量化级、样本尺寸) [' |/ q0 ^. W; t, D% _; j, s
R" W' [1 e7 r, R# p4 \0 Y
量化位数是每个采样点能够表示的数据范围,常用的有8位、12位、16位等,那么8位、12位、16位到底可以表示多少个不同的量化值?可以这样理解:计算机数字信号最终归于二进制数字表示,即为“0”、“1”两个数字。那么拿8位量化位数来说,即有2*2*2*2*2*2*2*2=28=256(0~255)个不同的量化值。同理,16位量化位数则有216=65536个不同的量化值,通常16位的量化级别足以表示从人耳刚听到最细微的声音到无法忍受的巨大的噪音这样的声音范围了。同样,量化位数越高,表示的声音的动态范围就越广,音质就越好,但是同样的储存的数据量也越大。
+ A# L" S7 @$ f, E- y1 i. a( C5 _" \4 Z, x$ ^
3. 量化过程
7 w. ]9 k5 X5 H3 Z
6 W# G& E O4 g: d: ~ ~* H( Y i6 H这个过程就是把整个幅度划分成有限个小幅度,每一个有限的小幅度赋予相同的一个量化值,量化的方法大致可以分成两类:. B% l7 F' l! K
7 Z/ i b% K! l1 _' V(1)均匀量化
y& q# Q r4 R% c8 O" j0 l7 x: k: ~1 l% n( d
也就是采用相同“等尺寸”来度量采样得到的幅度,这种方法对于输入信号不论大小一律采用相同的量化间隔,这种量化的方法弊端在处理语言信号时就表现的非常突出了。语言信号的处理中,大信号出现的机会并不多,这种“等尺寸”导致增加数据样本位数并不能得到充分的利用。因此,另外一个量化的方法“非均匀量化”的优势就表现出来了。9 Z, U7 j* h: a8 R5 C
5 w% U w$ o) E0 }& y- P0 B(2)非均匀量化! ]1 b7 U$ P: s" C) w4 K; H0 H% L
. w; b M5 ?3 V6 b顾名思义,就是对输入的信号采用不同的量化间隔。这样,增加的样本位数可以得到有效的利用。对于小信号采用小的量化间隔,对于大信号采用大的量化间隔,这种量化的方法可以在保证精度要求的情况下使用较少的样本位数来表示输入的信号。$ Y$ i+ @& q8 x
& m _' q3 {- A5 p4.单声道和双声道! g2 \& s8 T: ?# s- }
% V+ E7 U9 ~3 U/ Z4 E3 o1 C7 L这是我们常见的音频方面的名词,在记录音频时,每次生成一个声波数据称为单声道,每次生成两个声波数据称为双声道(又称立体声),立体声更贴近人耳的听觉要求,更加逼真。
2 W( p8 y1 o$ X7 u9 I8 z* c" G, ]7 `4 N# c
通过以上知识的介绍,我们知道,对于原始输入声音信号数字化大致可以经过采样和量化两个过程得到,我们再来多接触一些东西吧。大家知道,在计算机中的音频文件是有大小的,比如MP3通常4~7Mb,那么这是怎么计算出来的呢?下面我们来根据以下公式来推算在计算机中音频文件的大小:+ |. ?( V- e& @9 U H3 A* p3 |0 g
! _- Z" ]$ G: r% i
WAV文件每秒存储量(字节)=采样频率(HZ)*量化位数(位)*声道数/8
$ p/ i E9 e0 G; L. m% Q' A9 h0 F6 @6 A1 y6 h% w
一张标准数字唱盘(CD-DA红皮书标准)的标准采样频率为44.1kHz、量化位数为16,可以计算出每秒钟wav大小=44.1*1000*16*2/8=176400字节︽0.1682Mb,这样,如果一首5分钟的CD歌曲,那么它的大小大概是0.1682*60*5=50.468Mb,一张650Mb的CD光盘通常只存10首歌曲是不是很容易理解了呢?
) C; M* k5 W3 n, T9 d- ~8 p( r, Z" _; X2 y# }3 e6 ~) R* K- E
以上就是一个数字音频的爱好者关于数字音频的基础知识的一点认识,爱好数字音频的朋友是否从中受益了呢? |
|