声音基础知识
第一章 声音基础
(选自《声音制作基础》-陈俊海)
1.1 声音的物理属性
1.1.1声波的产生与传播
物体的机械振动经媒质由近向远传播,形成声波,声波作用于人耳所引起的主观感觉形成声音。
做机械振动的物体称声源。各种固体、液体、气体等有弹性的物质都可以作传播声波的媒介,其传播速度的大小和强度取决于媒质弹性的大小,声波在固体中传播的速度比在空气中的传播速度快。
下列以空气为例,讨论声波在媒介中传播的物理过程。空气是由大量分子组成的,它具有质量和弹性,其行为像弹簧,具有可压缩性。可以用质点表示部分空气的集合,当物体发生振动时,将带动他的周围空气质点一起振动,由于空气可以被压缩,振动质点会连续不断地引起相邻质点的振动,在质点的相互作用下,振动物体周围的空气就会出现压缩和膨胀的过程,使空气形成疏密相间的分布,并逐步向外扩展,形成声波。如图1-1所示。
1.1.2频率 声速 波长 相位
(1)频率
振动体每秒振动的次数称为频率,用符号ƒ表示,频率的单位是赫兹(HZ),简称赫。振动体每秒振动一次时表示为
1 HZ =1(次/秒)
振动体每振动一次,即完成一次往复运动所需要的时间为周期,用符号T表示,单位是秒(s)。频率和周期的关系为
ƒ=1/T
发声体每秒振动次数越多,即频率越高,听音者感觉声音的音调越高,一般称之为声音尖锐;反之,频率低的声音音调低,听起来声音低沉。一般把频率为20~50HZ的声音称为超低音,50~150HZ的声音称为低音,150~500HZ的声音称为中低音,500~5000Hz的声音称为中高音,5000~20000Hz的声音称为高音。C调的“1”频率是256HZ,而高八度的“1”频率是512HZ。
(2)声速
声波在传声介质中,每秒传播的距离称为声波的传播速度,简称声速,用符号C表示,单位是米/秒(m/s)。声音在不同的介质中的传播速度是不同的,在标准大气压下,0℃的空气中,声音的速度是331.4m/s。空气的温度越高,声速越快,温度每增加1℃,声速增加0.607m/s。
声音在固体中传播的速度最快,其次是液体,再次是气体。如在水中一般是1450m/s;在钢铁中约为5000m/s。由此可见,声速决定于传声介质的性质,而与声源频率及强度无关。一般计算中,取声速c=340m/s。
(3)波长
物体或空气分子每完成一次往返运动或疏密相间的运动所经过的距离称为波长,用符号λ表示,单位是m。在一定的传声介质中,波长是由声波的频率决定的:频率高,波长短;频率低,波长长。根据频率、波长和声速的定义,三者之间有如下关系:
λ=c/ƒ
如常温下(15℃),在空气中的声波频率为100Hz时,波长为λ=c/ƒ=340/100=3.4(m);在水中的声波频率为100Hz时,波长则为λ=c/ƒ=1450/100=14.5(m)
(4)相位
这一名词说明声波在其周期运动中所达到的精确位置。相位通常以圆周的度数来计算,因而360度就相当于一个完整的运动周期。沿着时间轴画出波动的图形,能清楚地说明相位关系。从下图中可以看出,任何一个波动的起始点离其相邻波的起始点恰好是360度。这就是说明所有波峰都是互相同相。同样,所有波谷均相距360度。也就是说,它们也都是互相同相。而波峰与波谷之间则是互相反相,因为它们的相位差为180度。
这里有一个重要的问题需要弄清楚,就是同相的声音是相加的,并易于结合;而反相的声音则是相减的,并互相抵消。如图1-2所示。
图1-2 相位
1.1.3 声压 声压级
(1)声压
上面谈到物体振动带动周围媒质空气产生膨胀和压缩,所谓膨胀和压缩是相对于没有声波存在时的空气而言的,实际上,没有声波存在时空气本身存在静压力,就是大气压力。假定当地环境的大气压力接近标准大气压,一个标准大气压为101.3Pa,压力的计量单位是帕斯卡,符号为Pa。由于声波的存在,使空气中的压力变化,局部被压缩的空气的压力在原先静压力的基础上增大了,局部膨胀了的空气的压力在原先静压力的基础上减小了。所谓声压就是由于声波的存在引起空气的压力在原先的静压力的基础上增大或减小的量的有效值,这个变化的量和静压力比起来是非常小的。声压的单位也可以是Pa。根据统计,人耳能听到的1KHz声音的最小声压为0.00002Pa(或者写成2x10-5Pa),我们将此声压称为参考气压(Po)。当声压达到20Pa时我们已经觉得声音太大了,长期听这样的声音让人受不了,当然比20Pa更大的声音我们还能听,但是更难受,如果声压继续增大,可能对人耳产生永久性损伤。
(2)声压级
上面讲到人耳能听到最小声压和能忍受的最大声压相差很大,达到一百万倍以上。实际上,人耳对声音响度的感觉与声压的对数关系更接近,为了讨论方便,人们又设置了声压级(SPL或Lp)这个参数来表示声压大小的等级,用对数表示,单位为分贝(dB)。
Lp=20log10P/Po=20lgP/Po
式中 P——被指定的声压,Pa ;Po——参考声压,Pa。
当P=Po时,Lp=20lg0.00002/0.00002=20x0=0dB说明当指定的声压等于参考声压0.00002Pa时,其声压级为0dB,也就是说人耳刚刚能听到的1KHz声音的声压级为0dB。同理,当声压为1Pa时用声压级来表示就是94dB。
表1-1 典型环境的声压级
典型环境 |
声强级 |
主观感受 |
飞机起飞(60米处) |
120dB |
不堪忍受 |
打桩工地 |
110dB |
有冲击感 |
喊叫(1.5米处) |
100dB |
震耳 |
重型卡车驶过(15米处) |
90dB |
刺耳 |
城市街道 |
80dB |
喧闹 |
汽车内 |
70dB |
嘈杂 |
普通对话(1米) |
60dB |
适中 |
办公室 |
50dB |
适中 |
起居室 |
40dB |
清静 |
卧室 |
30dB |
比较安静 |
播音室 |
20dB |
很安静 |
落叶声 |
10dB |
略微察觉 |
人工消声室 |
0dB |
寂静 |
1.1.4 声波传播的状态
(1)声波的反射
声波在传播的过程中,遇到一种媒质与另一种媒质的分界面时,由于两种媒质的声学性质不一样,一部分声能在分界面改变传播方向返回到原先的媒介中去的现象叫声波的反射。
(2)声波的绕射
声波遇到墙面除了反射之外,还会沿着墙面边缘而弯曲线路向前继续传播,声波绕过墙面边缘或柱面、洞孔等继续进行传播叫声绕射,也称衍射。
声绕射与声波波长及绕射面大小有关,绕射面小于波长很多,声波会绕过物体表面,当声波波长与绕射面大小相当时,声波会有一部分产生绕射,而另一部分被阻挡的形成反射波。当声波波长比障碍物尺寸小很多时,基本被障碍物挡住。声音的绕射现象一般发生在低频段,声波在遇到柱子等小型障碍物时可以不受其干扰,绕过障碍物继续传播,而中、高频段的声波被障碍物挡住产生反射波,因此在障碍物后面的听众听不到中、高频段的直达声,只有低频可以绕过去,因此听到的低频多,声音的清晰度很差,把声场中的这一部分称为声影区。
(3)声波的散射
声波向各个方向的不规则反射,形成散射。如剧场、厅堂中的凸形墙面、表面粗糙的墙面,就是使声波碰到凸形面或高低不平面时产生散射,以调节声场效果。在声场内设置扩散体,使声音发生扩散的目的是为了使声场内的各个部位的声压级大致均匀,同时可以有效地消除声像颤动、回声一类的声场缺陷。
(4)声波的衰减
声波在介质中传播的过程中,由于介质对声波的阻碍作用,使声能造成一定的消耗,这就是声波的衰减。
(5)声波的吸收
声波的吸收是指传播声波的介质对声能的吸收作用,其实质是声能通过介质材料时进行了能量转换,如声波通过吸声材料的空隙时,声能转变为热能。
(6)声波的干涉
声波的干涉是指两个频率相同的声波互相叠加后所产生的现象,干涉的结果使空间声场有一固定分布,某些点加强,某些点减弱。如果他们的位置相同,两个声波的振幅在相同的相位情况下,将增强。如果他们的相位相反,互相抵消,如果两个声波的相位不是完全相同或相反,而是存在一定的相位差,则声波有时增加,有时减少。
干涉现象会引起空间各点声场之间很大的差异。了解了声波的干涉,在录音时应引起注意,尤其是传声器的拾声和扬声器的放声更应合理掌握干涉的调整。
图1-3 声波在室内的传播状态
1.1.5 纯音与复合音
(1)纯音
纯音(pure tone)是指由单一振动频率成分构成的声音。
(2)复合音
复合音(complex tone),是指由一种以上振动频率成分构成的声音。自然界中,纯音比较少见,因为通常情况下,物体在振动时,除整体振动外,同时还有分段振动,因而都属于复合振动。例如,琴弦在振动时,除了弦的整体在振动,其它部分,如弦的1/2、1/3、1/4段等,同时也在振动。不仅弦振动如此,空气柱振动、皮膜振动、各种各样的板振动和棒振动也基本如此。绝大多数乐器所发的音也都是复合音。
1.1.6 基音 分音 泛音 谐音
(1)基音与分音
复合音中每一个纯音成分都有特定的称谓。在物理声学中,物体作复合振动时产生的每一个声音成分称为“分音”(partial tone)。其中,物体作整体振动时产生的声音称为“第1分音”,同时又称为“基音”(fundamental tone),其它分音则依振动频率由低至高顺称为“第2分音”、“第3分音”等等。有时,基音以外的分音又称“高列分音”(upper partials)。
(2)泛音与谐音
在音乐声学领域,因为面对的振动物体多是能够发出乐音的物体,如弦或管,这些振动体高列分音与基音之间基本构成整数倍的关系,因而音乐声学将这些振动体产生的高列分音称为“泛音”(overtones)或“倍音”。因为这些泛音听起来比较和谐,故又统称为“谐音”(harmonics)。在谐音列中,基音标记为“第1谐音”,其它谐音按整数倍的顺序依次标记为“第2谐音”、“第3谐音”等等。
一般情况,复合音中的基音振动能量较强,泛音能量相对较弱,因此基因振动频率往往就决定着这个乐音的主观音高。但有时也有泛音能量强于基音的情况。譬如,当振动物体的质量很重,而激励振动体的能量又相对较弱的情况下,会出现局部振动强于整体振动的情况,这时,局部振动产生的泛音就会强于整体振动的基音。从听觉角度讲虽然这时基音的成份依然存在,但其能量相对比较弱,对听觉的影响力也弱于泛音,因此较强的那个泛音的音高就决定了这个复合音的整体高度。
1.1.7 泛音列 频谱与音色
(1)泛音列
在音乐声学和音乐理论研究中,为了便于大家理解复合音的构成,常常将基音和泛音按音高顺序排列起来,称之为“泛音列”(serial of overtone或overtones)。如果基音与泛音之间呈整数倍关系,这个音列又称“谐音列”(harmonics)。
(2)频谱
泛音数量、泛音之间的音程关系、以及泛音之间的强度关系,是体现乐器声音特征的三个重要的参量,音乐声学采用一种特定的图形方式将这三个参量之间的相互关系体现出来,这种图形就称为“频谱”(spectrum)或“声谱”(spectrum of sound)。
典型的频谱是以二维的坐标形式来体现实际声响的泛音列情况:横坐标标示声音中每个泛音的频率,纵坐标标示每个泛音的强度。图1-4所示的是钢琴A音的频谱图。
图1-4 钢琴A音的频谱图
③ 音色
音色是一种人们对声音的主观心里感觉,是声音的客观物理属性在人们的主观听感中的心理反应。
人们日常听到的语言和音乐声,都是由许多频率成份(基频加谐频)组合起来的复合音。通常情况下可以根据声音各频率成分的分布特点得到一个综合印象,即音色感觉。
1.2 人耳的听觉特性
1.2.1 人耳对频率的感知范围
发声体通过振动能产生声波,但不是所有的声波都能被人们听见,这是由于人耳耳膜与一切物体一样有一定的惯性,它与发声体的振动次数有关。只有频率在20~20000 HZ范围内的声波才能被人听到,因此,该频率范围内的声音称为可闻声。在这个频率范围以外的声波不能引起听觉,频率超过20000HZ的称作超声波,频率低于20HZ的称作次声波。实际上,只有极少部分的人能听到这两端的声音,大部分人的可听频率范围在40 HZ到16000 HZ之间。另外,人耳在不同频率区的听觉灵敏度也是不一样的。如图1-5所示。
图1-5 人耳对频率的灵敏度
1.2.2 听阈与痛阈
当声音刚好能够被听见,我们就说这个声音为最低可听界限,这个值就是可听阈。
在低音量电平时,人耳对于低于500HZ的频率不很灵敏。因此,一个40HZ声音的强度必须比500HZ的声音强度更大,才能达到最低的可听界限。
当一个声音到了使人震耳欲聋的时候,我们就说这个声音达到了最大可听界限,这个值就是疼痛阈。如图1-6所示。
如果继续增加声强,我们就会感觉到头痛。由于在听到声音与感到头痛之间没有明确的分界线,所以当某些高频声音即使离最大可听界限还有一段距离时,有些人或动物就会对这些声音表现出烦躁不安的神情。因此,疼痛阈是因人而异的。
图1-6 人耳的听觉范围
1.2.3 人耳的分辨能力
人的听觉对于声音频率变化能察觉到的最小范围称为人耳的频率分辨力,对于1KHz以下的频率为+-3Hz,对于1KHz以上的频率为△F/F=0.003,其中F为某一固定频率,△F为人耳能分辨的频率相对变化值。
听觉对声音的声压级变化能察觉到的最小变化值称为人耳的声压分辨力,一般为+-2dB。
1.2.4 掩蔽效应
人们在安静环境中能够分辨出轻微的声音,但在嘈杂的环境中却分辨不出轻微的声音,这时需要将轻微的声音增强才能听到。这种一个声音的听阈因另一声音的存在而提高的现象,称为掩蔽效应。
假设听清声音A的阈值为40dB,若同时又听见声音B,这时由于B的影响使A的阈值提高到52dB,即比原来高12dB。这个例子中,B称为掩蔽声,A称为被掩蔽声。被掩蔽声听阈提高的分贝数称为掩蔽量,即12dB为掩蔽量,52dB称为掩蔽阈。
早期的掩蔽研究是从纯音开始的,已经知道声音引起的掩蔽大体决定于声音的强度和频率,低频率的声音能有效地掩蔽高频声,但高频声对低频声的掩蔽作用不大。当两个纯音同时发声时,其掩蔽规律如下:
a.被掩蔽声的频率越接近掩蔽声,掩蔽量越大,频率相近的纯音掩蔽效果显著。最大掩蔽出现在掩蔽频率附近。
b.掩蔽声的声压级越高,掩蔽量越大,且掩蔽的频率范围越宽。实验表明,若掩蔽声增加10dB,掩蔽阈也增加10dB,两者呈线性关系,且这种关系不受频率影响,既适合于纯音,也适合复合音。
c.掩蔽声对比其频率低的纯音掩蔽作用小,而对比其频率高的纯音掩蔽作用大,即低频声容易掩蔽高频声,而高频声较难掩蔽低频声。例如:在轰隆轰隆的低频噪声环境下,人们彼此交谈极为困难;而在叮叮当当的高频噪声环境下,虽然感到声音刺耳,但仍能听懂对方的谈话。一个纯音可以被另一个纯音掩蔽,也可以被一个窄带噪声掩蔽。
1.2.5 双耳效应
人耳在头部的两侧,其作用首先表现在接受纯音信号的阈值比单耳阈值约低3dB,这可以理解为双耳共同作用的结果。
对强度和频率,双耳的辨别力都高于单耳。用声压级70dB的250Hz、1000Hz和4000Hz三种纯音实验的结果表明,双耳的差别感受性都强于单耳。两只耳朵接收声信号,无论时间、强度或者频谱,都是互不相同的,但是听到的却是一个单一的声像,这个过程就称为双耳融合。双耳听觉大都是在立体声条件的声场中产生的,声音位于周围的环境中,而从耳机中听到的声音位于人的头部。在立体声声场中,确定声源的空间位置称为定向;在用耳机时,确定声源的左右位置称为定位。
低频信号的定向是以双耳的时间差为依据,而高频信号的定向决定于两耳间的声级差。当波长大于声音从近耳传到远耳的距离时,两耳间的相位差也是有用的声源定向线索。声音绕经头部的路程为22~23cm,所以声音由近耳传到远耳约需660μs。这个时间差相当于频率1.5kHz。因此对更长的波长而言,两耳间将有一个显著的相位差,可作为有效的定向线索。
声源定位的方法是给听音者的两只耳朵送入一定差别的信号,以确定耳间差对定位的影响,即耳间时差对1.3kHz以下的频率最重要,而耳间强度差是高频定位的主要线索。由于人耳的左右对称分布,声源左右移动时,在两耳处引起的声压、时间和相位的差别比较明显,通常可以分辨出水平方向向上5°~15°范围以内的声像移动。但在垂直方向上,可能声像移动达到60°以上才能分辨出来。剧场的观众厅扩声系统中,扬声器置于台口上方,就是因为考虑到人耳左右水平方向的分辨能力远大于上下垂直方向
双耳效应在厅堂声学设计中占有重要地位,特别是在录音和扩声方面,很多声学参数都需要考虑这一因素。立体声系统就是根据人的双耳效应而发展起来的。
1.2.6 哈斯效应
当一个声场中两个声源(两个声源发出的声音是同一个音频信号)的声音传入人耳的时间差在50ms以内时,人耳不能明显辨别出两个声源的方位。人耳的听觉感受是:哪一个声源的声音首先传入人耳,那么人的听觉感觉就是全部声音都是从这个方位传来的。人耳的这种先入为主的聆听感觉特性,称为“哈斯(Hass)效应”。
当两个声音到达人耳的时间差不超过20ms时,人的听觉不会发现实际上存在有两个声源。当两个声源在方位上较接近时,时间差可达30ms而不被人的听觉所觉察。当时间差增加到35~50ms时,后到达人耳的声音将被感觉到,但此时人的听觉仍不能把两个声音分开。当时间差超过50ms时,若后到达的声音有足够的声级则会干扰先到的声音,形成回音效果。
图1-7所示为哈斯效应的几种情况。图中A、B声源采用相同的声源信号。
图1-7 哈斯效应示意图
图(a)中,声源A和B距离人耳的距离相同,人不能明显地辨别出两个声源的准确方位,主观感觉是声音来自两个声源之间,增加了空间感,人们称之为假立体声。
图(b)中,人听音的位置距A声源近,距离B声源远,听到A声源声音大,听到B声源声音小。但是,人们的心理感觉却是只有一个A声源的声音,而没有感觉到B声源的存在,即哪个声源声音强,人们就感觉全部声音都是由这个声源传出来的。
图(c)中,人距离B声源近,距A声源远,感觉到全部声音都是B声源发出的,而忽略了A声源的存在。如果将B声源切断,人们才会发现A声源声音的存在,不过由于A声源距离人较远,听到的声音小一些。如果将A声源切断,仍然感觉到声音是由B声源发出的,不过听到的声音由于切断了A声源而变小了,其感觉的方位并没有改变。
图(d)中,听音者距离A声源很近,但A声源加入延时处理后,B声源的信号先送入人耳,人感觉声源为B方向。
1.2.7 多普勒效应
当听音者与声源做相向运动(即互相靠近)时,接收到的信号波长会在瞬间变短。由于波长与频率成反比关系,波长变短,频率就会升高,所以感觉声音在变高;当听音者与声源做反向运动(即互相远离)时,波长会在瞬间变长,同理频率就会降低,所以感觉声音在变低。1842年奥地利物理学家多普勒(C.Doppler)首先从理论上解释了这种现象,所以称这种现象为多普勒效应。比如,当我们乘火车时,听到对面疾驶而来的火车鸣笛声,先是升高,然后又随着车子的驶过而降低。
1.2.8 鸡尾酒会效应
指人耳具有“过滤”或选听功能:能够自动滤掉不想听的声音,专门接收想听的声音信息。比如,在人声嘈杂的饭馆里吃饭,周围很多人都在说话,而你却可以只听见同桌朋友的谈话,对周围声响“充而不闻”;但如果你用录音机录下当时在场的所有声音,待重新播放时,你会听到你和你朋友的谈话已经淹没在周围嘈杂的声响之中,根本无法分辨谁在讲话。这是因为录音机没有人耳的“滤波功能”所致。声学上把这种现象称为“鸡尾酒会效应”。
1.3 室内声音的构成
发声体在闭室内振动,所发出的声波在室内空间形成复杂的声场。声场中某一位置上听到的声音由三部分组成:直达声、近次反射声(又称早期反射声)和混响声(又称多次反射声),如图1-8所示。
图1-8 室内声音的组成
1.3.1 直达声
直达声指从声源直接传播到听音点的声音,其传播路径是从声源到该点的直线段。在传播过程中直达声不受室内界面的影响,符合平方反比定律,即距离每增加1倍,声压级下降6dB。声源除了向听音位置按直线方向传播声音以外,同时也向四面八方辐射,这些辐射声波遇到墙面或其他较大的障碍物时,一部分被反射,一部分被吸收,而这些反射声在遇到障碍物时又会发生第二次、第三次……反射与吸收的过程,直至能量被吸收耗尽。这样在听音位置上所接收到的声音除了直达声以外还有一系列的反射声。图1-9所示为脉冲声在闭室内的响应曲线。
图1-9 脉冲声在闭室内的响应曲线
1.3.2 早期反射声
早期反射声指相对直达声延迟50ms以内到达的反射声。早期反射声到达较早,经过反射次数较少,在响应图上间隔较大且声压级也较高。
由于哈斯效应,延时在50ms内的反射声难以和直达声分开,不会互相干扰。早期反射声有助于加强直达声,特别是大厅内来自侧墙的反射声,对声音的空间感和声音洪亮感起重要作用。在大型厅堂中,可依靠早期反射声使声场均匀。
到达听者的第一次反射声与直达声的时间间隔,称作初始时间间隙(或称作预延时时间),与闭室大小有关,对声音的亲切感起主要作用。
1.3.3 混响声
混响声是室内继早期反射声之后的一系列密集而不可辨认的反射声的总体。混响声对听感的影响主要有以下几个方面:
◆ 提高了听感的响度;
◆ 给人以温暖感和力度感;
◆ 影响清晰度、融合度以及层次感;
◆ 提高声音的丰满度;
◆ 对环境感有重要影响,并对判断与声源的距离起一定作用。
从本质上讲,混响声与早期反射声一样都是经房间修饰了的非直达声。不同的是,混响声通常只能在封闭空间中形成,并且主要在混响场部分起主要作用,而在任何空间,只要有反射面存在,反射声的获得总是可能的。
1.3.4 混响时间
室内声源停止发声后,声音衰减的过程称为混响过程。混响过程用混响时间来加以度量。混响时间是指声源停止发声后,室内声能衰减60dB所经历的时间,记作T60。如图1-10所示。
图1-10 混响时间
表1-2 不同类型厅堂的最佳混响时间(500Hz)的推荐值
厅堂用途 |
混响时间(s) |
厅堂用途 |
混响时间(s) |
电影院、会议厅 |
1.0~1.2 |
电视演播厅 |
0.8~1.0 |
演讲、戏剧、话剧 |
1.0~1.4 |
语言录音 |
0.3~0.4 |
歌剧、音乐厅 |
1.5~1.8 |
音乐录音 |
1.4~1.6 |
多功能厅 |
1.3~1.5 |
多功能体育馆 |
<1.8 |
1.4 立体声
1.4.1 立体声的概念
人的听觉器官有定位功能。在一个声场里,人耳通过对声源的不同频率、不同音色、不同位置(距离、角位)的辩认(双耳效应),而产生立体声感。
通过电声换能系统,再现原发声场声源的空间特性,就是立体声再现。当然,再现只能是近似的,而不能还原。
1.4.2 立体声的种类
(1)二声道(2-0)立体声
如果用声道数量来描述立体声格式类型的话,按国际标准应表示为n-m立体声,其中第一个字母代表听众前面的扬声器数量,而第二个字母代表听众身后或侧面的扬声器数量,所以我们将二声道立体声称为2-0立体声,代表只在听众前面存在有两个扬声器来传输信号并还原一个三维立体声声场。在实际声场中的声源定位应在两个扬声器之间得到较为准确的还原,并将还原后的声源称为幻象声源。
(2)三声道(3-0)立体声
三声道立体声目前主要用于其他多声道立体声制式的基础还音设置,所以很少被单独使用。三声道立体声系统由左(L)、中(M)、右(R)三个扬声器来还原位于听众前面的声场,并根据ITU标准,L,R扬声器和听众之间的关系仍为等边三角形,M扬声器则位于中心法线的位置上,如图1-11所示。
图1-11 三声道立体声喇叭布局
(3) 四声道(3-1)立体声
四声道立体声按国际标准被称为3-1立体声,也可以遵从其他的习惯被称为LCRS立体声(LFE声道可作为选择进行添加)。3-1立体声开发的主要目的是通过在3-0立体声系统的基础上增加一个效果声道(或者说是环绕声道)来扩大在影院中观众听音的角度,该技术首先由Holman在20世纪50年代美国20世纪福克斯电影公司的产品中加以应用,并由此发展为后来的家庭电视娱乐系统。由于3-1立体声中的环绕声道信号为单声道信号,所以基本上无法全面实现360°真实的声场定位效果。如图1-12所示。
图 1-12 四声道立体声喇叭布局
(4)5.1声道(3-2)立体声
3-2环绕立体声目前不管其中的LFE声道是否存在均被广泛称为5.1环绕立体声,所以本书也直接称这种立体声制式为5.1环绕立体声系统。5.1立体声中的“.1”代表经过带宽限制处理的信号声道,通常被称为低频效果声道即LFE(Low Frequency Effect)或是超低音声道。目前有国际标准组织将5.1立体声 命名为3-2-1立体声,其中最后一位数字“1”代表LFE声道。与3-1立体声不同,在5.1立体声格式中,环绕声道是由两个扬声器进行重放的立体声信号,同时与前置三个声道(等同于上述3-0立体声)结合形成以前置为主的还音模式。这种前置为主的还音模式意味着环绕声道只负责为前置信号提供一种“空间印象”或是“效果”的支持,所以从这一点上说,尽管目前存在有许多环绕声拾音制式或通过一些信号处理设备来完成环绕信号的制作,但5.1声道标准本身并不直接支持信号在360°范围内的定位处理。同时这也是很多组织坚持使用3-2立体声模式而不是单纯的5声道立体声来对5.1环绕立体声进行标识。如图1-13所示。
图1-13 5.1声道喇叭布局
(5) 其他多声道音频格式
尽管5.1系统目前被广泛的采纳,但其他多声道格式仍然存在,尤其是采用更多的声道和扬声器数量对节目信号进行返送,以求在声音重放时覆盖更大的听音范围。这里主要介绍7.1和10.2环绕模式。
7.1声道环绕模式主要以宽银幕电影的发展为基础,为了覆盖更大的监听范围,增加了左中(CL)和右中(CR)扬声器,但主要用于剧院场所中,并不被家庭影院所采纳。采用这种还音模式最多的为SONY-SDDS影院格式,还有70mm Dolby立体声格式(最早70mm Dolby立体声格式在模拟时期只有一个环绕声道)。
10.2声道环绕模式主要由Tomlinson Holman开发,但并没有成为一种格式标准,10.2环绕在原5.1环绕扬声器摆放的基础上,另架设两个侧向音箱来拓宽两侧声场的宽度和一个后中置音箱来补偿听众正后方的中空效应,还有两个在听众上方的扬声器来还原声场高度的信号,以及根据Griesinger的建议附加一个超低音箱来覆盖更宽的听众范围,并加强低频信号的空间感。
1.5 数字声
1.5.1 数字声概述
数字化记录声音和画面的技术和现代科技紧密相关,但它的原理却要追溯到古老的机械运算装置。一切都基于一个简单的原理:任何运算都可以使用两个数字“1”和“0”来完成。这些原理也使得从古老的运算机械到今天快如闪电的计算机都使用同样的运算方法,而今天计算机的运算能力都源于“芯片”。
那些电子硅芯片的运算能力和速度自1970年以来突飞猛进,但直到最近几年,它们的存储能力和速度才满足了后期声画制作的需要。
无论是声音还是图像,所谓的数字化革命都依赖于称为模拟-数字转换器的设备(也称为A/D转换器或者ADC),这是一个将输入的模拟信号转换成数字信号输出的装置,其工作原理为,首先将声音信号分解成两个独立的信息:一个记录声音信号的位置,即每经过一段特定的时间就记录一次;另一个则记录时刻信号的强度,即在该时刻声音有多响。这种对位置和幅度的测量每秒进行数万次。这个时间参数,也就是声音被取样的速度,叫做采样频率,记录下信号幅度的过程称为量化。
数字信号工作时只可能取两个值:开或关,这使得记录下的信息非正即负,系统中引入的噪声可以完全忽略不计,因为它们不会影响记录下来的那两个值。基础的数字信息单元是“位”(二进制元),其状态只可能是“0”或者“1”,或者对于工程师来说是“低”和“高”,这两种状态可以用很多种方式表示,如电压值或者光盘上深度不一的凹坑(DVD就是这样记录信息的)。
数字信息可以借助电子线路记录到磁带和光盘上,然后毫无损失地还原,但必须和最初使用的采样频率一致。即使频率只是有一点点小小的变化,系统也会工作不正常——就会产生同步的“时钟错误”,可能会导致信号无法还原。
除非信号过载,数字记录声音(和画面)是无失真的。一旦信号过载就会造成严重的失真,甚至是无声。实际上,数字录音最大的优势在于不断复制的过程中,音质不会有任何损失,而这一点则恰恰是后期制作过程中最理想的需求。
1.5.2 数字声的质量参数
(1) 采样率
录音比特数据流的采样率直接影响了音频数字化过程中对所录制声音的解析力。就如同捕获动态图像一样,如果你在移动它的过程中进行更多的采样,你就能更准确地去描述这个图像。但一方面,如果你采样的数量过少,那么它的解析力就会不合标准甚至导致损耗;另一方面,采样率过高会导致声音文件频率响应超过人耳所能察觉到的频响范围,造成文件占用过大的硬盘空间。除了采用业界标准的采样率外,你还要自己决定哪一种采样率最符合你的制作要求。虽然还有一些其他的采样率标准存在,但是以下这些是最常应用在专业工作室、中小型工作室和一般音频节目制作的标准:
= 1 \* GB3 ① 32kHz——这种采样率常用于广播电台通过卫星来传送和接收数字信号。由于它的
总带宽只有15kHz,对数据存储容量的需求也不高,因此有些设备也用它来节省内存。虽然这种采样率一般不用于专业领域,但是如果使用高质量的AD转换器的话,32k所能达到的声音质量还是能够给人以惊喜。
= 2 \* GB3 ② 44.1kHz——长期以来专业音频及消费产品的标准采样率,是CD唱片标准规定
的采样率。由于带宽可以达到20kHz,44.1kHz的采样率被认为是专业音频里面的最低采样率。如果有高质量的A/D转换器,这种采样率能够无损地录制声音并且占用存储空间最少。
= 3 \* GB3 ③ 48kHz——广泛应用于电视节目的后期制作。这种采样率标准很早就开始在专业音
频应用中使用(尤其对于硬件数字音频设备而言)。
= 4 \* GB3 ④ 96kHz——随着24bit录音能力的实现,更高采样率和量化精度的录音变为可行,
能够以96kHz甚至更高的采样率进行编码(如96kHz/24bit)。同时,96kHz也是DVD-audio产品所支持的采样率。
= 5 \* GB3 ⑤