●音质标准
所谓声音的质量,是指经传输、处理后音频信号的保真度。目前,业界公认的声音质量标准分为4级,即数字激光唱盘CD-DA质量,其信号带宽为10Hz~20kHz;调频广播FM质量,其信号带宽为20Hz~15kHz;调幅广播AM质量,其信号带宽为50Hz~7kHz;电话的话音质量,其信号带宽为200Hz~3400Hz。可见,数字激光唱盘的声音质量最高,电话的话音质量最低。除了频率范围外,人们往往还用其它方法和指标来进一步描述不同用途的音质标准。
对模拟音频来说,再现声音的频率成分越多,失真与干扰越小,声音保真度越高,音质也越好。如在通信科学中,声音质量的等级除了用音频信号的频率范围外,还用失真度、信噪比等指标来衡量。 对数字音频来说,再现声音频率的成分越多,误码率越小,音质越好。通常用数码率(或存储容量)来衡量,取样频率越高、量化比特数越大,声道数越多,存储容量越大,当然保真度就高,音质就好。
声音的类别特点不同,音质要求也不一样。如,语音音质保真度主要体现在清晰、不失真、再现平面声象;乐音的保真度要求较高,营造空间声象主要体现在用多声道模拟立体环绕声,或虚拟双声道3D环绕声等方法,再现原来声源的一切声象。
音频信号的用途不同,采用压缩的质量标准也不一样。如,电话质量的音频信号采用ITU-TG·711标准,8kHz取样,8bit量化,码率64Kbps。AM广播采用ITU-TG·722标准,16kHz取样,14bit量化,码率224Kbps。高保真立体声音频压缩标准由ISO和ITU-T联合制订,CD11172-3MPEG音频标准为48kHz、44.1kHz、32kHz取样,每声道数码率32Kbps~448Kbps,适合CD-DA光盘用。
对声音质量要求过高,则设备复杂;反之,则不能满足应用。一般以“够用,又不浪费”为原则。
●音质评价方法
评价再现声音的质量有主观评价和客观评价两种方法。例如:
1.语音音质
评定语音编码质量的方法为主观评定和客观评定。目前常用的是主观评定,即以主观打分 (MOS)来度量,它分为以下五级:5(优),不察觉失真;4(良),刚察觉失真,但不讨厌;3(中),察觉失真,稍微讨厌;2(差),讨厌,但不令人反感;1(劣),极其讨厌,令人反感。一般再现语音频率若达7kHz以上,MOS可评5分。这种评价标准广泛应用于多媒体技术和通信中,如可视电话、电视会议、语音电子邮件、语音信箱等。
2.乐音音质
乐音音质的优劣取决于多种因素,如声源特性(声压、频率、频谱等)、音响器材的信号特性(如失真度、频响、动态范围、信噪比、瞬态特性、立体声分离度等)、声场特性(如直达声、前期反射声、混响声、两耳间互相关系数、基准振动、吸声率等)、听觉特性(如响度曲线、可听范围、各种听感)等。所以,对音响设备再现音质的评价难度较大。
通常用下列两种方法:一是使用仪器测试技术指标;二是凭主观聆听各种音效。由于乐音音质属性复杂,主观评价的个人色彩较浓,而现有的音响测试技术又只能从某些侧面反映其保真度。所以,迄今为止,还没有一个能真正定量反映乐音音质保真度的国际公认的评价标准。但也有报道,国际电信联盟(ITU-T)近期已批准一种客观评价音质的被称之为电子耳的新型测量方法,可对任何音响器材的音质进行客观听音评价,也可用于检测电话通讯语音编码系统的缺陷。
现将乐音音质评价方法综述如下:
(1)主观听判音效
通常,据乐音音质听感三要素,即响度、音调和愉快感的变化和组合来主观评价音质的各种属性,如低频响亮为声音丰满,高频响亮为声音明亮,低频微弱为声音平滑,高频微弱为声音清澄。下面结合声源、声场及信号特性介绍几种典型的听感。
①立体感
主要由声音的空间感(环绕感)、定位感(方向感)、层次感(厚度感)等所构成的听感,具有这些听感的声音称为立体声。自然界的各种声场本身都是富有立体感的,它是模拟声源声象最重要的一个特征。德·波尔效应证明,人耳的生理特点是:人耳在两声源的对称轴上,当声压差△p=0dB和时间差△t=0ms时,感觉两声源声象相同,分不出有两个声源;而当△p>15dB或△t>3ms时,人耳就感觉到有两个声源,声像往声压大或导前的声源移动,每5dB的声压差相当于lms的时间差。哈斯效应又进一步证明,当△t=5ms~35ms时,人耳感到有两个声源;而当近次反射声、滞后直达声或两个声源的时间差△t>50ms时,即使一次反射声(又称近次或前期反射声)或滞后声的响度比直达声或导前声的响度大许多倍,声源方位仍由直达声或导前声决定。
根据人耳的这个生理特点,只要通过对声音的强度、延时、混响、空间效应等进行适当控制和处理,在两耳人为的制造具有一定的时间差△t、相位差△θ、声压差△P的声波状态,并使这种状态和原声源在双耳处产生的声波状态完全相同,人就能真实、完整地感受到重现声音的立体感。与单声道声音相比,立体声通常具有声象分散、各声部音量分布得当、清晰度高、背景噪声低的特点。
②定位感
若声源是以左右、上下、前后不同方位录音后发送,则接收重放的声音应能将原声场中声源的方位重现出来,这就是定位感。根据人耳的生理特点,由同一声源首先到达两耳的直达声的最大时间差为0.44ms~0.5ms,同时还有一定的声压差、相位差。生理心理学证明:20Hz~200Hz低音主要靠人两耳的相位差定位,300Hz~4kHz中音主要靠声压差定位,更高的高音主要靠时间差定位。可见,定位感主要由首先到达两耳的直达声决定,而滞后到达两耳的一次反射声和经四面八方多次反射的混响声主要模拟声象的空间环绕感。
③空间感
一次反射声和多次反射混响声虽然滞后直达声,对声音方向感影响不大,但反射声总是从四面八方到达两耳,对听觉判断周围空间大小有重要影响,使人耳有被环绕包围的感觉,这就是空间感。空间感比定位感更重要。
④层次感 声音高、中、低频频响均衡,高音谐音丰富,清澈纤细而不刺耳,中音明亮突出,丰满充实而不生硬,低音厚实而无鼻音。
⑤厚度感
低音沉稳有力,重厚而不浑浊,高音不缺,音量适中,有一定亮度,混响合适,失真小。
除此之外,还有许多评价音质的听感,象力度感、亮度感、临场感、软硬感、松紧感、宽窄感等。
(2)客观测试技术指标
①失真度
谐波失真,主要引起声音发硬、发炸;而稳态或瞬态互调失真主要引起声音毛糙、尖硬和混浊。二者均使音质劣化,若失真度超过3%时,音质劣化明显。音响系统的音箱失真度最大,一般最小的失真度也要超过1%。
相位失真,主要引起1kHz以下的低频声音模糊,同时影响中频声音层次和声象定位。
抖晃失真,主要是电机转速不稳,主导轴-压带轮压力不稳,磁头拍打磁带等造成磁带震动和卷带量变化,进而使信号频率被调制,声音音调出现混浊、颤抖。抖晃通常用音调变化的均方根值表示,通常,录音机的抖晃率<0.1%,Hi-Fi录音机<0.005%,普通录像机<0.3%,视盘机<0.001%。
②频响与瞬态响应
频响,指音响设备的增益或灵敏度随信号频率变化的情况,用通频带宽度和带内不均匀度表示(如优质功放的频响1Hz~200kHz±ldB)。带宽越宽,高、低频响应越好:不均匀度越小,频率均衡性能越好。通常,30Hz~150Hz低频使声音有一定厚度基础,150Hz~500Hz中低频使声音有一定力度,300Hz~500Hz中低频声压过分加强时,声音浑浊,过分衰减时,声音乏力;500Hz~5kHz中高频使声音有一定明亮度,过分加强时,声音生硬;过分衰减时,声音散、飘;5kHz~10kHz高频段使声音有一定层次、色彩;过分加强时,声音尖刺;过分衰减时,声音暗淡、发闷。按此规律,可根据各种听感,定量调节音响系统的频响效果。
瞬态响应,是指音响系统对突变信号的跟随能力。实质上它反映脉冲信号的高次谐波失真大小,严重时影响音质的透明度和层次感。瞬态响应常用转换速率V/μs表示,指标越高,谐波失真越小。如,一般放大器的转换速率>10V/μs。
③信噪比
信噪比,表示信号与噪声电平的分贝差,用S/N或SNR(dB)表示。噪声频率的高低,信号的强弱对人耳的影响不一样。通常,人耳对4~8kHz的噪声最灵敏,弱信号比强信号受噪声影响较突出。而音响设备不同,信噪比要求也不一样,如Hi-Fi音响要求SNR>70dB,CD机要求SNR>90dB。
④声道分离度和平衡度
声道分离度,是指不同声道间立体声的隔离程度,用一个声道的信号电平与串入另一声道的信号电平差来表示。这个差值越大越好。一般要求Hi-Fi音响分离度>50dB。声道平衡度,是指两个声道的增益、频响等特性的一致性。否则,将造成声道声象的偏移。
[1] [2]
(出处:http://www.sheup.com)
[1] [2]