深入了解采样率、位深和比特率(上)

2020-05-02 责任编辑:皇族DJ学院 人气:352

在本文中,我们将介绍采样率和位深的基本原理,以及它们对感知音频质量时产生的影响。
如何以数字方式录制声音?
 
当声音发出时,会产生沿空气传播的压力波。如果录音设备(如麦克风)的振膜在附近,空气波会在振膜中产生振动。换能器的魔力会也将这些不断随空气波变化产生的振动转换为电信号。
 
这种连续和成比例的变化也就是“模拟”一词的由来。
 
 
由振膜本身产生的信号往往都会强度不足,人们需要使用前置的放大器来增强信号,以便可以通过各种方式来记录信号。
 
纵观历史,多种材料都被用来记录和存储信号,包括了石蜡、黑胶唱片和磁带。最终,数字方式被引入其中并变得越来越司空见惯。
 
数字系统(1和0)以采样的方式来记录模拟信号(连续可变值)。
 
低采样率和高采样率的差异
 
通过采集并储存足够多的模拟输入信号样本,数字记录可以捕获并能随后再现上述的信号。
 
典型的CD音质数字音频记录为每秒44100个样本,而在高清音频中每秒96000个样本也很常见。
 
采样的方法不止一种,但脉冲编码调制(PCM)则是事实上的标准。

什么是脉冲编码调制

 
PCM是事实上的以数字格式记录、存储模拟波的行业标准。在PCM流中,以均匀的时间间隔对音频振幅进行采样。PCM不受专利保护,任何人都可以免费使用它。
 
受专利保护的音频格式的例子有,DTS、Atmos、Dolby Digital等。
 
但是由于以下两个原因,PCM格式的音频并不常见。
 
  • 文件大小
  • 回放兼容性
 
文件大小
 
由于PCM是未经压缩的格式,录制出的文件会占用很大的空间。因此需要用有损或者无损的压缩算法来缩小文件,在保持音频保真度的同时,减小文件大小。
 
Dobly和DTS常被用于这个目的,它们是有损的压缩算法,但对文件的压缩幅度可以高达90%。
 
但不幸的是,Dobly和DTS会将PCM信道编码成比特流来进行存储,而解码回放的方式却并不完美。用这两种方法压缩的音频虽然文件较小,但不能像原始音频那样干净清晰,会导致准确性和质量下降。
 
这就是Dolby Digital TrueHD和DTS-HD Master Audio等无损格式被导入的原因,它们能够完美解码所捕获的PCM音频信号。
 
回放兼容性
 
此外,主流的操作系统(OS)本身并不支持PCM文件的播放。IBM和微软为Windows定义了Waveform Audio Format(WAV),Apple则为 Macintosh定义了Audio Interchange File Format(AIFF)。这两种格式都可以看做PCM音频格式的容器,并附带有其他信息,例如作者资料和曲目标题等。
 
保真度
 
PCM流的质量/保真度取决于两个指标
 
  • 采样率
 
  • 位深
 
这两个指标定义了数字文件对原始模拟信号的记录精度。

什么是采样率

 
回想下以前的胶片电影。
 
影片静止时其实是一张张的幻灯片,连续播放会制造出动态的幻觉。转换的速度决定了所生成动画的平滑度,转换速度越快、动画效果越好。
 
幻灯片的更换速度就是现代视频中的帧速率。
 
数字波就像是原始音频信号的快照,采样后的数字波越接近原始声波就具有越高的保真度。
 
在数字音频记录中的采样率类似于视频中的帧速率,在每个时间段中收集的声音数据(采样)越多,所捕获的数据就越接近于原始模拟音频。
 
更高的采样率可以更精确地捕获原始音频信号。
 
在典型的CD音质数字记录中,采样率为44100或者44.1KHz。要知道人耳能够听到的频率上限为20KHz,那为什么需要这么高的采样率呢?答案是奈奎斯特-香农采样定律。
 
中年的人听力水平通常为12-14KHz。
 
奈奎斯特定律
 
奈奎斯特定律也被称为奈奎斯特频率。这个定律指出,为了在采样时不遗失任何信息,必须以至少两倍于最高预期信号频率的速率进行采样。
 
这样当采样率为44.1KHz(或者说每秒44100个样本)时,可以准确再现约22KHz频率的信号。
 
其他常见采样率的例子是电话中的8KHz,或者蓝光碟片中音轨部分的96KHz到192KHz。在特殊情况下,比如录制超声波动物发出的声音时,也会用到384KHz。

什么是位深

 
计算机以1和0存储信息,这些2进制的值就是bit(位)。位数越高表示信息存储空间也就越大。
 
当信号被采样时,需要将被采集的音频信息记录在位中。这就引出了位深的概念,位深决定着可以记录多少信息。24-bit的位深可以记录更多的细微差别,因此会比16-bit位深的采样更精确。
 
让我们来详细看看以上两种位深可以记录的最大值分别是多少:
 
  • 16-bit:是2的16次方,可以记录65536级的信息
  • 24-bit:是2的24次方,可以记录16777216级的信息
 
可以看到两种位深之间存在着巨大的差异。
 
动态范围
 
位深还会对信号的动态范围产生重要影响。16-bit的数字音频最大动态范围是96dB,而24-bit的则为144dB。
 
CD音质的音频是用16-bit位深录制的,这是因为我们通常只需要让声音大到足以听见,同时又不会大到损坏设备或者耳膜。
 
对于44.1KHz的采样率,16-bit的位深足以再现普通人所需的可听频率及动态范围,这就是为什么它成为了CD采用的标准格式。

你需要192KHz/24-bit来录音吗?

 
尽管对采样率和位深没有具体的限制,但192KHz/24-bit已经成为高清音频的黄金标准,我们也以这个指标作为高保真音频的参考值。
 
那么在什么情形下需要这样的保真度呢?
 
我们已经知道采样率和位深越高,数字信号就越接近原始的模拟信号。但实际上,这还会带来更大的Headroom(动态余量)。
 
额外的Headroom
 
Headroom指的是音频信号的动态范围和位深允许的动态范围间的差异。这就好比你开着3米高的车子穿过5米净高的天桥,这样你就还有2米的空间以备不时之需。
 
16-bit的采样会为音频工程师带来96dB的动态范围,而24-bit的则会高达144dB,且实际上大多数的音频设备只会达到125dB。
 
有了额外的Headroom,音频工程师可以在更大程度上减少噪音并降低削波产生的机会,避免声音失真。
 
当位深较浅,输入的信号不能完全以数字信号表示时,就会发生削波。
 
更大的存储空间
 
除了额外的Headroom,更高的保真度也会需要更大的存储空间。
 
文件大小计算
 
我们假设是5分钟未经压缩的音频。
 
1. 首先用公式:采样率*位深*通道数来计算比特率。
 
假设是2通道的立体声
 
  • 44.1KHz/16-bit:44100*16*2=1411200bit/秒(1.4Mbps)
  • 192KHz/24-bit:192000*24*2=9216000bit/秒(9.2Mbps)
 
2. 我们使用计算得出的比特率,再乘以时长来计算所需存储空间。
 
将得出的字位除以8后得到字节数
 
  • 44.1KHz/16-bit:1.4Mbps*300秒=420Mb(52.5MB)
  • 192KHz/24-bit:9.2Mbps*300秒=2760Mb(345MB)
 
可见需要增加相当大的存储空间。
 
那什么时候需要用到192KHz/24-bit呢?
 
这取决于你需要用文件来做什么。你需要对录音进行加工吗?你有无限的存储空间吗?如果答案是Yes,那么显然应该用这个标准。如果你打算把音乐推流给听众,那么192KHz/24-bit带来的带宽占用和费用增加显然会让他们不满。
 
皇族DJ学院微信二维码
在线报名

DJ培训学校地址:中国●江苏省常州市新北区通江中路600号23-3F
Copyright©2019 dj6.cn Inc.All Rights Reserved.苏ICP备15024608号-1
江苏天亮文化传播有限公司未经授权禁止链接复制或者建立镜像丨皇族DJ学院 版权所有