监听延迟（到底能有多低？）

2017-11-22

作者：Joe Albano
编译：3asic

很多人都知道监听延迟是大多数制作人在面对的问题，但是你知道它的原理吗？那就来看 Joe Albano 为大家详细解释吧。
最新最尖端的计算机高速输入输出接口 Thunderbolt（雷电）和 USB3 使得超低延迟变成了可能，设备制造商也在抓紧应用以获得自己的产品优势。但不像一些精通数字音频宿主的技术人员，一般的制作人和录音工程师大多都对延迟只有一些基本认知。当然他们知道在大多数情况下，拥有低延迟是一件“好事”，但他们不一定知道有多低比较合适，或者这些延迟的区别在实际应用上具有什么影响。下面是一些我们在确定数字音频宿主环境下合适的延迟设置时，需要注意的一些事项。

延迟
让我们老生常谈一下：监听延迟是在数字音频经过计算机（数字音频宿主）处理时不可避免会出现的现象。技术上来说，延迟的意思是“等待时间”，是音频在任何数字音频设备经过录制、处理、回放的过程中处理信息所产生的时间。延迟是不可避免的，但延迟的时间可以小到人耳完全无法分辨，不过有的时候也会大到让音乐人在戴着耳机时感受到明显的“回声“效果。不过这样的延迟在简单的回放中（比如在没有人实时录制、表演，或者进行缩混时），一般完全不会让人察觉。但是在实时录制过程中，乐手或是歌手在耳机里实时监听数字音频宿主中返回的信号时，过大的延迟时间是会被人轻易注意到的，同时也可能会引发各式各样的问题。
有一些技术上的原因会导致音频的延迟。音频接口中的“模拟-数字”或是“数字-模拟”转换器会产生一些很小量的延迟，但这样的延迟基本只会有一毫秒左右，在总体的延迟中完全可以被忽略。大部分音频延迟主要是因为数字音频信号在录制和回放的时候，数据从缓慢的机械硬盘到内存之间的交换过程。

内存缓冲

内存缓冲是为了保证数据交换时的可靠性，不会因为读取/写入速度不均而导致无法同步造成的“噼啪”声。这是需要在数字音频宿主中的音频设置中确定的数值——内存缓冲的大小，以数字采样的数量为单位。

宿主缓冲设定

较大的缓冲值会让计算机工作的更加得心应手，处理音频的时候会更加可靠，不会出现“噼啪”声，但会产生时长可观的音频延迟，因为需要在内存中缓冲、处理的音频采样数量较大。较小的缓冲值会减小这种恼人的延迟，但是每一台计算机都有它的极限，超过这个信号处理能力的极限，“噼啪”声或是更严重的故障声就会出现。这样的问题有时是可以被重现的，但有时却是间歇性出现（让找到性能瓶颈的过程变得更加艰难），但它就代表计算机达到了它的处理性能极限。更快的接口速度一般是稳定性能下音频延迟的瓶颈所在，但是如果计算机中某一个部分的性能不够好（比如 5400 转的机械硬盘，或是没有什么剩余空间的硬盘），那这也会成为音频延迟的决定性因素。
自然的，音乐是时间的艺术，没有人希望在录制最好表演的时候出现过大的音频延迟，影响乐手的发挥，所以至少在录音过程中，把延迟设定为可能的最小值是非常重要的。当然某些时候我们有另外的解决方案，比如零延迟的模拟监听回放方案，但是由于现在数字音频技术的广泛应用，我假设几乎所有的录音都是经过数字音频宿主的，所以延迟设定是整套系统中非常重要的部分。

多大才是过大？
人类并不能很明显的区分非常小的延迟。一般来说，小于 10 - 12 毫秒的延迟一般不会被人所察觉。如果表演者在监听自己的声音时出现 10 - 12 毫秒以下的延迟，那么一般来说这样的延迟会下意识的被人脑忽略成接收信息时产生的延迟，他们也会在下意识中适应这样的延迟，在和其他部分的配合中也会处于良好的同步状态。
让我们再说得深入一些，声学上来说，在乐手齐聚一室进行演奏的时候，总会有一些由于声速而产生的延迟会出现，乐手自身也会下意识的适应着这样的环境。声波在空气中传输的速度大概在每毫秒 1 英尺左右。所以如果两个乐手在房间中相距 8 英尺的距离，那么乐手 A 听到乐手 B 演奏的内容的时间，是乐手 B 实际演奏时间的 8 毫秒之后，反之亦然，当然他们都能很好的进行演奏。幸运的是，我们的听觉并不会受到如此之短的延迟的影响。我们人类本身就是不完美的，而我们已经习惯了接收信息时的延迟时间，在音乐的角度上来说，这样的延迟时间并不影响作为乐手演奏时律动的准确性。

你的感受不一定相同
不过，就算我们把延迟的水平降低到 10 - 12 毫秒的水平，有一些音乐人可能会比一般人更加敏感一些，这也取决于他们演奏乐器的不同。打击乐手，比如鼓手，可能对这样短的延迟更加敏感一些，因为打击乐器具有非常明确短小的起音时间。在工作室中，我有接触过一些鼓手，能感受到仅为 6 - 8 毫秒的延迟，而其他乐手基本都完全不会感受到。我发现这其实也是因为他们也同时听到了这些乐器的声学原声的缘故——为他们更换更好的隔音耳机，同时增加他们的监听音量，可以很好的解决问题。这让他们可以下意识的习惯自己击打鼓棒的时间与实际听到鼓声时间之间的微小延时。
但是大部分情况下，正常的延时时间应该没有任何问题：大多数时候 8 - 12 毫秒的延时都行得通，同时这也不需要设置成最低的缓冲值，让大多数计算机都可以很好的平衡处理能力和延迟之间的选择。但如果你明确的需要更低的延迟，那你可能需要知道你计算机能安全达到的最低缓冲区数值设定，也就是你计算机能够可靠的处理数字音频的极限。这需要你在真正的录音工作之前就提前做好准备，所以在最初设置你的数字音频工作环境的时候，就需要做好这样的测试。

最低能有多低
所以我们提到的缓冲区大小和延迟时间之间究竟有没有什么关联呢？这时候我们就要提到采样率了：下面的一张表格是在 44.1k 采样率下常用的缓冲区大小数值和延迟时间的对比。

在 44.1k 采样率下的缓冲区与延迟时间的对比

需要注意的是，缓冲区有两个，一个是输入（录音）缓冲区，另一个是输出（回放）缓冲区。在录音时，音频经过全部的两个缓冲区，但是 MIDI 触发的虚拟乐器只需要经过回放缓冲区（不过当然 MIDI 也会增加一些延迟）。
一般来说在大部分小型系统中，64 采样大小的缓冲区设定一般是理想的——加上“模拟-数字”和“数字-模拟”转换器的延迟（某些音频接口的驱动也会增加一些额外的延迟时间），你应该会得到一个接近 4 - 5 毫秒的延迟时间。如果你在使用音响监听，那么这个延迟时间还需要增加 3 毫秒左右（声速大概是每毫秒 1 英尺左右，还记得吗？）。如果这样的设置会产生一些“噼啪”声，那么一般来说 128 采样大小的缓冲区也足够解决这些问题了，同时总体 7 - 8 毫秒的延迟也应该适合绝大部分的演奏录音了。
如果你的计算机仍旧无法在 128 采样的缓冲区设置下可靠的工作，那么你就会陷入一个比较尴尬的境地。某些音乐人（尤其是使用虚拟乐器时）也可以接受 256 采样缓冲区的设置，不过其他人就不一定了。就我自己的感受而言，在演奏乐器时，虽然它只有一点点恼人，我也可以继续我的演奏，但是我觉得我对节拍的把握并没有很理想。如果缓冲区的设置会让延迟保持在 10 - 12 毫秒以上，那么你肯定需要使用耳机进行监听，同时在宿主软件中查找有没有选项可以关闭额外的保护性延迟，可能会对缩短延迟时间有一些帮助。同时，也需要查找一下在乐手的设备中可能产生延迟的部件，比如如果使用 POD 作为吉他效果器，那么 POD 会增加额外的几毫秒的延迟。所以对我来说 256 采样的缓冲区设定基本上是不在我的选项当中的——我可能需要转换成纯模拟的监听电路，同时没有办法在录音期间使用任何数字音频宿主提供的信号处理功能。

极限
在大部分当下的数字音频宿主和音频接口中，一般来说它们都会提供一个 32 采样的缓冲区选项。它能把整体的延迟降低到 1 - 3 毫秒的区间，这也基本上是软件数字音频处理，以及高端硬件加速数字录音设备的延迟的极限了。在这个选项里，延迟的瓶颈会变成你计算机的年代和接口类型了。三四年前的计算机可能会在这个选项下出现一些问题，但是去年或者今年发布的新款计算机有一定的可能性可以在这个选项下稳定工作，当然这也需要你的音频接口与计算机之间使用某种高速接口来连接，比如之前我们说到的 Thunderbolt（雷电）或是 USB3。
更老的接口规范，比如 FireWire（火线）或者 USB2，在 32 采样这么低的缓冲区设定下，可能没有办法正常工作，当然试试看也不会有什么损失（再说一遍，一定要在正式录音之前测试！）。但如果你在使用一个比较老的音频接口（如果没坏就不会想去换的那种），比如使用 Firewire 400 接口的型号，就算使用转接口连接到新款计算机上的 Thunderbolt 接口，也不会有 Thunderbolt 接口的高速性能。128 或是最低 64 采样的缓冲区大小应该会是最稳定的选项，同时在这样的设定下，99.9% 的情况下应该都不会出现什么问题。
所以当你设计安装好你最新的数字音频工作站的时候，千万不要忘了花一点点时间在缓冲区设定上，同时也要作为乐手（或者找到一个乐手）来测试一下不同设定之下的延迟状况。也不要仅仅找到不会出现“噼啪”声的最低值，你需要保证整个工作环境可以轻松应对一定的压力，毕竟这是低延迟录音的基本挑战。

转自《midifan月刊》2017年11月第140期

【打印此页】【返回首页】