【浅谈AC-3与MPEG-2两种多通道数字音频的选择与比较】 AC/A

浅谈AC-3与MPEG-2两种多通道数字音频的选择与比较

浅谈AC-3与MPEG-2两种多通道数字音频的选择与比较 摘要:
在全世界范围内,电视节目传送系统由模拟向数字过渡的过程中,使用哪 一种音频编码技术,一直是各国专家不断提出的问题,而抉择的焦点是世界上的 两种主要的音频编码系统, MPEG-2 音频编解码系统和 AC-3 音频编解码系统。

一、杜比数字( Dolby Digital AC-3) 自从 1992 年第一部杜比数字编码的电影《蝙蝠侠归来》问世以来,杜比 数字技术已经成为目前最流行的音频技术之一。目前已经有数以千计采用杜比数 字编码的电影面世。

杜比分别在 20 世纪 60 年代和 70 年代以杜比 A 型降 噪(专业应用领域)和 B 型降噪(消费类应用领域)在磁带录音技术掀起了一 次革命。在 70 年代后期,杜比立体声模拟音响系统引领了电影音频的革命。杜 比立体声把 4 声道音响带到了电影院,其中在前方有 3 个声道(音乐和各种背 景声音分别在左右声道,对话在中置声道),还有一个渲染效果和气氛的环绕声 道。然后在 20 世纪 80 年代,通过运用杜比的 SR 频谱录音,磁带录音和电 影音频工业都取得了卓越的进步。在 80 年代末 90 年代初出现的杜比环绕以及 后来的杜比定向逻辑家庭影院系统(基本上把杜比立体声技术运用到家庭娱乐的 录像带和激光唱片上)使家庭娱乐业引领了重大的变革。这使得观众可以在自己 家中配置同剧院一样的 4 声道设备。

1 、杜比数码环绕声系统 今天的杜比数字系统更是跃上了一个更高的台阶,它可以产生 6 声道的 非常清晰的数字环绕声。在你前方的左,中,右声道提供精确,清楚的对话定位。

分列在你两侧和身后的左右环绕声道使您深深地沉浸在电影的气氛中。并且,低 音炮给您带来更强的冲击力和特殊的听感体验。杜比数字 AC-3 提供的环绕声 系统由五个全频域声道加一个超低音声道组成,所以被称作 5.1 个声道。五个 声道包括前置的 " 左声道 " 、 " 中置声道 " 、 " 右声道 " 、后置的 " 左环 绕声道 " 和 " 右环绕声道 " 。这些声道的频率范围均为全频域响应的 3-20000Hz 。第六个声道也就是超低音声道包含了一些额外的低音信息,使得一 些场景如爆炸、撞击声等的效果更好。由于这个声道的频率响应为 3-120Hz, 所 以称 ".1" 声道。杜比数字 (Dolby Digital) 技术的原理承袭了杜比实验室 30 多年致力于 模拟降噪研究工作的经验。杜比降噪 (Dolby Noise Reduction) 是通过在当前没有 音频信号时降低噪音,而在其他时间就利用很强的音频信号来掩盖噪声。因此, 它是利用了心理声音学的现象,也被称为听觉屏蔽。即使当频谱中只有部分的声 音信号,杜比降噪 (Dolby Noise Reduction) 系统也能在频谱的其他部分降低噪音, 使得噪音不会被察觉。这是因为声音信号只能覆盖在邻近频段中产生的噪音。

从模拟录音演变到数字录音媒介(例如光盘)时,在光盘上运用的数字音 频编解码产生了的数据量很大,无法高效地存储和传输,尤其是在需要多声道的 情况下。于是,新的数字音频编解码形式 -- 经常被称作感知编解码,即在最低 程度降低声音质量的基础上减少数据使用率,应运而生了。

2 、杜比听觉的掩蔽效应 杜比数字源自于杜比公司三十多年的模拟降噪系统技术成果,即利用听觉 的掩蔽效应对信号频率附近的噪声进行掩盖抑噪。杜比 AC-3 感知性编码系统 主要利用心理声学中掩蔽效应的原理,将原始信号中不相关分量和冗余分量有效 的去除掉来实现。(图 1 )人类的听觉掩盖作用是将每一声道的音频频谱分成 许多不同的窄频带,并对应于人类听觉对频率的选择性进行处理。这样就使得它 有可能敏锐地滤掉编码噪声。只要这些噪声是被控制停留在某一频率上,而该频 率与被编码信号的频率分量十分接近。在没有信号或信号输入时,杜比降噪则进 行工作,将噪声降低或消除,因而,可将原来信号的音质完整地保留下来。杜比 AC-3 这样的感性编码性统,实质上是一种非常有选择性的和强有力的降噪处理 方式。在杜比数字 (AC-3) 中,根据实际的工作频谱或动态性能的需要,将比特 数从公用比特群中分配到各滤波器中的频带中去。保证有足够数量的比特数用以 描绘每一频带内的音频信号。具有较大频率的容量的声道比小容量的声道要求较 多的比特数,同时因为在一个声道内的强信号可为其他声道的噪音提供掩蔽作用。

因此,保证了噪音能被全部掩盖。

2 、音箱布置 全频带的音箱摆放(如图 2 )。标准的音箱配置是 5 个声道的音箱要完 全一致。如果前方 3 个音箱不能达到同一型号,则中置声道 C 的音箱应选用 同一产品系列中小一点的音箱。前方音箱以一字排开的方式面对聆听着摆放,左 右分别放置一个音箱,中置音箱( C )放在显示器的桌面上或显示器的顶部。

前置音箱 (L 、 R) 与中置音箱高度尽可能相同,而且这三个音箱的正面应在同一平面上,或是中置音箱稍微向后一点,但其正面应与前置音箱的正面平行。如 果中置音箱的听音距离与 L 、 R 音箱的听音距离不等,则应采用延时以使声 音同时到达听者。正前方为 C 、 L( 或 R) 与听者的夹角为 30 度。环绕音箱 与前方 3 个音箱一样,采用相同型号的产品,而且相位要一致,听音高度和距 离相等。如果达不到同一型号,则环绕音箱可选用同一系列中较小的音箱以保持 相似的指标特性。环绕音箱与中置音箱的夹角为 110 度。

而低音效果 LFE 音箱的摆位则要讲究。由于低音方向性较差,低音效果 音箱放在什么地方并非很严格。但并不能因为这个理由,低音就可以随便摆放。

须仔细调整 LFE 音箱在室内的摆放位置,以低音效果有最佳表现处作为合适点。

LFE 音箱有要独立的摆放位置,如放在主音箱( C 、 L 、 R )后面比较靠 墙的位置。若有两个 LFE 音箱,最好是放在两个主音箱之间。而 LFE 音箱通 常采用有源主动式低音扬声器。

3 、杜比数字的特点 ( 1 )兼容性 比数字 AC-3 可提供所有相应的音频设备的兼容性,由解码器来完成各 种兼容,通过一个信号比特分配出 5.1 多通道环绕声、 ProLogic 环绕声、立体 声、单声道。杜比数字 AC-3 的解码器可以自动识别信号源类型,也可以分配 出不同的声音信号。

( 2 )动态范围控制 杜比数字技术还提供控制动态范围还原和保持节目与节目之间响度一致 性的优点,由于数字音频的应用使得节目能以很高的动态范围进行传输。这里面 包括那些音量很高但持续时间很短只是偶然发生的声音,动态范围的控制通过在 解码器中降低节目峰值和在解码器本身中通过每几毫秒调整还音增益提高低电 平通路的方式完成。节目与节目之间响度一致性的控制通过指示解码器在节目长 度范围内将标称还音增益设置至特定数值的数据完成。两种控制类型均在主控录 音棚中进行准备和视听,然后作为解码器的附属信息传送。

( 3 )全完独立的声道,极具感染力的现场感 杜比数码的 5 个声道的频率响应均严格按照 AC-3 标准设计成 20HZ-20KHZ(+-5dB) 甚至更宽, 5.1 个声道完全独立隔离,其隔离度高达105dB, 从而彻底杜绝了声道之间的串音干扰,加上专门设计的超低音声道的有 源低音炮效果,几乎可以在前后左右 360 度范围内很好地重播人们可听范围内 的全部声音,从而使整个声场气势更加宏大、方向感和临场感更加突出,极大地 提高了影片的艺术感染力。而杜比定向逻辑系统中的环绕声道频率带宽仅有 100HZ-7000HZ, 4 个场道隔离十分有限,一般仅为 30dB, 做得最好也不会超过 55dB, 环绕声效果中包含的信息量大大减少,背景音乐中的低频和高频都被无情 地限掉了。

二、 MPEG-2 环绕声系统 1992 年 2 月, ATSC 正式建议美国 HDTV 采用 5.1 声道。当时在考 虑采用哪一种音频编码方式时, Dolby Digital 与 MPEG-2 竞争得十分激烈。

即后便对这两种数字编码系统进行了比较,在 DTV 应用中, MPEG 音频更接 近 FM 的品质而非 CD 的品质。在最好的情况下, MPEG 音频被传输时其动 态范围与 FM 相似。

MPEG 的码流里不包含附加的动态范围或电平控制数据, 其结果是音频信号必须经预压缩后播出才能通过 RF 接口到达电视接收机。

世界上,在已选了数字电视制式的国家和地区中,选择 AC-3 的还有加 拿大、南韩、阿根廷和中国台湾等;
选择 MPEG-2 音频的有新西兰和印度等。

而我国将在高清晰电视中采用 MPEG-2 与 AC-3 共存的编码形式。下面简述一 下 MPEG-2 的环绕声系统。

MPEG (运动图像专家小组)标准就是利用数字压缩编码技术来提供对 信号的有效压缩方式。对于音频来说,主要就是感知性编码系统可使得能达到 1 ∶ 8 的压缩比,同时保证音质的损失最小。在 MPEG-1 标准中共有三层方式对 音频进行压缩 --MP1 、 MP2 、 MP3 ,考虑到兼容性的问题,在 MPEG-1 的 基础上通过增加附加编解码器来完成 MPEG-2 多声道环绕声系统的编码。

在 MPEG-2 系统中支持 5.1 多声道环绕声,也就是利用 5 个独立全频 带通道和一个十分之一频带的低频效应通道来实现多声道环绕声效果的。其扬声 器摆放方式与 AC-3 方式是相似的,也是按照 ITU-R BS.775 建议安排的,唯一 不同的就是 MPEG-2 的低频效应补充的频带只有其他声道频带宽度的十分之一, 取样频率为其他通道信号取样频率的九十六分之一。

同时 MPEG-2 多声道环绕 声系统为了保证向下的兼容性,也提供了矩阵环绕声方式,它是通过矩阵电路将 几个声道编码为两个通道进行记录或传输,重放时,再经解码得到多声道环绕立 体声。MPEG-2 感知性音频编码器利用了 “ 掩蔽 ” 这种心理声学效应。这种效 应就是如果一个单音在频率上接近另一个单音,但其声强较低,将不会被听到;

声强较低的单音为声强较高的单音掩蔽了。这种效应同样存在于更复杂的声音中, 如音乐和噪声等。每个声音都存在与之相关的一条掩蔽门限曲线,它是频率的函 数,在该曲线下的另一个声音就无法为人类的听觉系统感觉到。这是一个动态的 过程。当声音的频谱改变时,掩蔽曲线也跟着改变。所有的数字音频系统都受到 在量化过程中产生的噪声影响。感知编码器的工作原理就是对量化噪声的频谱进 行尽可能精确的整形,使其被控制在掩蔽门限以下。

MPEG-2 感知性编码系统充分利用心理声学中的掩蔽效应和哈斯效应原 理,利用压缩编码技术,将原始音频信号中不相关分量和冗余分量有效的去除掉, 在不影响人耳听觉阈度和听音效果质量上,将音频信号压缩。

MPEG-2 编解码系统在多声道声音方面的扩展支持在一路码流中传输五 个输入声道、低频增强声道以及 7 个语音声道。该扩展与 MPEG-1 保持前向及 后向兼容。前向兼容性意味着多声道解码器可正确地对立体声码流进行解码。后 向兼容性则意味着一个标准的立体声解码器在对多声道码流进行解码时可输出 兼容的立体声信号。

这是通过一种真正的可分级方式实现的。该兼容立体声信 号按照 MPEG-1 标准进行编码。所有用于在解码器端恢复原来的五个声道的信 息都被置于 MPEG-1 的附加数据域内,该数据域被 MPEG-1 解码器忽略。这 些附加的信息在信息通道 T2 、 T3 及 T4 以及 LFE 声道中传输,这几个信息 通道通常包含中央、左环绕和右环绕声道。

MPEG-2 多声道解码器不但对码流 中的 MPEG-1 部分进行解码,还对附加信息通道 T2 、 T3 、 T4 及 LFE 解 码。根据这些信息,它可以恢复原来的 5.1 声道声音。

当相同码流馈送至 MPEG-1 解码器时,解码器将只对码流的 MPEG-1 部分进行解码,而忽略所有附加的多声道信息。由此它将输出在 MPEG-2 编码 器中经向下混合产生的两个声道。这种方式实现了与现有的双声道解码器的兼容 性。也许更为重要的是,这种可分级的方式使得即使在多声道业务中仍可使用低 成本的双声道解码器。考虑到所使用的其它所有编码策略,多声道业务中的双声 道解码器本质上就是一个对所有声道进行解码并在解码器中产生双声道向下混 合信号的多声道解码器。

就其包含不同的由编码器使用以进一步提高音频质量 的技术而言,该标准是具有很大灵活性的。

得最大峰值的码率可以比长期的平 均码率高出一倍。但是,对于某些传输系统(大多数的广播格式),最好采用不 可变码率的( CBR )音频数据流。三、杜比数字( AC-3) 与 MPEG2 的比较 杜比数字 (Dolby Digital) 及 MPEG-2 声称的性能对照表 声称的性能 杜比数字 (Dolby Digital) MPEG-2 BCw/matrix 1. 支持立体声还音 √ √ 2. 支持杜比环绕 √ √ 3. 在同一节目源,同时支持 立体声和环绕声 √ 4. 支持 5. 1 声道音频 √ √ 5. 特定广播码率的使用 √ √ 6. 提供动态范围控制 √ √ 7. 保持响度一致 √ 1 、 . 立体声还音 这是音频编码最基本的功能之一。两声道模式的 MPEG-2 音频与 MPEG-1 立体声音频本质上相同。

MPEG-1 及杜比数字都能在 192 kbps 或更 高的码率的条件下提供优质的立体声音频。

2 、 兼容杜比环绕声 杜比发明了在 20 多年来广泛地应用在电影及视频媒体的杜比环绕声技 术,杜比实验室还开发了如何制作这种声迹的技术,使这种声迹能同时在分离的 5.1 声道系统或在经 4-2-4 矩阵编码的杜比定向环绕声系统上进行还音回放。虽 然目前将分离音频信号转换成矩阵编码的格式有不同的方式,杜比开发了一种适 用于将杜比数字实现 Lt/Rt 缩混的技术专利。最初录制 DVD 格式的节目时, 会经好莱坞视频录音棚认真的监听测试,使之确保当解码采用杜比数字 (Dolby Digital) 内置的 Lt/Rt 缩混选项时不发生声音音质降低的现象。现今许多的携带 杜比数字 (Dolby Digital) 声迹的 LD 光碟同样可通过 Lt/Rt 缩混信号与杜比定向逻辑环绕声还音系统兼容。大多数的 LD 光碟含有一个分离的、经杜比环 绕声编码的 PCM Lt/Rt 声迹。这样一来,在同一张光碟上就可能直接比较由 5. 1 声道缩混的音频与实际由制片商录制的 Lt/Rt 混合音频的效果了。相反的,兼 容Lt/Rt 矩阵编码声迹的5. 1声道的MPEG-2 的信号就无法做到上述这种验证, 这是因为很少或不存在类似商业发行的片源。

3 、 . 兼容立体声及单声道 是否能够传输高质量的立体声音频与兼容杜比环绕声的问题是紧密相关 的。关闭环绕声解码器可以直接听到立体声信号。如采用杜比数字,这个信号就 应为环绕声兼容的 Lt/Rt 缩混信号或立体声的 Lo/Ro 缩混信号。

Lo/Ro 缩混 功能为制作人提供如何将中声道和环绕声道合并到左右声道的多种电平比例的 选项,以确保混合的效果达到最佳状态。另外,单声道缩混信号会应用附加的峰 值音频压缩功能而产生出来,使之成为理想的 RF 射频声道再调制信号。每一 个解码器可选择适合各自还音条件的缩混方式而不会影响到其他听音者的接收。

而 MPEG-2 音频在 Lt/Rt 立体声的听音效果并不理想。

4 、 码率 AC-3 与 MPEG-2 这两种音频标准都能在一个较大的码率范围内工作以 满足不同的应用需求。在评估不同的编码器对于某一特定应用的声音音质的适宜 程度时,需要考虑在同一码率的条件下进行比较。如要获得有关消费者体验 5. 1 声道的节目的真实想法,那么有成百部的杜比数字 (Dolby Digital) 的 LD 影片, 并且有上百万部拷贝在循环使用。这些节目的声迹以 384 kbps 码率编码,其码 率与美国 DTV 节目、 DVD 、 DBS 、数字有线电视及 DAVIC 系统所采用 的码率相同。编码的高效率对于多数的应用场合来说是最基本的要求,包括广播 电视。

针对已有的实际码率来评估 MPEG-2 的 5. 1 声道音频并非是容易的事。

在先前的测试中,在 320kbps 码率的条件下, MPEG-2 的性能逊于杜比数字 (Dolby Digital) 。在测试结束后,这两种编码方式都进行了充分地改进。最近的 在好莱坞由一些视频录音棚准备 DVD 声迹的测试中,发现 MPEG-2 的 5. 1 声道音频基本上是可以接受的,但是如上所述MPEG-2矩阵编码的两声道信号在 环绕声解码器上的兼容性不容乐观。其最大的峰值码率达到 900 kbps 、平均码 率接近 400kbps 。无法了解到其在大多数应用场合需要采用恒定 384 kbps 码率 时的结果.5 、动态范围控制 由于各类消费者的品位以及他们所处的听音环境不同,所以很难制作出既 充分发挥了数字音频全动态潜力而又满足在某些特定环境下还音的声迹,比如噪 声较大的听音环境或以低音量进行还音的一般音响系统。这使得在消费类的传输 系统中,需要使用一种手段来包含动态范围控制的信息作为节目的必要附属信息, 使录音工程师能够控制并确认还音的实际结果。杜比数字 (Dolby Digital) 系统 应用了一种灵活的动态范围的控制系统。目前现有的 LD 光碟已包含这个特性, 而且现有的消费类解码器提供了这样的选项使用户在需要时可以使用压缩方式 还音。目前, MPEG-2 系统并不拥有这个功能。

6 、 . 一致的响度 由于数字音频的应用使得节目能以很高的动态范围进行传输。这里面包括 那些音量很高但持续时间很短只是偶然发生的声音。为了在不利用峰值压缩方法 的条件下传输这类声音,其平均的响度通常将比其它类型的节目要低。为了防止 在节目切换时所造成扰人得的明显的响度差异 -- 这样听众不得不重新调节音 量 -- 杜比数字 (Dolby Digital) 使用了被称为 “ 对白归一( dialog normalization ) ” 的特性,使得录音师可以根据已知的平均参考电平来设置适 当的还音电平值。这种特性已在杜比数字 (Dolby Digital) 的编码器及消费类解 码器中被应用。另外,杜比数字 (Dolby Digital) 保持了设定的归一响度,无论 其传输及还音的声道数目的多少,并且不受缩混的影响。

对MPEG-2编码系统来说,是根据片源内容的不同而向MPEG-1听众传输 不同响度的信号。所接收的立体声节目是为最大响度,而多声道节目需降低响度 还音,以便保证在将多声道音源矩阵编码至两声道混音时拥有足够的裕量。一种 解决方式是降低所有两声道节目的电平来满足多声道节目的要求。另一种方式是 专门为MPEG-1的听众传输单独的最大音量的立体声信号。

小结 综上所述,采用多声道环绕声方式,多声道数字音频系统通过声道的扩展, 不仅在质量上与 CD 音频不相上下,同时还带给听众身临其境的感受,而这是 传统单声道和立体声无法实现的,因此多声道数字音频系统已被更多的听众接受, 同时也将逐渐成为广播电视行业中音频节目制作的主流。AC-3 与 5.1 多通道环绕声系统采用逐渐成熟的专用编解码方案,提供了 多种音频设备的兼容性,并通过 Dolby E 的改进方案,使得 AC-3 可应用于广 播电视编辑传输过程中;

MPEG-2 层 II 系统采用与 MPEG-1 完全兼容的编解 码方案,提供高质量的环绕立体声,并且 MPEG-2 也提供了多种功能用于满足 不同的需要,但 MPEG-2 的应用相对 AC-3 来说市场占有率很小,而 AC-3 则 在许多领域已得到广泛应用。

四、中国数字广播电视中数字音频的发展展望 数字音频广播系统的发展是从 85 年以后开始的,其中包括了我们熟知的 Eureka 147 DAB (尤里卡 147 数字音频广播)和 DVB 。不断发展的数字调制 方式及编码算法都为数字音频广播提供了更加有效的传输和存储方式,使得在有 限的带宽中以较低比特率来传输声道数更多、质量更优的音频信号成为可能。同 样在数字音频广播系统的发展中也充分利用了这些以此为核心的新技术。以前, 立体声广播起着主导的作用,现在随着越来越多的多声道数字音频系统的应用, 在数字音频广播领域也已经开始接纳并制定相关的音频标准了。在 Eureka 147 DAB 和 DVB 中,已经包括了多声道数字音频的扩展。

DVB 项目是在 1993 年由 220 多个世界组织来制定建立的。这些世界组 织包括广播业者、制造商、网络管理者和致力于发展数字电视标准的各种组织机 构。最早的 DVB 业务是在欧洲开始的,现在 DVB 标准不仅是欧洲的数字电 视标准,而且它也扩展到亚洲、非洲、美洲及澳大利亚等地区,成为这些地区数 字电视的选择标准之一。

我国在未来中不管采用那种音频格式,都将带来音频节目制作上的变革, 只有正确面对这场变革,了解和掌握其中涉及的各种技术才能立于不败之地,同 时也会给千家万户的观众带去更多、更好的音、视频享受。

总之,随着数字广播的不断发展,相信这些已经成熟的各种技术都将有它 们各自的用武之地。我们相信在今后的数字广播的发展中,不管是 DVB 、 DAB 、数字视频、音频广播,还是 ATSC 数字电视系统等,都将会采用不受 带宽限制(相对而言)、可提供更高质量、更多声道的多声道数字音频系统。