缩略图

沉浸声及多声道技术介绍及应用讨论

作者

金艺源

深圳易科声光科技股份有限公司上海分公司200030

第一章 引言

沉浸声技术起源于 19 世纪末,旨在通过技术手段再现真实听觉体验。最初研究集中在双耳音频,利用声音差异实现定位和感知。随着科技发展,沉浸声技术逐渐成熟,并应用于多个领域。多声道技术的发展始于 20 世纪50 年代,以满足人们对真实听觉体验的需求。磁带录音技术的出现提高了录音和编辑的灵活性。70 年代,环绕声系统显著提升了音频体验。近年来,波场合成和高阶 ambisonics 技术的发展使多声道技术达到新高度,实现更精确的三维音效。

沉浸声和多声道技术在多个领域取得进展,如 Dolby Atmos 和 MPEG-H等对象基音频系统,以及 HOA 场景基音频系统,正在改变音频制作和体验方式。技术进步简化了制作流程,提高了效率。虚拟现实和增强现实设备的发展为沉浸声技术提供了新应用场景。未来,沉浸式音频技术将与更多产业融合,推动体验经济发展。本文系统梳理了沉浸声和多声道技术的发展历程,分析了核心技术原理,并探讨了这些技术在虚拟现实、增强现实、游戏、电影和音乐等领域的应用。研究旨在揭示沉浸声技术的现状与未来趋势,为企业和研究人员提供参考。

第二章 沉浸声技术的基本原理

2.1 双耳音频技术

2.1.1 双耳效应与人耳定位机理

双耳效应是指双耳间声音到达的时间差、音量差和音色差,这些差异能够帮助我们确定声音的来源和距离。人耳不仅可以通过声音的强度判断音量大小,还能通过微小的时间差异来判断声音的方向。大脑综合两耳接收到的声音信息,实现声音在三维空间中的定位。

2.1.2 人工头与双耳录制技术

人工头(Dummy Head)是一种模拟人耳听觉系统的装置,通常由两个微型话筒组成,安装在假人的耳朵位置,用于录制双耳音频。

在过去的 30 年中,有关双耳录音的研究很多。丹麦奥尔堡大学的研究人员在90 年代进行了全面的研究。在下图中,可以看到两组曲线(HRTF)。每条曲线代表许多受试者的平均值。左侧曲线是通过开放式耳道测量的。右边的曲线显示了耳道闭合受试者的HRTF。

图1 人类受试者的 HRTF,开放和闭合的耳道频响曲线

这种技术能够在没有真实人耳的情况下,准确捕捉到声音的方向和距离信息。人工头录制技术广泛应用于虚拟现实和增强现实领域,以实现逼真的三维听觉体验。

双耳录音技术可以说专为使用耳机播放而设计。如果通过扬声器播放双耳录制的声音,则需要进行一些校正。该校正基本上是对HRTF 进行反向。由于 HRTF 随方向变化,因此设计此反向的功能是非常复杂的。但是,一个简单的滤波器近似于理想的校正。滤波器的功能是重新创建音色平衡,以匹配耳机中再现的声音音色。

图2 建议的滤波器曲线,用于双声道录音的混音至扬声器播放

2.2 多声道音频技术

2.2.1 环绕声系统与声道配置

多声道音频技术通过在聆听者周围设置多个扬声器,实现环绕声效果。最早的环绕声系统是 5.1 声道系统,包括左前、右前、中央、左后和右后五个声道和一个低频效果通道(LFE)。随着技术的发展,7.1 声道、9.1 声道以及更高配置的环绕声系统相继出现,提供更为细腻和逼真的听觉体验。

2.2.2 5.1 声道与 7.1 声道的区别

5.1 声道系统包含了五个主要的声道和一个低频声道,而 7.1 声道系统在此基础上增加了两个后置声道,形成更为完整的包围感。7.1 声道系统能够更好地还原声音的方位和动态,使听众体验到更为身临其境的效果。这一提升在家庭影院和专业影院中尤为明显。

2.3 高阶 Ambisonics 技术

2.3.1 Ambisonics 理论与 B 格式

Ambisonics 是一种通过多声道音频系统实现三维音效的技术,最初由 Michael Gerzon 在 20 世纪 70 年代提出。Ambisonics 的核心思想是将声音分解为一系列不同方向传播的音波成分,通过多个扬声器再现。B 格式(B-Format)是一种常用的 Ambisonics 编码方式,它将声音分为不同的阶(order),每一阶对应一定数量的声道。

任何关于 Ambisonic 声音与 SoundField 的讨论或文章都不可避免包含“A-Format”和“B-Format”两种格式,也可能包括 C 和 D-Format 格式。但是这些格式是什么?它们是如何使用的?其实 ABCD 四种格式指的是麦克风接收到的 Ambisonic 声场不同的陈述;从本质上讲,它们是 Ambisonic处理的不同阶段。“A-Format”和“B-Format”这两个术语是由 SoundField话筒的最初发明者迈克尔·格森和彼得·克雷文创造的,随后在 1978 年世界第一款 SoundField 话筒的商业发布中被注册为商标。A-Format 格式是Ambisonic 音频的基本“拾音”格式。它是 SoundField 话筒中四面体振膜阵列中的四路输出。因此,它需要四个独立的通道,所有通道必须具有相同的增益特性。这四个拾音振膜是根据它们所面对的方向来识别的——左前(LF)、右前(RF)、左后(LB)和右后(RB)。这些位置标签对应于话筒“直立”时从正面观看。SoundField 对话筒使用方向其实并没有要求;它也可以倒置使用,也可以“平置”使用;但是,拾音振膜的标签依据如上所述。

A-Format 的信道顺序以及颜色标记习惯如下,颜色就是在 Ambisonics麦克线我们常见的颜色配置(如下图):

图 3 Ambisonic 的四色线材

2.3.2 HOA(Higher Order Ambisonics)运算模型

HOA(Higher Order Ambisonics)是对传统 Ambisonics 的一种扩展,支持更多声道和更高阶的音频处理。HOA 运算模型通过增加声道数量,提高了声场再现的精度和逼真度。HOA 技术广泛应用于现代沉浸声系统中,如Dolby Atmos 和 MPEG-H,实现了更为复杂和精细的三维音效。

2.4 基于对象的音频技术

2.4.1 音频对象的概念与元数据

基于对象的音频技术将声音作为独立的对象进行处理,每个对象包含自身的元数据,如位置、运动轨迹、音量和音效等。这种技术允许声音设计师在三维空间中自由定位和移动声音对象,实现更灵活和精准的音频控制。元数据的使用使得音频对象可以在不同环境和设备中保持一致的效果。

2.4.2 杜比全景声(Dolby Atmos)与其他对象基系统

杜比全景声(Dolby Atmos)是当前应用最广泛的对象基音频系统之一,它通过在影院天花板和四周布置音箱,实现全方位的声音覆盖。其他类似的系统还包括 DTS:X、MPEG-H 音频和 Auro 3D 等。这些系统都能够提供丰富的垂直和水平声道,支持更复杂的声音场景和动态效果。

2.5 基于场景的音频技术

2.5.1 场景音频的基本概念

基于场景的音频技术将整个声场作为单元进行处理,而不是单独处理每一个音源。场景音频通过复杂的算法和数据处理,实现对整个三维环境的实时渲染和调整。这种技术适用于需要高度动态和互动性的应用场景,如虚拟现实和游戏。

2.5.2 MPEG-H 音频系统与场景音频实践

MPEG-H 音频系统是一种先进的场景基音频技术,它通过高效的编码和解码技术,实现了对复杂声场的实时处理和传输。MPEG-H 音频系统支持多达 64 个声道的音频输出,能够在不同的设备和环境下提供一致的听觉体验。这一系统在广播、流媒体和现场演出中得到了广泛应用。

第三章 沉浸声系统的技术实现

3.1 捕捉与记录技术

3.1.1 麦克风阵列与三维音效捕捉

麦克风阵列是由多个麦克风按照特定几何形状排列组成的录音设备,能够实现三维音效的捕捉。根据不同的应用需求,麦克风阵列可以分为线性阵列、圆形阵列、球形阵列等多种类型。例如,AB 阵列使用两个麦克风模仿人耳间距录制双耳音频;KB 阵列则使用四个麦克风形成一个正方形来捕捉更为复杂的三维音效。这些阵列通过记录不同声道的声音数据,为后期处理提供丰富的素材。

3.1.2 3D 音频录制与混音技术

3D 音频录制技术通过多声道麦克风或麦克风阵列进行声音捕捉,以获取三维空间中的声场信息。混音过程中,音频工程师利用专业软件对捕捉到的声音对象进行调整和处理,确保各声道之间的协调与平衡。现代 3D 音频混音技术还包括动态音效处理、空间音效处理等高级功能,以实现更加逼真的听觉效果。

3.2 信号处理与编码技术

3.2.1 信号处理基础与空间提示

信号处理是沉浸声系统的核心技术之一,通过对原始音频信号进行分析和处理,提取出有用的信息并加以优化。空间提示技术利用双耳效应和HRTF(头部相关传递函数)模拟声音在三维空间中的传播特性,使得听众能够感受到声音的方向和距离。信号处理还包括滤波、均衡、动态范围压缩等操作,以提升音频质量和一致性。

3.2.2 音频编码格式与流媒体传输

音频编码格式的选择直接影响沉浸声系统的兼容性和性能。常见的编码格式包括Dolby Digital、DTS、MP3、AAC 等。为了适应流媒体传输的需求,新一代编码格式如 MPEG-H 和 Dolby Atmos 采用了高效的压缩算法,能够在有限的带宽下传输高质量的三维音频信号。实时流媒体传输协议(如 HLS、DASH)进一步保证了音频数据的连续性和同步性。

3.3 扬声器系统与声场设计

3.3.1 扬声器配置与布局方案

扬声器的配置和布局直接影响沉浸声系统的最终效果。传统的5.1 和7.1声道系统通过在聆听者的前后左右布置多个扬声器,实现环绕声效果。现代沉浸声系统如 Dolby Atmos 则在原有基础上增加了天空声道,通过在天花板布置扬声器,提供垂直方向的声音覆盖。典型的布局方案包括 5.1.4、7.1.4和9.1.6 等,其中的数字分别代表不同方向上的扬声器数量。

3.3.2 房间声学与扬声器校正

房间的声学特性对沉浸声系统的音效有重要影响。通过声学设计和扬声器校正,可以有效减少反射和回声,提高音频的清晰度和定位精度。自动扬声器校正系统利用麦克风和测试信号测量房间的声学参数,并对扬声器输出进行相应调整,以确保最佳的声音表现。此外,房间的吸音材料布置和扬声器摆放位置也需根据具体情况进行优化。

第四章 沉浸声技术在不同领域的应用

4.1 虚拟现实与增强现实

4.1.1 VR/AR 中的沉浸声解决方

虚拟现实(VR)和增强现实(AR)技术通过模拟视觉和听觉环境,提供身临其境的体验。沉浸声技术在VR/AR 中的应用主要包括以下几个方面:首先,利用头部追踪技术实时调整音频输出,使得声音与用户的头部运动同步变化,从而增强空间感;其次,通过三维音效引擎实现复杂的声音场景渲染,如脚步声、环境声等;第三,结合 HRTF(头部相关传递函数)技术模拟真实的声音传播效果,提高声音定位精度。这些技术的结合使得用户在虚拟环境中能够获得高度逼真的听觉体验。

4.1.2 交互式音频技术在虚拟环境中的应用

交互式音频技术进一步丰富了 VR/AR 体验。通过动态音效处理和实时互动算法,用户可以与虚拟环境中的声音进行互动。例如,在游戏中,用户的每一步操作都会触发相应的音效反馈;在训练模拟中,特定的动作会引发对应的音频响应。这种交互式设计不仅提升了用户的沉浸感,还增加了体验的真实感和趣味性。

4.2 游戏与电竞

4.2.1 游戏体验中的沉浸声应用

在游戏领域,沉浸声技术被广泛应用于提升玩家的游戏体验。通过多声道扬声器系统和特别设计的音频效果,玩家可以精准地听到游戏中的各类声音,如敌人的脚步声、枪声的方向和距离等。这种全方位的听觉感知不仅增强了游戏的紧张氛围,还提高了玩家的反应速度和策略能力。一些高性能的游戏耳机也集成了沉浸声技术,为玩家提供便携式的高质量音频体验。

4.2.2 电竞领域中的音频优化策略

电竞比赛中,音频的质量直接影响选手的表现和比赛结果。沉浸声技术可以通过以下几种方式优化电竞音频:第一,使用高性能的耳机和外部扬声器系统,确保音频信号的清晰度和定位精度;第二,实施先进的降噪技术,减少背景噪音干扰;第三,结合实时音频分析和反馈系统,帮助选手快速做出决策。这些优化策略能够显著提升电竞选手的竞技状态和整体表现。

4.3 影视与广播

4.3.1 电影行业中的沉浸声标准与实践

电影行业广泛应用沉浸声技术来提升观众的观影体验。《星球大战》系列电影是最早采用环绕声系统的作品之一。随着技术的进步,Dolby Atmos和 Auro 3D 等新型沉浸声格式逐渐成为行业标准。这些格式通过在影厅各个方向布置扬声器,实现全方位的声音覆盖,使观众仿佛置身于电影场景之中。音频工程师利用专业的混音软件对声音对象进行精确控制和调整,确保每个细节都能完美呈现。

4.3.2 广播与流媒体中的沉浸声应用

在广播与流媒体领域,沉浸声技术同样展现出巨大的应用潜力。越来越多的电视台和流媒体平台开始提供沉浸式的音频服务。例如,Netflix 和Amazon Prime Video 已支持 DolbyAtmos 音频流媒体播放,观众可以通过兼容的设备享受高质量的三维音效。此外,一些大型体育赛事和音乐会直播也采用沉浸声技术,为观众提供身临其境的视听体验。这些应用不仅提升了内容的吸引力,还推动了相关技术的发展和普及。

4.4 音乐与演出

4.4.1 音乐会与演出中的沉浸声设计

沉浸声技术在音乐会和演出中的应用日益广泛。通过在场地周围布置多声道扬声器系统,观众可以从各个方向感受到声音的包围感。这种设计不仅增强了现场的氛围,还提高了音乐的空间分辨率。例如,国家大剧院采用的 CADAC 沉浸声处理器能够在不同位置生成精确的声像定位,使观众在任何座位上都能感受到最佳的音质效果。此外,预演谷通过整合音响、灯光和其他舞台元素,实现了高度协同的沉浸式演出体验。

4.4.2 音乐制作与混音中的沉浸声技术

在音乐制作与混音过程中,沉浸声技术被用来创建丰富的声音场景。音频工程师利用多声道录音设备捕捉现场演出的每一个细节声音,然后在混音过程中将这些声音对象精确地放置在三维空间中。这种技术不仅提高了音乐作品的艺术性,还为听众带来全新的听觉体验。例如,在制作电影原声带或游戏配乐时,沉