缩略图
Science and Technology Education

探索数字音频通信系统数字信号处理关键技术

作者

肖菊兰 聂洪玉 郭宇恒 余松科 严骏杰

四川省成都市 成都工业学院电子工程学院

1. 引言

数字音频通信系统是一种能够采集、编码、传输数字音频信号的数字信号处理系统。相对于传统模拟音频通信,它具有抗干扰能力强、传输质量高以及易于存储和处理等优点。随着 5G、物联网(Internet of Things,简称 IoT)和人工智能(Artificial Intelligence,简称 AI)技术的发展,数字音频通信系统在现代军事、基于网络协议传输的语音(Voice over Internet Protocol,简称 VoIP)、在线会议、数字广播等应用领域得到了越来越广泛的应用。为提高在应用过程中的通信质量、系统效率和用户体验,本文对其数字信号处理关键技术进行探索。

2. 数字音频通信系统数字信号处理关键技术

数字音频通信系统可粗略分为音频采集与转换、数字信号处理、传输与控制三部分,如图1 所示。

图1 数字音频通信系统

图 1 中音频采集与转换部分是将音频信号采集成电信号或其他信号并实现模数或者数模转换等功能,数字信号处理部分运用加法、乘法和延时等运算实现数字信号的处理功能,传输与控制部分实现信号的传输和控制功能。数字音频通信系统又可根据信号流向分为发送端和接收端。对于发送端,数字信号处理部分包括信号预处理、数字编码、信道编码和数字调制等部分。对于接收端,数字信号处理部分包括信号预处理、数字解码、信道解码和数字解调等部分。其中数字编码与解码、信道编码与解码和数字调制与解调互为逆过程,是数字信号处理的关键部分。

2.1 音频编码

音频编码是将原始音频信号转换为数字格式,目的是为了降低音频信号的数据量,减少存储空间或者传输带宽,同时尽可能保持音质,可分为有无损编码与有损编码[1]。无损编码是对音频信号进行无损耗地压缩和解压缩,典型的无损编码有脉冲编码调制 (Pulse Code Modulation,简称 PCM)、波形音频文件格式(Waveform Audio File Format,简称 WAV) 和开源的无损音频压缩编码 (FreeLossless Audio Codec,简称 FLAC) 等。其中 PCM 实现简单,数据量大。WAV为未压缩的 PCM 编码,文件体积大,兼容所有音频软件。FLAC 开源免费,兼容性广。典型有损编码有增量调制(Delta Modulation,简称DM)、连续可变斜率增量调制(Continuously Variable Slope Delta modulation,简称 CVSD)、动态影像专家压缩标准音频层面 3(MPEG-1 Audio Layer III,简称 MP3)、高级音频编码(Advanced Audio Coding,简称 AAC)和 Opus 等。其中 DM、CVSD 编码复杂度较低,且实时性较好,CVSD 常应用于军事通信、蓝牙语音中。MP3 是基于心理声学模型,适用于互联网音频传输。AAC(Advanced Audio Coding)相比MP3 具有更高的压缩效率和音质,广泛应用于流媒体服务。Opus 具有低延迟、高音质,适用于实时通信(如 VoIP、视频会议)。不同音频编码对比如表 1所示。

表1 不同音频编码对比表

2.2 信道编码

信道编码可改善数字音频信号在传输过程中的抗干扰性能,常用方法有前向纠错(Fixed Error Correcting, FEC)、低密度奇偶校验码(Low Density Parity Check,简称LDPC)以及交织技术。其中FEC 用于纠正传输中的误码。LDPC 是5G 通信系统中常用的一种编码方式,其性能接近香农极限[2]。交织技术将突发性错误分散开去,从而提高纠错能力。

2.3 数字调制技术

数字调制技术将数字比特流转换为适合信道传输的模拟信号,影响音频信号的传输速率和抗噪声能力。基本的数字调制方式包括幅移键控(Amplitude-ShiftKeying,简称 ASK)、频移键控(Frequency-Shift Keying,简称 FSK)、相移键控( Phase-Shift Keyin , 简 称 PSK )、 正 交 幅 度 调 制 ( Quadrature AmplitudeModulation,简称 QAM)[3],其性能对比如表 2。

表2 基本调制性能对比

随着生产、生活中通信技术应用性能指标要求的增加,在基本数字调制方式基础上又衍生出一系列数字调制技术,如抗非线性失真好的幅度相位联合键控(Amplitude Phase-Shift Keying,简称 APSK)、抗噪声能力强的二进制频移监控(Binary Phase-Shift Keying,简称 BPSK)、频谱效率高的正交相移键控(Quadrature Phase-Shift Keyin,简称 QPSK)、恒包络特性的最小频移键控(Minimum Shift Keying,简称 MSK)、降低带外辐射的高斯频移键控(GaussianFrequency-Shift Keying,简称 GFSK)、适用多环境的自适应调制与编码(AdaptiveModulation and Coding,简称 AMC)等。

3. 未来发展趋势

未来,随着元宇宙、远程医疗、自动驾驶等新兴应用场景的发展,音频通信系统将临新的挑战。第一,人机交互、多语言实时翻译等场景要求音频系统具备环境感知、语义理解等AI 能力,使得音频通信系统智能化加强。第二,虚拟现实(Virtual Reality,缩写为VR)社交、云游戏等应用需端到端延迟低于 20ms ,以避免眩晕或交互脱节,使得音频通信系统实时性要求提高。第三,声纹伪造、窃听等威胁加剧,使得音频通信安全性要求增强。这些需求推动音频通信从“传输通道”向“智能、实时、安全的交互中枢”发展。在这一发展过程中,传统的数字信号处理技术面更高的要求,需要结合人工智能、抗干扰算法和新型调制方式实现突破。为应对这些发展要求,新一代数字音频通信系统将呈现三大技术特征:(一)在音频编解码方面将实现 AI 驱动的智能处理与毫秒级超低延迟;(二)在信道编解码层面将融合自适应抗干扰算法与抗量子计算的安全加密机制;(三)而在调制与解调技术领域则会突破传统限制,达成高频谱效率与全双工实时通信的协同优化。

4. 结论

本文简述了数字音频通信系统数字信号处理的音频编码、信道编码和数字调制技术。总结了未来数字音频通信将朝着更高效、更智能、更低延迟和更强安全性的方向发展。而作为数字信号处理关键部分的音频编解码将具有AI 驱动和超低延迟的特性、信道编解码将具有智能抗干扰和量子安全的功能、调制与解调技术将具有高频谱效率和全双工通信的特点。

参考文献

[1]俞俊.数字音频技术的分析及应用研究[J].电声技术, 2024, 48(2): 32 - 35

[2]胡琼.基于数字信号处理技术的广播电视传输与接收优化[J].家庭影院技术, 2025, (02): 66-69.

[3]潘雪.强干扰下通信信号调制识别技术研究[D]. 电子科技大学, 2024.

项目资助:国家级大学生创新创业训练计划项目(202411116030);成都工业学院校级课程建设项目(2021A04)