缩略图

语音处理技术在自然语言理解和翻译中的应用

作者

王艳丽 王锦 高倩

西安翻译学院信息工程学院,陕西省西安市7101052.西安讯飞超脑信息科技有限公司,陕西省西安市710076

1 引言

人工智能中一个长期努力的目标就是开发出可以理解并产生人类语言的程序。这不仅是因为使用和理解人类语言的能力明显是人类智能的一 个基 因为这种自动化会对计算机本身的用途和效力产生难以置信的影响。人们已经付出了很多努力 的程序。尽管这些程序已经在某些特定的环境下取得了成功,但是目前还无法实现一个可以像人类会话那样灵活广泛的使用人类语言的系统[1]。

自然语言理解是研究如何让电脑读懂人类语言的一门技术,是自然语言处理技术中最困难的一项。自然语言可区分为书面语和口语。书面语理解包括词法、句法和语义分析;口语理解需外加语音分析。理解自然语言涉及很多问题,远远要比把语句分解为各个部分然后在字典中查到这些单词复杂。真正的理解必须依赖于对话领域的广泛背景知识和该领域的习惯用语,并且能够应用上下文知识处理人类语言中的正常省略和模糊性。

2 语音处理

语音处理包括语音识别、语音合成及语音的自然语言处理等三部分内容。所讨论的自然语言主要指的是汉语。其中,语音识别是从汉语语音到汉字文本的识别过程,语音合成是从汉字文本到汉语语音的合成过程。

在语音处理中需要用到大量的人工智能技术,包括知识与知识表示、知识库、知识获取等内容。重点使用的是知识推理、机器学习及深度学习等方法,特别是其中的深度人工神经网络中的多种算法。此外,还与大数据技术紧密关联。

2.1 语音识别

(1)语音识别基本方法

语音识别(ASR)是指利用计算机实现从语音到文字自动转换的任务。在实际应用中,语音识别通常与自然语言理解和语音合成等技术结合在一起,提供一个基于语音的自然流畅的人机交互过程。

语音识别是让机器通过语音识别方法把语 号转换为相应的文本的技术。语音识别方法一般采用模式匹配法,包括特征提取、模式匹配及模 特性作提取,形成一个特征向量。②在训练阶段,用户将词汇表中的每一词依次 量作为模式存入模式库。③在识别阶段,采用模式匹配,将输入语音的特征向量依次与模板 T 每个模板进行相似度比较,将相似度最高者作为识别结果输出。

(2)语音识别步骤

语音识别方法在操作时可分以下五个步骤:

1)前端处理

前端处理是指在特征提取之前,对原始语音进行处理。一般,处理后的信号更能反映语音的本质特征。最常用的前端处理有端点检测和语音增强。端点检测是指在语音信号中将语音和非语音信号时段区分开来,准确地确定语音信号的起始点。经过端点检测后,后续处理就可以只对语音信号进行,这对提高模型的精确度和识别正确率有重要作用。语音增强的主要任务就是消除环境噪声对语音的影响。目前通用的方法是采用维纳滤波,该方法在噪声较大的情况下效果好于其他滤波器。

2)概述特征提取

语音识别的一个主要困难在于语音信号的复杂性和多变性。一段看似简单的语音信号,其实包含说话人、发音内容、信道特征、口音方言等大量信息。不仅如此,这些底层信息互相合在一起,又表达了情绪变化、语法语义、暗示内涵等丰富的高层信息。如此众多的信息中,仅有少量是和语音识别相关的,这些信息被淹没在大量其他信息中,充满了变动性。语音特征抽取即是在原始语音信号中提取与语音识别最相关的信息,滤除其他无关信息。

语音特征抽取的原则是:尽量保留对发音内容的区分性,同时提高对其他信息变量的健壮性。近年来的研究倾向于通过数据驱动学习适合某一应用场景的语音特征。

3)声学模型建立

语音识别的模型通常由声学模型和语言模型两部分组成。声学模型对应于语音到音节概率的计算,亦即对声音信号(语音特征)的特性进行抽象化。自二十世纪八十年代以来,声学模型基本上以概率统计模型为主,特别是隐马尔可夫模型/高斯混合模型(HMM/GMM)结构。近几年,深度神经网络和卷积神经网络模型以及LSTM长短时记忆模型成为声学模型的主流结构。

4)语言模型建立

语言模型对应于音节到字概率的计算,亦即对语言中的词语搭配关系进行归纳,抽象成概率模型。这一模型在解码过程中对解码空间形成约束,不仅减少计算量,而且可以提高解码精度。

5)解码搜索

解码是利用语音模型和语言模型中积累的知识,对语音信号序列进行推理,从而得到相应语音内容的过程

一般的解码过程是通过统计分析大量的文字语料构建语言模型,得到音素到词、词与词之间的概率分布。语言解码过程综合声学打分及语言模型概率打分,寻找一组或若干组最优词模型序列以描述输入信号,从而得到词的解码序列。

语音的解码搜索是一个启发式一局部最优搜索问题。早期的语音识别在处理十多个命令词识别这样的有限词汇简单任务时,往往可以采用全局搜索。

2.2 语音合成

语音合成的过程是先将文字序列转换成音韵序列,再由系统根据音韵序列生成语音波形。第一步涉及语言学处理,如分词、字音转换等,以及一整套有效的韵律控制规则;第二步需要使用语音合成技术,能按要求实时合成高质量的语音流。因此,文语转换有一个复杂的、由文字序列到音素序列的转换过程,包含文本处理、语言分析、音素处理、韵律处理和平滑处理等五个步骤。

(1)文本处理和语言分析

语音合成首先是处理文字,也就是文本处理和语言分析。它的主要功能是模拟人对自然语言的理解过程—文本规范化、词的切分、语法分析和语义分析,使计算机能从这些文本中认识文字,进而知道要发什么音、怎么发音,并将发音的方式告诉计算机。另外,还要让计算机知道,在文本中,哪些是词,哪些是短语或句子,发音时应该到哪里停顿及停顿多长时间等。工作过程分为以下三个主要步骤:①将输入的文本规范化。在这个过程中,要查找拼写错误,并将文本中出现的一些不规范或无法发音的字符过滤掉。②分析文本中词或短语的边界,确定文字的读音,同时分析文本中出现的数字、姓氏、特殊字符、专有词语以及各种多音字的读音方式。③根据文本的结构、组成和不同位置上出现的标点符号,确定发音时语气的变换以及发音的轻重方式。最终,文本分析模式将输入的文字转换成计算机能够处理的内部数据形式,便于后续模块进一步处理并生成相应的信息。

(2)音素处理

语音合成是一个分析—存储—合成的过程,一般是选择合适的基元,将基元用数据编码方式或波形编码方式进行存储,形成一个语音库。合成时,根据待合成的语音信息,从语 取出相应的基元进行拼接,并将其还原成语音信号。语音合成中,为了便于存储,必须先将语 或变换,在合成前必须进行相应的反变换。其中,基元是语音合成中所处理的最小的语音学基本单 合成词语的语音库就是所有合成基元的集合。根据基元的选择方式以及其存储形式的不同,可以将合成方式笼统地分成波形合成方法和参数合成方法。常用的是波形合成方法。

波形合成方法是一种相对简单的语音合成技术。把人的发音波形直接存储或者进行简单波形编码后存储,组合成一个合成语音库;合成时,根据待合成的信息, 在语音库中取出相应单元的波形数据,拼接或编辑到一起,经过解码还原成语音。这种语音合成器的主要任务是完成语音的存储和回放任务。波形合成法一般以语句、短句、词,或者音节为合成基元。

(3)韵律处理

人类的自然发音具有韵律节奏, 主要通过韵律短语和韵律词来体现 与语法词相似,语音合成中存在着韵律词,多个韵律词又组成韵律短语, 1 以构成语调短语。 韵律处理就是要进行韵律结构划分,判断韵律节奏,以及划分韵律特性,从而为合成语音规 音、语调等音段特征,使合成语音能正确表达语意,听起来更加自然。

2.3 语音处理

语音处理即语音形式的自然语言理解与语音形式的自然语言生成。

(1)语音形式的自然语言理解

语音形式的自然语言理解又称语音理解,它是由语音到计算机中的知识模型的转换过程。这个过程实际上就是由语音识别与文本理解两部分组成。其步骤是:①用语音识别将语音转换成文本。②用文本理解将文本转换成计算机中的知识模型。

经这两个步骤后,就可完成从语音到计算机中的知识模型的转换过程。

(2)语音形式的自然语言生成

语音形式的自然语言生成又称语音自然语言生成,它是由计算机中的知识模型到语音的转换过程。这个过程实际上就是由文本生成与语音合成两部分组成。其步骤是:①用语音生成将计算机中的知识模型转换成文本。②用文本合成将文本转换成语音。

经这两个步骤后,就可完成从计算机中的知识模型到语音的转换过程。

4. 总结

当前,自然语言处理领域的研究热点主要集中在深度学习模型的优化与应用、跨语言自然语言处理、以及低资源环境下的自然语言处理等方面。深度学习模型的优化与应用是NLP领域的核心议题之一,研究者们不断探索更加高效、准确的深度学习模型,以应对复杂多变的自然语言处理任务。跨语言自然语言处理则旨在打破语言壁垒,实现不同语言之间的有效沟通。而低资源环境下的自然语言处理则关注如何在数据稀缺或标注数据不足的情况下,进行有效的自然语言处理。

综上所述,自然语言处理领域在机器学习技术的推动下取得了显著进展,但仍面临诸多挑战和争议。未来,随着技术的不断发展和应用场景的不断拓展,自然语言处理领域将迎来更加广阔的发展前景。

本文研究工作受到人工智能翻译陕西省高校工程研究中心资助。

参考文献

[1]冯志伟.自然语言处理的历史与现状[J].中国外语,2008,(01):14-22.

[2]魏晓宁.人工智能在自然语言理解技术上的应用[J].中国科技信息,2005,(19):57.

[3]刘小冬.自然语言理解综述[J].统计与信息论坛,2007,(02):5-12.

[4]郭艳华,周昌乐.自然语言理解研究综述[J].杭州电子工业学院学报,2000,(01):58-65.

[5]王挺,麦范金,刘忠.自然语言处理及其应用前景的研究[J].桂林航天工业高等专科学校学报,2006,(04):19-21.