语音是另一大类需要人工智能模型处理的数据类型。除了要识别语音外,还需要合成语音,就是根据文字生成像人说话一样的声音。

人类探索语音合成的历史最早始于1000多年前,早在公元11世纪,就有人试图制造机器来模拟人类语音。1779年,德裔丹麦科学家克拉岑斯坦建立的人类声道模型可以发出五个长元音,后来这台机器又增加了舌头和嘴唇的模型,可以产生辅音和元音。

1930年代,贝尔实验室开发了声码器,它可以自动将语音分析为基音和共振,这一发明成为后来文本-语音转换系统的基础设施之一。

合成语音与真人说话的差距

语音合成,就是用人工手段生成人类的语音。利用计算机将普通语言文本转换为语音的系统称为文本转语音( TTS )系统。

图片来源:pixabay

一套典型的 TTS 系统架构中一般包括两个部分,前端和后端。前端将包含数字和缩写等符号的原始文本,转换为写出的单词。为每个单词分配音标,并将文本划分并标记为韵律单元,如短语、从句和句子。

后端负责将符号语言表示转换为声音,一般称为声码器。在某些 TTS 系统中,后端还要完成计算目标韵律(音高轮廓、音素持续时间)的任务。

这两个部分构成的整个系统,一般可分为三个模块:文本分析模块、语言分析模块、波形生成模块。文本分析模块对源文本进行分析,将其分割为具有特定意义的词群,作为语言分析模块的输入。

语言分析模块对这些单词群的停顿、时长和相互关系进行分析,生成按对应顺序排列的音素表示,并由声码器生成声音,完成由文本到语音的转换。

语音合成技术在智能化领域应用广泛,在智能导航、智能播报、智能硬件等应用上发挥了不可替代的关键作用。

美中不足的是,无论是集成在计算机操作系统、智能手机、平板等设备中的语音助手,还是定制化开发的各类播报、导航应用程序中的模块,生成的声音与真人发声的效果仍然有一定差距,往往一听便知。

这涉及到一个语音合成领域的概念:自然度。它描述了输出听起来与人类语音的接近程度,是衡量语音合成系统质量的重要标准之一。由于自然语言本身的复杂性和开放性,TTS 系统前端面临的处理压力往往比较大。与英文不同的是,面向汉语的 TTS 系统在面对特有的声调、语气和变调时,其自然度的提升可能会更加困难。比如,汉语中的多音字、数字、专有名词根据上下文的不同,发音可能有差异,导致 TTS 系统输出的发音不准确。中文口语中的一些特殊变调,会导致 TTS 系统输出的声调偏差。

更大的问题是短语和断句,合成出的语音的断句是通过前端模块对文字、词汇短语、意群等单元中间插入长短不同的停顿来实现的。对于口语化或复杂结构的句子,如果前端分析不准,就很容易导致断句停顿奇怪,影响整句的韵律。

除了这些由于前端处理能力不足导致的问题外,在后端同样存在由于声音参数选择,声码器设计问题导致的声音清晰度差、还原度不足和杂音过大等问题。

未来的回响

为了提升 TTS 系统的自然度,使其更加准确地还原人类的自然语音,近年来研究人员开始越来越多地借助人工智能的力量。

基于深度神经网络(DNN)的语音合成称为「深度语音合成」,它使用大量录制的语音进行训练,同时在合成和分析过程中使用相关的标签和输入文本。目前,一些基于 DNN 的语音合成器可以基本接近人声的自然度。

然而,凡事皆有两面,基于 DNN 的语音合成带来的足以乱真的效果,也会不可避免地产生道德和法律上的风险。比如用合成的声音冒充本人的身份,轻者拿去搞恶作剧哗众取宠,重者甚至可以被不法之徒用于欺诈,威胁他人的人身财产安全。

近几年大火的 Deepfake 技术就是一例。这项技术原本是用于生成逼真的虚假视频,最初用于恶搞网络名人的娱乐目的,由于真假难辨,很快便被用于身份盗用、色情内容传播、名誉侵权等不法目的。目前,美国多个地方已经将恶意制作 Deepfake 视频列为非法。

视频如此,音频自然逃不过。针对音频的 Deepfake 的出现为语音合成领域的技术应用敲响了警钟。

2020年初,美国一伙诈骗者使用基于人工智能的软件,利用 Deepfake 音频生成了公司首席执行官的声音,成功骗过银行经理,通过电话授权转账约3500万美元,后被警方破获。而音频 Deepfake 的首次欺诈案可能发生于2019年,据《华尔街日报》报道,当时骗子使用该技术冒充英国一家能源公司的首席执行官,要求转账24万美元。

诚然,技术本身是无罪的,但技术进步带来的法律和道德风险的确是不容回避的现实,无论是技术开发者、决策者还是用户,都要直面这一现实。如何语音合成技术在造福人类的同时,将其危害和风险降至最低,是值得我们每个人思考的问题。

文章由科普中国-星空计划(创作培育)出品,转载请注明来源。

作者:管心宇 科普作者

审核:于旸 腾讯玄武实验室负责人

来源: 星空计划

内容资源由项目单位提供