新闻中心

EEPW首页 > 智能计算 > 业界动态 > 2019深度学习语音合成指南

2019深度学习语音合成指南

作者：栗峰时间：2019-09-02来源：雷锋网收藏

编者按：追赶最前沿~

Parallel WaveNet：快速高保真语音合成

本文引用地址：http://www.eepw.com.cn/article/201909/404379.htm

这篇文章的作者来自谷歌。他们引入了一种叫做概率密度蒸馏的方法，它从一个训练过的WaveNet中训练一个并行前馈网络。该方法是通过结合逆自回归流(IAFS)和波形网(WaveNet)的最佳特征构建的。这些特征代表了WaveNet的有效训练和IAF网络的有效采样。

文章链接：https://arxiv.org/abs/1711.10433

为了进行有效训练，作者使用一个已经训练过的WaveNet作为“老师”，并行WaveNet‘学生’向其学习。目的是为了让学生从老师那里学到的分布中匹配自己样本的概率。

图18

作者还提出了额外的损失函数，以指导学生生成高质量的音频流：

●功率损失函数：确保使用语音不同频带的功率，就像人在说话一样。

●感知损失函数：针对这种损失函数，作者尝试了特征重构损失函数(分类器中特征图之间的欧氏距离)和风格损失函数(Gram矩阵之间的欧氏距离)。他们发现风格损失函数会产生更好的效果。

●无论条件向量如何，对比度损失会惩罚有高可能性的波形。

下图显示了这个模型的性能：

图19

利用小样本的神经网络语音克隆

据雷锋网了解，这篇文章的作者来自百度研究院。他们引入了一个神经语音克隆系统，它可以通过学习从少量音频样本合成一个人的声音。

系统使用的两种方法是说话人自适应和说话人编码。说话人自适应是通过对多个说话人的声音生成模型进行微调来实现的，而说话人编码则是通过训练一个单独的模型来直接推断一个新的嵌入到多个说话人语音生成模型。

文章链接：https://arxiv.org/abs/1802.06006v3

本文采用Deep Voice 3作为多说话人模型的基线。所谓声音克隆，即提取一个说话人的声音特征，并根据这些特征来生成给定的文本所对应的音频。

生成音频的性能指标决定于语音的自然度和说话人声音的相似度。作者提出了一种说话人编码方法，该方法能够从未曾见过的说话人音频样本中预测说话人声音嵌入。

图20

下面是声音克隆的性能：

图21

图22

VoiceLoop：通过语音循环进行语音拟合与合成

这篇文章的作者来自Facebook AI研究院。他们引入了一种神经文本到语音(TTS)技术，可以将文本从野外采集的声音转换为语音。

文章链接：https://arxiv.org/abs/1707.06588

VoiceLoop的灵感来源于一种称为语音循环的工作记忆模型，它能在短时间内保存语言信息。它由两部分组成，其一是一个不断被替换的语音存储（phonological store），其二是一个在语音存储中保持长期表达（longer-term representations）的预演过程。

Voiceloop将移动缓冲区视作矩阵，从而来构造语音存储。句子表示为音素列表。然后从每个音素解码一个短向量。通过对音素的编码进行加权并在每个时间点对它们求和来生成当前的上下文向量。

使VoiceLoop脱颖而出的一些属性包括：使用内存缓冲区而不是传统的RNN，所有进程之间的内存共享，以及使用浅层、全连接的网络进行所有计算。

图23

下图显示了模型与其他替代方案相比的性能表现。

图24

图25

利用梅尔图谱预测上的条件WaveNet进行自然TTS合成

作者来自谷歌和加州大学伯克利分校。他们引入了Tacotron 2，这是一种用于文本语音合成的神经网络架构。

文章链接：https://arxiv.org/abs/1712.05884

它由一个循环的的序列到序列特征预测网络组成，该网络将字符嵌入到梅尔标度图谱中。然后是一个修改后的WaveNet模型，这个模型充当声码器，利用频谱图来合成时域波。模型的平均意见评分(MOS)为4.53分。

图26

这个模型结合了Tacconon和WaveNet的最佳特点。下面是它与其他模型的性能对比：

图27

雷锋网小结

现在的语音合成技术发展很快，我们希望能够尽快追赶上最前沿的研究。以上这几篇文章是当前语音合成领域最重要的进展代表，论文、以及其代码实现都可在网上找到，期待你能去下载下来进行测试，并能够获得期望的结果。

让我们一起创造一个丰富多彩的语音世界。

原文链接：https://heartbeat.fritz.ai/a-2019-guide-to-speech-synthesis-with-deep-learning-630afcafb9dd

本文转自雷锋网，如需转载请至雷锋网官网申请授权。

原文章地址为2019深度学习语音合成指南

上一页 1 2 下一页

关键词：

评论

相关推荐

逆变器(三相电桥电路)

设计方案逆变器三相电桥 | 2009-07-06

台积电回应晶圆代工成熟制程折价一至两成换取客户订单

EDA/PCB 台积电晶圆制程工艺降价 | 2023-03-06

哪里有VxWork USB开发包，交流一下。

anewsman | 2004-08-10

电视伴音发射机的自动开关

设计方案电视伴音发射机自动开关 | 2009-07-06

基于碳化硅的25kW电动汽车直流快充开发指南-结构和规格

电源与新能源安森美 | 2023-03-06

一份密封连接器的选型指南，请查收！

元件/连接器 Mouser 连接器 | 2023-03-06

西门子PLC系列综合目录

资源下载 | 2007-02-09

设计指南-数字电位器

视频 Intersil 数字电位器 | 2011-10-17

逆变器与三相电动机的连接

设计方案逆变器三相电动机连接 | 2009-07-06

华为回应“放弃在英国剑桥建10亿英镑研究园区”传闻：仍在评估该项目

智能计算华为剑桥园区微芯片 AI | 2023-03-06

设计功率器件中的散热考虑

视频 Intersil 功率器件 | 2011-10-17

如何选择一个电源模块

视频 Intersil 电源模块 | 2011-10-17

搞NP的来报一下名吧

kaddy | 2004-08-10

详解高效散热的MOSFET顶部散热封装

电源与新能源安森美 MOSFET | 2023-03-06

步进电动机的驱动电路及其画法

设计方案步进电动机驱动及其画法 | 2009-07-06

西门子PLC中文仿真器

资源下载 | 2007-02-09

西门子MicroWin V3

资源下载西门子 SIMATIC MicroWin V3 | 2007-02-09

谁有HITOOL的中文使用手册？

黑色植物 | 2004-08-10

西门子PLC仿真程序

资源下载 | 2007-02-09

预防发生过电流的电路(电流限制电路)

设计方案预防发生过电流的电流限制 | 2009-07-06

请教：Link时使用remove参数有何异常影响？

newwind | 2004-08-10

如何确定目标阻抗以实现电源完整性？

电源与新能源电源完整性 | 2023-03-06

tornado中哪个文件可以看到vxworks的所以其自己定义的新的数据类型

jim323 | 2004-08-10

使用无电阻传感解决方案扩大电流测量范围

物联网与传感器无电阻传感 | 2023-03-06

添加阈值滞后以实现平滑的欠压／过压锁定

元件/连接器过压锁定电阻分压器 | 2023-03-06

设计指南-低功耗压力传感器

视频 Intersil 压力传感器 | 2011-10-17

西门子PLC编程手册

资源下载 | 2007-02-09

设计指南-为什么我们需要斩波放大器

视频 Intersil 斩波放大器 | 2011-10-17

信号继电器－了解基础知识

元件/连接器信号继电器 | 2023-03-06

RS-485收发器常见问题解答

元件/连接器 TI 收发器 | 2023-03-06

技术专区

关闭