博客专栏

EEPW首页 > 博客 > 讲堂 | 谭旭:AI音乐,技术与艺术的碰撞(2)

讲堂 | 谭旭:AI音乐,技术与艺术的碰撞(2)

发布人:MSRAsia 时间:2021-07-22 来源:工程师 发布文章

除了我们前面考虑的结构信息以外,还有一个非常重要的信息就是曲式结构,这个对于生成一首完整的旋律非常重要。我们常见的曲式结构有单一、单二、单三、回旋、变奏、奏鸣曲式以及流行音乐常见的主副歌结构,这些信息非常有助于音乐的生成。同时也需要考虑一首歌的情绪推动,起承转合,比如下图上这种经典的稳定开始、变化扩张、紧张运动、稳定结束的形式,还需要对旋律的情感、情绪做出理解。而这些知识都需要有对音乐的理解。

9.png

因此,我们开展了 MusicBERT 工作,利用大规模音乐数据进行预训练,从而更好地理解音乐,包括情感分类、流派分类、旋律伴奏抽取、结构分析等。

10.png

为了能够开展大规模的预训练,我们构建了一个大规模的音乐数据集 MMD 包含150万首音乐数据,比之前的音乐数据集大10倍。然后针对音乐理解任务我们提出了 OctupleMIDI 这种编码方式,其中含有8种基本的 token,包括拍号、速度、小节、位置、乐器、音高、时长、速度等。相比之前的 REMI、CP 等,编码方式 OctupleMIDI 能极大地缩短音乐序列长度,同时还可以容纳足够的音乐信息。更短的序列长度可以使模型一次性处理更长的音乐片段,从而提升模型对音乐的理解能力。

11.png

我们使用了 BERT 的 Masked Language Modeling 训练方式,采用了 bar-level 的掩码策略,即一次性掩盖一个小节内相同类型的 token,以防止信息泄露。

12.png

MusicBERT 模型结构采用了基本的 Transformer,同时在模型的输入和输出上针对 OctupleMIDI 的编码做了一些特殊的设计——输入时将8个 token 的 embedding 拼接后通过一个线性层映射到模型的隐层维度,在输出时接8个 softmax 矩阵分别预测相应的 token。

13.png

MusicBERT 在三个下游任务:Melody Completion、Accompaniment Completion 和 Genre Classification 上取得了 SOTA 的效果,远超以前的音乐理解模型。

14.png

伴奏编曲

在伴奏编曲的生成方面,我们进行了 PopMAG 这个工作。PopMAG 处理的任务形式是给定主旋律和****进而生成不同乐器的伴奏,包括鼓、贝斯、吉他、键盘、弦乐等。这其中的一个难点就是要保证多轨音乐的和谐。因此,我们提出了MuMIDI 的编码方式,将多轨音乐编码到一个序列里,使得多轨音乐生成变成了单个序列的生成,这样自然地建模了不同轨音符之间的依赖关系。

15.png

我们在三个数据集上评估了 PopMAG 的伴奏生成效果,根据人的主观评测,生成的伴奏已经比较接近真实的伴奏了。

16.png

歌曲合成

针对歌声合成,我们做了 HiFiSinger 的工作。事实上,和说话的声音相比,歌声需要更高的保真度来传达表现力和情感。那么怎么实现高保真度呢?一个方面是提高声音质量,另一方面是提高声音的采样率。

之前的工作大都关注在提高声音质量,而我们考虑的是提高采样率。我们知道人耳对频率的感知范围为20到20kHz,如果采用16kHz或者24kHz的采样率的话,根据奈奎斯特-香农采样定理,它只能覆盖8kHz或者12kHz的频带范围,并不能很好地覆盖人耳的听觉范围。因此我们将采样率从24kHz升到48kHz来进行建模。

17.png

整个歌声合成的流程采用了声学模型和声码器级联的方式,如下图(右)所示。但是升级到48kHz的采样率有两个挑战:1)48kHz在频谱维度有更宽的频谱,这给声学模型的建模带来了挑战;2)48kHz在时间维度上有更长的语音采样点,这给声码器的建模带来了挑战。

18.png

所以,我们分别提出了针对声学模型的 Sub-frequency GAN 和针对声码器的 Multi-length GAN来解决上述问题。

19.png20.png

实验结果显示 HiFiSinger 相比之前的基线方法取得了明显的音质提升,表明了我们的方法对高采样率建模的有效性。同时采用48kHz采样率的 HiFiSinger 模型甚至超过了24kHz的录音音质,也证明了高采样率的优势。

21.png

以上就是我们在 AI 音乐生成方面开展的一系列研究工作。目前 AI 音乐生成仍存在一些研究挑战,包括以下几个方面:1)对音乐结构的理解有助于音乐的生成以及编排;2)音乐的情感以及风格的建模;3)交互式的音乐创作;4)对于生成音乐原创性的保证等。

22.png23.png

微软亚洲研究院机器学习组一直致力于 AI 音乐的研究,研究课题包括词曲写作、伴奏编曲、歌声合成、音乐理解等。我们即将推出 AI 音乐开源项目 Muzic,涵盖了我们在 AI 音乐的一系列研究工作,敬请期待。

AI 音乐研究项目主页:

https://www.microsoft.com/en-us/research/project/ai-music/

Muzic 开源项目页面(页面将于近期公开):

https://github.com/microsoft/muzic

论文列表:

[1] SongMASS: Automatic Song Writing with Pre-training and Alignment Constraint, AAAI 2021, https://arxiv.org/pdf/2012.05168.pdf 

[2] DeepRapper: Neural Rap Generation with Rhyme and Rhythm Modeling, ACL 2021, https://arxiv.org/pdf/2107.01875.pdf 

[3] MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training, ACL 2021, https://arxiv.org/pdf/2106.05630.pdf

[4] PopMAG: Pop Music Accompaniment Generation, ACM MM 2020, https://arxiv.org/pdf/2008.07703.pdf 

[5] HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis, arXiv 2021, https://arxiv.org/pdf/2009.01776.pdf 

相关链接:

https://www.microsoft.com/en-us/research/project/ai-music/ 

https://www.bilibili.com/video/BV1Kg411G78m 

https://github.com/microsoft/muzic 

*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。



关键词: AI

相关推荐

技术专区

关闭