讲堂 | 谭旭：AI音乐，技术与艺术的碰撞（2）

发布人：MSRAsia 时间：2021-07-22 来源：工程师

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

发布文章

除了我们前面考虑的结构信息以外，还有一个非常重要的信息就是曲式结构，这个对于生成一首完整的旋律非常重要。我们常见的曲式结构有单一、单二、单三、回旋、变奏、奏鸣曲式以及流行音乐常见的主副歌结构，这些信息非常有助于音乐的生成。同时也需要考虑一首歌的情绪推动，起承转合，比如下图上这种经典的稳定开始、变化扩张、紧张运动、稳定结束的形式，还需要对旋律的情感、情绪做出理解。而这些知识都需要有对音乐的理解。

因此，我们开展了 MusicBERT 工作，利用大规模音乐数据进行预训练，从而更好地理解音乐，包括情感分类、流派分类、旋律伴奏抽取、结构分析等。

为了能够开展大规模的预训练，我们构建了一个大规模的音乐数据集 MMD 包含150万首音乐数据，比之前的音乐数据集大10倍。然后针对音乐理解任务我们提出了 OctupleMIDI 这种编码方式，其中含有8种基本的 token，包括拍号、速度、小节、位置、乐器、音高、时长、速度等。相比之前的 REMI、CP 等，编码方式 OctupleMIDI 能极大地缩短音乐序列长度，同时还可以容纳足够的音乐信息。更短的序列长度可以使模型一次性处理更长的音乐片段，从而提升模型对音乐的理解能力。

我们使用了 BERT 的 Masked Language Modeling 训练方式，采用了 bar-level 的掩码策略，即一次性掩盖一个小节内相同类型的 token，以防止信息泄露。

MusicBERT 模型结构采用了基本的 Transformer，同时在模型的输入和输出上针对 OctupleMIDI 的编码做了一些特殊的设计——输入时将8个 token 的 embedding 拼接后通过一个线性层映射到模型的隐层维度，在输出时接8个 softmax 矩阵分别预测相应的 token。

MusicBERT 在三个下游任务：Melody Completion、Accompaniment Completion 和 Genre Classification 上取得了 SOTA 的效果，远超以前的音乐理解模型。

伴奏编曲

在伴奏编曲的生成方面，我们进行了 PopMAG 这个工作。PopMAG 处理的任务形式是给定主旋律和****进而生成不同乐器的伴奏，包括鼓、贝斯、吉他、键盘、弦乐等。这其中的一个难点就是要保证多轨音乐的和谐。因此，我们提出了MuMIDI 的编码方式，将多轨音乐编码到一个序列里，使得多轨音乐生成变成了单个序列的生成，这样自然地建模了不同轨音符之间的依赖关系。

我们在三个数据集上评估了 PopMAG 的伴奏生成效果，根据人的主观评测，生成的伴奏已经比较接近真实的伴奏了。

歌曲合成

针对歌声合成，我们做了 HiFiSinger 的工作。事实上，和说话的声音相比，歌声需要更高的保真度来传达表现力和情感。那么怎么实现高保真度呢？一个方面是提高声音质量，另一方面是提高声音的采样率。

之前的工作大都关注在提高声音质量，而我们考虑的是提高采样率。我们知道人耳对频率的感知范围为20到20kHz，如果采用16kHz或者24kHz的采样率的话，根据奈奎斯特-香农采样定理，它只能覆盖8kHz或者12kHz的频带范围，并不能很好地覆盖人耳的听觉范围。因此我们将采样率从24kHz升到48kHz来进行建模。

整个歌声合成的流程采用了声学模型和声码器级联的方式，如下图（右）所示。但是升级到48kHz的采样率有两个挑战：1）48kHz在频谱维度有更宽的频谱，这给声学模型的建模带来了挑战；2）48kHz在时间维度上有更长的语音采样点，这给声码器的建模带来了挑战。

所以，我们分别提出了针对声学模型的 Sub-frequency GAN 和针对声码器的 Multi-length GAN来解决上述问题。

实验结果显示 HiFiSinger 相比之前的基线方法取得了明显的音质提升，表明了我们的方法对高采样率建模的有效性。同时采用48kHz采样率的 HiFiSinger 模型甚至超过了24kHz的录音音质，也证明了高采样率的优势。

以上就是我们在 AI 音乐生成方面开展的一系列研究工作。目前 AI 音乐生成仍存在一些研究挑战，包括以下几个方面：1）对音乐结构的理解有助于音乐的生成以及编排；2）音乐的情感以及风格的建模；3）交互式的音乐创作；4）对于生成音乐原创性的保证等。

微软亚洲研究院机器学习组一直致力于 AI 音乐的研究，研究课题包括词曲写作、伴奏编曲、歌声合成、音乐理解等。我们即将推出 AI 音乐开源项目 Muzic，涵盖了我们在 AI 音乐的一系列研究工作，敬请期待。

AI 音乐研究项目主页：

https://www.microsoft.com/en-us/research/project/ai-music/

Muzic 开源项目页面（页面将于近期公开）：

https://github.com/microsoft/muzic

论文列表：

[1] SongMASS: Automatic Song Writing with Pre-training and Alignment Constraint, AAAI 2021, https://arxiv.org/pdf/2012.05168.pdf

[2] DeepRapper: Neural Rap Generation with Rhyme and Rhythm Modeling, ACL 2021, https://arxiv.org/pdf/2107.01875.pdf

[3] MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training, ACL 2021, https://arxiv.org/pdf/2106.05630.pdf

[4] PopMAG: Pop Music Accompaniment Generation, ACM MM 2020, https://arxiv.org/pdf/2008.07703.pdf

[5] HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis, arXiv 2021, https://arxiv.org/pdf/2009.01776.pdf

博客专栏

讲堂 | 谭旭：AI音乐，技术与艺术的碰撞（2）

相关推荐

技术专区