新闻中心

EEPW首页 > 设计应用 > 基于DPP的自动音符切分识别研究

基于DPP的自动音符切分识别研究

作者:张世超 陈琦 吕杰时间:2016-04-26来源:电子产品世界收藏
编者按:基于内容的音乐分析是计算机音乐智能处理领域的重要分支,其中音符的分割和识别是关键技术之一。本文首先根据音级轮廓特征(PCP),对音乐进行特征提取,将帧集通过行列式点过程(DPP)进行建模,最后根据最大后验概率估计(MAP)选出帧子集,从而实现音符的分割。DPP将复杂的概率计算转换为简单的行列式计算,减少了计算量。在钢琴音乐片段多音符的的识别中,得到了67.3%的正确率,解决了多音符的切分识别难题。

摘要:基于内容的音乐分析是计算机音乐智能处理领域的重要分支,其中音符的分割和识别是关键技术之一。本文首先根据音级轮廓特征(),对音乐进行特征提取,将帧集通过(DPP)进行建模,最后根据最大后验概率估计()选出帧子集,从而实现音符的分割。DPP将复杂的概率计算转换为简单的行列式计算,减少了计算量。在钢琴音乐片段多音符的的识别中,得到了67.3%的正确率,解决了多音符的切分识别难题。

本文引用地址:http://www.eepw.com.cn/article/201604/290272.htm

1 引言

  对音符进行识别是音乐信号分析处理领域中重要的研究内容。音符识别技术在音乐数据库的建立、管理和索引中具有重要的应用价值,如何准确地进行音符分割是检索系统中较困难的问题[1]。音符识别技术可以便捷地实现乐谱的计算机录入,在音乐内容检索、计算机辅助钢琴教学、音乐作品数字化等领域具有广阔的应用前景。随着计算机多媒体技术、数字信号处理技术等不断发展,越来越多的音乐作品进入数字化的轨道,基于计算机的音乐识别、乐谱跟踪、音乐分类等一系列课题也被越来越多的学者关注。现有音符分割的方法大多是依据能量分割。文献[2]提出了使用声音的频谱参数,利用计算音符的自相似性进行音符分割。文献[3]凭借能量特征确定哼唱的起点和终点,通过设定动态门限的方法实现音符分割。近些年,国内学者的研究主要集中在和弦的识别以及单音符的识别上,对于多音符的识别较为欠缺。本文将运用DPP识别模型,对多音符进行分割识别。

  模型(DPP)在图片分割、文本摘要和商品推荐系统中都有成功的应用。DPP将复杂的概率计算转换成简单的行列式的计算,减少了计算量,提高了运行速度,并且很好地解决了负相关的问题[4]。本文首先将音乐信号进行特征提取,在识别阶段运用DPP进行建模,并用300段标记好的训练集对模型参数进行训练,从而完成音符的自动分割识别。

2 DPP

2.1 特征提取

  音级轮廓特征(PCP)是音乐信息检索中广泛使用的一种信号特征。PCP将频谱重建为音级谱,将音乐信号能量映射到12个音级上。

  PCP特征计算:

  第1步:分帧处理,将时域离散信号分为重叠的帧。

(1)

  k表示频率坐标,n表示短时傅里叶变换窗口的中心,w(m)为汉明窗。

  第2步:频谱映射,强XSTFT(k,n)映射为一个十二维的向量p(k),每维表征了一个半音级的强度。映射公式为:

 (2)

  其中,fref为参考频率,fsr为采样率。

  第3步:将各个音级相对应的频率点的频率值进行累加,得到每个时间片段的各个PCP分量的值,公式如下:

(3)

  其中p=0,1,…,11。PCP通过一个12维的向量来表示一个音级,它反映了音符在每一个12半音音程中半音阶刻度下的相对强度[5]

2.2 模型

2.2.1 DPP概述

  行列式点过程(DPP)是一种概率模型,它通过核矩阵的行列式来给出每一个子集的概率[6]。离散集上的点过程P是一个2γ上的一个概率测度,当Y是P的一个随机子集时,P就被称作行列式点过程:

(4)

  其中K为边缘概率核矩阵,K包含了计算A的概率的所有信息。Kij的值越大代表i和j越不可能同时发生,因此DPP适用于对突出差异性的集合进行建模。从图1可以看到,相比于独立抽样,DPP抽样的点集覆盖的信息更广,全局性更好[7]。

2.2.2 模型的建立

  K矩阵定义了一种边缘概率,为了方便对真实数据进行建模,通常采用L矩阵集来代替K,L定义了每一种子集概率,为最优化提供了一个方便的表述。一个通过正定矩阵L定义的DPP如下:

 (5)

  其中,I为N乘N单位矩阵,为归一化因子,K=(L+I)-1L

  对L进行格莱姆分解[8]

(6)

  qi∈R+表示i帧的Q值,即为能量;φi∈Rn,||φi||2=1为i帧的标准特征向量,由i帧的PCP特征向量做归一化得到。所以代表了i帧和j帧的相似度。

  图2为DPP的几何描述,每一帧都由一个向量表示。图a向量所围成的面积即为帧i和帧j的联合概率;图b增加了帧j的Q值,联合概率也增加了;图c提高了帧i和帧j的相似度,联合概率相应地减小。

2.2.3 建立目标函数

  通过在条件行列式点过程模型中加入参数,来实现有监督的学习模型。对于训练集,输入集合X为音乐每一个音符的一帧组成的点集,y(X)为该音乐内所有备选的点集。所以在参数θ下,给定的输入集X,输出集Y的条件概率如下:

(7)

  其中

  只要保证相似度特征矩阵是正定的,相似度特征向量φi(X)可任由期望的测量值构成,也可以是无限维度的。我们用对数线性模型计算Q值:

(8)

  其中fi(X)∈Rm为帧i表征Q值的特征向量,θ∈Rm为参数向量。

  利用最大似然估计(MLE)建立目标函数:

(9)

  最优化L是基于一致性假设的。如果训练数据准确地参数θ* 满足条件行列式点过程分布,那么当时,学习到的参数。当然现实中的数据不可能准确地遵循任何确切的模型,但是最大似然近似依然能够较好地矫正DPP产生合理的概率估计,因为使L最大相当于令训练数据的对数损耗最小。

  本文利用下降梯度算法,来最优化对数似然,L(θ)梯度如下:

(10)

2.2.4 最大后验概率估计()

  我们需要用学习到的参数θ来预测测试集X,得到最终的点集Y。一种方法是从DPP条件分布中抽样,这将需要立方的时间复杂度[9],本文将采用最大后验估计()来进行预测。在约束条件下的YMAP定义如下:

(11)

  其中cost(i)为帧i的能量,B为总能量的门限值,计算YMAP是NP困难问题[10],我们这里做两个近似。第一,我们通过抽样获得大量的子集Y,然后通过约束条件选择可能性最大的一个;第二,注意到公式(11)为一个子模块,我们可以用一个简单的贪婪算法来近似它。对于单调子模块问题,这种算法有合理的近似保证[11-12]

3 实验与结果分析

3.1 实验环境与数据

  本文的实验环境为安装有Matlab2010A 的PC 机,在356首符合条件的钢琴曲片段中,随机选出300个音乐片段作为训练样本数据,其余的56个片段作为测试数据。训练、测试音乐片段的平均时间长度为6.8s,平均多音音符15个。从训练模型库中可以看出经过300个音乐片段训练后得到的多音音符基本覆盖了钢琴88个单音所构成的多音符组合。表1是几种多音符系统的识别率(多音符中单音符数超过3)。

3.2 结果分析

  本课题所研究的基于DPP的多音符识别系统其识别率提高了近5%。与时频域、统计法等识别相比,基于DPP的模式识别法虽然需要对样本进行先期训练,但是由于DPP对多音符特征转换较为精确的建模,为多音符的正确识别奠定了基础。在模型建立过程中,对于相近多音符的建模是本课题识别率较低的原因之一。比如,对于多音符A1C2F2 和A1C3F3,在特征提取过程中,二者相差的只是C2和C3两音符上的频率带能量差,而根据钢琴十二平均律的物理特性,二者成倍频关系,这就为PCP特征提取带来极大的困难。

4 结束语

  本文介绍了利用DPP模型对钢琴曲进行多音符自动分割识别的初步研究结果。在运用PCP特征的的基础上,音符识别率达到了67.2%。但是,根据实验中出现的问题,本系统还存在诸多需进一步研究改进的地方。首先,在对多音符的建模时,由于相近多音符的特征差异小,导致模型近似,出现误识别,这就需要采用新的多音符特征;其次,DPP模型趋向于选择差异性大的子集,所以对于短时有内大量重复旋律的音乐,DPP的分割正确率并不理想。但是,DPP将复杂的概率计算转换成简单的行列式计算,在计算速度上大大优于MRF[13],在对海量音乐进行分割识别时,DPP的优势将更加明显。

参考文献:

  [1]Meek C.J,Birminghan W.P Can't Sing:A Comprehensive Error Model for Sung Music Queries[C]//Proc.ofISMIR’02.Paris,France:[s.n],2002

  [2]曹建红.基于哼唱的音乐检索技术研究[D].南京:南京理工大学,2009

  [3]Foote,J.,Automatic Autio Segmentation using a Measure of Audio Novelty.In Proceeding of IEEE Intermational Conference on Multimedia and Expo,vol.i,pp.452-455,July 30,2000

  [4]A. Kulesza and B. Taskar, Determinantal Point Processes for Machine Learning, Foundations and Trends in Machine Learning: Vol. 5, No 2-3, 2012

  [5]王峰. 美尔音级轮廓特征在音乐和弦识别算法中的应用研究[D]. 太原: 太原理工大学, 2010

  [6]Johansson. Determinantal processes with number variance saturation. Communications in

  mathematical physics, 252(1):111–148, 2004

  [7]Hough, M. Krishnapur, Y. Peres, and B. Vir_ag. Determinantal processes and independence. Probability Surveys, 3:206-229, 2006

  [8]Kulesza and B. Taskar. Structured determinantal point processes. In Proc. NIPS, 2010

  [9]A. Kulesza and B. Taskar. Learning Determinantal Point Processes. In Proc. UAI, 2011

  [10]Ko, J. Lee, and M. Queyranne. An exact algorithm for maximum entropy sampling. Operations

  Research, 43(4):684{691, 1995. ISSN 0030-364X

  [11]Hui Lin and Jeff Bilmes. Multi-document summarization via budgeted maximization of submodular functions. In Proc. NAACL/HLT, 2010

  [12]Krause and C. Guestrin. A note on the budgeted maximization of submodular functions.Technical Rep. No. CMU-CALD, 5:103, 2005

  [13]Borodin. Determinantal Point Processes. arXiv:0911.1153, 2009


本文来源于中国科技期刊《电子产品世界》2016年第4期第28页,欢迎您写论文时引用,并注明出处。



评论


相关推荐

技术专区

关闭