新闻中心

EEPW首页 > 消费电子 > 业界动态 > 一种室内混响语音盲分离算法*

一种室内混响语音盲分离算法*

作者:曾金芳,陈 达,张 钰,李友明 (湘潭大学物理与光电工程学院,湖南 湘潭 411105)时间:2021-05-20来源:电子产品世界收藏

摘 要:在信号处理领域,室内环境下的混响语音盲分离一直以来都是一个重点与难点,主要是由于混合系统存在的混响和回声严重影响了语音质量,从而降低了算法分离效果。因此,本文提出了一个应对算法,由麦克风采集到室内混响语音混合信号后,对该混合信号进行两阶段处理:首先通过设计一个逆滤波器来抑制早期混响或增大信号混响能量比,再采用谱减法来消除回声;然后将处理过的混合语音信号通过短时傅里叶变换转化为频域各个频点的瞬时混合形式,用IVA算法分离混合语音信号,最终恢复为时域语音信号。实验表明,该方法可以有效提高室内混响环境下的语音盲分离效果。

本文引用地址:http://www.eepw.com.cn/article/202105/425715.htm

*基金项目:湖南省自然科学基金(2018JJ3486)

作者简介:曾金芳,女,硕导,博士,主要研究方向为声音信号处理,深度学习。

陈达,男;张钰,女;李友明,男。三人均为硕士研究生。

0   引言

(blind source separation, BSS) 是指当源信号参数和信号混合模型都未知时,基于输入源信号的统计特性,将源信号从观测信号分离出来的过程。技术先后应用于文本数据挖掘、语音信号处理、地球物理信号处理等多个领域[1-3]

独立分量分析[4](independent component analysis,ICA) 算法是解决问题的一个常用且高效的算法。然而,在真实的室内环境中,由于室内存在的混响和回声,接收器接收得到的信号一般都不是线性混合的,而是卷积混合的。因此通常采用频域ICA 算法进行分离。频域ICA 算法是通过短时傅里叶变换(short-time fourier transform, STFT) 将混合信号由时域的卷积混合转到频域各个频点的瞬时混合,再使用ICA 算法进行分离。但传统的频域ICA 算法通常存在幅度模糊性和排序模糊性问题[5-6],经过学者们的不断研究,目前已有许多算法被用来解决该问题[7-8],如独立向量分析(IVA)算法。

频域ICA 算法另一个需要注意的是混响强弱问题,处理不好会导致分离性能严重下降。在无噪声条件下,混响语音的质量主要依赖于两个不同的感知成分:早期混响和回声。它们分别对应两个物理变量:信号混响能量比和混响时间。受此启发,我们采用一种单麦克风双级语音算法[9]。在第一阶段,通过估计一个逆滤波器来抑制早期混响或增大信号混响能量比。在第二阶段,采用谱减法来减少回声的影响。实验表明,该算法在一定程度上抑制了室内的混响和回声,提高了语音的质量。

由于混响和回声的存在,室内混响语音盲分离导致算法性能严重下降。因此,通过结合两阶段算法和IVA 算法,构建出一个新的算法模型,来处理真实室内环境下的语音盲分离问题,即先对室内混响语音混合信号进行两阶段去混响处理,抑制早期混响和消除回声,再将目标信号转到频域,用IVA 算法分离语音信号,最终恢复为时域语音信号。

1   语音卷积混合模型

在真实的室内环境中,源信号在传播过程中会存在各种延时和反射等现象,因此接收器接收到的语音信号可以表示为源信号st(i ) 和室内脉冲响应系数aki( t) 的卷积[10]

image.png

这里,xki(t ) 是接收器k 在时间t 接收到来自源信号st(i) 的分量, n 是接收器个数, m 是源信号个数。

aki(t) 模拟室内中源信号i 到接收器k 的脉冲响应, p 是室内脉冲响应的最大长度。

分帧加窗并STFT,定义x t ki( ) 的第r 帧STFT 变换为Xki(ω,r ):

image.png

其中,L 是帧长,N 是帧移。当L ≥ p,即帧长大于混响时间,(2)式为:

image.png

其中, Aki(ω) 和 Sri(ω, ) 分别是 a t ki( ) 和s t i( ) 的STFT。至此,在室内混响环境下,其时域上的卷积混合便转换成为频域各个频点上的瞬时混合。

2   一种室内混响语音盲分离算法

2.1 本文算法流程

算法流程图如图1 所示。首先,接收一段室内混响语音信号,对该混响混合信号采用两阶段去混响算法,滤除信号中存在的混响和回声,增大信号混响能量比和减小信号混响时间,再使用STFT 变换将信号由时域上的卷积混合转换成为频域各个频点上的瞬时混合,采用IVA 算法分离语音信号,最后通过STFT 逆变换恢复为时域语音信号。

2.2 两阶段去混响

通常在室内环境中,信号在传播时会产生混响和回声。因此,一个麦克风接收到的信号分为直达语音和混响成分。直达语音,即直接到达麦克风的语音。混响成分一般分为早期混响和回声,如图2 所示, 室内脉冲响应的早期部分(t<50 ms) 看起来像一连串脉冲,显示了房间的早期混响。脉冲响应的后面部分(t>50 ms) 看起来更随机,则是房间的后期混响,也就是回声。由于脉冲响应的两个部分的不同性质,本文用一个两阶段去混响算法分两阶段解决这两种干扰。在第一阶段,我们通过估计一个逆滤波器,以抑制早期混响。第二阶段,我们采用谱减法来消除回声的影响,如图3 所示。

image.png

1)抑制早期混响

在单通道去混响算法的第一阶段,我们通过估计一个逆滤波器来抑制早期混响效应或增大信号混响能量比[11]

假设

image.png

是长度为L 的逆滤波器则:

image.png

其中, z t ( ) 是逆滤波语音。y 是混响语音,采样频率是16 kHz。由于处理后语音的线性预测残差与逆滤波后混响语音的线性预测残差近似,因此有:

image.png

其中,yr(t) 是混响语音的线性预测残差。

则滤波器方程如下所示:

image.png

其中,μ 是指步长学习速率。

在采用时域自适应滤波器时,由于输入信号在时域的自相关矩阵的特征向量变化过大,可能会不完全收敛[12]。因此,我们采用一个频域块结构来进行优化,则可以得到新的逆滤波器公式:

image.png

其中,F(m) 和Yr(m) 分别代表的是 f(t) 和yˆ t r( ) 傅里叶变换(FFT) 的第m 个块。上标∗ 代表复共轭。G(n) 是gˆ 的FFT 在第n 次迭代的值,M 是块数。

图4 显示了图2 逆滤波后的室内脉冲响应波形图。通过图2 与图4 的对比可以看出,图2 原始脉冲响应50 ms 之前的混响成分幅度大、多且杂乱,而图4 逆滤波室内脉冲响应波形图50 ms 之前的早期混响部分在很大程度上被抑制住了。由此可得出,此算法估计的逆滤波器能在一定程度上抑制室内脉冲响应的早期混响部分,增大信号混响能量比,提高语音质量。

image.png

2)消除后期回声

在算法的第二阶段,我们采用谱减法来消除回声的影响。室内脉冲响应函数的后期混响破坏了语音频谱,降低了语音清晰度和质量。同样,经过去混响后的脉冲响应也可以分解成两部分:早期脉冲和晚期脉冲。通过对后期脉冲进行估计并予以减去,可以提高语音质量[13]。假设后期脉冲部分的功率谱是逆滤波后语音z(t)功率谱经过各种变换得来的,那么可以得到:

image.png

其中,S k i l( ; ) 2 是逆滤波后语音短时功率谱,Si(kz) ; 2是后期脉冲部分的短时功率谱。k 是频率点,i 是时间帧。ω(i)是平滑函数。移位延迟ρ 表示后脉冲分量的相对长度,比例因子γ 指定逆滤波后的后脉冲分量的相对强度。

为了证明使用谱减法是正确的,我们现在证明早期脉冲和后期脉冲分量是近似不相关的。如果我们认为纯净语音s t ( ) 和逆滤波后脉冲h t e( ) 是独立的随机过程,那么就有:

image.png

其中,τ 1 和τ 2 在各自的集成中涵盖不同的范围。由于语音信号存在长时不相关性,当τ τ 1 2 − 的时间差距比较大时,E[s(t −τ )s(t −τ )] ≈ 0 1 2 。因此,上式的相关性非常小,从而证明了早期混响和后期混响部分互不相关。

原语音的功率谱就等于逆滤波后的语音信号的功率谱减去后脉冲信号的功率谱。其相应的表达式如下所示。

image.png

其中,image.png原始语音信号功率谱, ε 是地板系数。

2.3 独立向量分析

由于观测信号通过STFT 转化为频域的线性瞬时混合,因此可以用ICA 算法来分离混合信号。为了避免排序模糊性问题,本文选择IVA算法[14] 来分离得到源信号。

信号间的 KL 散度可以表示为:

image.png

image.png

又因为Y (ω) =W(ω)X(ω) ,则上式中微分熵为:

image.png

式(16) 等号右边第2 项可以表示为:

image.png

image.png

image.png

因此,可以得到目标函数最终形式:

image.png

image.png

其中, wi,k(ω)是分离矩阵W(ω)的第i行,G′(⋅)是G(⋅)的1 阶导数, k 指迭代次数, ηk 是步长参数。

3   仿真实验及结果分析

3.1 实验设置

图5 描述了实验中的房间布局,包括房间大小、声源和麦克风位置等。实验选取两组不同的数据集中时长为3 s 的纯净语音,每组语音数据均为英文男声和英文女声的组合,采样频率是16 kHz。由Roomsim 算法生成混响时间为200 ms 的室内混响冲击响应,如图6 所示。

其中,a11 是模拟房间中第1 个信源到第1 个麦克风的冲击响应,a12 是模拟房间中第1 个信源到第2 个麦克风的冲击响应,a21 是模拟房间中第2 个信源到第1 个麦克风的冲击响应,a22 是模拟房间中第2 个信源到第2个麦克风的冲击响应。

image.png

image.png

3.2 分离性能指标

本文采用评价盲源分离算法性能的工具箱BSS_EVAL[15] 来公正合理地评价算法的分离效果。采用信号干扰比(SIR) 和信号畸变比(SDR) 对算法的分离性能进行评估。假设每个分离出的信号可分解为目标信号starget(n)、干扰信号e n int erf ( ) 和算法带来的虚假信号eartif(n)三部分。

image.png

则分离信号的SIR 和SDR 分别定义为:

image.png

3.3 仿真结果

对两组信号采用本文提出的基于去混响的室内混响语音盲分离算法进行分离,并输出波形。两组语音的源信号、混合信号以及分离出来的信号均如图7 所示。为了美观,本文只列出了一组室内混响语音盲分离的波形图。源信号如图7 所示。将源信号与通过Roomsim 生成的混响冲击响应卷积得到混合信号,如图8 所示。再将混合信号经过两阶段去混响处理,得到语音去混响波形图,如图9 所示。最后通过本文提出的算法得到分离信号波形图,如图10 所示。

image.png

image.png

通过图8 与图9 之间对比可以看出,经过去混响算法后,混合语音细节变得更加清晰,且明显消除了室内混响所产生的回声。因此,两阶段去混响算法效果十分明显。

通过将图10 和图7 进行对比可以看出,该算法能够将源信号有效分离出来。但是仅仅通过观察,并不能准确评价算法的分离效果。因此本文引入盲源分离工具箱来评估算法的分离效果,并与未进行两阶段去混响的原算法进行对比分析。通过实验仿真,得到两组数据的两种算法的SIR 和SDR 性能参数,如图11 和图12。从图11 中可以看出,改进算法的SIR 相对于原算法最高获得了2.13 dB 的提升,SDR 最高提升了1.21 dB。

4   结语

针对室内混响环境下卷积混合语音信号存在混响和回声而导致频域盲分离精度低的问题,提出了一种新的室内混响语音盲分离方法,可以有效提高室内混响语音盲分离的效果。

image.png

参考文献:

[1] LEGLAIVE S, BADEAU R,RICHARD G.Separating Time-Frequency Sources from TimeDomain Convolutive Mixtures Using Non-negative Matrix Factorization[C]. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (WASPAA), Oct 2017, New Paltz, New York, United States.

[2] 张华,冯大政,庞继勇.卷积混迭语音信号的联合块对角化盲分离方法[J].声学学报(中文版),2009,34(02):167-174.

[3] 季策,姜雨田.基于方向幅值比的欠定盲源分离算法[J].东北大学学报(自然科学版),2019,40(07):920-924.

[4] 陈秀敏,李珊君,董兴建.Fast-ICA算法非线性函数性能的仿真分析[J].计算机应用与软件,2020,37(06):277-282+333.

[5] 李扬,张伟涛,楼顺天.基于联合对角化的声信号深度卷积混合盲分离方法[J].电子与信息学报,2019,41(12):2951-2956.

[6] 张天骐,张华伟,刘董华,李群.基于区域增长校正的频域盲源分离排序算法[J].电子与信息学报,2019,41(03):580-587.

[7] 冷艳宏,郑成诗,李晓东.功率比相关子带划分快速独立向量分析[J].信号处理,2019,35(08):1314-1323.

[8] 朱坚坚,王惠刚,李虎雄.联合频域盲语音分离排序算法[J].计算机应用,2008(06):1552-1554+1562.

[9] WU M, WANG D. A two-stage algorithm for one-microphone reverberant speech enhancement[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2006, 14(3):774-784.

[10] 顾凡,王惠刚,李虎雄.一种强混响环境下的盲语音分离算法[J].信号处理,2011,27(04):534-540.

[11] GILLESPIE B W, MALVAR H S, FLORENCIO D, et al.Speech dereverberation via maximum-kurtosis subband adaptive filtering[C]. international conference on acoustics, speech, and signal processing, 2001: 3701-3704.

[12] HAYKIN S.Adaptive Filter Theory[M].4th ed. Upper Saddle River, N.J.: Prentice-Hall, 2002.

[13] NAKATANI T, MIYOSHI M.Blind dereverberation of single channel speech signal based on harmonic structure[C]. international conference on acoustics, speech, and signal processing, 2003: 92-95.

[14] KIM T,ATTIAS H T,LEE S Y,et al.Blind source separation exploiting higher-order frequency dependencies[J].IEEE Transactions on Audio Speech &Language Processing,2006,15(1):70–79.

[15] 张天骐,徐昕,吴旺军,等.多反复结构模型的精确音乐分离方法[J].声学学报, 2016(1): 135-142.

(本文来源于《电子产品世界》杂志设2021年4月期)

image.png




评论


相关推荐

技术专区

关闭