Neurotech重建听到的声音并探究人们是如何感知音乐的

发布人：12345zhi 时间：2023-08-31 来源：工程师

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

发布文章

UNIVERSITY OF CALIFORNIA, BERKELEY

你脑子里有没有一首歌？加州大学伯克利分校神经科学家团队的一项新研究在了解音乐感知和认知的神经基础方面取得了重大进展，真正推动了与音乐相关的神经科学的发展。

最近发表在PLOS Biology杂志上的这项研究结果（journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.3002176）显示了人类大脑对音乐表演的反应。当我们的耳朵听到一段歌曲片段后，它会被我们的耳蜗（内耳的螺旋腔）转化为神经元活动。Ludovic Bellier是加州大学伯克利分校Helen Wills神经科学研究所的博士后，他研究大脑中的神经网络最终是如何“听到”这些声音的。

在他的团队的实验中，Bellier和同事分析了听迷幻摇滚乐队Pink Floyd歌曲的人的大脑活动。29名参与者是纽约州奥尔巴尼市奥尔巴尼医疗中心的癫痫患者。作为治疗的一部分，这些患者的大脑表面植入了电子传感器，他们被要求专心听Pink Floyd的歌曲“Another Brick in the Wall”。研究人员记录了每个脑电极的振荡电位，这些测量被称为皮层电图记录（ECoG），是反映每个电极周围大脑小区域神经活动的宽带信号。

研究人员假设，每位患者记录的ECoG信号反映了他们的大脑是如何感知为他们播放的音乐的。为了验证他们的假设，并了解患者大脑中哪些区域最参与音乐感知，该团队拟合模型，以重建歌曲的音频频谱图，当以ECoG特征作为输入时，音频频谱图显示了声能在频率上随时间的分布。如果模型能够在正则化训练后准确地重建声谱图，那么ECoG特征必须反映关于向患者播放的音乐的一些信息。

根据Bellier的说法，研究小组能够验证他们的假设。通过使用多种类型的模型来重建听觉信号，科学家们可以解码出歌曲输出音频的至少部分可听见的相似性。研究人员表示，据他们所知，他们的研究结果是第一份从ECoG数据中回归的音乐音频出版物。尽管原始音频和重建音频之间的相关性仍远未达到1比1——统计r平方值为0.325——但当将一些模型的输出转换回音频波形时，如果距离较远，则可以将其识别为经典歌曲。一种更复杂、更非线性的重建算法——所谓的多层感知器，或简单的双层人工神经网络——会产生0.429的更高r平方拟合值和更清晰的音频重建。

为了测试大脑中哪些区域最参与音乐处理，研究人员在去除电极输入的同时，对模型进行了相同的音频重建任务训练。总之，来自所有患者的ECoG数据覆盖了大脑的大部分总表面积，因此科学家们能够将大脑的许多潜在区域视为产生听音乐体验的关键参与者。

通过比较涉及所有大脑区域的模型和没有涉及的模型之间的性能变化——有时称为消融研究——研究人员能够说出每个大脑区域提供了多少信息。换言之，如果当特定区域的电极被移除时，重建精度没有大的变化，那么该区域就不会像音乐感知那样参与其中。

从这个过程中，研究人员发现，去除从大脑左右两侧一个称为颞上回（STG）的区域收集的脑电波数据会导致重建精度的最大下降。这个区域恰好位于耳朵附近，也被认为在语音处理中发挥着重要作用，因此它实际上可能在大脑处理复杂结构化声音的能力中发挥更大的作用。

该团队还发现，从左右STG中单独去除数据特征对重建精度的影响显著不同。这表明，参与者大脑右侧STG的活动比左侧STG有更多关于歌曲的信息。奇怪的是，该领域先前的研究表明，语音处理的情况似乎恰恰相反，左侧STG通常比右侧STG做更多的工作。Bellier说：“在95%的右撇子中，言语主要位于左半球。我们在论文中表明，音乐（在左右STG之间）分布更广，但具有右侧优势”——这意味着右侧STG处理的音乐信息比左侧多。”

“我们可以做一个非常简单的后续跟进，”Bellier说。也就是说，本研究只考虑了70到150赫兹的高频脑电波信息。然而，Bellier表示，根据ECoG信号的较低频率范围计算的音频特征也可以对重要信息进行编码。这就是为什么他说，该团队计划在当前论文中对不同频率范围的神经活动重复相同的分析。正如论文所总结的那样，该小组目前和未来的工作将增加“我们对人脑音乐处理理解的又一块砖”。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。