新闻中心

EEPW首页 > 消费电子 > 业界动态 > 让机器“看图谱曲” 百度意欲何为?

让机器“看图谱曲” 百度意欲何为?

作者:时间:2016-07-22来源:今日头条收藏
编者按:“看图谱曲”技术也许尚未成熟,但却可以落地于不同领域——只要涉及“情绪渲染”,譬如广告,社交软件,PR营销,甚至最近火热的AR等等。

  许多年之前,在一次讲座中,人工智能先驱侯世达为台下音乐专业的师生播放了两首作品:一首来自肖邦,一首来自创作的“伪肖邦”,并让他们判断哪首是真肖邦,他们受过专业音乐训练,但多数人选择了后者。

本文引用地址:http://www.eepw.com.cn/article/201607/294389.htm

  这算是图灵测试在音乐领域的镜像。直觉上看,音乐与计算分列认知体系的两极,前者关乎感性甚至灵性,后者则被多数人归为“死理性派”,窥不见半点美感,但必须承认,倘若打穿知识边界,在更本质的意义上,音乐与计算共享同一套底层逻辑:某种抽象事物的形式组合——我个人听到过关于音乐最好的定义来自数学家莱布尼茨:音乐是人类精神通过无意识计算获得的愉悦。

  正因如此,人类一直试图让拥有“谱写”音乐的能力——最早的算法作曲(Algorithmic Composition)甚至可追溯到1957年化学家和音乐家Lejaren Hiller用算法生成了弦乐四重奏伊利亚组曲。如今几十年过去,在大数据“喂养”下,学习技术的发展让机器谱曲这件事愈加成熟,且与其他技术的嫁接也让机器谱曲迈向应用层面。

  最近一个例子来自深度学习实验室,他们发明了一种基于输入图片生成曲谱的自动化系统:输入一张图片,系统会自动生成一段符合该图片内容和意境,且符合韵律和节拍的曲谱——换句话说,试图用机器视角理解一张图片,然后创作一段音乐。

  技术也正在落地。7月19日晚,联手尤伦斯当代艺术中心(UCCA)举办了一场主题为“AI科技与艺术之夜”的跨界活动。活动现场,人工智能根据艺术家劳森伯格“四分之一英里”画作中的两个部分,分别生成了与画作元素相对应的钢琴曲。在随后播放的视频中,百度还展示了人工智能根据梵高的《星夜》和徐悲鸿的《奔马图》创作的曲子。这是百度首次尝试将人工智能技术与艺术创作相结合。



 那么问题来了,探究这样一个看起来颇具艺术气质的技术,百度意欲何为?

  机器“看图谱曲”

  拆解来看,让机器“看图谱曲”的技术实现分两部分:第一是训练过程,用海量数据对机器进行饲养(如你所知,近些年来,大规模计算能力,各种复杂模型和算法的诞生,让深度学习的训练数据不断增长),输入数据是带有语义标签的图片库,曲谱和对应歌词的曲库,输出是语义标签提取模型和曲谱生成模型;第二部分是测试过程,当机器智慧觅得规律,输入一张图片,则可输出一曲音乐。

  先说训练。训练的第一阶段即是利用图片库训练学习,得到语义标签提取模型,训练图片则由人工标注关键词,包含两种类型:第一,图片中出现的物体,譬如高山,大海,天空等;第二,图片色调和意境,譬如灰暗的,晴朗的,愤怒的,压抑的等。训练的第二阶段是学习得到曲谱生成模型,具体则通过局部曲谱聚类(对所有曲库中每半个小节作为一个曲谱单元,将所有相似曲谱聚集到同一个聚类上),统计语义标签与曲谱单元相关性,统计局部曲谱单元聚类的相邻概率等步骤实现。

  再说测试。这一过程同样包含两个阶段,第一阶段是给定一张图片,根据语义标签提取模型判断其是否可提取得到该语义标签;第二个阶段则是曲谱生成——总之可以看出,作为一项复合型技术,让机器“看图谱曲”的实现路径委实不易。

  不是替代,是合作

  当然,即便如此——即便机器谱写的曲目声音悦耳,由于“艺术”长久以来的某种蛊惑性(其实艺术形式的演进从来都与技术进步息息相关),也一定会有人觉得,这种声音不是“人工”而是“合成”的,从而构建鄙视链。但如前所述,作为一门课题,探寻音乐与数学的关系一直存在,不少作曲家都对二者的结合进行过大胆实验。


上一页 1 2 下一页

关键词: 百度 机器

评论


相关推荐

技术专区

关闭