领会AI图像的生成过程:去芜存菁
1 巅峰的美学思维:去芜存菁
当今典型的AI 图像生成过程是:去芜存菁。例如,SD(Stable Diffusion) 训练模型去萃取噪声(Noise),然后把它删去。就如同伟大的雕塑家罗丹(Auguste Rodin)曾说过:“我只是把多余的石头删去而已”。这是培养创意的非常有效的学习途径。
图1 罗丹的雕塑作品:沉思者
综观AIGC 领域里,最近几个很红的图像模型,例如:DALLE、SD 和Sora 等,它们都是基于一种机制:扩散(Diffusion)。并且将其扩散模型转化为隐藏扩散模型(LDM,Latent diffusion models)。它有三項特点:
1)经由模型训练(Training),操作隐藏空间向量,加上随机输入中合成新的向量数据,呈现出令人惊奇的组合创新,大大提升了AI 绘画的创作能力。
2)经由空间对映(Space-mapping),把模型从从可观察空间,降维对映到低维的隐藏空间里。于是提高了模型的运算效率,这项创新的隐藏空间图像生成,就推动了AIGC 技术的突飞猛进。
3)当运算效能提高了,就直接支持巅峰的美学思维:去芜存菁。
于是,AIGC绘画就基于隐藏空间( 简称:隐空间)来进行探索、操作及创新组合;进而能够帮助大众绘出各种天马行空的画作。例如,Sora应用于生成动画时,可以对隐藏空间中的一个点进行采样并逐步改变潜在向量表示。其中每个采样点都被转交给译码器(Decoder)生成组合的帧(Frames) 存储在最终动画或视频中。最后,这些高质量的帧连续播放出来,就成为很连贯的动画视频了。
2 机器学习(ML)的新典范
传统的机器学习是让AI模型(如GAN),好好画鲤鱼、乌龟、青蛙等。然而,新潮的AI 模型( 如SD、Sora等 ) 已经用心训练自己认识水、杂草、灰尘等不必要的多余部分,然后删掉它们。就如同一个池塘,AI学习把池塘中的水、草、垃圾等杂质删去,各种鱼就皆跃然于眼中了。
在传统分辨式AI 时代,人们大多关注于AI 模型的输出结果,而把中间隐藏层( 即隐空间) 视为黑箱(Black-box),而不特别去关注它。如今到了新潮的生成式AI时代,大家就非常关注这黑箱( 隐空间) 的内涵,而用心观察它、操作它、拿它来分析,成为主导创新、生成内容的源头。
由于扩散(Diffusion) 是一项物理学的原理,不是人为的模拟算法,所以它可能会很持久,并深深影响AI绘图、影视、游戏的生成过程。此外,基于扩散 的机器学习(ML) 范式(Paradigm) 正表达了人类艺术创作潜能发挥的极致完美境界。它是一项逼近人类艺术创作巅峰的美学思维:去芜存菁。也就是罗丹所说的:把不必要的部分删掉。
上述机器学习的隐空间(Latent space) 是源自于模仿棋士心中的:无招世界。一般而言,大数据( 如Picasso画作) 都是看得见的有招世界,而人或电脑从有招世界的大数据中学习( 归纳、抽象),而沉淀于内心深处( 即隐空间) 即是:无招世界。这项人们心中的无招世界确实存在的。如今计算机如何仿真它,其技术仍在日新月异演进之中。
于是,我们可以从无招世界来领会为什么AI 会创作呢?当今AI 是基于机器学习,它会学习人类的做事、创物的经验直觉。然而,人类经验直觉的逻辑是不清晰的,通常无法经由程序语言来写成代码。那我们该如何把人类的直觉智慧弄进去机器(AI) 呢?
答案是:从人类的作品( 如绘画、音乐、文学作品、食谱、游戏、对话、网络文章) 中学习作品的形式、风格、情绪等。这些作品放到网络上,皆成为大数据(Big Data)。于是,我们就拿这些大数据来给AI 学习,谓之:训练。
AI 从人类作品中学习到人类专家( 创作者) 的招式(Patterns ) 和风格(Style )。如同金庸武侠中的杨过、小龙女向大侠们学习了许多武功招式。经年累月,杨过和小龙女,学而时习之,逐渐地在内心深处沉淀出招式背后的精华神韵,谓之:无招秘境。一样地,AI 经过几十天( 上亿回合) 的学习大量作品的创作招式和风格,逐渐地在AI 模型内部的秘境中沉淀出招式背后的精华神韵,这个AI 中的无招秘境( 即隐空间)。
武侠中上说:无中生有,从无招中生出千变万化,无招胜有招。 一样地,AI 也能从其无招秘境中的精华神韵,生出千变万化的新招式,也就是新作品、新内容(Content )。这种新创作新内容,就谓之:生成式AI(AIGC)。
生成式AI 模型,是基于模型的隐空间变量(Latent variable ) 的机率分布而抽样(Sampling)来生成。俗语说:从有招到无招,无招胜有招。上述的可观察空间即是有招空间,人类可以理解该空间里的数据涵意。而相对地,上述的隐空间就是无招空间,它是AI 创造出来的低维向量空间,人类通常无法理解其数据的涵意,所以称为:隐空间。它是千变万化AIGC 创作魅力的源头。
3 以SD(Stable Diffusion)为例
在AI 潮流中,SD 是AIGC 图像生成发展历程中的一个里程碑,提供了高性能模型,能快速生成创意十足的图像。在SD 的隐空间里,它使用了一个UNet 模型,并搭配一个时间调度(Scheduling) 器,来担任图像生成的核心任务。而扩散一词则描述了SD 潜在空间里进行的图像生成情形,整个过程都是在隱空间里逐步推进。SD 的基本架构是:
1)SD 的基础模型是AE(Autoencoder),我们输入图像给AE,并训练它生成几乎一样的图片;
2)从AE 衍生出UNet,对图像如上噪音,使图像变得模糊,再输入给UNet,训练它有能力预测噪音,然后去除噪音,生成与原图几乎一样的图像;
3)上述的”对图像如上噪音,使图像变得模糊”的扩散工作是很关键的,把这项添加噪音( 即扩大)的工作也交给AI去做, 就成为扩散模型(Diffusion model) 了。
上述的扩散架构可以原生支持图像到文字、图像变化、文字到图像和文字变化,并且可以延伸到其他应用领域,例如图像文字双重引导生成、潜在图像到文字到图像的编辑等等。并且将支持更多应用模式,例如语音、音乐、视讯和3D视频等。隐空间的内容是从可观察数据空间归纳萃取而得到的精华,相当于阅历丰富的领域专家内心所领悟沉淀出来的经验直觉。它具有稳定性( 不变性) 和共享性。
4 领会去芜存菁(一):小琪脑海中的霓虹灯
兹以“小琪脑海中的霓虹灯”为例,来比喻“去芜存菁”。例如香港的市区非常繁华,每天天黑之后,处处霓虹灯闪烁,灿烂夺目,几乎看不到行人、道路、桥梁或建筑物。小琪来到了西门町工作,白天担任市区导游,清晰看到行人、道路、桥梁或建筑物、天空等。晚上她常常在市区里逛街购物,处处充满霓虹灯闪烁的光芒,几乎看不到灿烂光芒下的人或物。如今已经整整住半年(100 多天) 了。
有一天晚上,小琪搭飞机来到东京( 大约晚上10点钟),她也立即到东京市区里逛街购物,也看到处处充满霓虹灯闪烁的光芒,几乎看不到灿烂光芒下的行人、道路、河流、桥梁或高楼大厦等。逛了一个钟头之后,返回到她住的旅馆内,看到窗外市区景色,也只看到处处霓虹灯的光芒闪烁、灿烂四射,令人眼花撩乱。于是,她拿起了画笔,在画纸上画下了她眼中的东京景色。请问:小琪在图纸上画出什么东西呢? 仔细观之,她画出了清晰的东京市区行人、道路、河流、桥梁和建筑物等图案。
隔天,小琪又搭飞机来到纽约( 也是大约晚上10点钟),她也立即到纽约市区里逛街购物,也看到处处充满霓虹灯闪烁的光芒,几乎看不到灿烂光芒下的行人、道路、河流、桥梁或高楼大厦等。逛了一个钟头之后,返回到她住的旅馆内,看到窗外市区景色,也只看到处处霓虹灯的光芒闪烁、灿烂四射,令人眼花撩乱。于是,她拿起了画笔,在画纸上画下了她眼中的纽约景色。请问:小琪在图纸上画出什么东西呢? 仔细观之,她画出了清晰的纽约市区行人、道路、河流、桥梁和建筑物等图案。
再隔一天,小琪又搭飞机来到巴黎( 也是大约晚上10 点钟),这天她立即住进旅馆内,向窗外看到市区景色,也只看到处处霓虹灯的光芒闪烁、灿烂四射,令人眼花撩乱。于是,她拿起了画笔,在画纸上画下了她眼中的巴黎景色。请问:小琪在图纸上画出什么东西呢?
5 领会去芜存菁(二):如何训练“啄木鸟”
如果把SD里的UNet模型比喻为啄木鸟,则训练一个UNet模型就相当于训练一只啄木鸟了。兹想一想,为什么2020年之后,SD等模型涌现出了强大的”生成”能力呢? 理由是:训练AI( 如啄木鸟) 的途径改变了。对啄木鸟而言,虫是它想要的东西,而木材则是它不要的东西。反之,对人们而言,虫是他不要的东西,而木材则是他想要的东西。因之,人们就来训练啄木鸟去关注“虫”、进而预测“虫”。换句话说,人们就来训练啄木鸟去关注“芜”、进而预测“芜”。
一旦训练完成了,啄木鸟( 即UNet 模型) 就很熟悉“虫”( 即芜) 了,也能很精准地预测“虫”( 即芜) 了。此时,啄木鸟( 即UNet 模型) 就能很精准地吃掉“虫”,也就留下好木材( 即菁) 了。这就是啄木鸟的“去芜存菁”过程了。也就是刚才提到罗丹的雕刻技艺:把多余的部分( 芜) 去掉。
所以,拿来一根生满虫子的木头,并叫一只训练有素的啄木鸟(AI 模型) 来找出“虫”,并且把虫吃掉。于是,这只啄木鸟就如同罗丹一样,很快生成一座雕刻作品。这即是当今的生成式AI了。
6 领会去芜存菁(三):“掀开棉被”的故事
例如,有三个房间,各都有一张床和一件棉被。床和棉被都是一致的外观。小琪进入到第1 房间,隐约看到棉被里有几只小动物;然后她掀开棉被,看到几只小猫咪。接着,小琪进入到第2 个房间,隐约看到棉被里有几只小动物;然后她掀开棉被,看到几只乌亀。
然后,小琪进入到第3 个房间,隐约看到棉被里有几只小动物;她并没有掀开棉被,就拿起画笔来画出她脑海中所想象( 呈现) 的棉被内景像。于是,小琪画出了第3 间房间的棉被里的小动物景像。请试想,小琪的画作中,会画出什么( 猫或乌亀或其它) 呢?又请试想,小琪进入到第3 个房间的瞬间,其脑海里做了什么动作呢? 其可能答案是:
1)观察眼前( 第3 房间) 的景象。
2)找出心中似曾相似的记忆景象。
3)识别出”棉被”对象。
4)把脑海中的”棉被”掀掉。
以上故事,可引导您更多领悟Diffusion的绘画生成原理。
7 领会去芜存菁(四):以拿铁咖啡为例
首先准备一张咖啡图像,以及一张棉花糖图像,如下:
图2
现在,把这张coffee图像与mar_aa图像相加起来( 如同把黑咖啡倒入到棉花糖mar_aa杯子里)。并且也把这张coffee图像与mar_bb图像相加起来( 如同把黑咖啡倒入到棉花糖mar_bb杯子里)。于是得到两杯拿铁咖啡,如下图:
图3
接着,就来训练一个UNet 模型,让它从latte_aa拿铁里,把coffee( 即芜) 分离出来。同时,也训练它从latte_bb拿铁里,把coffee( 即芜) 分离出来。换句话说,就是输入latte_aa图像,让他预测出coffee( 即芜);同时,也输入latte_bb图像,让他预测出coffee( 即芜)。实机训练1500 回合之后,输出:
并且汇出latte_unet.pt模型文件。接着,就拿另一杯latte_cc拿铁咖啡来检测看看这个训练好的UNet 模型;亦即把这张latte_cc 图像输入UNet 模型:
图4
于是,UNet 模型就预测出“芜”( 即pred_coffee_cc图像)。
图5
最后,拿latte_cc 拿铁图像,减去pred_coffee_cc图像,而留下了results_mar_cc 图像。于是,完成了“去芜存菁”的示范动作。
8 结束语
为什么扩散(Diffusion) 在2022-23 将AI绘图大幅推展到一个新里程呢?而且看来未来仍将引领风潮10年。其关键在于过去数十年来,人们都是给计算机正确的逻辑( 类似于人类教育的”传道”),其训练AI 去认识正确的事物或现象。而扩散则采取反向做法,致力于训练计算机(AI)去认识不正确的事物( 芜),然后学习完美的“去芜存菁”技能。由此而观之,在AI 时代最关键的教育新典范是:引导人们(或AI)深刻领会“什么是多余的”,然后决定“放弃什么”,即是:去“芜存菁”。
(本文来源于《EEPW》202408)
评论