如何设计容器来实践AI模型的PnP

作者：高焕堂时间：2023-10-30 来源：电子产品世界

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

本文引用地址：https://www.eepw.com.cn/article/202310/452243.htm

1 前言

在本专栏的前面文章《从隐空间看AIGC 的未来发展》里，曾经提到了，今天全球AIGC 产业即将进入产业的革命性的转折点，也逐渐浮现AI 模型容器( 集装箱) 的身影。而AI 集装箱将带给码头( 隐空间) 一项美好的次序。一旦我们致力于制定AI 容器的规格，就会拥有主导未来AIGC 产业发展的话语权。

于是，在本篇文章里，将继续以实例详细说明AI容器的设计和实践技术。

2 以Stable Diffusion为例

首先观察SD (Stable Diffusion) 的基本架构，如图1。

图1 Stable Diffusion的基本架构

(https://zhuanlan.zhihu.com/p/621325215)

这图里的中间( 蓝色) 部分就是隐空间(Latent space) 所在，它内含一个UNet 模型，如图2。

图2 SD内含的UNet模型

(https://zhuanlan.zhihu.com/p/621325215)

于是，得到了详细的SD隐空间扩散(Diffusion) 架构图，如图3。

图3 SD隐空间扩散架构图

(https://ommer-lab.com/research/latent-diffusion-models/ )

这个隐空间里，最核心的是UNet 模型。它本身也是一个容器( 如同集装箱)，内含有QKV 等小模型等。于是，就可以设计一个AI 模型容器来表示它，例如使用指令：

class UNetModel(nn.Module):

……………

这里的UNet 模型就如同< 信纸> 的角色。有了信纸之后，就可以来设计一项更大的< 信箱> 容器了，例如使用指令：

class LatentDiffusion(nn.Module):

……………

于是，有了UNet 模型( 信纸)，也有了Diffusion模型( 信封)，也有了隐空间( 信箱)。如果拿物流货运来比喻，这里的UNet 模型就如同< 集装箱> 的角色，而Diffusion 模型就如同< 轮船> 的角色，而隐空间就如同< 码头> 的角色。接着，就来实际观摩一下SD 的源代码，从Github 上可以看到SD 的源代码。

进入这网页之后，就继续浏览这些源代码，就可以看到它定义了一个UNetModel 模型，这就是刚才所说的< 信纸> 模型。

再继续浏览源代码，也就可以看到它定义了一个LatentDiffusion模型，这就是刚才所说的< 信封> 模型。

从上述的信纸与信封的比喻，可以领会出来：无论信纸、信封或信箱，都是容器互相包容起来。例如，SD 的LatentDiffusion 包容了UNetModel 小模型，而UNetModel 又包容了QKV 更小的模型，于是呈现出「序中有乱」的景象。也就是，容器( 如集装箱) 的外表简单有序，因而创造出井然有序。这即是通称的：有机次序(Organic order)。

3 演练：动手设计容器

步骤1 设计小模型

首先撰写一个能将灰阶图像彩绘( 渲染) 为彩色图像的GAN( 生成对抗) 模型，如下代码。

然后，收集数十张毕加索(Picasso) 的图像来训练它。

步骤2设计容器模型

训练好了小模型，就可以继续撰写一个容器模型来包容它( 即刚才的GANModel 模型)。这个容器模型的代码如下。

在这个范例里，这个容器模型包含了一个自己训练的GANModel小模型。此外，还包含了一个由OpenCV所提供的FSRCNN 小模型。这FSRCNN 是OpenCV 提供的预训练模型，其图像放大的效果，比传统做法好很多( 例如，没有明显的锯齿状边缘)。

步骤3 运行容器模型

于是，这个容器模型就可以将原始图像( 如224×224 的JPG 图像) 透过FSRCNN 来放大3 倍，然后交由GAN 模型来自动渲染出大张的图像( 即672×672 JPG 图像)，如图4 所示。

图4 让AI自由渲染Picasso的画作

对于艺术文创者而言，AI 可以激发人们更多想象空间，例如上图里的GAN 模型是学习Picasso 画风，而自动渲染出来的。这个模型也可以输入八大山人的画作，然后AI 彩绘出Picasso 的色彩风格，成为中西合璧的创新作品。

4 美好效果：易于PnP

刚才所设计的容器模型可以确保内含个小模型( 如GAN、FSRCNN 模型) 的变动自由度，来实现这些小模型皆能容易PnP(Plug and Play)，呈现出流畅新陈代的美好效果。因此创造了完美的有机次序(Organic Order)。例如，随时能流畅的将上述的彩绘GAN 模型汰换掉，重新设计一个新的小模型--- 彩绘UNET模型，如图5。