"); //-->
整理 | 禾木木
出品 | AI科技大本营(ID:rgznai100)
2021年1月6日 OpenAI 发布了新模型 DALL·E ,AI 根据一段话就可直接生成图像。一年后进化 2.0 版本的“它”来了 —— DALL·E 2。
DALL·E 2 在生成用户描述的图像时具有更高的分辨率和更低的延迟。新版本还增添了一些新的功能,比如对原始图像进行编辑。
与之前的OpenAI工作一样,新工具没有直接向公众发布。但研究人员可以在线注册预览该系统,OpenAI希望以后能将其用于第三方应用。
试玩 Waitlist 地址:
https://labs.openai.com/waitlist
OpenAI 研究科学家 Prafulla Dhariwal 表示,「这个神经网络真是太神奇了,根据文本描述就能生成对应图像。」
那 DALL·E 2 具体生成的图像是什么样呢?和 DALL·E 1代有哪些明显的区别呢?
DALL·E 2 生成的“柴犬戴着贝雷帽穿着黑色高领毛衣”图像:
DALL·E 2 可以根据自然语言字幕对现有图像进行编辑。用户可以从现有图片开始,选择一个区域,然后告诉模型对其进行编辑。并且可以在考虑阴影、反射和纹理的同时添加和删除元素。
如下图所示,左边是原始图像,右边是 DALL·E 2 编辑后的图像。两张图对比后,我们发现左图中有数字 1、2、3,点击相应的位置,下图选择在 1 处添加火烈鸟。
DALL·E 2 可以根据原图像进行二次创作,创造出不同的变体:
DALL·E 2 相对一代以 4 倍的分辨率生成更逼真、更准确的图像。
DALL·E 2 的一项新功能是修复,在 DALL·E 1 的基础上,将文本到图像生成应用在图像更精细度的级别上。用户可以从现有的图片开始,选择一个区域,让模型对图像进行编辑,例如,你可以在客厅的墙上画一幅画,然后用另一幅画代替它,又或者在咖啡桌上放一瓶花。该模型可以填充 (或删除) 对象,同时考虑房间中阴影的方向等细节。
DALL·E 2 的另一个功能是生成图像不同变体,用户上传一张图像,然后模型创建出一系列类似的变体。
此外,DALL·E 2 还可以混合两张图片,生成包含这两种元素的图片。其生成的图像为 1024 x 1024 像素,大大超过了 256 x 256 像素。
DALL·E 2 是建立在 CLIP 之上,这是许多文本 AI 应用程序使用的 GPT 模型。但单词匹配并不一定能符合人们的预期,而且预测过程限制了图像的真实性。
CLIP 是原版 DALL·E 功能实现的基础,是一个负责给图像重排序的模型,旨在以人类的方式查看图像并总结其内容,OpenAI 迭代创建了一个 CLIP 的倒置版本——「unCLIP」,它能从描述生成图像,而 DALL·E 2 使用称为扩散(diffusion)的过程生成图像。扩散模型的特点在于,在牺牲多样性的前提下,能大大提升生成图像的逼真度。
OpenAI 的研究人员设计方案:
DALL·E 的完整模型从未公开发布,开发人员在过去一年中已经构建了一些模仿 DALL·E 功能的工具。
最受欢迎的主流应用程序之一是 Wombo 的 Dream 移动应用程序,它能够根据用户描述的各种内容生成图片。
OpenAI 今天没有发布任何新模型,但开发者可以利用其技术发现来更新自己的工作。
DALL·E 2 生成“一碗看起来像怪物、用羊毛织成的汤”:
OpenAI 已经采取了一些内置的保护措施,例如该模型是已剔除了不良内容的数据集上进行训练的,因此也在一定程度上限制了其生成不良内容的能力。
为避免生成的图片被滥用,DALL·E 2 在生成的图片上都标有水印,以表明该作品是 AI 生成的。此外,该模型也无法根据名称生成任何可识别的面孔。
DALL·E 2 将由经过审查的合作伙伴进行测试,但有一些要求:禁止用户上传或生成可能造成伤害的图像。他们还必须说明用 AI 生成图像的作用,并且不能通过应用程序或网站将生成的图像提供给其他人。
但 OpenAI 希望将 DALL·E 2 纳入该组织的API工具集中,从而为第三方应用提供动力。
Dhariwal表示:“我们希望继续进行分阶段的过程,这样就可以不断从得到的反馈中评估如何安全地发布这项技术”。
小编看到有网友晒出了自己生成的图像,感兴趣的小伙伴们可以去测试呦~
参考链接:
https://www.theverge.com/2022/4/6/23012123/openai-clip-dalle-2-ai-text-to-image-generator-testing
https://cdn.openai.com/papers/dall-e-2.pdf
https://openai.com/dall-e-2/#demos
专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们
相关推荐
Nigel AI赋能LabVIEW,NI用AI重塑测试新边界
研华 COMPUTEX 首度整合全球伙伴大会 强化全球边缘 AI 生态系统联结
释说芯语16:硬科技:构建企业未来之路(附PPT)
电子元件培训教材
基于Microchip MCU的AI/ML培训教程3
GPU:面临工作负载转变的高吞吐架构
赋能边缘端对话式人工智能
PowiGaN for AI Data Centers: Unmatched Power Density and Reliability
iCAN-4017 AI功能模块
WTC-AI太阳能热水器电路图
基于Microchip MCU的AI/ML培训教程2
爱立信携手 Net Feasa 布局海事网络 融合公网级通信与智能体 AI 赋能航运
AI热潮引发多层陶瓷电容MLCC供应短缺
继上次海联达Ai-ap100拆机之电源改造
WTC-AI型太阳能热水器电路图
英伟达CFO:我们早就知道内存大涨价要来了
CSR8670CSR8675智能语音Alexa蓝牙方案开发
EEPW2018年3月刊(工业物联网)
基于VisitionX制造智能眼镜
紧凑型集成连接器模块抑制噪声 为人工智能应用实现以太网供电
AI竞争进入下半场:从“卷参数”到“卷单价”
AI 驱动估值飙升:光通信半导体企业市值暴涨
基于Ai-WB2-12F与Rd-04的雷达检测系统
海联达(Aigale)Ai-HD1 无线全高清套件拆解
尼吉康的事业介绍
基于Microchip MCU的AI/ML培训教程1
万家乐JSYZ5-AI燃气热水器电路图
人工智能是如何帮助阻止造假者的?
EEPW2018年6月刊(5G)
瑞萨电子AI单元解决方案成功提高GE医疗(日本)日野工厂的生产力