专栏中心

EEPW首页 > 专栏 > OpenAI 发布 DALL·E 进化版，这只蒸汽朋克时代的小熊有点酷！

OpenAI 发布 DALL·E 进化版，这只蒸汽朋克时代的小熊有点酷！

发布人：CV研究院时间：2022-04-14 来源：工程师

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

发布文章

整理 | 禾木木

出品 | AI科技大本营（ID:rgznai100）

2021年1月6日 OpenAI 发布了新模型 DALL·E ，AI 根据一段话就可直接生成图像。一年后进化 2.0 版本的“它”来了 —— DALL·E 2。

DALL·E 2 在生成用户描述的图像时具有更高的分辨率和更低的延迟。新版本还增添了一些新的功能，比如对原始图像进行编辑。

与之前的OpenAI工作一样，新工具没有直接向公众发布。但研究人员可以在线注册预览该系统，OpenAI希望以后能将其用于第三方应用。

试玩 Waitlist 地址：

https://labs.openai.com/waitlist

OpenAI 研究科学家 Prafulla Dhariwal 表示，「这个神经网络真是太神奇了，根据文本描述就能生成对应图像。」

DALL·E 2 功能展示

那 DALL·E 2 具体生成的图像是什么样呢？和 DALL·E 1代有哪些明显的区别呢？

DALL·E 2 生成的“柴犬戴着贝雷帽穿着黑色高领毛衣”图像：

DALL·E 2 可以根据自然语言字幕对现有图像进行编辑。用户可以从现有图片开始，选择一个区域，然后告诉模型对其进行编辑。并且可以在考虑阴影、反射和纹理的同时添加和删除元素。

如下图所示，左边是原始图像，右边是 DALL·E 2 编辑后的图像。两张图对比后，我们发现左图中有数字 1、2、3，点击相应的位置，下图选择在 1 处添加火烈鸟。

DALL·E 2 可以根据原图像进行二次创作，创造出不同的变体：

DALL·E 2 相对一代以 4 倍的分辨率生成更逼真、更准确的图像。

DALL·E 2 的一项新功能是修复，在 DALL·E 1 的基础上，将文本到图像生成应用在图像更精细度的级别上。用户可以从现有的图片开始，选择一个区域，让模型对图像进行编辑，例如，你可以在客厅的墙上画一幅画，然后用另一幅画代替它，又或者在咖啡桌上放一瓶花。该模型可以填充 (或删除) 对象，同时考虑房间中阴影的方向等细节。

DALL·E 2 的另一个功能是生成图像不同变体，用户上传一张图像，然后模型创建出一系列类似的变体。

此外，DALL·E 2 还可以混合两张图片，生成包含这两种元素的图片。其生成的图像为 1024 x 1024 像素，大大超过了 256 x 256 像素。

如何实现新技能？

DALL·E 2 是建立在 CLIP 之上，这是许多文本 AI 应用程序使用的 GPT 模型。但单词匹配并不一定能符合人们的预期，而且预测过程限制了图像的真实性。

CLIP 是原版 DALL·E 功能实现的基础，是一个负责给图像重排序的模型，旨在以人类的方式查看图像并总结其内容，OpenAI 迭代创建了一个 CLIP 的倒置版本——「unCLIP」，它能从描述生成图像，而 DALL·E 2 使用称为扩散（diffusion）的过程生成图像。扩散模型的特点在于，在牺牲多样性的前提下，能大大提升生成图像的逼真度。

OpenAI 的研究人员设计方案：

DALL·E 的完整模型从未公开发布，开发人员在过去一年中已经构建了一些模仿 DALL·E 功能的工具。

最受欢迎的主流应用程序之一是 Wombo 的 Dream 移动应用程序，它能够根据用户描述的各种内容生成图片。

OpenAI 今天没有发布任何新模型，但开发者可以利用其技术发现来更新自己的工作。

DALL·E 2 生成“一碗看起来像怪物、用羊毛织成的汤”：

OpenAI 已经采取了一些内置的保护措施，例如该模型是已剔除了不良内容的数据集上进行训练的，因此也在一定程度上限制了其生成不良内容的能力。

为避免生成的图片被滥用，DALL·E 2 在生成的图片上都标有水印，以表明该作品是 AI 生成的。此外，该模型也无法根据名称生成任何可识别的面孔。

DALL·E 2 将由经过审查的合作伙伴进行测试，但有一些要求：禁止用户上传或生成可能造成伤害的图像。他们还必须说明用 AI 生成图像的作用，并且不能通过应用程序或网站将生成的图像提供给其他人。

但 OpenAI 希望将 DALL·E 2 纳入该组织的API工具集中，从而为第三方应用提供动力。

Dhariwal表示：“我们希望继续进行分阶段的过程，这样就可以不断从得到的反馈中评估如何安全地发布这项技术”。

小编看到有网友晒出了自己生成的图像，感兴趣的小伙伴们可以去测试呦~

参考链接：

https://www.theverge.com/2022/4/6/23012123/openai-clip-dalle-2-ai-text-to-image-generator-testing

https://cdn.openai.com/papers/dall-e-2.pdf

https://openai.com/dall-e-2/#demos

专栏文章内容及配图由作者撰写发布，仅供工程师学习之用，如有侵权或者其他违规问题，请联系本站处理。联系我们

关键词： AI

相关推荐

Nigel AI赋能LabVIEW，NI用AI重塑测试新边界

在 AI 重构科技产业当下，测试测量行业正迎来一次深刻的技术跃迁。在 NI Connect 首日的主题演讲中，NI 高管团队与来自Amentum、NVIDIA等企业的行业专家齐聚一堂，共同探讨了 AI 如何重塑测试的边界...

Nigel AI LabVIEW NI 2026-05-22

研华 COMPUTEX 首度整合全球伙伴大会强化全球边缘 AI 生态系统联结

全球工业物联网厂商研华科技宣布，于 COMPUTEX 2026 期间，首度将研华全球合作伙伴大会（World Partner Conference, WPC）与展览活动深度整合，并以「Edge Computing & A...

智能计算研华 COMPUTEX 边缘 AI 生态系统 2026-05-20

释说芯语16：硬科技：构建企业未来之路（附PPT）

jackwang 2018-10-22

电子元件培训教材

电子元件培训教材...

资源下载 NBA 电子元件识别电阻识别电容识别 AI MI SMT DIP 静电防护 2008-09-20

基于Microchip MCU的AI/ML培训教程3

本视频介绍基于Microchip MCU的人工智能（AI）和边缘机器学习（ML），重点讲解Microchip ML Suite工具，通过简单的AI演示，帮助工程师快速掌握嵌入式人工智能与机器学习技术，实现智能应用落地。...

视频 Microchip eRTC Microchip AI ML MCU 2025-11-12

GPU：面临工作负载转变的高吞吐架构

当前 AI 基础设施存在核心架构矛盾：GPU 仍是大规模 AI 训练和推理的主流计算引擎，但前沿大语言模型的计算特性正在发生变化，逐步暴露 GPU 原始设计的固有缺陷。内存墙成为 GPU 效率核心瓶颈内存墙指处理器计算速...

智能计算 GPU架构 AI 负载内存 2026-05-20

赋能边缘端对话式人工智能

早在 2025 年，语音行业就达成一个共识：语音是最自然的交互方式，这一理念至今依旧适用。语言是人类最早学会的沟通方式，也是日常生活里最顺手的交流途径。但想要实现真正流畅的语音对话，绝不止是把语音转成文字这么简单。恩智浦...

智能计算边缘对话 AI 语音人机交互多模态感知 AFE 注意力前端 UWB 超宽带定位本地语音识别人形机器人交互语音降噪 2026-05-21

PowiGaN for AI Data Centers: Unmatched Power Density and Reliability

Our VP of Product Development Roland Saint-Pierre explains why high-voltage PowiGaN technology offers the perf...

视频 pi ai PowiGaN DataCenters 2025-12-19

iCAN-4017 AI功能模块

iCAN-4017 AI功能模块...

资源下载周立功单片机功能模块 iCAN-4017 AI 2007-03-30

WTC-AI太阳能热水器电路图

设计方案 WTC-AI 太阳能热水器电路图 2012-07-24

基于Microchip MCU的AI/ML培训教程2

本视频介绍基于Microchip MCU的人工智能（AI）和边缘机器学习（ML），重点讲解Microchip ML Suite工具，通过简单的AI演示，帮助工程师快速掌握嵌入式人工智能与机器学习技术，实现智能应用落地。...

视频 Microchip eRTC Microchip AI ML MCU 2025-11-12

爱立信携手 Net Feasa 布局海事网络融合公网级通信与智能体 AI 赋能航运

爱立信与Net Feasa达成战略合作，面向全球海事领域推出融合运营商级 4G/5G 通信与智能体 AI的一体化互联方案，率先落地集装箱船舶场景，后续逐步拓展至整个航运行业。双方表示，该系统已在全球范围开展部署，首批应用...

手机与无线通信 5G AI 爱立信 Net Feasa 2026-05-21

AI热潮引发多层陶瓷电容MLCC供应短缺

人工智能技术的快速发展，正重塑关键元器件的供应格局，多层陶瓷电容（MLCC）尤为突出。48V 供电架构加速普及 —— 相比传统 12V 系统，其可降低功耗、提升板卡设计效率。同时，LLC 谐振转换器等高能效电源拓扑应用日...

元件/连接器 AI 多层陶瓷电容 MLCC 2026-05-20

继上次海联达Ai-ap100拆机之电源改造

zhuwei0710 2013-04-03

WTC-AI型太阳能热水器电路图

设计方案电子电路图，WTC-AI 太阳能热水器电路热水器 2012-07-30

英伟达CFO：我们早就知道内存大涨价要来了

英伟达首席财务官科莱特·克雷斯近日在接受采访时表示，当前席卷行业的内存短缺，本可以通过更早下单来规避，并暗指不少竞争对手对价格飙升的预判严重不足。她强调，英伟达很早就意识到高性能 AI 芯片将推高高带宽内存（HBM）和...

英伟达 AI 芯片内存 2026-05-24

CSR8670CSR8675智能语音Alexa蓝牙方案开发

BT Command：使用Voice AI，语音助理的蓝牙耳机。 BT CommandTM – Alexa 让你蓝牙耳机蓝牙音箱成为行动智能语音助手...

资源下载 AI 智能语音 2017-12-14

EEPW2018年3月刊(工业物联网)

1.TE扎根中国三十年鼎力支持中国创新 2.中国MCU市场观察 3.用于边缘设备的AI为设备制造商营造机会 4.工业物联网技术方案及发展大潮 5.工业物联网带来怎样的机遇和挑战？距离现实有多远？ 6.工业4....

资源下载工业物联网 AI 2018-03-12

基于VisitionX制造智能眼镜

设计方案 AI 智能眼镜 VisitionX 2025-08-12

紧凑型集成连接器模块抑制噪声为人工智能应用实现以太网供电

随着联网设备数量爆发式增长，网络设计人员需要不断重新规划边缘节点的数据采集种类、数据传输去向以及最优传输方案，同时，为边缘设备供电也逐渐成为网络设计工作中的重要一环。以太网供电技术（PoE）可同时实现数据传输与设备供电。...

智能计算 PoE 以太网供电差分信号 RJ45 集成连接器 ICM 集成模块 MagJack 电磁噪声抑制 IEEE802.3 标准边缘 AI 工业以太网压接式网口 2026-05-20

AI竞争进入下半场：从“卷参数”到“卷单价”

如果你还沉浸在去年“谁家模型跑分最高”的叙事中，那么今年的谷歌I/O大会可能会让你有些不适应。整场大会最核心的武器，并非某个仅仅存在于演示视频中的AGI（通用人工智能），而是一个定位为“中杯”的模型 —— Gemini ...

AI 谷歌 Gemini GPT Claude 2026-05-22

AI 驱动估值飙升：光通信半导体企业市值暴涨

人工智能热潮推动数据中心建设浪潮，带动光通信产业链企业股价飙升，部分公司年度涨幅创下历史纪录。一、行业涨幅创纪录自 2006 年首次发布以来，《化合物半导体》年度股价排行榜（统计周期为前一年 4 月底至当年 4 月底）多...

网络与存储 AI 估值光通信半导体 2026-05-25

基于Ai-WB2-12F与Rd-04的雷达检测系统

设计方案雷达 Ai-WB2-12F Rd-04 2025-08-12

海联达（Aigale）Ai-HD1 无线全高清套件拆解

zhuwei0710 2013-04-28

尼吉康的事业介绍

尼吉康的事业介绍...

视频 nichicon 尼吉康汽车电子 IoT AI 2025-07-25

基于Microchip MCU的AI/ML培训教程1

本视频介绍基于Microchip MCU的人工智能（AI）和边缘机器学习（ML），重点讲解Microchip ML Suite工具，通过简单的AI演示，帮助工程师快速掌握嵌入式人工智能与机器学习技术，实现智能应用落地。 ...

视频 Microchip eRTC Microchip AI ML MCU 2025-11-12

万家乐JSYZ5-AI燃气热水器电路图

设计方案电路图热水器燃气 JSYZ5-AI 万家乐 2013-01-17

人工智能是如何帮助阻止造假者的？

谢丫丫 2018-08-14

EEPW2018年6月刊(5G)

1.人工智能芯片市场广阔，需要静下心研发努力 2.2017中国半导体市场回顾及2018发展展望 3.5G技术及测试测量的挑战 4.ARM服务器芯片的挑战与应对策略探索 5.国产芯片的关键一步：华芯通首款芯片年底量...

资源下载 5G AI 2018-06-11

瑞萨电子AI单元解决方案成功提高GE医疗（日本）日野工厂的生产力

winni945 2018-09-12

更多 培训课堂

更多焦点

更多视频

技术专区