"); //-->
如今,该实验室正在探索若在相同的算法中输入某张图片的一部分会发生什么。在本周的机器学习国际会议(ICML 2020)上,这一研究成果获得了最佳论文的荣誉称号,为图像生成开辟了一条新的路径。
GPT-2 的核心其实是一个强大的预测引擎。它通过查看从互联网各处搜索得来的数十亿单词、句子和段落,学习并掌握了英语这门语言的结构。掌握了这一结构,GPT-2 就可以从统计学的角度预测单词出现的顺序,从而操纵单词,将不同的单词组成新的句子。
因此,OpenAI 的研究人员决定将单词换成像素,在 ImageNet(最受欢迎的深度学习图像库)上用图片训练相同的算法。由于该算法最初是为处理一维数据(例如文本字符串)而设计的,于是研究人员将图片展开为单像素序列。他们将新模型命名为 iGPT,发现它可以理解视觉世界的二维结构。提供给该模型某张图片上半部分的像素序列,它就可以合乎情理地预测出图片的下半部分。
iGPT 的这一训练结果让人非常吃惊,它展示了开发计算机视觉系统的一条新路径,即利用在无人为标签的数据上进行训练的无监督学习。事实上,2005 年左右,早期的计算机视觉系统就曾试用过这一技术,但由于当时使用人为标签数据的监督学习更为成功,这一技术就遭到了冷落。但是,无监督学习的优势就在于 AI 系统可以在没有人工过滤器的前提下去了解世界,大大减少了标记数据的体力劳动。
iGPT 与 GPT-2 使用相同算法的,这一事实也显示了 iGPT 具有良好的适应能力。这也与 OpenAI 的最终目标一致,即创造出更通用的机器智能。
同时,该方法为生成深度伪造图片提供了一种新思路。在过去,生成式对抗网络(GAN)是生成深度伪造图片最常用的算法类别,必须用高度精确的数据进行训练。例如,若想用 GAN 生成一张脸,那么训练的数据也只能是脸。相反,iGPT 通过数百万和数十亿的图片学习了视觉世界的结构,从而可以生成极有可能真实存在的图片。虽然从计算层面上来看,训练这一模型成本太过昂贵,为其进入图像库设下了一道天然的屏障,但这一问题在不久的将来很快就可以得到解决。 OpenAI 没有接受采访,但在《麻省理工科技评论》去年参加的一次内部政策小组会议上,其政策总监杰克·克拉克(Jack Clark)对 GPT 式生成模型未来存在的风险进行了思考,包括将其应用于图像领域会发生什么。他基于自身所见,预测了该领域的研究轨迹走向并说到,“很快会应用到视频。大概再过 5 年,就可以在 5 到 10 秒的间隔内完成条件视频生成。”接着,他描述了自己想象的情景:输入一张政客的照片,照片上政客的旁边发生了爆炸,该模型就很可能输出该政客被谋杀的信息。
专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们
相关推荐
请问一下,ADW提示这个是怎么回事?
FOPLP 热潮加剧:ASE、Powertech 扩张;台积电据报筹备 2026 CoPoS 试验线
时钟定时电路原理图
瑞萨杯全国大学生电子设计竞赛开赛
CD71061构成的多功能程控闪光集成电路
要选择开发板,请大家帮忙!
模糊PID型电流控制器在异步电机调速系统中的应用
触摸式八声五闪电动玩具
at40008用ADS调试的怪问题
Virtex-7 485T I/O处理能力
为AR眼镜等多种智能可穿戴设备添加穿戴状态检测功能
以光为矛,第六届世界光子大会构筑国产集成电路新生态
断供·破局·共生——ICDIA 2025议程全公布
Virtex-7 485T DSP处理能力
意法半导体推出用于匹配远距离无线微控制器STM32WL33的集成的匹配滤波芯片
台湾地区的 DRAM 供应商南亚科技据报道暂停 DDR4 现货价格报价,库存紧张
可编程控制器的PID调节在电厂控制系统的应用
Cadence 和三星将人工智能应用于 SoC、3D-IC 和芯片设计
瑞萨杯2011全国大学生电子设计竞赛现场报道
研华AS&R:以边缘AI为核心,重塑机器人产业新生态
Virtex-7 485T功耗演示
鲁棒控制理论与应用
万马齐奔智算芯片推动硅IP与芯片设计协同方法快速演进
KSC PF轻触开关提供灌封友好型解决方案
鲁棒控制理论
基于模糊PID的车辆侧倾主动控制仿真研究
哪里有tornado下载?
目标机为pentium,做好启动盘后,启动
双表控制的可控硅定时器电路(三)
M668构成的步进调光台灯电路