专栏中心

EEPW首页 > 专栏 > Meta 开源 ImageBind 新模型，超越 GPT-4，对齐文本、音频等 6 种模态！（1）

Meta 开源 ImageBind 新模型，超越 GPT-4，对齐文本、音频等 6 种模态！（1）

发布人：AI科技大本营时间：2023-05-22 来源：工程师

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

据外媒报道，上周四，Google、微软、OpenAI 几家公司的 CEO 受邀去白宫，共论关于人工智能发展的一些重要问题。然而，让人有些想不通的是，深耕 AI 多年的 Meta 公司（前身为 Facebook）却没有在受邀之列。

没多久，更让 Meta CEO 扎克伯格扎心的是，一位官员对此解释称，本次会议“侧重的是目前在 AI 领域，尤其是面向消费者的产品方面，处于领先地位的公司。”

显然对于这样的解释，并不能让人信服，毕竟这一次受邀名单中还有一家由 OpenAI 的前成员创立的美国人工智能初创和公益公司 Anthropic。

似乎是为了出一口“气”，也为证明自家的实力，相比 OpenAI、Google 推出闭源的 GPT-4、Bard 模型，Meta 在开源大模型的路上一骑绝尘，继两个月前开源 LLaMA 大模型之后，再次于 5 月 9 日开源了一个新的 AI 模型——ImageBind（https://github.com/facebookresearch/ImageBind），短短一天时间，收获了 1.6k 个 Star。

这个模型与众不同之处便是可以将多个数据流连接在一起，包括文本、图像/视频和音频、视觉、IMU、热数据和深度（Depth）数据。这也是业界第一个能够整合六种类型数据的模型。

ImageBind 用图像对齐六模态，旨在实现感官大一统

简单来看，相比 Midjourney、Stable Diffusion 和 DALL-E 2 这样将文字与图像配对的图像生成器，ImageBind 更像是广撒网，可以连接文本、图像/视频、音频、3D 测量（深度）、温度数据（热）和运动数据（来自 IMU），而且它无需先针对每一种可能性进行训练，直接预测数据之间的联系，类似于人类感知或者想象环境的方式。

对此，Meta 在其官方博客中也说道，“ImageBind 可以胜过之前为一种特定模式单独训练的技术模型。但最重要的是，它能使机器更好地一起分析许多不同形式的信息，从而有助于推进人工智能。”

打个比喻，人类可以听或者阅读一些关于描述某个动物的文本，然后在现实生活中看到就能认识。

你站在繁忙的城市街道等有刺激性环境中，你的大脑会（很大程度上应该是无意识地）吸收景象、声音和其他感官体验，以此推断有关来往的汽车、行人、高楼、天气等信息。

在很多场景中，一个单一的联合嵌入空间包含许多不同种类的数据，如声音、图像、视频等等。

如今，基于 ImageBind 这样的模型可以让机器学习更接近人类学习。

在官方博客中，Meta 分享 ImageBind 是通过图像的绑定属性，只要将每个模态的嵌入与图像嵌入对齐，即图像与各种模式共存，可以作为连接这些模式的桥梁，例如利用网络数据将文本与图像连接起来，或者利用从带有 IMU 传感器的可穿戴相机中捕获的视频数据将运动与视频连接起来。

ImageBind 整体概览

从大规模网络数据中学到的视觉表征可以作为目标来学习不同模态的特征。这使得 ImageBind 能够对齐与图像共同出现的任何模式，自然地将这些模式相互对齐。与图像有强烈关联的模态，如热学和深度，更容易对齐。非视觉的模态，如音频和 IMU，具有较弱的关联性。

ImageBind 显示，图像配对数据足以将这六种模式绑定在一起。该模型可以更全面地解释内容，使不同的模式可以相互 "对话"，并在不观察它们的情况下找到联系。

例如，ImageBind 可以在没有看到它们在一起的情况下将音频和文本联系起来。这使得其他模型能够 "理解 "新的模式，而不需要任何资源密集型的训练。

不过，该模型目前只是一个研究项目，没有直接的消费者和实际应用，但是它展现了生成式 AI 在未来能够生成沉浸式、多感官内容的方式，也表明了 Meta 正在以与 OpenAI、Google 等竞争对手不同的方式，趟出一条属于开源大模型的路。

ImageBind 强大的背后

与此同时，作为一种多模态的模型，ImageBind 还加入了 Meta 近期开源的一系列 AI 工具，包括 DINOv2 计算机视觉模型，这是一种不需要微调训练高性能计算机视觉模型的新方法；以及 Segment Anything（SAM），这是一种通用分割模型，可以根据任何用户的提示，对任何图像中的任何物体进行分割。

ImageBind 是对这些模型的补充，因为它专注于多模态表示学习。它试图为多种模式学习提供一个统一的特征空间，包括但不限于图像和视频。在未来， ImageBind 可以利用 DINOv2 的强大视觉特征来进一步提高其能力。

专栏文章内容及配图由作者撰写发布，仅供工程师学习之用，如有侵权或者其他违规问题，请联系本站处理。联系我们

关键词： AI