专栏中心

EEPW首页 > 专栏 > 用语言建模世界：UC伯克利多模态世界模型利用语言预测未来（3）

用语言建模世界：UC伯克利多模态世界模型利用语言预测未来（3）

发布人：机器之心时间：2023-08-07 来源：工程师

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

Habitat 中的指令遵循

研究者还展示了 Dynalang 能够处理逼真的视觉观察，并在 Habitat 中执行指令跟随。智能体必须遵循自然语言指令，在家庭逼真扫描中导航到目标位置。在 Dynalang 中，指令遵循可以统一在相同的预测框架中，将其视为未来奖励预测。

基于 LangRoom 的语言生成
就像语言可以影响智能体对将要看到的事物的预测一样，智能体观察到的内容也会影响它对将要听到的语言的期望（例如，关于它所看到的内容的真实陈述）。通过在 LangRoom 中将语言输出到动作空间，研究者展示了 Dynalang 可以生成与环境相关联的语言，从而进行具身问答。LangRoom 是一个简单的视觉网格世界，具有部分可观察性，智能体需要在其中产生运动动作和语言。

文本预训练
由于使用语言进行世界建模与基于世界模型的行动学习解耦，Dynalang 可以使用离线数据进行预训练，而无需行动或奖励标签。这种能力使得 Dynalang 能够从大规模的离线数据集中受益，全部都在单一的模型架构内实现。研究者使用仅包含文本数据的数据对 Dynalang 进行预训练，从零开始学习 token 嵌入。在通用文本数据（TinyStories，2M 个短故事）上预训练模型，提高了模型在 Messenger 上的下游强化学习任务表现，超过了使用预训练的 T5 嵌入的结果。

研究者表示，尽管他们的工作专注于用于在世界中行动的语言理解，但它也可以像一个仅文本语言模型一样从世界模型中生成文本。研究者在潜在空间中对预训练的 TinyStories 模型进行模拟的抽样，然后在每个时间步骤从表示中解码 token 观察。尽管生成的文本质量仍然低于当前语言模型的水平，但模型生成的文本令人惊讶地连贯。他们认为将语言生成和行动统一在一个智能体架构中是未来研究的一个令人兴奋的方向。