专栏中心

EEPW首页 > 专栏 > 用语言建模世界:UC伯克利多模态世界模型利用语言预测未来(3)

用语言建模世界:UC伯克利多模态世界模型利用语言预测未来(3)

发布人:机器之心 时间:2023-08-07 来源:工程师 发布文章
Habitat 中的指令遵循


研究者还展示了 Dynalang 能够处理逼真的视觉观察,并在 Habitat 中执行指令跟随。智能体必须遵循自然语言指令,在家庭逼真扫描中导航到目标位置。在 Dynalang 中,指令遵循可以统一在相同的预测框架中,将其视为未来奖励预测。
图片

图片


图片


图片
基于 LangRoom 的语言生成
就像语言可以影响智能体对将要看到的事物的预测一样,智能体观察到的内容也会影响它对将要听到的语言的期望(例如,关于它所看到的内容的真实陈述)。通过在 LangRoom 中将语言输出到动作空间,研究者展示了 Dynalang 可以生成与环境相关联的语言,从而进行具身问答。LangRoom 是一个简单的视觉网格世界,具有部分可观察性,智能体需要在其中产生运动动作和语言。
图片

图片


文本预训练
由于使用语言进行世界建模与基于世界模型的行动学习解耦,Dynalang 可以使用离线数据进行预训练,而无需行动或奖励标签。这种能力使得 Dynalang 能够从大规模的离线数据集中受益,全部都在单一的模型架构内实现。研究者使用仅包含文本数据的数据对 Dynalang 进行预训练,从零开始学习 token 嵌入。在通用文本数据(TinyStories,2M 个短故事)上预训练模型,提高了模型在 Messenger 上的下游强化学习任务表现,超过了使用预训练的 T5 嵌入的结果。
图片
研究者表示,尽管他们的工作专注于用于在世界中行动的语言理解,但它也可以像一个仅文本语言模型一样从世界模型中生成文本。研究者在潜在空间中对预训练的 TinyStories 模型进行模拟的抽样,然后在每个时间步骤从表示中解码 token 观察。尽管生成的文本质量仍然低于当前语言模型的水平,但模型生成的文本令人惊讶地连贯。他们认为将语言生成和行动统一在一个智能体架构中是未来研究的一个令人兴奋的方向。
图片


专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们

关键词: AI

相关推荐

AI/HPC新世代 COUPE光互连扮要角

网络与存储 2026-05-15

AI聊天机器人能像医生一样推理吗?

EEPW2018年3月刊(工业物联网)

研华科技与Axelera AI深化战略合作 加速推动基于Europa平台的边缘AI创新

重新构想AI电源:塑造AI加速的未来(第三部分)

前Qwen负责人林俊旸创业,目标融资规模为数亿美元

2026-05-14

CSR8670CSR8675智能语音Alexa蓝牙方案开发

资源下载 2017-12-14

电子元件培训教材

被动元件新周期:AI时代高端化、服务器化重构MLCC产业格局

思科凭借通用商用芯片与光模块赢得 AI 领域客户

PowiGaN for AI Data Centers: Unmatched Power Density and Reliability

视频 2025-12-19

存储器转型AI战略资源 台厂受惠

网络与存储 2026-05-19

EEPW2018年6月刊(5G)

资源下载 2018-06-11

基于Microchip MCU的AI/ML培训教程3

视频 2025-11-12

基于Microchip MCU的AI/ML培训教程2

视频 2025-11-12

联发科加速AI在地化应用布局

智能计算 2026-05-19

基于Microchip MCU的AI/ML培训教程1

视频 2025-11-12

尼吉康的事业介绍

视频 2025-07-25

国家“算力网”:像用水用电一样用AI

2026-05-18
更多 培训课堂
更多 焦点
更多 视频

技术专区