新闻中心

EEPW首页 > 智能计算 > 业界动态 > 让AI用视觉认识世界,豆包发布并开源VideoWorld视频生成模型

让AI用视觉认识世界,豆包发布并开源VideoWorld视频生成模型

作者: 时间:2025-02-11 来源:福布斯中国 收藏

2月10日,豆包大团队联合北京交通大学、中国科学技术大学,发布了视频生成——,并且已开源代码与

本文引用地址:https://www.eepw.com.cn/article/202502/466831.htm

与Sora、DALL-E等主流多模态模型不同,开辟了新的路径,打破对语言模型的依赖,实现仅靠“视觉信息”认知世界。就像幼儿能在不依赖语言的情况下理解真实世界一样,通过浏览视频数据,让机器掌握推理、规划和决策等复杂能力。在仅有300M参数量时,它就已展现出可观的性能,达到专业5段9x9围棋水平,还能在多种环境中执行机器人任务。

在模型构建方面,团队构建了视频围棋对战和视频机器人模拟操控两个实验环境。训练时,模型通过“观看”包含大量视频演示数据的离线数据集进行学习。其架构采用朴素自回归模型,包含VQ-VAE编码器-解码器和自回归Transformer架构。

不过,研究初期发现视频序列知识挖掘效率低于文本形式,为此团队引入潜在动态模型(LDM)。LDM够将帧间视觉变化压缩为紧凑的潜在编码,提升知识挖掘效率,还能保留丰富视觉信息,让VideoWorld可以捕捉视觉序列中的长期依赖关系,从而更好地进行长期推理和规划。

通过细致分析,团队发现LDM不仅能建模训练集的数据模式,还能帮助模型在测试时进行前向规划,并且生成因果相关的编码。尽管VideoWorld在围棋和模拟机器人操控场景中表现卓越,但团队也清醒地认识到,在真实世界的应用中,它还面临高质量视频生成和多环境泛化等挑战。不过,团队已明确未来将聚焦这些难题,致力于让视频生成模型成为真实世界的通用知识学习器。

当下,DeepSeek掀起的行业变革浪潮持续发酵,不仅在人工智能产业链内引发连锁反应,还向其他行业渗透。它的火爆并非源于性能优势,而是凭借创新性技术路线,以超低算力成本实现超预期效果输出,为行业发展带来全新思路。无独有偶,此次豆包发布的VideoWorld视觉模型同样开辟了全新技术路径,打破对语言模型的依赖,仅靠视觉信息就让机器实现对世界的认知并掌握复杂能力,有望进一步夯实了国产大模型在多模态领域的技术实力。



评论


相关推荐

技术专区

关闭