"); //-->
方法
就研究目的而言,从内容和结构的角度来考虑一个视频将是有帮助的。对于结构,此处指的是描述其几何和动态的特征,比如主体的形状和位置,以及它们的时间变化。对于内容,此处将其定义为描述视频的外观和语义的特征,比如物体的颜色和风格以及场景的照明。Gen-1 模型的目标是编辑视频的内容,同时保留其结构。
为了实现这一目标,研究者学习了视频 x 的生成模型 p (x|s, c),其条件是结构表征(用 s 表示)和内容表征(用 c 表示)。他们从输入视频推断出形状表征 s,并根据描述编辑的文本 prompt c 对其进行修改。首先,描述了对生成模型的实现,作为一个条件潜在的视频扩散模型,然后,描述了对形状和内容表征的选择。最后,讨论了模型的优化过程。
模型结构如图 2 所示。
实验
为了评估该方法,研究者采用了 DAVIS 的视频和各种素材。为了自动创建编辑 prompt,研究者首先运行了一个字幕模型来获得原始视频内容的描述,然后使用 GPT-3 来生成编辑 prompt。
定性研究
如图 5 所示,结果证明,本文的方法在一些不同的输入上表现良好。
用户研究
研究者还使用 Amazon Mechanical Turk(AMT)对 35 个有代表性的视频编辑 prompt 的评估集进行了用户研究。对于每个样本,均要求 5 个注解者在基线方法和本文方法之间对比对视频编辑 prompt 的忠实度(「哪个视频更好地代表了所提供的编辑过的字幕?」),然后以随机顺序呈现,并使用多数****来决定最终结果。
结果如图 7 所示:
定量评估
图 6 展示了每个模型使用本文框架一致性和 prompt 一致性指标的结果。本文模型在这两方面的表现都倾向于超越基线模型(即,在图的右上角位置较高)。研究者还注意到,在基线模型中增加强度参数会有轻微的 tradeoff:更大的强度缩放意味着更高的 prompt 一致性,代价是更低的框架一致性。同时他们还观察到,增加结构缩放会导致更高的 prompt 一致性,因为内容变得不再由输入结构决定。
定制化
图 10 展示了一个具有不同数量的定制步骤和不同水平的结构依附性 ts 的例子。研究者观察到,定制化提高了对人物风格和外观的保真度,因此,尽管使用具有不同特征的人物的驱动视频,但结合较高的 ts 值,还是可以实现精确的动画效果。
专栏文章内容及配图由作者撰写发布,仅供工程师学习之用,如有侵权或者其他违规问题,请联系本站处理。 联系我们
相关推荐
EEPW2018年6月刊(5G)
基于Microchip MCU的AI/ML培训教程3
AI热潮引发多层陶瓷电容MLCC供应短缺
瑞萨电子AI单元解决方案成功提高GE医疗(日本)日野工厂的生产力
PowiGaN for AI Data Centers: Unmatched Power Density and Reliability
释说芯语16:硬科技:构建企业未来之路(附PPT)
基于Microchip MCU的AI/ML培训教程1
基于Microchip MCU的AI/ML培训教程2
GPU:面临工作负载转变的高吞吐架构
Nigel AI赋能LabVIEW,NI用AI重塑测试新边界
英伟达CFO:我们早就知道内存大涨价要来了
AI 驱动估值飙升:光通信半导体企业市值暴涨
AI竞争进入下半场:从“卷参数”到“卷单价”
赋能边缘端对话式人工智能
尼吉康的事业介绍
iCAN-4017 AI功能模块
基于Ai-WB2-12F与Rd-04的雷达检测系统
人工智能是如何帮助阻止造假者的?
研华 COMPUTEX 首度整合全球伙伴大会 强化全球边缘 AI 生态系统联结
爱立信携手 Net Feasa 布局海事网络 融合公网级通信与智能体 AI 赋能航运
继上次海联达Ai-ap100拆机之电源改造
WTC-AI型太阳能热水器电路图
WTC-AI太阳能热水器电路图
基于VisitionX制造智能眼镜
万家乐JSYZ5-AI燃气热水器电路图
紧凑型集成连接器模块抑制噪声 为人工智能应用实现以太网供电
海联达(Aigale)Ai-HD1 无线全高清套件拆解
EEPW2018年3月刊(工业物联网)
电子元件培训教材
CSR8670CSR8675智能语音Alexa蓝牙方案开发