带你穿越清明上河图!DragNUWA惊艳亮相:一拖一拽让静图秒变视频

【新智元导读】微软提出文本图像轨迹条件视频生成模型DragNUWA,支持手绘轨迹驱动图像动态化,实现复杂运动及场景控制。

微软开发的视频生成模型DragNUWA让清明上河图动起来了!

只要用拖动的方式给出运动轨迹,DragNUWA就能让图像中的物体对象按照该轨迹移动位置并生成连贯的视频。

DragNUWA能同时控制摄像机和多个对象的移动以及复杂的轨迹,从而生成具有现实世界场景和艺术绘画特色的视频。

近年来,可控视频生成技术备受关注。但现有可控视频生成仍存在两大局限:

1. 现有的大多数工作都集中在文本、图像或基于轨迹的控制上,导致无法在视频中实现细粒度控制。

2. 轨迹控制的研究仍处于早期阶段,大多数实验都是在Human3.6M等简单数据集上进行的。这种局限性限制了模型处理开域图像和有效处理复杂曲线轨迹的能力。

来自微软的研究人员提出了基于开域扩散的视频生成模型: DragNUWA。

论文地址:https://arxiv.org/abs/2308.08089

DragNUWA针对现有研究中控制粒度不足的问题,同时引入了文本、图像和轨迹信息,从语义、空间和时间角度对视频内容进行精细控制。

为了解决目前研究中开域轨迹控制有限的问题,研究人员从三个方面提出了轨迹建模:

首先,通过轨迹采样器(TS)实现对任意轨迹的开域控制;其次,通过多尺度融合(MF)控制不同粒度的轨迹;最后,通过自适应训练(AT)策略以根据轨迹生成一致的视频。

工作原理

DragNUWA支持三种可选输入:文本p、图像s和轨迹g,并侧重于从三个方面设计轨迹。

首先,轨迹采样器(TS)从开域视频流中动态采样轨迹。

其次,多尺度融合(MF)将轨迹与文本和图像深度融合到UNet 架构的每个区块中。

最后,自适应训练(AT)可根据光流条件调整模型,使轨迹更友好。

最终,DragNUWA 能够处理包含多个物体及其复杂轨迹的开域视频。

DragNUWA的训练过程概览

为了验证轨迹控制的有效性,研究人员从摄像机移动和复杂轨迹两个方面对DragNUWA进行了测试。

在视频制作中,摄像机移动在为观众创造动态和引人入胜的视觉效果方面发挥着重要作用。

不同类型的镜头移动有助于叙述故事或强调场景中的元素。常见的镜头移动不仅包括水平和垂直移动,还包括放大和缩小。

如下图所示,DragNUWA虽然没有明确对摄像机运动进行建模,但它可以从开放域轨迹建模中学习到各种摄像机运动:

利用相同的文字和图像,同时改变拖动轨迹,可以实现各种摄像机移动效果。例如,可通过在所需缩放位置绘制方向轨迹来表达放大和缩小效果。

视频中的物体往往具有复杂的运动轨迹。面对多个运动物体、复杂的运动轨迹以及不同物体之间不同的运动幅度,视频生成中的运动建模是一个巨大的挑战。

研究人员通过使用相同的文字和图片,同时改变拖动轨迹,实现了各种复杂的轨迹效果。

这证明了DragNUWA具有复杂运动进行精确建模的能力:支持复杂的曲线轨迹,允许轨迹长度可变,并支持同时控制多个对象的轨迹。

DragNUWA通过整合三个基本控制来实现精细视频生成:文本、图像和轨迹,分别对应语义、空间和时间方面。

这三个条件是不可或缺的:

s2v和p2v说明了图像和文本控制作为单独条件使用时的限制:

如s2v所示,虽然图像本身提供了一些潜在的语义和动力学信息,但它并不能实现对背景和角色运动的精确控制。

如p2v所示,当只提供文本时,模型能成功生成与文本相关的视频,但外观和动态仍完全无法控制。

gs2v和ps2v强调了文本(p)和轨迹(g)的重要性。在没有文本的情况下,无法确定模糊图像 (s) 代表的是海上冲浪还是雪地冲浪。在没有轨迹的情况下,模型会自动假定人物正在向左移动。

在三个基本条件都满足时,pgs2v中实现了在雪地上冲浪和向右移动的控制。

数据集

在训练过程中,研究团队利用WebVid和VideoHD数据集来优化 DragNU。

作者简介

吴晨飞博士是微软亚洲研究院的高级研究员。他的研究重心是大规模预训练、多模态理解和生成。主要研究工作包括多模态生成模型NUWA(女娲)系列(NUWA, NUWA-LIP, NUWA-Infinity, NUWA-3D, NUWA-XL)、多模态理解模型Bridge Tower(桥塔)系列(KD-VLP, Bridge-Tower)以及多模态对话系统Visual ChatGPT。在CVPR, NeurIPS, ACL, ECCV, AAAI, MM等会发表多篇论文。

段楠博士,微软亚洲研究院资深首席研究员,自然语言计算团队研究经理,中国科学技术大学、西安交通大学兼职博导,天津大学兼职教授,主要从事自然语言处理、多模态基础模型、代码智能、机器推理等研究,多次担任NLP/AI学术会议程序主席和领域主席,发表学术论文100余篇,Google Scholar引用10000余次,持有专利20余项。他被评为中国计算机协会(CCF)杰出会员、CCF-NLPCC青年科学家(2019年)、DeepTech中国智能计算科技创新人物(2022年)。

参考资料:

https://arxiv.org/abs/2308.08089

声明:本文内容整理自网络,观点仅代表原作者本人,投稿号仅提供信息发布服务。如有侵权,请联系管理员。

(0)
上一篇 2023年9月6日 18:13
下一篇 2023年9月6日 18:13

热点推荐

  • 分享5种网络营销赚钱的技巧(网络营销该如何赚钱)

    前面一直和大家分享一些网络运营方面的知识,想必很多人都已经看腻了吧。很多人对网络营销的认知阶段就是引流,却不知如何变现,这是目前这个行业的现状。利用网络营销赚钱是有的套路的,就看你如何玩转这个套路,那么今天就和大家分享如何利用网络…

    热点 2022年10月3日
    174
  • 小狗进入美发店被店员装麻袋摔死

    小狗进入美发店被店员装麻袋摔死在江西南昌,一只小狗跟着一位顾客进了一家美发店没想到,男店员突然用袋子套住狗,将小狗摔在地上。 据了解,是因为女店员发现狗说要吃狗肉,男店员把狗摔死的。事后,涉事店铺创始人为此道歉,并已解雇涉事员工。…

    2023年6月4日 热点
    133
  • 七夕发200红包合适吗(七夕发200红包女朋友不开心了)

    今天是七夕情人节,是中国的情人节想,相信不少小伙伴已经发了微信红包给对象了吧,还有一些小伙伴不知道要发多少,那么七夕发200红包合适吗?七夕发多少红包合适呢?下面小编为大家带来七夕红包数字介绍,感兴趣的小伙伴一起来看一下吧。 七夕…

    热点 2023年8月24日
    120
  • 悲报!怎么他也成老赖之子了?

    昨天,#何炅父亲被强制执行#冲上热搜第一,虽然该话题一度被撤掉,但还是出圈了。 据度娘资料显示,何畏正是何炅的父亲。 何炅的爸爸何畏,是原湖南省社会科学院哲学所研究员,现在是湖南炅爸爸文化传媒有限公司法定代表人。 因为何炅的关系,…

    热点 2023年7月22日
    135
  • 吴谢宇案二审公开宣判:维持死刑原判!

    2023年5月30日,福建省高级人民法院对吴谢宇故意杀人、诈骗、买卖身份证件上诉一案二审公开宣判,裁定驳回上诉,维持原判。 福建省福州市中级人民法院一审认定:吴谢宇悲观厌世,曾产生自杀之念,其父病故后,认为母亲谢某某生活已失去意义…

    热点 2023年7月31日
    127
  • 东方甄选送来泼天富贵,高途接得住吗??

    文|斑马消费 范建 “神州启明处,龙脉连天际,这里是960万平方公里的点睛之笔。一山有四季,十里不同天……” 在东方甄选的抖音账号上,主播董宇辉,一身西装,吟诵着一篇讴歌吉林的小作文。这与他过往一年多来,在直播时的“金句频出”并无…

    热点 2023年12月28日
    122
  • 店家卖穿马面裙戴发簪冰淇淋引争议 网友:安全吗?

    【店家卖穿马面裙戴发簪冰淇淋引争议】近日,江苏苏州。一身穿马面裙戴发簪的冰淇淋走红引发争议。有网友觉得这样的冰淇淋很好看,有江南的韵味,适合拍照打卡。但也有网友担心马面裙冰淇淋或存在食品安全问题。认为:“用的染料有保障吗?食品卫生…

    热点 2023年7月23日
    133
  • 高跟鞋哪些品牌性价比高(高跟鞋品牌排行榜前十名)

    你会惊讶地看到 2021年世界上最昂贵的鞋子。有趣的是,世界上大部分的豪华鞋子都是为女性制作的,而由男性制作的。这证明男人真的很关心女人。鞋子的发明主要是为了保护和为人的脚提供舒适感。然而,它如今已成为奢华的又一象征。 这份世界上…

    热点 2023年4月16日
    150
  • 韩国单人户渐增逼近1000万户 到底是怎么回事

    8月22日,韩国行政安全部最新发布的统计资料显示,截至2021年底,韩国共有2370.5814万户家庭,其中单人户家庭占比达到41%,即972.4256万户。与2020年相比,单人户占比上升了0.7个百分点,首次突破了40%的大关…

    热点 2023年8月24日
    117
  • 国家体育总局原副局长杜兆才被双开

    国家体育总局原副局长杜兆才被双开 经中共中央批准,中央纪委国家监委对国家体育总局原党组成员、副局长杜兆才严重违纪违法问题进行了立案审查调查。 经查,杜兆才丧失理想信念,背离初心使命,履行全面从严治党主体责任不力,严重破坏足球领域政…

    热点 2023年10月9日
    115

发表回复

登录后才能评论