首页 > 实用技巧 > 干货教程 > 北大快手攻克复杂视频生成难题!新框架轻松组合各种细节,将开源

北大快手攻克复杂视频生成难题!新框架轻松组合各种细节,将开源

发布时间:2024-06-16 17:07:28来源: 15210273549

如何生成高难度、指令超复杂的视频呢?

北大与快手AI有解了,他们提出新框架VideoTetris,就像拼俄罗斯方块一样,轻松组合各种细节~

在复杂视频生成任务中,超过了Pika,Gen-2等一众商用模型。

 

这个框架不仅能够直接增强现有模型的组合生成,还能够支持涵盖多复杂指令、多场景变更等更高难度的长视频生成。

首次定义组合视频生成

文生图领域,RPG、Omost等项目已经实现了复杂的组合式多物体多场景图片生成。而在文生视频领域,组合生成自然地扩展到时间和空间维度,这样的场景还未被广泛探索。

团队首次定义了组合视频生成任务,包括两个子任务:
1、跟随复杂组合指令的视频生成。2、跟随递进的组合式多物体指令的长视频生成。

目前经团队测试发现,几乎所有开源模型,包括商用模型在内都未能生成正确的视频。

比如输入“左边一个可爱的棕色狗狗,右边一只打盹的猫在阳光下小憩”,结果生成的都是融合了两个物体信息的奇怪视频。

 

而使用VideoTetris,生成出的视频是这样,成功保留了所有的位置信息和细节特征。

 

在长视频生成中,目前的方法支持的可变指令目前还停留在“春夏秋冬”的转化,或单物体从走到跑到骑马的场景变化阶段。

团队输入一个简单的多指令:“从一只可爱的棕色松鼠在一堆榛子上过渡到一只可爱的棕色松鼠和一只可爱的白色松鼠在一堆榛子上”。

结果VideoTetris成功搞定,出现顺序也与Prompt一致,最后两只松鼠还在自然地交换食物。

干货教程更多>>

OpenAI更强系统来了,通用人工智能真的触手可及吗? 重庆市互联网界联合会召开2024年度总结大会暨新春联欢会 人工智能变现路漫漫 OpenAI坦承订阅服务正处于亏损中! OpenAI 12集“发布会”背后:对中国产业AI落地的五大启示 从华为离职后,朱兴明如何打造市值1600亿的科技新星? 新浪微博携手钉钉,三款AI助理如何赋能业务提效? 苹果史上最薄手机!曝iPhone 17 Air目标厚度6.25mm 预计售价低于20万!小米首款SUV车型价格曝光 2024年四川省文化和旅游厅所属事业单位选调工作人员公告 2024年广西桂林师范高等专科学校招聘11人公告 2024年广西柳州职业技术大学人才招聘简章 云南昆明市晋宁区财政局招聘编外聘用工作人员公告 2024年云南昭通市永善县人民法院招聘合同制书记员及辅警公告 云南文山富宁县机关事务管理局招聘编外人员通告 2024年河北石家庄市大学生乡村医生招聘69人公告 2024年河南郑州市第一人民医院急需紧缺和实用型人才招聘39人公告 浙江宁波市鄞州区第二医院医共体塘溪分院编外人员招聘简章 浙江台州三门经济开发区管理委员会招聘编制外合同用工人员公告 2024年湖南长沙市雨花区住房和城乡建设局招聘公告 2024年辽宁省金秋医院招聘高层次和急需紧缺人才8人公告 2024年辽宁大连市长海县招聘特岗教师4人公告 2024年江苏常州市卫生健康委员会招聘总会计师4人公告 江苏苏州工业园区教师发展中心行政辅助人员招聘启事 2024年云南红河弥勒市中医医院招聘备案制工作人员20人公告(第二批) 2024年云南临沧永德县农业农村局招聘特聘动物防疫专员公告 2024年云南昆明市消防救援支队政府专职消防队员招聘公告 2024年金华市武义县政务服务管理办公室招聘编外工作人员公告 2024年三明市沙县区富口镇人民政府招聘公益性岗位工作人员公告 2025年渭南市教育系统事业单位进校园招聘高层次人才公告 2024年金华市教育局直属学校第十九中学选调教师公告