CineMaster: 用于电影文本到视频生成的 3D 感知且可控的框架。

news/2025/2/27 9:19:39

CineMaster是一种 3D 感知且可控的文本到视频生成方法允许用户在 3D 空间中联合操纵物体和相机,以创作高质量的电影视频。

相关链接

  • 论文:cinemaster-dev.github.io

论文介绍

CineMaster是一种用于 3D 感知和可控文本到视频生成的新型框架。目标是让用户拥有与专业电影导演相当的可控性:在场景中精确放置物体、在 3D 空间中灵活操纵物体和相机,以及对渲染帧进行直观的布局控制。

CineMaster分两个阶段运行:

  • 第一阶段:设计了一个交互式工作流程,允许用户通过定位对象边界框和定义 3D 空间内的相机运动来直观地构建 3D 感知条件信号。

  • 第二阶段:这些控制信号(包括渲染的深度图、相机轨迹和对象类别标签)作为文本到视频扩散模型的指导,确保生成用户想要的视频内容。

此外,为了克服具有 3D 框和相机姿势注释的野生数据集的稀缺性,论文精心建立了一个自动化数据注释管道,从大规模视频数据中提取 3D 边界框和相机轨迹作为控制信号。大量定性和定量实验表明,CineMaster 明显优于现有方法,并实现了卓越的 3D 感知文本到视频生成。

物体和相机运动控制演示

物体运动控制演示

相机运动控制演示

它是如何工作的?

CineMaster是一个框架,它使用户能够在 3D 空间中操纵对象和相机以生成文本到视频。CineMaster 包含两个阶段。首先,我们提出了一个交互式工作流程,使用户能够以 3D 原生方式直观地操纵对象和相机。然后,控制信号从 3D 引擎渲染并输入到文本到视频的扩散模型中,指导用户生成想要的视频内容。

模型设计

网络架构概述。 论文设计了一个语义布局控制网,它由一个语义注入器和一个基于 DiT 的控制网组成。语义注入器融合了 3D 空间布局和类标签条件。基于 DiT 的控制网进一步表示融合的特征并添加到基础模型的隐藏状态。同时,我们通过相机适配器注入相机轨迹,以实现对物体运动和相机运动的联合控制。

数据集标记管道

数据集标记管道。 论文提出了一个数据标记管道,用于从视频中提取 3D 边界框、类标签和相机姿势。管道包括四个步骤:

  1. 实例分割:从视频前景中获取实例分割结果。

  2. 深度估计:使用 DepthAnything V2 生成度量深度图。

  3. 3D 点云和框计算:为每个实体识别具有最大掩码的帧,并通过逆投影计算每个实体的 3D 点云。然后,使用最小体积法计算每个实体的 3D 边界框。

  4. 实体跟踪和 3D 框调整:访问每个实体的点跟踪结果并计算每帧的 3D 边界框。最后,将整个 3D 场景投影到深度图中。


http://www.niftyadmin.cn/n/5869862.html

相关文章

深圳南柯电子|医疗设备EMC测试整改检测:零到一,保障医疗安全

在当今医疗科技飞速发展的时代,医疗设备的电磁兼容性(EMC)已成为确保其安全、有效运行的关键要素之一。EMC测试整改检测不仅关乎设备的性能稳定性,更是保障患者安全、避免电磁干扰引发医疗事故的重要措施。 一、医疗设备EMC测试整…

ZIP64扩展和普通ZIP文件有什么区别?

ZIP64扩展是ZIP文件格式的一个扩展,旨在解决传统ZIP格式的限制,尤其是文件大小和数量的限制。以下是ZIP64扩展与普通ZIP文件的主要区别: 1. 文件大小限制 普通ZIP文件: 单个文件大小限制为 4GB(2^32字节)。…

【综合项目】api系统——基于Node.js、express、mysql等技术

目录 0 前言 1 初始化 2 注册登录 2.1 注册 2.1.1 功能:密码加密(2.3.3) 2.1.1.1 操作 2.1.1.2 bcryptjs详解 2.1.2 优化:表单数据验证(2.5) 2.1.2.1 过时代码修正 2.1.2.2 关键操作 0 前言 …

STM32--SPI通信讲解

前言 嘿,小伙伴们!今天咱们来聊聊STM32的SPI通信。SPI(Serial Peripheral Interface)是一种超常用的串行通信协议,特别适合微控制器和各种外设(比如传感器、存储器、显示屏)之间的通信。如果你…

Web开发:ORM框架之使用Freesql的导航属性

一、什么时候用导航属性 看数据库表的对应关系,一对多的时候用比较好,不用多写一个联表实体,而且查询高效 二、为实体配置导航属性 1.给关系是一的父表实体加上: [FreeSql.DataAnnotations.Navigate(nameof(子表.子表关联字段))]…

鸿蒙5.0实战案例:基于RichEditor的评论编辑

往期推文全新看点(文中附带全新鸿蒙5.0全栈学习笔录) ✏️ 鸿蒙(HarmonyOS)北向开发知识点记录~ ✏️ 鸿蒙(OpenHarmony)南向开发保姆级知识点汇总~ ✏️ 鸿蒙应用开发与鸿蒙系统开发哪个更有前景&#…

C++ 二叉搜索树与双向链表_牛客题霸_牛客网

点击链接即可查看题目: 二叉搜索树与双向链表_牛客题霸_牛客网 一、题目 描述 输入一棵二叉搜索树,将该二叉搜索树转换成一个排序的双向链表。如下图所示 数据范围:输入二叉树的节点数 0≤n≤10000≤n≤1000,二叉树中每个节点的值 0≤val≤10…

Go中slice和map引用传递误区

背景 关于slice和map是指传递还是引用传递,很多文章都分析得模棱两可,其实在Go中只有值传递,但是很多情况下是因为分不清slice和map的底层实现,所以导致很多人在这一块产生疑惑,下面通过代码案例分析slice和map到底是…