
从单张图像生成无邪视角 3D 场景的技巧来了体育游戏app平台,在考古保护、自主导航等径直获取 3D 数据资本昂贵或弗成行的鸿沟具有紧要应用价值。
这一任务骨子上是高度不适定的:单一的 2D 图像无法提供弥散的信息来舍弃完整 3D 结构的歧义,尤其是在顶点视角(如 180 ° 旋转)下,先前被保密或缺失的内容可能会引入显耀的不祥情味。
生成模子,相配是扩散模子,为惩办这一问题提供了一种潜在的技巧旅途。尽管现存秩序频频依赖预历练的生成模子行动新视角合成的先验,但它们仍靠近显耀挑战。
举例,基于图像的扩散秩序容易齐集内容差错,基于视频的扩散方规章难以处理可能生成的动态内容构建静态 3D 场景的影响。最近的盘问尝试通过在视频扩散模子中引入点云先验来晋升一致性,天然取得了一定进展,但在可膨胀性方面仍存在局限,尤其是在大视角变化下的贯通存待晋升。
针对上述问题,东说念主大高瓴李崇轩、文继荣团队、北师大王一凯团队与字节逾越的盘问员提议了一种新秩序 FlexWorld,用于从单张图像生成无邪视角的 3D 场景。
与现存秩序不同,FlexWorld 通过合成和整合新的 3D 内容,缓缓构建并膨胀一个捏久的 3D 暗意。

该秩序包含两个中枢组件:
( 1 ) 一个宽敞的视频到视频(video-to-video, V2V)扩散模子,用于从放荡场景渲染的不完整图像生成完整的视角图像; ( 2 ) 一个几何感知的 3D 场景膨胀经过,用于索求新的 3D 内容并将其整合到全局结构中。盘问团队在精准深度推断的历练数据上对先进的视频基础模子进行了微调,使其莽撞在大幅度相机变化下生成高质料内容。
基于 V2V 模子,场景膨胀经过通过相机轨迹计算、场景整合和细化体式,缓缓从单张图像构建出支撑无邪视角不雅察(包括 360 ° 旋转和缩放等)的 3D 场景生成。
通过多数实验,盘问团队考据了 FlexWorld 在高质料视频和无邪视角 3D 场景合成方面的性能。FlexWorld 在生成大幅度相机变化收尾下的视频中展现了出色的视觉质料,同期在生成无邪视角 3D 场景时保捏了较高的空间一致性。为促进学术雷同和技巧扩充,团队已开源相关代码仓库与历练权重,供盘问社区进一步探索和应用。
性能展示
支撑大幅转角的视频到视频生成
在多种不同开头的输入图像和相机轨迹下,FlexWorld 中微调的视频模子不错生成较高质料且 3D 一致的视频内容。受益于较好的一致性,这些视频不错径直用于 3D 重建,为后续生成无邪视角的场景提供了较好的视觉内容。

无邪视角的场景生成
左证单张图片输入,FlexWorld 不错生成无邪视角下的 3D 场景,这些生成的场景不错在 360 度旋转,前进和后退等视角进行探索。这些场景通过多段视频渐渐构筑生成,旨在膨胀出更大的可探索区域,而非仅温柔前哨区域。

中枢秩序
下图展示了 FlexWorld 的举座框架。

缓缓构建场景
FlexWorld 选拔多段视频缓缓构建出一个具有更大可探索区域的场景。在场景内容不及的区域,FlexWorld 渲染出该区域的残败场景视频,并通过一个经过微调的视频到视频模子,赢得补完的场景视频。在场景交融阶段,视频中的要害帧将会被填充置入场景的不及区域,其他帧则会行动场景暗意(即 3D Gaussian splatting)的参考图像优化举座场景表征。
支撑大转角的视频到视频模子
FlexWorld 中包含一个经过微调的视频模子,该模子以视频行动条目,不错从残败的输入视频中捕捉到相机运行轨迹,输出稳妥输入轨迹的竣工视频,保捏细腻的 3D 一致性。该视频模子采选 CogVideoX-5B-I2V 行动基座模子,并构造了一系列深度细腻的残败视频 - 细腻视频历练对。不同于依赖深度推断模子赢得的历练对,FlexWorld 构建的历练对来自于合并场景密集重建提供的深度,这种历练对使模子长久明确应该确立的区域,从而莽撞在推理时支撑更大转角的相机通顺。
基于视频内容的场景交融
FlexWorld 一方面通过高斯优化将多段视频内容交融进捏久化的 3D 表征中,另一方面通过密集立体模子和深度交融政策,将多段视频的要害帧径直行动运转三维高斯加入表征行动运转念,以充分诈欺深度推断模子提供的先验和视频里面的一致性。
回归
本文先容了 FlexWorld,这是一个从单张图像生成无邪视角 3D 场景的框架。它勾搭了一个微调的视频到视频扩散模子,用于高质料的新视角合成,以及一个渐进的无邪视角 3D 场景生成经过。通过诈欺先进的预历练视频基础模子和精准的历练数据,FlexWorld 莽撞处理大幅度的相机姿态变化,从而完结一致的、支撑 360 ° 旋转和前进后退不雅察的 3D 场景生成。多数实验标明,与现存秩序比拟,FlexWorld 在视角无邪性和视觉质料性能方面贯通优异。咱们折服 FlexWorld 具有普遍的远景,并在凭空实际内容创作和 3D 旅游鸿沟具有紧要后劲。
本文由中国东说念主民大学高瓴东说念主工智能学院李崇轩、文继荣耕种团队、北京师范大学东说念主工智能学院王一凯副耕种和字节逾越共同完成。共合并作陈路晰和周子晗永诀是中国东说念主民大学高瓴东说念主工智能学院的博士生与硕士生,导师为李崇轩副耕种。王一凯副耕种、李崇轩副耕种为共同通信作家。
论文聚会:https://arxiv.org/abs/2503.13265
神态地址:https://ml-gsai.github.io/FlexWorld/
代码仓库:https://github.com/ML-GSAI/FlexWorld
一键三连「点赞」「转发」「拦截心」
宽待在驳斥区留住你的思法!
— 完 —
学术投稿请于使命日发邮件到:
ai@qbitai.com
标题注明【投稿】,告诉咱们:
你是谁,从哪来,投稿内容
附上论文 / 神态主页聚会,以及有计划神态哦
咱们会(尽量)实时回话你

� � 点亮星标 � �
科技前沿进展逐日见体育游戏app平台