本文是关于三维重建的论文调研,主要集中于基于图片到3d的模型,其中期刊会议标志如下:
[🤖 ICCV 2023 ]
?专注于使用深度学习技术从单个或多个RGB图像中估计通用对象的3D形状的一些总结~
?
论文地址:Single-View 3D reconstruction: A Survey of deep learning methods - ScienceDirect
首先描述了深度学习环境中 3D 形状的各种表示形式。然后描述了从体素、点云、单图像和多视图图像的三维网格重建方法的发展。
论文链接:https://arxiv.org/abs/2212.08751
项目链接:https://github.com/openai/point-e?
Point-E: A system for generating 3D point clouds from complex prompts (openai.com)
?虽然最近在文本条件 3D 对象生成方面的工作显示出有希望的结果,但最先进的方法通常需要多个 GPU 小时才能生成单个样本。这与最先进的生成图像模型形成鲜明对比,后者在几秒钟或几分钟内生成样本。在本文中,我们探索了一种生成 3D 对象的替代方法,该方法可在单个 GPU 上仅用 1-2 分钟生成 3D 模型。我们的方法首先使用文本到图像扩散模型生成单个合成视图,然后使用第二个扩散模型生成 3D 点云,该模型以生成的图像为条件。虽然我们的方法在样品质量方面仍未达到最先进的水平,但它的采样速度要快一到两个数量级,为某些用例提供了实际的权衡。我们在这个 https URL?上发布了我们预先训练的点云扩散模型,以及评估代码和模型。
?
论文链接:2303.11328.pdf (arxiv.org)
项目链接:cvlab-columbia/zero123: Zero-1-to-3: Zero-shot One Image to 3D Object (ICCV 2023) (github.com)
引入了 Zero-1-to-3,这是一个框架,用于在给定单个 RGB 图像的情况下更改对象的相机视角。为了在这种约束不足的环境中进行新颖的视图合成,利用了大规模扩散模型学习自然图像的几何先验。条件扩散模型使用合成数据集来学习相对相机视点的控制,这允许在指定的相机变换下生成同一对象的新图像。尽管它是在合成数据集上训练的,但模型保留了强大的零样本泛化能力,可以对分布外的数据集以及野外图像(包括印象派绘画)进行泛化。视点条件扩散方法可以进一步用于从单个图像进行 3D 重建的任务。定性和定量实验表明,利用互联网规模的预训练,方法明显优于最先进的单视图三维重建和新颖的视图合成模型。
摘要
在这项工作中,研究了仅从单个图像创建高保真 3D 内容的问题。这本身就具有挑战性:它本质上涉及估计底层 3D 几何体,同时幻觉看不见的纹理。为了应对这一挑战,我们利用训练有素的 2D 扩散模型的先验知识来充当 3D 创作的 3D 感知监督。我们的方法 Make-It-3D 采用两阶段优化流程:第一阶段通过在正面视图上结合参考图像的约束和在新视图上先验的扩散来优化神经辐射场;第二阶段将粗略模型转换为带纹理的点云,并通过扩散先验进一步提升真实感,同时利用参考图像中的高质量纹理。大量的实验表明,我们的方法大大优于以前的工作,从而产生了忠实的重建和令人印象深刻的视觉质量。我们的方法首次尝试从单个图像为一般对象实现高质量的 3D 创建,并实现了各种应用,例如文本到 3D 创建和纹理编辑。
Project Page: One-2-3-45?
?
提出了 Magic123,这是一种两阶段从粗到细的方法,用于使用 2D 和 3D 先验从野外单个未摆姿势的图像生成高质量的纹理 3D 网格。在第一阶段,优化神经辐射场以产生粗略的几何形状。在第二阶段,采用内存效率高的可微网格表示,以生成具有视觉吸引力纹理的高分辨率网格。在这两个阶段,3D内容都是通过参考视图监督和由2D和3D扩散先验组合指导的新视图来学习的。在 2D 和 3D 先验之间引入了一个单一的权衡参数,以控制对生成的几何体的探索(更具想象力)和利用(更精确)。此外,采用文本反演和单目深度正则化来鼓励视图之间的一致外观,并防止退化解决方案。Magic123 展示了与以前的图像到 3D 技术相比的显着改进,这通过对合成基准和各种真实世界图像的广泛实验进行了验证。代码、模型和生成的 3D 资产可在此 https URL?上找到。?
Paper:arxiv.org/pdf/2310.16818.pdf
Demo:DreamCraft3D: Hierarchical 3D Generation with Bootstrapped Diffusion Prior (mrtornado24.github.io)
?介绍了 DreamCraft3D,这是一种分层的 3D 内容生成方法,可生成高保真和连贯的 3D 对象。通过利用 2D 参考图像来指导几何雕刻和纹理提升的各个阶段来解决这个问题。这项工作的一个中心重点是解决现有作品遇到的一致性问题。为了雕刻出连贯渲染的几何形状,通过与视图相关的扩散模型进行分数蒸馏采样。这种 3D 先验与几种训练策略一起,优先考虑几何体的一致性,但会损害纹理保真度。论文进一步提出了 Bootstrapped Score Distillation 来专门提升质地。在场景的增强渲染上训练了一个个性化的扩散模型 Dreambooth,并为其注入了正在优化的场景的 3D 知识。从这种 3D 感知扩散先验中提炼出的乐谱为场景提供了视图一致的指导。值得注意的是,通过扩散先验和 3D 场景表示的交替优化,我们实现了相辅相成的改进:优化的 3D 场景有助于训练特定于场景的扩散模型,从而为 3D 优化提供越来越一致的视图指导。因此,优化是自举的,并导致实质性的纹理提升。DreamCraft3D 在整个分层生成过程中通过定制的 3D 先验生成具有逼真效果的连贯 3D 对象,从而推动了 3D 内容生成的最新技术。此 https URL?中提供的代码。
?
?对比结果
?
论文地址:arxiv.org/pdf/2310.16818.pdf
代码地址:https://github.com/deepseek-ai/DreamCraft3D
关于数字人相关的3D重建请参考这篇博客
【生成模型 | 数字人类的三维重建(3D reconstruction)调研及总结-CSDN博客】~