神经辐射场(NeRFs)的研究进展

发布时间:2024年01月13日

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


摘要

本周主要阅读了2023 Computer Vision and Pattern Recognition的文章,神经辐射场(NeRFs)的研究进展,文章回顾了基本的NeRF框架,并探讨了迄今为止取得的一些最新进展。如PixelNeRF, RegNeRF,Mip-NeRF, Raw NeRF,NeRF in-the-Wild等相关NeRF技术。

Abstract

This week, I mainly read the article on 2023 Computer Vision and Pattern Recognition, which focuses on the research progress of neural radiation fields (NeRFs). The article reviews the basic NeRF framework and explores some of the latest advances made so far. Related NeRF technologies such as PixelNeRF, RegNeRF, Mip NeRF, Raw NeRF, NeRF in the Wild, etc.


文献阅读:神经辐射场(NeRFs)的研究进展

Title: Neural Radiance Fields (NeRFs): A Review and Some Recent Developments
Author:Mohamed Debbagh
From:2023 Computer Vision and Pattern Recognition

1、研究背景

神经辐射场(NeRF)是一个利用全连接神经网络(又称多层感知机)的权重表示3D场景的框架。 该方法用于新视图合成任务,能够从给定的连续视点获得最先进的逼真图像渲染。NeRF已经成为一个受欢迎的研究领域,因为最近的发展扩大了基本框架的性能和能力。最近的发展包括需要更少的图像来训练模型进行视图合成的方法,以及能够从无约束和动态场景表示中生成视图的方法。

2、方法发展

视图合成是计算机视觉研究的主要问题之一,它在计算机图形学和3D渲染领域具有许多意义和共同的方法。该问题的解决方案旨在开发一种方法,该方法可以从稀疏的视点集输入2D RGB图像,从而生成特定场景的新视图。这种模型的输出应该在一组连续的视点上采样,从而产生相同场景的逼真的新颖视图。一些流行的方法包括光场插值,通过基于网格的近似进行表面估计,以及最近的神经体绘制(基于神经网络的方法)。神经辐射场(NeRF)是由Mildenhall等人引入的,适合后一类方法,这些方法使用神经网络架构来表示场景,并使用神经体渲染来合成新视图,以获得最先进的结果。NeRF模型此后得到了改进和扩展,以得到各种表示模式。本文对NeRF原文进行了回顾,又称为vanilla NeRF,并进一步探讨了为扩展基线模型所做的许多贡献中的一部分工作。本次回顾将包括以下基于NeRF的发展:PixelNeRF, RegNeRF,Mip-NeRF, Raw NeRF, NeRF in-the-Wild。为了在高层次上回顾这些概念,我们将不包括为实验设计的特定方程或模型体系结构,我们建议您探索原始论文以了解具体实现的细节。

3、相关方法

3.1、Pixel NeRF

vanilla NeRF模型需要来自不同视点的许多图像,因为MLP模型不能很好地泛化。MLP也不包含空间信息,因为图像在输入到训练过程之前是扁平的。如果使用多个视点来校准场景,则普通方法不会考虑从多个视点学习到的信息。当图像采样不一致且稀疏(少于80张图像)时,这将导致场景合成的退化。Yu等人引入了对基础NeRF模型的扩展,该模型在校准过程中包含了场景先验。这个模型被命名为PixelNeRF,对NeRF框架的主要贡献是通过卷积神经网络(CNN)传递输入图像来训练场景先验,从而对模型进行调节。。这允许使用低至一个校准图像来训练模型,尽管这只推荐用于简单的几何形状。在多视图校准或更多图像)中,每个输入图像在不同视图下的CNN输出在通过体绘制过程馈送之前进行组合。PixelNerf能够使用简单的合成模型在ShapeNet数据集中的一张校准图像上实现连续的场景表示。该模型还在真实图像上进行了测试,并且能够使用单个校准图像生成场景的连贯几何表示,这在普通NeRF中是不可能的。然而,结果并不完美,并产生了伪影和扭曲。通过增加多个视图(2-3个)进行校准,这个问题得到了显著缓解。
在这里插入图片描述

3.2、RegNeRF

iemeyer等人介绍了一种方法,该方法减少了当vanilla NeRF仅在少数图像上训练时发生的浮动伪像和图像不一致。本文通过对未见视图中的斑块进行正则化以实现几何平滑和颜色[7]。本文引入的模型被命名为RegNeRF,它是对传统NeRF模型优化过程的改进。而普通NeRF模型在输入图像的重建损失上进行优化,它没有优化学习各点的几何一致性,因此该方法随着样本图像变得稀疏而恶化。RegNeRF在不可见的视点从补丁中采样光线,然后定义一个优化,目标是正则化补丁的几何平滑度和颜色可能性。这是在训练过程中通过定义颜色和几何块的正则化项的损失函数来完成的。本文的结果表明,与以前的模型相比,在减少浮动伪影方面有了显著的改进。由于RegNeRF保留了原始NeRF模型的MLP架构,因此在预训练期间,它的计算成本要低于基于CNN的pixelNeRF。RegNeRF可以使用低至3个校准图像进行训练。

3.3、Mip-NeRF

多尺度表示对许多图像处理和三维绘制任务提出了挑战。从不同的尺度重建3D场景或2D图像通常伴随着被称为锯齿的伪影,这通常是由混叠引起的。当对低分辨率输入图像进行采样时,在NeRF模型中特别观察到混叠。具有相同分辨率的视图重建通常包含这些锯齿。用多尺度分辨率训练NeRF模型来缓解这个问题,通常不会导致显著的改进,特别是当试图重现更高分辨率的视图时。Barron等人介绍了Mip-NeRF,这是NeRF方法的扩展,它使用射线锥来捕获空间体积,而不是无穷小的点来控制场景的多尺度表示[8]。随着图像比例的变化,单个像素从场景中捕获的信息量也在变化。因此,每个像素上沿单点射线的采样点在与邻近像素的插值过程中会引起失真,从而导致混叠效果。沿圆锥射线区域的采样点允许以非线性方式捕获体积信息。本文通过拟合多元高斯分布来近似这些沿射线锥的圆锥交点。由于采样不再沿直线进行,因此在分布中选择样本相当于位置编码的期望值,这反过来又使网络基于缩放调整的空间体积进行推理。锥形射线的视觉表示形式为原论文[8]中的图象,见图3。本研究的结果表明,Mip-NeRF在多尺度分辨率重建方面优于先前的vanilla NeRF方法。与具有类似结果的超采样方法相比,它的计算效率也显著提高。
在这里插入图片描述

3.4、Raw NeRF

NeRF模型方法考虑了图像处理和后处理管道,而不是模型架构,以从场景中获得更多信息,从而产生令人印象深刻的结果。NeRF模型通常使用低动态范围图像(LDR)进行训练,以执行新视图合成。这种处理过程通常用于去除图像中的噪声,特别是在黑暗中。然而,这是以牺牲场景中较暗区域的细节为代价的。这种细节的缺失反映在NeRF模型生成的新视图上。例如,场景在非常低的照明条件下,产生非常黑暗的视点图像,几乎没有细节。相比之下,HDR高动态范围图像通过将不同曝光或视图的多张图像组合在一起来捕捉细节,甚至应用后处理技术来重新对焦。Mildenhall等人在他们的论文[9]中提出,NeRF模型的输入是原始的、经过最小处理的、有噪声的拼接线性图像,以捕捉场景的更多细节,尤其是在黑暗中。然后,NeRF可以合成场景的新视点,并应用后处理技术在最终合成视图中捕捉类似HDR的效果。
在这里插入图片描述

3.5、NeRF in the Wild

普通 NeRF模型和它的许多变体的一个限制是约束采样条件的要求。这限制了NeRF在现实世界和自然图像上的许多可能应用。这也限制了NeRF模型需要一个或几个物体的固定场景,并且需要相当一致的图像视点进行校准。当在不受约束的图像和动态场景上进行训练时NeRF生成带有浮动伪影的视图,因为它不知道如何解释这些变化的实体。Martin-Brualla等人提出了NeRF模型的扩展,称为NeRF-W,该模型嵌入场景的静态和瞬态组件,以在动态条件下生成新的视图[10]。NeRF-W能够通过对模型的输入进行外观嵌入和瞬态嵌入的调节,将学习到的静态成分和动态因素分离开来。在训练过程中,NeRF-W通过优化NeRF在重构损失上的权重来学习这些解释,重构损失是由不确定性因素调制的。这样做NeRFW能够成功地将场景的结构与动态方面隔离开来。由于学习了瞬态嵌入,因此可以根据训练数据的变化在各种条件下重建场景。本质上,NeRF-W是基于动态因素的原始NeRF模型的解耦版本。

4、总结

自2020年NeRF框架开发以来,已经进行了许多变体和扩展,大大提高了其性能和能力。该模型能够实现最先进的结果和逼真的渲染,为这种框架在视图合成和其他领域提供了许多机会。自那以后,NeRF已成为一个独立的研究领域,并不断取得重大进展。NeRF的应用包括电影摄影中的3D场景渲染、3D图形生成、虚拟渲染和网站演练等等。本文回顾了基本的NeRF框架,并探讨了迄今为止取得的一些最新进展。


文章来源:https://blog.csdn.net/qq_43314576/article/details/135575349
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。