VMLoc模型解读和原理分析

发布时间:2023年12月25日

目录

一. 概述

二.?模型解读和原理分析

1. 特征编码器

2. 多模态融合?

3. 特征解码器

4. 数据增强

三. 总结


一. 概述

论文名称:VMLoc: Variational Fusion For Learning-Based Multimodal Camera Localization

论文地址:http://arxiv.org/pdf/2003.07289v4.pdficon-default.png?t=N7T8http://arxiv.org/pdf/2003.07289v4.pdf论文摘要:?

????????以前的深度融合方法并不比使用单一模态的模型表现得更好。我们推测这是由于通过求和或连接进行特征空间融合的幼稚方法,没有考虑到每个模态的不同强度。为了解决这个问题,我们提出了一个端到端框架,称为VMLoc,通过变化的Product- of-Experts (PoE)和基于注意力的融合将不同的传感器输入融合到一个共同的潜在空间。不同于以往的多模态变分工作直接适应vanilla变分自动编码器的目标函数,我们展示了如何通过一个基于重要性加权的无偏目标函数准确估计摄像机的定位。我们的模型在RGB- D数据集上进行了广泛的评价,结果证明了我们的模型的有效性。

二.?模型解读和原理分析

1. 特征编码器

? ? ? ? 该模型通过ResNet34+可适应平均池化+FC提取不同模态的潜在特征空间信息。通过获取特征信息的均值和方差来构建潜在特征空间

原理 : 变分推理ELMO。通过编码器获得近似的隐变量的后验概率密度分布, 其实就是经过encoder提取的均值和方差构建近似的隐变量(特征)的概率密度分布。均值和方差基本等同于特征空间的分布。

可见笔者之前的文章

变分推理ELBO详解-CSDN博客文章浏览阅读296次,点赞7次,收藏6次。但是因为p(x)作为边缘概率因为是联合概率积分且很难直接计算所以非常的棘手。可以直接通过求导来计算出最大化ELBO因为最终参数只有。可以理解为所观测到图片的类别等无法直接观测获得的隐藏变量。, 这里的例子较为简单,但是实际情况是无法计算出解析解的。求联合概率p(x,z)替代后验概率。所以可以大致推导出后验概率的趋势。: 在真实样本概率分布的条件下的。可以理解为观测到的图片样本。通过贝叶斯定理求后验概率。https://blog.csdn.net/weixin_73784868/article/details/135071484?spm=1001.2014.3001.5502

2. 多模态融合?

? ? ? ? 该模型通过POE来融合多模态的概率密度分布来获取融合后特征空间分布。在得到的均值上增添(0,1)高斯噪音\epsilon,通过概率分布生成融合后的特征样本z =?\epsilon\mu?+ \delta。这里采用了重参数化技巧?the reparameterization trick (Kingma and Welling 2013)

原理:POE(Product Of Expert, 译为专家点积)

可见笔者之前的文章

POE在多模态融合方面的应用-CSDN博客文章浏览阅读677次,点赞18次,收藏25次。最大化的意义就是让概率模型对于现存样本预测的总概率值最大化,换句话说,现在发生了某一事件,可以认为,这个时间是理论上概率最大的那个时间。然后,这个新的概率分布被用来将不同的传感器输入融合到一个共享的潜在空间,从而实现多模态传感器数据的融合。最终,PoE模型通过将所有"专家"的输出(即它们的概率密度函数)相乘,生成一个新的概率分布。这里的点积对应了所有样本集的概率密度模型相乘, 参数。因为直接从样本计算的均值和方差反映了样本数据的实际情况,而通过最大似然估计反应了最有可能生成这些样本数据的概率模型的参数。https://blog.csdn.net/weixin_73784868/article/details/135015263?spm=1001.2014.3001.5501

3. 特征解码器

? ? ? ? 这里的解码器是非局部信息统计的注意力机制the non-local style self-attention (Wang et al. 2018)进行多模态交互,再通过FC层对应下游任务的输出进行训练。

非局部信息统计的注意力机制

4. 数据增强

三. 总结

????????由于各种传感器模态之间的特性不同,有效利用多模态数据进行定位是一个具有挑战性的问题。本文提出了一种基于多模态变分学习的新型多模态定位框架(VMLoc)。特别是,我们采用基于重要性加权的无偏目标函数设计了一种新的PoE融合模块,旨在从不同模态中学习公共潜在空间。我们的实验表明,与现有的单图像或多模态学习算法相比,这种方法在良性条件下或输入数据损坏时都能产生更准确的定位。

文章来源:https://blog.csdn.net/weixin_73784868/article/details/135181798
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。