【AI视野·今日CV 计算机视觉论文速览 第287期】Wed, 10 Jan 2024

发布时间:2024年01月13日

AI视野·今日CS.CV 计算机视觉论文速览
Wed, 10 Jan 2024
Totally 57 papers
👉上期速览?更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

A Simple Baseline for Spoken Language to Sign Language Translation with 3D Avatars
Authors Ronglai Zuo, Fangyun Wei, Zenggui Chen, Brian Mak, Jiaolong Yang, Xin Tong
本文的目的是开发一个将口语翻译成手语的功能系统,称为 Spoken2Sign 翻译。 Spoken2Sign 任务是传统手语到口语 Sign2Spoken 翻译的正交和补充。为了实现 Spoken2Sign 翻译,我们提出了一个简单的基线,包括三个步骤: 1 使用现有的 Sign2Spoken 基准创建注释视频词典 2 估计词典中每个手语视频的 3D 手语 3 训练 Spoken2Sign 模型,该模型由 Text2Gloss 翻译器组成,符号连接器和渲染模块,借助生成的光泽 3D 符号字典。然后翻译结果通过符号头像显示。据我们所知,我们是第一个以 3D 符号输出格式呈现 Spoken2Sign 任务的人。除了 Spoken2Sign 翻译功能之外,我们还证明了我们方法的两个副产品 3D 关键点增强和多视图理解可以帮助基于关键点的手语理解。

Morphable Diffusion: 3D-Consistent Diffusion for Single-image Avatar Creation
Authors Xiyi Chen, Marko Mihajlovic, Shaofei Wang, Sergey Prokudin, Siyu Tang
生成扩散模型的最新进展实现了从单个输入图像或文本提示生成 3D 资产的先前不可行的功能。在这项工作中,我们的目标是提高这些模型的质量和功能,以完成创建可控、逼真的人类化身的任务。我们通过将 3D 可变形模型集成到最先进的多视图一致扩散方法中来实现这一目标。我们证明,对铰接式 3D 模型上的生成管道进行精确调节可以增强在从单个图像合成新颖视图的任务中的基线模型性能。更重要的是,这种集成有助于将面部表情和身体姿势控制无缝且准确地融入生成过程中。据我们所知,我们提出的框架是第一个扩散模型,能够从看不见的主题的单个图像创建完全 3D 一致、可动画且逼真的人类化身,广泛的定量和定性评估证明了我们的方法优于

Revisiting Adversarial Training at Scale
Authors Zeyu Wang, Xianhang Li, Hongru Zhu, Cihang Xie
机器学习社区见证了训练管道的巨大变化,这些变化以那些规模空前的基础模型为中心。然而,对抗训练领域却是滞后的,主要集中在像 ResNet 50 这样的小模型尺寸,以及像 CIFAR 10 这样的微小和低分辨率数据集。为了弥合这一转换差距,本文提供了对抗训练的现代重新检查,调查了其大规模应用时的潜在好处。此外,我们引入了一种高效且有效的训练策略,以可承受的计算成本使用巨型模型和网络规模数据进行对抗性训练。

Jump Cut Smoothing for Talking Heads
Authors Xiaojuan Wang, Taesung Park, Yang Zhou, Eli Shechtman, Richard Zhang
跳切会给观看体验带来突然的、有时是不必要的改变。我们提出了一个新颖的框架,用于在头部说话视频的背景下平滑这些跳切。我们利用视频中其他源帧中主题的外观,将其与由 DensePose 关键点和面部标志驱动的中级表示融合。为了实现运动,我们在剪切周围的结束帧之间插入关键点和地标。然后,我们使用关键点和源帧的图像转换网络来合成像素。由于关键点可能包含错误,因此我们提出了一种跨模式注意方案,以在每个关键点的多个选项中选择最合适的源。通过利用这种中级表示,我们的方法可以获得比强大的视频插值基线更强的结果。我们在头部说话视频中的各种跳切上演示了我们的方法,例如剪切填充词、停顿,甚至随机剪切。

Low-Resource Vision Challenges for Foundation Models
Authors Yunhua Zhang, Hazel Doughty, Cees G.M. Snoek
自然语言处理领域已经确立了低资源环境,许多语言缺乏足够的数据来进行大规模机器学习。然而,计算机视觉领域正在探索低资源问题。在本文中,我们努力解决这一差距,并利用视觉基础模型探索低资源图像任务的挑战。因此,我们首先收集真正低资源图像数据的基准,涵盖历史地图、电路图和机械制图。这些低资源环境都面临着数据稀缺、细粒度差异以及从自然图像到感兴趣的专业领域的分布转移这三个挑战。虽然现有的基础模型显示出令人印象深刻的通用性,但我们发现它们不能很好地应用于我们的低资源任务。为了开始应对低资源愿景的挑战,我们为每个挑战引入一个简单的基线。具体来说,我们建议通过生成模型扩大数据空间,采用最佳子内核对局部区域进行编码以进行细粒度差异发现,并学习对专业领域的关注。在我们的基准测试中对三个低资源数据源进行的实验表明,我们的建议已经提供了比常见的迁移学习、数据增强和细粒度方法更好的基线。这凸显了基础模型的低资源愿景的独特特征和挑战,值得进一步研究。

CoordGate: Efficiently Computing Spatially-Varying Convolutions in Convolutional Neural Networks
Authors Sunny Howard, Peter Norreys, Andreas D pp
由于点扩散函数 PSF 对图像应用静态但空间变化的卷积,光学成像系统的分辨率本质上受到限制。这种退化可以通过卷积神经网络 CNN 来解决,特别是通过去模糊技术。然而,当前的解决方案在有效计算空间变化的卷积方面面临某些限制。在本文中,我们提出了 CoordGate,这是一种新颖的轻量级模块,它使用乘法门和坐标编码网络来实现 CNN 中空间变化卷积的高效计算。 CoordGate 允许根据滤波器的空间位置选择性放大或衰减滤波器,有效地充当本地连接的神经网络。 CoordGate 解决方案的有效性在 U Nets 的背景下得到了证明,并应用于具有挑战性的图像去模糊问题。

Benchmark Analysis of Various Pre-trained Deep Learning Models on ASSIRA Cats and Dogs Dataset
Authors Galib Muhammad Shahriar Himel, Md. Masudul Islam
作为深度学习最基本的应用和实现,图像分类越来越受欢迎。著名数据科学社区提供各种数据集,用于对机器学习算法和预训练模型进行基准测试。 ASSIRA Cats Dogs 数据集就是其中之一,在本研究中用于其整体接受度和基准标准。通过使用不同类型的优化器和损失函数来演示各种预训练模型的比较。更改超参数以获得模型的最佳结果。通过应用这种方法,我们在训练模型没有发生重大变化的情况下获得了更高的准确率。为了运行实验,我们使用了三种不同的计算机架构:配备 NVIDIA GeForce GTX 1070 的笔记本电脑、配备 NVIDIA GeForce RTX 3080Ti 的笔记本电脑和配备 NVIDIA GeForce RTX 3090 的台式机。所获得的结果在准确度方面优于其他计算机架构。之前对此数据集做过实验。

Learning to Prompt Segment Anything Models
Authors Jiaxing Huang, Kai Jiang, Jingyi Zhang, Han Qiu, Lewei Lu, Shijian Lu, Eric Xing
分割任何模型 SAM(例如 SEEM 和 SAM)在学习分割任何东西方面表现出了巨大的潜力。 SAM 的核心设计在于 Promptable Segmentation,它将手工制作的提示作为输入并返回预期的分割掩码。 SAM 使用两种类型的提示,包括空间提示(例如点)和语义提示(例如文本),它们共同作用以提示 SAM 对下游数据集上的任何内容进行分段。尽管提示发挥着重要作用,但如何为 SAM 获取合适的提示目前尚未得到充分探索。在这项工作中,我们研究了 SAM 的架构,并确定了学习 SAM 有效提示的两个挑战。为此,我们提出了空间语义提示学习 SSPrompt,它可以学习有效的语义和空间提示以获得更好的 SAM。具体来说,SSPrompt 引入了空间提示学习和语义提示学习,直接在嵌入空间上优化空间提示和语义提示,并选择性地利用预先训练的提示编码器中编码的知识。

Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks
Authors Tanmay Garg, Deepika Vemuri, Vineeth N Balasubramanian
本文提出了一种新颖的概念学习框架,用于增强视觉分类任务中的模型可解释性和性能。我们的方法将无监督解释生成器附加到主分类器网络,并利用对抗性训练。在训练过程中,解释模块经过优化,可以从分类器的潜在表示中提取视觉概念,而基于 GAN 的模块旨在区分从概念生成的图像和真实图像。这种联合训练方案使模型能够隐式地将其内部学习的概念与人类可解释的视觉属性对齐。综合实验证明了我们方法的稳健性,同时产生了连贯的概念激活。我们分析学到的概念,显示它们与物体部分和视觉属性的语义一致性。我们还研究对抗性训练协议中的扰动如何影响分类和概念获取。

Generic Knowledge Boosted Pre-training For Remote Sensing Images
Authors Ziyue Huang, Mingming Zhang, Yuan Gong, Qingjie Liu, Yunhong Wang
深度学习模型对于场景分类、变化检测、土地覆盖分割和其他遥感图像理解任务至关重要。现有遥感深度学习模型的大多数主干通常是通过从 ImageNet 预训练 IMP 获得的预训练权重来初始化的。然而,遥感图像和自然图像(例如 ImageNet)之间存在领域差距,使得由 IMP 预训练权重初始化的深度学习模型在遥感图像理解方面表现不佳。尽管遥感界研究了一些预训练方法,但当前的遥感预训练方法仅使用遥感图像,面临泛化模糊的问题。在本文中,我们提出了一种新颖的遥感预训练框架,即通用知识增强遥感预训练GeRSP,以从遥感和自然图像中学习鲁棒的表示,以实现遥感理解任务。 GeRSP 包含两个预训练分支 1 采用自监督预训练分支从未标记的遥感图像中学习领域相关表示。 2 GeRSP 中集成了一个有监督的预训练分支,用于从标记的自然图像中学习一般知识。此外,GeRSP 使用教师学生架构结合两个预训练分支,同时学习具有一般知识和特殊知识的表示,从而生成用于深度学习模型初始化的强大预训练模型。最后,我们在三个下游任务(即目标检测、语义分割和场景分类)上评估 GeRSP 和其他遥感预训练方法。

EmoGen: Emotional Image Content Generation with Text-to-Image Diffusion Models
Authors Jingyuan Yang, Jiawei Feng, Hui Huang
近年来,图像生成任务取得了显着的进步,用户可以创建视觉上令人惊叹的高质量图像。然而,现有的文本到图像扩散模型能够熟练地生成具体的概念狗,但会遇到更抽象的情感的挑战。人们已经做出了一些努力来通过颜色和风格调整来修改图像情感,但在用固定的图像内容有效传达情感方面面临着局限性。在这项工作中,我们引入了情感图像内容生成 EICG,这是一项新任务,用于在给定情感类别的情况下生成语义清晰且情感忠实的图像。具体来说,我们提出了一个情感空间并构建了一个映射网络,将其与强大的对比语言图像预训练 CLIP 空间对齐,为抽象情感提供了具体的解释。进一步提出属性损失和情感置信度,以确保生成图像的语义多样性和情感保真度。我们的方法在数量和质量上都优于最先进的文本到图像方法,我们得出了三个自定义指标,即情感准确性、语义清晰度和语义多样性。

Enhanced Distribution Alignment for Post-Training Quantization of Diffusion Models
Authors Xuewen Liu, Zhikai Li, Junrui Xiao, Qingyi Gu
扩散模型通过迭代噪声估计在图像生成任务中取得了巨大成功。然而,繁重的去噪过程和复杂的神经网络阻碍了它们在现实场景中的低延迟应用。量化可以有效降低模型复杂度,训练后量化 PTQ 不需要微调,在加速去噪过程方面很有前景。不幸的是,我们发现,由于不同去噪步骤中激活的高度动态分布,现有的扩散模型 PTQ 方法在校准样本级别和重建输出级别上都存在分布不匹配问题,这使得性能远不能令人满意,尤其是在低噪声情况下。位案例。在本文中,我们提出了用于扩散模型训练后量化的增强分布对齐 EDA DM 来解决上述问题。具体来说,在校准样本层面,我们根据潜在空间的密度和多样性来选择校准样本,从而促进它们的分布与整体样本的对齐,在重建输出层面,我们提出了细粒度块重建,它可以在不同的网络粒度上对齐量化模型和全精度模型的输出。大量实验表明,EDA DM 在无条件和条件生成场景中均优于现有的训练后量化框架。

Effective pruning of web-scale datasets based on complexity of concept clusters
Authors Amro Abbas, Evgenia Rusak, Kushal Tirumala, Wieland Brendel, Kamalika Chaudhuri, Ari S. Morcos
利用大规模网络规模数据集使机器学习模型获得了前所未有的性能提升,但也对其训练提出了异常的计算要求。为了提高训练和数据效率,我们在这里突破了修剪大规模多模态数据集以训练 CLIP 风格模型的极限。当今 ImageNet 上最有效的修剪方法根据数据样本的嵌入将数据样本聚类成单独的概念,并修剪掉最典型的样本。我们将此方法扩展到 LAION 并通过注意到剪枝率应该特定于概念并适应概念的复杂性来改进它。使用简单直观的复杂性衡量标准,我们能够将培训成本降低到常规培训的四分之一。通过从 LAION 数据集进行过滤,我们发现对较小的高质量数据集进行训练可以带来更高的性能,同时显着降低训练成本。更具体地说,我们能够在 ImageNet 零镜头精度上超越 LAION 训练的 OpenCLIP ViT B32 模型 1.1p.p。而仅使用 27.7 的数据和训练计算。尽管训练成本大幅降低,但我们也看到了 ImageNet dist 的改进。轮班、检索任务和 VTAB。

Let's Go Shopping (LGS) -- Web-Scale Image-Text Dataset for Visual Concept Understanding
Authors Yatong Bai, Utsav Garg, Apaar Shanker, Haoming Zhang, Samyak Parajuli, Erhan Bas, Isidora Filipovic, Amelia N. Chu, Eugenia D Fomitcheva, Elliot Branson, Aerin Kim, Somayeh Sojoudi, Kyunghyun Cho
神经网络的视觉和视觉语言应用(例如图像分类和字幕)依赖于需要非平凡数据收集过程的大规模注释数据集。这项耗时的工作阻碍了大规模数据集的出现,将研究人员和从业者的选择限制在少数。因此,我们寻求更有效的方法来收集和注释图像。以前的举措是从 HTML 替代文本中收集标题并抓取社交媒体帖子,但这些数据源存在噪音、稀疏性或主观性。因此,我们选择数据符合清洁度、信息量和流畅度三个标准的商业购物网站。我们介绍 Let s Go Shopping LGS 数据集,这是一个大型公共数据集,包含来自公开电子商务网站的 1500 万个图像标题对。与现有的通用领域数据集相比,LGS 图像专注于前景物体,背景不太复杂。我们在 LGS 上的实验表明,在现有基准数据集上训练的分类器不容易泛化到电子商务数据,而特定的自监督视觉特征提取器可以更好地泛化。

Phase-shifted remote photoplethysmography for estimating heart rate and blood pressure from facial video
Authors Gyutae Hwang, Sang Jun Lee
人类健康可能受到高血压、心律失常和中风等心血管疾病的严重影响。心率和血压是心血管系统监测和心血管疾病早期诊断的重要生物识别信息。现有的估计心率的方法基于心电图和光电容积描记术,这需要将传感器接触皮肤表面。此外,基于导管和袖带的血压测量方法造成不便并且适用性有限。因此,在本论文中,我们提出了一种基于视觉的心率和血压估计方法。本文提出了一个由双远程光电体积描记网络 DRP Net 和有界血压网络 BBP Net 组成的 2 阶段深度学习框架。在第一阶段,DRP Net 推断肢端和面部区域的远程光电容积描记 rPPG 信号,并利用这些相移 rPPG 信号来估计心率。在第二阶段,BBP Net 集成时间特征并分析肢端和面部 rPPG 信号之间的相位差异,以估计 SBP 和 DBP 值。为了提高估计心率的准确性,我们采用了基于帧插值模型的数据增强方法。此外,我们设计了 BBP Net,通过结合缩放的 sigmoid 函数来推断预定义范围内的血压。我们的方法在 MMSE HR 数据集上估计心率的平均绝对误差 MAE 为 1.78 BPM,与最近的方法相比,MAE 减少了 34.31。估计收缩压SBP和舒张压DBP的MAE分别为10.19mmHg和7.09mmHg。

WaveletFormerNet: A Transformer-based Wavelet Network for Real-world Non-homogeneous and Dense Fog Removal
Authors Shengli Zhang, Zhiyong Tao, Sen Lin
尽管深度卷积神经网络在消除合成雾方面取得了显着的成功,但必须能够处理现实世界中复杂雾条件(例如浓雾或非均匀雾)下拍摄的图像。然而,现实世界中的雾度分布很复杂,随着特征图分辨率或图像分辨率的降低,下采样可能会导致输出结果中的颜色失真或细节丢失。除了获取足够训练数据的挑战之外,雾图像处理的深度学习技术也会出现过度拟合,这会限制模型的泛化能力,为其在现实场景中的实际应用带来挑战。考虑到这些问题,本文提出了一种基于 Transformer 的小波网络 WaveletFormerNet,用于现实世界的雾图像恢复。我们通过提出 WaveletFormer 和 IWaveletFormer 块将离散小波变换嵌入到 Vision Transformer 中,旨在减轻由于下采样而导致的图像中的纹理细节损失和颜色失真。我们在 Transformer 块中引入并行卷积,它允许以轻量级机制捕获多频率信息。此外,我们还实现了特征聚合模块 FAM 来保持图像分辨率并增强模型的特征提取能力,进一步使其在现实世界的雾图像恢复任务中表现出色。大量的实验表明,我们的 WaveletFormerNet 的性能优于最先进的方法,如对次要模型复杂性的定量和定性评估所示。

Take A Shortcut Back: Mitigating the Gradient Vanishing for Training Spiking Neural Networks
Authors Yufei Guo, Yuanpei Chen
尖峰神经网络 SNN 是一种受生物学启发的神经网络基础设施,最近引起了广泛关注。它利用二进制尖峰激活来传输信息,从而用加法代替乘法,从而实现高能效。然而,由于放电尖峰过程的梯度未定义,直接训练 SNN 会带来挑战。尽管先前的工作已经采用了各种替代梯度训练方法,这些方法使用替代函数来代替反向传播期间的激发过程,但这些方法忽略了梯度消失的内在问题。为了解决这个问题,我们在论文中提出了一种快捷反向传播方法,该方法主张将梯度直接从损失传输到浅层。这使我们能够直接将梯度呈现给浅层,从而显着缓解梯度消失问题。此外,该方法不会在推理阶段引入任何负担。为了在最终的准确性和训练的简易性之间取得平衡,我们还提出了一种进化训练框架,并通过引入随训练周期动态变化的平衡系数来实现它,从而进一步提高了网络的性能。

MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation
Authors Weimin Wang, Jiawei Liu, Zhijie Lin, Jiangqiao Yan, Shuo Chen, Chetwin Low, Tuyen Hoang, Jie Wu, Jun Hao Liew, Hanshu Yan, Daquan Zhou, Jiashi Feng
对从文本描述生成高保真视频的需求不断增长,促进了该领域的重要研究。在这项工作中,我们介绍了 MagicVideo V2,它将文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块集成到端到端视频生成管道中。受益于这些架构设计,MagicVideo V2 可以生成具有出色保真度和平滑度的美观、高分辨率视频。

PhilEO Bench: Evaluating Geo-Spatial Foundation Models
Authors Casper Fibaek, Luke Camilleri, Andreas Luyts, Nikolaos Dionelis, Bertrand Le Saux
地球观测 EO 卫星捕获了大量未标记的数据,其中 Sentinel 2 星座每天生成 1.6 TB 的数据。这使得遥感成为一个非常适合机器学习 ML 解决方案的数据丰富的领域。然而,将机器学习模型应用于 EO 的一个瓶颈是缺乏注释数据,因为注释是一个劳动密集型且成本高昂的过程。因此,该领域的研究主要集中在自我监督学习和基础模型方法上。本文通过引入 PhilEO Bench(一种针对 EO 基础模型的新颖评估框架)解决了在公平、统一的基准上评估不同基础模型的需求。该框架由一个测试台和一个新颖的 400 GB Sentinel 2 数据集组成,其中包含三个下游任务的标签:建筑密度估计、道路分割和土地覆盖分类。

D3AD: Dynamic Denoising Diffusion Probabilistic Model for Anomaly Detection
Authors Justin Tebbe, Jawad Tayyub
扩散模型通过捕获标称数据分布并通过重建识别异常,在异常检测中找到了有价值的应用。尽管有其优点,但它们很难定位不同规模的异常,尤其是较大的异常,例如整个缺失的组件。为了解决这个问题,我们提出了一个新颖的框架,通过扩展先前引入的隐式调节方法,增强扩散模型的能力。 2022 年将通过三个重要方式实现。首先,我们结合了动态步长计算,允许在初始异常预测指导下的前向过程中使用可变噪声步骤。其次,我们证明对仅缩放的输入进行去噪,而不添加任何噪声,其性能优于传统的去噪过程。第三,我们将图像投影到潜在空间中,以抽象出干扰大型缺失组件重建的细节。此外,我们提出了一种微调机制,有助于模型有效地掌握目标域的细微差别。我们的方法对两个著名的异常检测数据集 VISA 和 BTAD 进行了严格的评估,产生了最先进的性能。

A Novel Dataset for Non-Destructive Inspection of Handwritten Documents
Authors Eleonora Breci 1 , Luca Guarnera 1 , Sebastiano Battiato 1 1 University of Catania
法医笔迹检查是法医学的一个分支,旨在检查手写文件,以便正确定义或假设手稿的作者。这些分析涉及通过综合比较内在的局部和全局特征来比较两个或多个数字化文档。如果存在相关性并且满足特定的最佳实践,则可以确认所分析的文档是由同一个人编写的。对创建能够提取和比较重要特征的复杂工具的需求导致了具有几乎完全自动化流程的尖端软件的开发,改进了笔迹的取证检查并实现了越来越客观的评估。这是通过基于纯数学概念的算法解决方案实现的。使用特定数据集训练的机器学习和深度学习模型可能成为最好地解决手头任务的关键要素。在本文中,我们提出了一个新的、具有挑战性的数据集,由两个子集组成,第一个子集由 21 份文档组成,这些文档是通过经典的笔和纸方法编写的,后来数字化并直接在平板电脑等常见设备上获取,第二个由 362 份手写手稿组成124 个不同的人,按照特定的渠道获得。我们的研究开创了传统手写文档与使用平板电脑等数字工具生成的文档之间的比较。所提出的数据集的初步结果表明,在纸和笔上书写并随后数字化并在平板电脑上书写的第一子集文档上可以实现 90 的分类精度,而在数据的第二部分上可以实现 96 的分类精度。

Image classification network enhancement methods based on knowledge injection
Authors Yishuang Tian, Ning Wang, Liang Zhang
目前的深度神经网络算法还停留在像图像标签对这样的端到端的训练监督方式,这使得传统算法难以解释结果的原因,预测逻辑也难以理解和分析。目前的算法没有利用人类现有的知识信息,使得模型不符合人类的认知模型,使得模型不适合人类使用。为了解决上述问题,本发明提供了一种基于人类知识的深度神经网络训练方法,利用人类认知模型构建深度神经网络训练模型,利用人类现有知识信息构建深度神经网络训练模型。神经网络训练模型。本文提出了一种多级分层深度学习算法,该算法由多级分层深度神经网络架构和多级分层深度学习框架组成。实验结果表明,该算法能够有效解释神经网络的隐藏信息。我们研究的目标是通过分析知识注入对分类任务的影响来提高深度神经网络 DNN 的可解释性。我们构建了一个具有匹配知识数据和图像分类数据的知识注入数据集。知识注入数据集是本文实验的基准数据集。

Empirical Analysis of Anomaly Detection on Hyperspectral Imaging Using Dimension Reduction Methods
Authors Dongeon Kim, YeongHyeon Park
最近的研究尝试使用高光谱成像 HSI 来检测产品中的异物,因为它能够可视化包括紫外线和红外线在内的不可见波长。考虑到 HSI 的巨大图像通道,可以考虑使用 PCA 或 UMAP 等多种降维方法来减少,但这些方法不能缓解根本限制,如下 1 HSI 捕获的延迟。 2.重要渠道的解释能力较差。本文为了规避前述方法,通道缩减的方法之一,在异常检测上提出了HSI。与特征提取方法(即 PCA 或 UMAP)不同,特征选择可以按影响对特征进行排序,并显示出更好的可解释性,因此我们可以重新设计任务优化且具有成本效益的光谱相机。通过合成 MVTec AD 数据集的大量实验结果,我们确认特征选择方法在推理阶段的速度比基于特征提取的方法快 6.90 倍,同时保持异常检测性能。

Uncertainty-aware Sampling for Long-tailed Semi-supervised Learning
Authors Kuo Yang, Duo Li, Menghan Hu, Guangtao Zhai, Xiaokang Yang, Xiao Ping Zhang
对于不平衡类的半监督学习,数据的长尾分布将增加模型对主导类的预测偏差,从而损害不太频繁的类的性能。现有方法在确保为模型训练选择足够可靠的伪标签方面也面临挑战,并且缺乏根据不同训练阶段调整更可靠伪标签的选择的机制。为了缓解这个问题,我们在伪标签采样的建模过程中引入了不确定性,同时考虑到尾类上的模型性能在不同的训练阶段会有所不同。例如,在模型训练的早期阶段,模型的预测精度有限,导致不确定伪标签的比例较高。为了解决这个问题,我们提出了一种不确定性感知动态阈值选择 UDTS 方法。这种方法允许模型感知不同训练阶段伪标签的不确定性,从而自适应地调整不同类别的选择阈值。与基线方法FixMatch等其他方法相比,UDTS在自然场景图像数据集CIFAR10 LT、CIFAR100 LT、STL 10 LT和医学图像数据集上实现了至少约5.26、1.75、9.96和1.28的精度提升分别为组织MNIST。

Meta-forests: Domain generalization on random forests with meta-learning
Authors Yuyang Sun, Panagiotis Kosmas
领域泛化是一种流行的机器学习技术,通过从多个源领域学习,使模型能够在看不见的目标领域上表现良好。领域泛化在数据有限、收集困难或收集成本昂贵的情况下非常有用,例如在对象识别和生物医学中。在本文中,我们提出了一种称为元森林的新型领域泛化算法,该算法基于基本随机森林模型,结合元学习策略和最大均值差异度量。元森林的目的是通过减少树之间的相关性并增加树的强度来增强分类器的泛化能力。更具体地说,元森林在每个元任务期间进行元学习优化,同时还利用最大均值差异作为正则化项来惩罚元测试过程中较差的泛化性能。为了评估我们算法的有效性,我们在之前研究中使用的两个公开对象识别数据集和一个血糖监测数据集上对其进行了测试。

MapAI: Precision in Building Segmentation
Authors Sander Riis en Jyhne, Morten Goodwin, Per Arne Andersen, Ivar Oveland, Alexander Salveson Nossum, Karianne Ormseth, Mathilde rstavik, Andrew C. Flatman
MapAI Precision in Building Segmentation 是挪威人工智能研究联盟 NORA 与阿格德尔大学人工智能研究中心 CAIR、挪威测绘局、AI Hub、Norkart 以及丹麦数据供应和数据管理局合作举办的一项竞赛。基础设施。该竞赛将于 2022 年秋季举行。比赛将在北极光深度学习会议上结束,重点关注使用航空图像和激光数据进行建筑物分割。我们提出了两种不同的任务来分割建筑物,其中第一个任务只能利用航拍图像,而第二个任务必须使用带有或不带有航拍图像的激光数据LiDAR。此外,我们使用 IoU 和边界 IoU 来正确评估模型的精度,后者是评估结果边界的 IoU 度量。

MST: Adaptive Multi-Scale Tokens Guided Interactive Segmentation
Authors Long Xu, Shanghong Li, Yongquan Chen, Jun Luo
在工业信息学领域,交互式分割因其在人机交互和数据注释中的应用而受到广泛关注。然而,现有算法在平衡大目标和小目标之间的分割精度方面面临挑战,通常会导致用户交互数量增加。为了解决这个问题,设计了一种新颖的多尺度令牌自适应算法,利用令牌相似性来增强不同目标大小的分割。该算法利用可微分的前 k 个令牌选择机制,允许使用更少的令牌,同时保持高效的多尺度令牌交互。此外,引入对比损失以更好地区分目标和背景标记,提高与目标相似的标记的正确性和鲁棒性。广泛的基准测试表明,与当前方法相比,该算法实现了最先进的 SOTA 性能。

Learning with Noisy Labels: Interconnection of Two Expectation-Maximizations
Authors Heewon Kim, Hyun Sung Chang, Kiho Cho, Jaeyun Lee, Bohyung Han
劳动密集型标签成为开发基于深度学习的计算机视觉算法的瓶颈。因此,处理不完美标签越来越受到关注,并成为一个活跃的研究领域。我们解决了带有噪声标签的学习 LNL 问题,该问题被形式化为在噪声数据中找到结构化流形的任务。在此框架中,我们提供了适当的目标函数和基于两个期望最大化 EM 循环的优化算法。与两个 EM 周期相关的独立网络协作优化目标函数,其中一个模型用于区分干净标签和损坏标签,而另一个模型用于翻新损坏标签。这种方法最终产生了一个不塌陷的 LNL 飞轮模型。

SoK: Facial Deepfake Detectors
Authors Binh M. Le, Jiwon Kim, Shahroz Tariq, Kristen Moore, Alsharif Abuadbba, Simon S. Woo
深度造假已迅速成为对社会的深刻而严重的威胁,这主要是因为它们易于创建和传播。这种情况引发了 Deepfake 检测技术的加速发展。然而,许多现有的检测器严重依赖实验室生成的数据集进行验证,这可能无法有效地为新颖的、新兴的和现实世界的深度伪造技术做好准备。在本文中,我们对最新最先进的深度伪造探测器进行了广泛而全面的审查和分析,并根据几个关键标准对其进行了评估。这些标准有助于将这些探测器分为 4 个高级组和 13 个细粒度子组,所有这些都符合统一的标准概念框架。这种分类和框架为影响探测器功效的因素提供了深入而实用的见解。我们评估了 16 个领先检测器在各种标准攻击场景(包括黑盒、白盒和灰盒设置)中的通用性。我们的系统化分析和实验为更深入地了解 Deepfake 探测器及其普遍性奠定了基础,为未来专注于创建擅长应对各种攻击场景的探测器的研究铺平了道路。

Representative Feature Extraction During Diffusion Process for Sketch Extraction with One Example
Authors Kwan Yun, Youngseo Kim, Kwanggyoon Seo, Chang Wook Seo, Junyong Noh
我们介绍 DiffSketch,一种从图像生成各种风格化草图的方法。我们的方法侧重于从预训练扩散模型中深层特征的丰富语义中选择代表性特征。这种新颖的草图生成方法可以通过一张手动绘图进行训练。此外,通过将经过训练的生成器提炼为简化的提取器,可以确保高效的草图提取。我们通过分析选择去噪扩散特征,并将这些选定的特征与 VAE 特征集成以生成草图。此外,我们提出了使用条件生成方法训练模型的采样方案。

Iterative Feedback Network for Unsupervised Point Cloud Registration
Authors Yifan Xie, Boyu Wang, Shiqi Li, Jihua Zhu
作为计算机视觉中的一个基本问题,点云配准旨在寻求对齐一对点云的最佳变换。现有的大多数方法中,信息流通常是前向传递的,缺乏从高层信息到低层信息的引导。另外,过多的高层信息可能会过于冗余,直接使用可能会与原来的低层信息发生冲突。在本文中,我们提出了一种用于无监督点云配准的新型迭代反馈网络 IFNet,其中通过重新路由后续的高级特征来有效地丰富低级特征的表示。具体来说,我们的 IFNet 建立在一系列反馈注册块 FRB 模块的基础上,每个模块负责生成前馈刚性变换和反馈高级特征。这些 FRB 模块是级联的,并且随着时间的推移不断展开。此外,反馈变压器被设计为从反馈的高级特征中有效地选择相关信息,用于细化低级特征。更重要的是,我们结合了几何感知描述符,使网络能够充分利用大多数几何信息,从而获得更精确的配准结果。

Knowledge-enhanced Multi-perspective Video Representation Learning for Scene Recognition
Authors Xuzheng Yu, Chen Jiang, Wei Zhang, Tian Gan, Linlin Chao, Jianan Zhao, Yuan Cheng, Qingpei Guo, Wei Chu
随着现实世界应用中视频数据的爆炸式增长,视频的全面表示变得越来越重要。在本文中,我们解决了视频场景识别问题,其目标是学习高级视频表示来对视频中的场景进行分类。由于现实场景中视频内容的多样性和复杂性,这项任务仍然是一个挑战。大多数现有作品仅从时间角度的视觉或文本信息识别视频场景,忽略了隐藏在单帧中的有价值的信息,而一些早期的研究仅从非时间角度识别单独图像的场景。我们认为这两种视角对于这项任务都是有意义的并且是相互补充的,同时,外部引入的知识也可以促进对视频的理解。我们提出了一种新颖的双流框架,从多个视角(即时间和非时间视角)对视频表示进行建模,并通过自蒸馏以端到端的方式集成这两个视角。此外,我们设计了一种知识增强的特征融合和标签预测方法,有助于将知识自然地引入视频场景识别任务中。

Pre-trained Model Guided Fine-Tuning for Zero-Shot Adversarial Robustness
Authors Sibo Wang, Jie Zhang, Zheng Yuan, Shiguang Shan
像 CLIP 这样的大规模预训练视觉语言模型在各种任务中都表现出了令人印象深刻的性能,并表现出卓越的零样本泛化能力,同时它们也容易受到难以察觉的对抗性示例的影响。现有的工作通常采用对抗性训练微调作为对抗性示例的防御方法。然而,直接应用于 CLIP 模型可能会导致过度拟合,从而损害模型的泛化能力。在本文中,我们提出了预训练模型引导对抗性微调 PMG AFT 方法,该方法通过仔细设计辅助分支来利用原始预训练模型的监督,以增强模型的零样本对抗鲁棒性。具体来说,PMG AFT 最小化了目标模型中的对抗样本特征与预训练模型中的对抗样本特征之间的距离,旨在保留预训练模型已经捕获的泛化特征。对 15 个零样本数据集的广泛实验表明,PMG AFT 显着优于最先进的方法,将 top 1 鲁棒精度平均提高了 4.99 。

RomniStereo: Recurrent Omnidirectional Stereo Matching
Authors Hualie Jiang, Rui Xu, Minglang Tan, Wenjie Jiang
全向立体匹配 OSM 是 360 度环深度传感的重要且可靠的手段。然而,继早期的传统立体匹配工作之后,现有技术的 SOTA 方法依赖 3D 编码器解码器块来规范成本量,导致整个系统复杂且结果次优。最近,基于循环全对场变换 RAFT 的方法采用了 2D 循环更新,并有效地改进了图像匹配任务,即光流和立体匹配。为了弥补 OSM 和 RAFT 之间的差距,我们主要提出了一种相反的自适应加权方案,将 OSM 球面扫描的输出无缝转换为循环更新所需的输入,从而创建循环全向立体匹配 RomniStereo 算法。此外,我们引入了两种技术,即网格嵌入和自适应上下文特征生成,这也有助于 RomniStereo 的性能。我们的最佳模型在五个数据集上的平均 MAE 指标比之前的 SOTA 基线提高了 40.7。在可视化结果时,我们的模型在合成和现实示例上都表现出了明显的优势。

Mix-GENEO: A flexible filtration for multiparameter persistent homology detects digital images
Authors Jiaxing He, Bingzhe Hou, Tieru Wu, Yue Xin
拓扑数据分析领域的两个重要问题是定义对象的实际多重过滤和显示 TDA 检测几何形状的能力。受这些问题的启发,我们构建了三种多重过滤:multi GENEO、multi DGENEO 和 mix GENEO,并证明了 multi GENEO 的交错距离和多参数持久性景观相对于有界函数子空间的伪度量的稳定性。我们还给出了多 DGENEO 和混合 GENEO 上限的估计。

BD-MSA: Body decouple VHR Remote Sensing Image Change Detection method guided by multi-scale feature information aggregation
Authors Yonghui Tan, Xiaolong Li, Yishu Chen, Jinquan Ai
遥感图像变化检测RSCD的目的是检测同一地点拍摄的双时态图像之间的差异。深度学习已广泛应用于 RSCD 任务,在结果识别方面取得了显着的成果。然而,由于卫星的拍摄角度、薄云层的影响以及一定的光照条件,目前的RSCD算法无法很好地处理一些遥感照片变化区域边缘模糊的问题。为了解决这个问题,我们提出了一种通过恐惧聚合变化检测 BD MSA 实现的体解耦多尺度模型,这是一种在训练和预测阶段收集特征图的通道和空间维度中的全局和局部特征图信息的新颖模型。这种方法使我们能够成功提取变化区域的边界信息,同时将变化区域的主体与其边界分离。

RadarCam-Depth: Radar-Camera Fusion for Depth Estimation with Learned Metric Scale
Authors Han Li, Yukai Ma, Yaqing Gu, Kewei Hu, Yong Liu, Xingxing Zuo
我们提出了一种基于单视图图像和稀疏、噪声雷达点云融合的度量密集深度估计的新方法。异构雷达和图像数据或其编码的直接融合往往会产生具有明显伪影、模糊边界和次优精度的密集深度图。为了解决这个问题,我们学习利用稀疏和嘈杂的雷达数据产生的密集度量尺度来增强通用且鲁棒的单目深度预测。我们提出了一个雷达相机框架,用于高精度和精细的密集深度估计,分为四个阶段,包括单目深度预测、单目深度与稀疏雷达点的全局尺度对齐、通过学习雷达点和图像块之间的关联进行准密集尺度估计,以及使用比例图学习器对密集深度进行局部比例细化。

Vision Reimagined: AI-Powered Breakthroughs in WiFi Indoor Imaging
Authors Jianyang Shi, Bowen Zhang, Amartansh Dubey, Ross Murch, Liwen Jing
室内成像是机器人和物联网的一项关键任务。 WiFi 作为一种无所不在的信号,是执行被动成像并将最新信息同步到所有连接设备的有前途的候选者。这是第一个将 WiFi 室内成像视为多模态图像生成任务的研究工作,将测量的 WiFi 功率转换为高分辨率室内图像。我们提出的 WiFi GEN 网络的形状重建精度是基于物理模型的反演方法的 275 倍。此外,Frechet Inception Distance 分数显着降低了 82 。为了检查该任务模型的有效性,发布了第一个大规模数据集,其中包含 80,000 对 WiFi 信号和成像目标。我们的模型吸收了基于模型的方法的挑战,包括非线性、不适定性和不确定性到我们的生成人工智能网络的大量参数中。该网络还旨在最适合测量的 WiFi 信号和所需的成像输出。

StarCraftImage: A Dataset For Prototyping Spatial Reasoning Methods For Multi-Agent Environments
Authors Sean Kulinski, Nicholas R. Waytowich, James Z. Hare, David I. Inouye
多代理环境中的空间推理任务(例如事件预测、代理类型识别或缺失数据插补)对于多种应用非常重要,例如传感器网络的自主监视和强化学习 RL 的子任务。 《星际争霸 II》游戏重播对智能和对抗性多代理行为进行编码,并且可以为这些任务提供测试平台,然而,提取简单和标准化的表示来对这些任务进行原型设计非常费力,并且阻碍了可重复性。相比之下,MNIST 和 CIFAR10 尽管极其简单,却能够实现 ML 方法的快速原型设计和可重复性。遵循这些数据集的简单性,我们基于《星际争霸 II》回放构建了一个基准空间推理数据集,该数据集表现出复杂的多智能体行为,同时仍然像 MNIST 和 CIFAR10 一样易于使用。具体来说,我们仔细总结了 255 个连续游戏状态的窗口,从 60,000 次重播中创建 360 万张摘要图像,包括所有相关元数据,例如游戏结果和玩家竞赛。我们开发了三种复杂性逐渐降低的高光谱图像格式,其中每个单位类型都有一个通道,类似于多光谱地理空间图像、模仿 CIFAR10 的 RGB 图像以及模仿 MNIST 的灰度图像。我们展示了如何使用该数据集来构建空间推理方法的原型。

Detecting Face Synthesis Using a Concealed Fusion Model
Authors Roberto Leyva, Victor Sanchez, Gregory Epiphaniou, Carsten Maple
由于担心人脸图像合成的潜在负面影响(包括与虚假生物识别相关的影响),人脸图像合成在计算机安全领域受到越来越多的关注。因此,建立可以检测合成人脸图像的模型是一个需要解决的重要挑战。在本文中,我们提出了一种基于融合的策略来检测人脸图像合成,同时提供对多种攻击的弹性。所提出的策略使用由多个未公开模型计算的输出的后期融合,依靠随机多项式系数和指数来隐藏新的特征空间。与现有的隐藏解决方案不同,我们的策略不需要量化,这有助于保留特征空间。

Robust Image Watermarking using Stable Diffusion
Authors Lijun Zhang, Xiao Liu, Antoni Viros Martin, Cindy Xiong Bearfield, Yuriy Brun, Hui Guan
图像加水印对于跟踪图像来源和声明所有权至关重要。随着生成模型(例如稳定扩散)的出现,能够创建虚假但逼真的图像,水印变得尤为重要,例如,使生成的图像能够可靠地识别。不幸的是,同样的稳定扩散技术可以去除使用现有方法注入的水印。为了解决这个问题,我们提出了 ZoDiac,它使用预先训练的稳定扩散模型将水印注入可训练的潜在空间中,从而即使在受到攻击时也可以在潜在向量中可靠地检测到水印。我们在 MS COCO、DiffusionDB 和 WikiArt 三个基准上评估 ZoDiac,发现 ZoDiac 对于最先进的水印攻击具有鲁棒性,水印检测率超过 98,误报率低于 6.4,优于最先进的水印方法。

Data-Agnostic Face Image Synthesis Detection Using Bayesian CNNs
Authors Roberto Leyva, Victor Sanchez, Gregory Epiphaniou, Carsten Maple
人脸图像合成检测由于这种合成数据对社会带来的潜在负面影响而受到极大关注。在本文中,我们提出了一种与数据无关的解决方案来检测人脸图像合成过程。具体来说,我们的解决方案基于异常检测框架,该框架仅需要真实数据来学习推理过程。因此,它与数据无关,因为它不需要合成面部图像。该解决方案使用相对于参考数据的后验概率来确定新样本是否是合成的。

SOAP: Cross-sensor Domain Adaptation for 3D Object Detection Using Stationary Object Aggregation Pseudo-labelling
Authors Chengjie Huang, Vahdat Abdelzad, Sean Sedwards, Krzysztof Czarnecki
我们考虑基于 LiDAR 的 3D 对象检测背景下的跨传感器域自适应问题,并提出静止对象聚合伪标签 SOAP 来为静止对象生成高质量的伪标签。与当前领域实践中仅聚合少量输入扫描的最新技术相比,SOAP 在输入级别聚合整个点云序列以减少传感器域间隙。然后,通过我们所说的准静态训练和空间一致性后处理,SOAP 模型为静态对象生成准确的伪标签,与少数帧检测器相比,缩小了至少 30.3 的域间隙。

FunnyNet-W: Multimodal Learning of Funny Moments in Videos in the Wild
Authors Zhi Song Liu, Robin Courant, Vicky Kalogeiton
自动理解有趣的时刻,即观看喜剧时让人发笑的时刻具有挑战性,因为它们与各种特征有关,例如肢体语言、对话和文化。在本文中,我们提出了FunnyNet W,这是一种依赖于视觉、音频和文本数据的交叉和自注意力来预测视频中有趣时刻的模型。与大多数依赖字幕形式的真实数据的方法不同,在这项工作中,我们利用视频自然产生的模式,视频帧因为它们包含场景理解所必需的视觉信息,b音频因为它包含与有趣相关的更高级别的线索诸如语调、音高和停顿之类的时刻以及使用语音转文本模型自动提取的 c 文本,因为它在由大型语言模型处理时可以提供丰富的信息。为了获取训练标签,我们提出了一种无监督的方法,可以发现并标记有趣的音频时刻。我们提供了五个数据集的实验:情景喜剧 TBBT、MHD、MUStARD、Friends 和 TED 演讲 URunny。大量的实验和分析表明,FunnyNet W 成功地利用视觉、听觉和文本线索来识别有趣的时刻,而我们的研究结果表明,FunnyNet W 具有预测野外有趣时刻的能力。

Efficient Selective Audio Masked Multimodal Bottleneck Transformer for Audio-Video Classification
Authors Wentao Zhu
音频和视频是主流媒体平台(例如 YouTube)中最常见的两种形式。为了有效地学习多模态视频,在这项工作中,我们提出了一种新颖的音频视频识别方法,称为音频视频 Transformer,AVT,利用视频 Transformer 的有效时空表示来提高动作识别的准确性。对于多模态融合,简单地在跨模态 Transformer 中连接多模态标记需要大量的计算和内存资源,相反,我们通过音频视频瓶颈 Transformer 来降低跨模态复杂性。为了提高多模态 Transformer 的学习效率,我们将自监督目标(即音视频对比学习、音视频匹配和屏蔽音视频学习)集成到 AVT 训练中,将不同的音频和视频表示映射到公共多模态表示空间中。我们进一步提出了一种屏蔽音频片段损失来学习 AVT 中的语义音频活动。对三个公共数据集和两个内部数据集的广泛实验和消融研究一致证明了所提出的 AVT 的有效性。具体来说,AVT 在动力学声音方面比之前最先进的同类产品高出 8 倍。通过利用音频信号,AVT 还超越了 VGGSound 上之前最先进的视频 Transformers 25 x 10 之一。

Two-stream joint matching method based on contrastive learning for few-shot action recognition
Authors Long Deng, Ziqiang Li, Bingxin Zhou, Zhongming Chen, Ao Li, Yongxin Ge
虽然基于度量学习范式的少数镜头动作识别取得了显着的成功,但它未能解决以下问题:1动作关系建模不充分和多模态信息利用不足2处理不同长度和速度的视频匹配问题以及视频匹配问题的挑战视频子动作未对准。为了解决这些问题,我们提出了一种基于对比学习 TSJM 的双流联合匹配方法,该方法由两个模块多模态对比学习模块 MCL 和联合匹配模块 JMM 组成。 MCL的目标是广泛研究模态间的互信息关系,从而彻底提取模态信息以增强动作关系的建模。 JMM旨在同时解决上述视频匹配问题。该方法的有效性在两个广泛使用的少量镜头动作识别数据集(SSv2 和 Kinetics)上进行了评估。

RHOBIN Challenge: Reconstruction of Human Object Interaction
Authors Xianghui Xie, Xi Wang, Nikos Athanasiou, Bharat Lal Bhatnagar, Chun Hao P. Huang, Kaichun Mo, Hao Chen, Xia Jia, Zerui Zhang, Liangxian Cui, Xiao Lin, Bingqiao Qian, Jie Xiao, Wenfei Yang, Hyeongjin Nam, Daniel Sungho Jung, Kihoon Kim, Kyoung Mu Lee, Otmar Hilliges, Gerard Pons Moll
对人与物体之间的交互进行建模是近年来的一个新兴研究方向。然而,由于严重遮挡和复杂的动力学,捕捉人体物体交互是一项非常具有挑战性的任务,这不仅需要理解 3D 人体姿势和物体姿势,还需要理解它们之间的相互作用。长期以来,3D 人体和物体的重建一直是计算机视觉中两个独立的研究领域。因此,我们结合 RHOBIN 研讨会提出了第一个重建人类物体交互的 RHOBIN 挑战。它的目的是将人类和物体重建以及交互建模的研究社区聚集在一起,讨论技术和交流想法。我们的挑战包括从单目 RGB 图像进行 3D 重建的三个轨道,重点是处理具有挑战性的交互场景。我们的挑战吸引了 100 多名参与者,提交了 300 多份参赛作品,表明了研究界的广泛兴趣。本文描述了我们挑战的设置,并更详细地讨论了每个赛道的获胜方法。我们观察到,即使在严重遮挡的情况下,人体重建任务也正在变得成熟,而物体姿态估计和联合重建仍然是具有挑战性的任务。随着人们对交互建模的兴趣日益浓厚,我们希望这份报告能够提供有用的见解并促进这一方向的未来研究。

U-Mamba: Enhancing Long-range Dependency for Biomedical Image Segmentation
Authors Jun Ma, Feifei Li, Bo Wang
卷积神经网络 CNN 和 Transformer 是生物医学图像分割中最流行的架构,但由于固有的局部性或计算复杂性,它们处理长范围依赖性的能力有限。为了应对这一挑战,我们引入了 U Mamba,一种用于生物医学图像分割的通用网络。受状态空间序列模型 SSM(一种新的深度序列模型系列,以其处理长序列的强大能力而闻名)的启发,我们设计了一种混合 CNN SSM 模块,它将卷积层的局部特征提取能力与 SSM 的捕获能力相结合长程依赖。此外,U Mamba 还具有自我配置机制,无需人工干预即可自动适应各种数据集。我们对四种不同的任务进行了广泛的实验,包括 CT 和 MR 图像中的 3D 腹部器官分割、内窥镜图像中的器械分割以及显微镜图像中的细胞分割。结果表明,U Mamba 在所有任务中都优于最先进的基于 CNN 和 Transformer 的分割网络。这为生物医学图像分析中高效的远程依赖性建模开辟了新途径。

An Automatic Cascaded Model for Hemorrhagic Stroke Segmentation and Hemorrhagic Volume Estimation
Authors Weijin Xu, Zhuang Sha, Huihua Yang, Rongcai Jiang, Zhanying Li, Wentao Liu, Ruisheng Su
出血性中风 HS 发病迅速,是一种对健康构成巨大威胁的严重疾病。在计算机断层扫描CT图像中及时准确地描绘出血区域并估计出血量可以帮助临床医生制定治疗计划,从而改善患者的治疗结果。本文基于UNet构建级联3D模型,对CT图像中的出血区域进行由粗到细的两阶段分割,并根据分割区域自动计算出血量。

Optimal Transcoding Resolution Prediction for Efficient Per-Title Bitrate Ladder Estimation
Authors Jinhai Yang, Mengxi Guo, Shijie Zhao, Junlin Li, Li Zhang
自适应视频流需要高效的比特率阶梯构建,以满足异构网络条件和最终用户需求。按标题优化的编码通常会遍历大量编码参数来搜索每个视频的帕累托最佳操作点。最近,研究人员试图预测内容优化的比特率阶梯以减少预编码开销。然而,现有方法通常估计Pareto前沿上的编码参数,并且仍然需要后续预编码。在本文中,我们建议直接预测每个预设比特率的最佳转码分辨率,以实现高效的比特率阶梯构建。我们采用时间注意力门控循环网络来捕获时空特征并预测转码分辨率作为多任务分类问题。我们证明,无需任何预编码即可有效确定内容优化的比特率阶梯。

Towards Real-World Aerial Vision Guidance with Categorical 6D Pose Tracker
Authors Jingtao Sun, Yaonan Wang, Danwei Wang
跟踪物体 6 DoF 位姿对于各种下游机器人任务和现实世界应用至关重要。在本文中,我们利用类别 6 自由度姿态跟踪,研究了用于空中机器人操纵的空中视觉引导的现实世界机器人任务。空中条件不可避免地会带来特殊的挑战,例如俯仰和横滚的快速视点变化。为了支持这项任务和挑战,我们首先引入一个强大的类别 6 DoF 姿势跟踪器 Robust6DoF 。该跟踪器利用形状和时间先验知识来探索最佳帧间关键点对,这些关键点对是在先验结构自适应监督下以从粗到细的方式生成的。值得注意的是,我们的 Robust6DoF 采用空间时间增强模块,通过时间动态过滤和形状相似性过滤来处理帧间差异和类内形状变化的问题。我们进一步提出了一种姿态感知离散伺服策略 PAD Servo,作为实现最终航空视觉引导任务的解耦方法。它包含两个伺服动作策略,以更好地适应空中机器人操纵的结构特性。对四个众所周知的公共基准的详尽实验证明了我们 Robust6DoF 的优越性。

Spatio-Temporal Turbulence Mitigation: A Translational Perspective
Authors Xingguang Zhang, Nicholas Chimitt, Yiheng Chi, Zhiyuan Mao, Stanley H. Chan
由于湍流的随机性,恢复因大气湍流而扭曲的图像是一个具有挑战性的逆问题。尽管已经提出了许多湍流缓解 TM 算法,但它们的效率和对现实世界动态场景的泛化仍然受到严重限制。基于经典 TM 算法的直觉,我们提出了深层大气湍流缓解网络 DATUM 。 DATUM 旨在克服从经典学习方法过渡到深度学习方法时的重大挑战。通过仔细地将经典多帧 TM 方法的优点集成到深层网络结构中,我们证明了 DATUM 可以使用循环方式有效地执行长范围时间聚合,而可变形注意力和时间通道注意力无缝地促进像素配准和幸运成像。通过额外的监督,可以共同减轻倾斜和模糊退化。这些归纳偏差使 DATUM 能够显着优于现有方法,同时处理速度提高十倍。大规模训练数据集 ATSyn 是一项共同发明,旨在实现真实湍流中的泛化。

Language-Conditioned Robotic Manipulation with Fast and Slow Thinking
Authors Minjie Zhu, Yichen Zhu, Jinming Li, Junjie Wen, Zhiyuan Xu, Zhengping Che, Chaomin Shen, Yaxin Peng, Dong Liu, Feifei Feng, Jian Tang
语言条件机器人操作旨在将自然语言指令转化为可执行动作,从简单的拾取和放置到需要意图识别和视觉推理的任务。受认知科学中的双过程理论的启发,该理论提出了人类决策中快速和慢速思维的两个并行系统,我们引入了具有快速和慢速思维的机器人 RFST,这是一个模仿人类认知架构的框架,可以对任务进行分类并根据两个系统做出决策基于指令类型的系统。我们的 RFST 由两个关键组件组成:1 指令鉴别器,用于根据当前用户指令确定应激活哪个系统;2 慢速思维系统,由与策略网络对齐的微调视觉语言模型组成,该模型允许机器人识别用户意图或执行推理任务。为了评估我们的方法,我们构建了一个包含现实世界轨迹的数据集,捕获从自发冲动到需要深思熟虑的任务的各种行为。我们在模拟和现实场景中的结果证实,我们的方法可以熟练地管理需要意图识别和推理的复杂任务。

Semantic Draw Engineering for Text-to-Image Creation
Authors Yang Li, Huaqiang Jiang, Yangkai Wu
文本到图像的生成是通过生成对抗网络 GAN 或变压器模型进行的。然而,当前的挑战在于根据文本描述准确生成图像,特别是在目标图像的内容和主题不明确的场景下。在本文中,我们提出了一种利用人工智能模型进行主题创意,并对实际绘画过程进行分类建模的方法。该方法涉及在创建图像之前将所有视觉元素转换为可量化的数据结构。

Timeline-based Process Discovery
Authors Harleen Kaur, Jan Mendling, Christoffer Rubensson, Timotheus Kampik
自动流程发现的一个关键问题是提供对业务流程性能方面的见解。在这种情况下,等待时间尤其重要。因此,令人惊讶的是,当前的自动过程发现技术直接生成跟踪图和可比较的过程模型,但常常错过明确表示时间轴的机会。在本文中,我们提出了一种自动构建与时间轴明确对齐的流程模型的方法。我们直接用图表举例说明我们的方法。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

文章来源:https://blog.csdn.net/u014636245/article/details/135541211
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。