AnyDoor任意门:零样本物体级图像定制化

发布时间:2024年01月14日


一、AnyDoor简介

  1. “任意门”算法:可以将任意目标传送到指定场景的指定位置,无需微调,便捷生成高质量、高保真的合成图像。被传送的目标会自动对新的场景进行姿态、角度、动作等方面的调整,确保生成图像的多样性以及和谐度。
  2. 该算法可以完成多种图像生成或编辑任务如:图像定制化,多目标组合,虚拟试衣;同时,经过简单拓展,任意门算法可以完成更多神奇的应用比如物体移动、换位等。

二、AnyDoor方法

  • 核心思想: 将目标表征成“ID相关”和“细节相关”的特征,然后将他们组合到与背景场景的交互中。
  • 算法流程:
    1. 给定一张目标图,使用分割模型对该图进行背景去除;
    1. 用ID extractor进行ID特征提取;同时使用高频滤波器提取参考图的高频细节分类,将该高频图拼贴到背景图的指定位置,送入Detail extractor进行细节提取;
    1. 将提取的ID特征和细节特征注入预训练的文生图大模型以控制最终的生成结果。

在这里插入图片描述

(一)ID特征提取

首先通过一个分割模块去除目标物体的背景,然后使用DINO-V2模型提取物体的身份信息。

  • Segmentor:去除背景,并将对象对齐到图像中心
  • ID Extractor: DINO-V2 作为 ID 提取器的Backbone,使用单个线性层将 ID 提取器的 token 对齐到预训练的文本到图像的 UNet 中。

以往使用的CLIP 的训练数据是粗略描述的文本图像对,只能嵌入语义级别的信息,而难以保留有区分度的对象身份表示;DINO-V2是一种强大的自监督模型,在保留高辨别度特征方面,自监督模型展现了更强大的能力。

在这里插入图片描述

(二)细节特征提取

提出了一种频率感知的细节特征提取器,用于提取目标物体的高频细节信息。

  • 防止生成的图像和参考图过于相似:提取参考图中的高频分量用于表达细节特征
  • 将高频分量图和背景图拼贴在一起,用Detail extractor提取一组不同尺度的特征图送入U-Net进行监督

在这里插入图片描述

(三)特征注入

核心就是通过交叉注意力机制,将物体特征引入到Unet的生成过程中:

  • 使用Stable Diffusion作为backbone,将ID特征通过cross-attention注入Stable Diffusion的每一层;
  • 同时我们将细节特征和UNet decoder的特征进行concat融合。
  • 在训练过程中,我们将UNet Encoder的参数固定,对Decoder参数进行微调。
    在这里插入图片描述

(四)视频、图像动态采样

为了学习“同一个目标在不同场景的外观变化”,收集了大量图像视频数据进行联合训练

  • 对于视频数据,使用分割以及跟踪标注构造样本对;
  • 对于静态图像,对图像进行扩充构造样本对。
    在这里插入图片描述

该方式构造的数据面临一个问题:视频样本有很高的多样性,但是画质模糊;图像样本画质清晰,但是不能很好的建模目标的姿态、动作变化。由此我们提出动态采样的方法:

    1. 去噪训练的初始阶段更多的采样视频样本,由此学习更大幅度的外观变化;
    1. 去噪的后期更多的采样静态图像,以学习更好的细节重建能力。

参考:
任意门:零样本物体级图像定制化
再也不怕合照缺人,Anydoor为图片编辑开了一道「任意门」
【AIGC实践篇4】:来自阿里的AnyDoor模型开源,图像工业应用侧的大利好,任意物体放入任意场景。

文章来源:https://blog.csdn.net/weixin_47748259/article/details/135566166
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。