【无标题】

发布时间:2023年12月18日

常见的图像内容编辑介绍

  • InpaintAnything [58] 涉及 SAM [27] 和 StabbleDiffusion
    [42],用文本描述的目标替换源图像中的任何对象。
  • Paint-by-Example [56]使用CLIP
    [40]图像编码器将目标图像转换为用于指导的嵌入,从而在场景图像上绘制语义一致性对象。对训练样本涵盖的类别表现效果很好,但与未出现类别表现不行。
  • ObjectStitch[48] 提出了与 [56] 类似的解决方案,它训练内容适配器将 CLIP
    图像编码器的输出与文本编码器对齐,以指导扩散进度。

不足:这些方法只能提供粗略的指导,并且往往无法为未经训练的新概念合成ID 一致的结果。

  • BLIP-Diffusion [29] 利用 BLIP-2 [30]
    来对齐图像和文本,从而支持使用零样本主题驱动生成。一些方法[10,23,46]探索了无微调主题驱动生成的大规模上游训练。
  • Fastcomposer [52] 将图像表示与某些文本嵌入绑定起来以进行多人生成。
    经典的图像合成流程是剪切前景对象并将其粘贴到给定的背景上。图像协调[7,15,19,49]可以进一步调整粘贴区域以获得更合理的光照和颜色
  • DCCF [55] 设计金字塔滤波器以更好地协调前景。
  • CDTNet [14] 利用双变压器。 HDNet [8]提出了一种分层的结构来考虑全局和局部一致性,并达到最先进的水平。
    不足:这些方法都只关注底层的变化,没有考虑到对前景对象的结构、视图和姿态的编辑,也没有考虑到阴影和反射的生成。

Anydoor进行图像编辑(效果不错)

Anydoor的流水线如图所示。 在给定目标对象、场景和位置的情况下,任意门生成具有高清晰度和多样性的对象-场景组合。
其核心思想是用与身份和细节相关的特征来表示对象,并将这些特征注入预先训练的扩散模型中,在给定的场景中重新组合这些特征。
为了学习外观变化,我们利用包括视频和图像在内的大规模数据进行训练。

文章来源:https://blog.csdn.net/aojue1109/article/details/135059289
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。