DALL-E 2: Hierarchical Text-Conditional Image Generation with CLIP Latents

发布时间:2023年12月25日

DALL-E 2

方法

在这里插入图片描述

  • 上图中,虚线的上半部分是CLIP的训练过程,虚线的下半部分描述的DALL-E 2的训练过程。
CLIP训练
  • 在训练时,将文本以及对应的图像分别输入到CLIP的文本编码器和图像编码器,然后得到输出的文本特征和图像特征,这两个特征就是一个正样本,该文本特征与其他图像生成的图像特征就是负样本,通过对比学习,训练文本编码器和图像编码器,将图像和文本合并为一个多模态的特征空间。CLIP模型训练结束,文本编码器和图像编码器就的参数就被冻结。在DALL-E 2的训练过程中,CLIP模型的参数处于冻结状态,不进行
文章来源:https://blog.csdn.net/u013308709/article/details/135168063
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。