多模态大模型

发布时间:2024年01月12日

一、图文匹配

二、Stable-Diffusion(稳定扩散)

图片生成器

Stable-Diffusion(稳定扩散)组成模块:

  1. CrossAttention模块:将文本的语义信息与图像的语义信息进行Attention机制,增强输入文本Prompt对生成图片的控制。
  2. SelfAttention模块:SelfAttention模块的整体结构与CrossAttention模块相同,这是输入全部都是图像信息,不再输入文本信息。
  3. BasicTransformer Block模块: 由LaverNorm+SelfAttention+CrossAttention+FeedForward组成是多重Attention机制的级联,并且也借鉴ResNet模型的“残差结构”。通过加深网络和多Attention机制,大幅增强模型的学习能力与图文的匹配能力。
文章来源:https://blog.csdn.net/weixin_64443786/article/details/135539251
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。