多模态大模型
发布时间:2024年01月12日
一、图文匹配

二、Stable-Diffusion(稳定扩散)

图片生成器


Stable-Diffusion(稳定扩散)组成模块:
- CrossAttention模块:将文本的语义信息与图像的语义信息进行Attention机制,增强输入文本Prompt对生成图片的控制。
- SelfAttention模块:SelfAttention模块的整体结构与CrossAttention模块相同,这是输入全部都是图像信息,不再输入文本信息。
- BasicTransformer Block模块: 由LaverNorm+SelfAttention+CrossAttention+FeedForward组成是多重Attention机制的级联,并且也借鉴ResNet模型的“残差结构”。通过加深网络和多Attention机制,大幅增强模型的学习能力与图文的匹配能力。
文章来源:https://blog.csdn.net/weixin_64443786/article/details/135539251
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权/违法违规/事实不符,请联系我的编程经验分享网邮箱:chenni525@qq.com进行投诉反馈,一经查实,立即删除!