多模态大模型

发布时间：2024年01月12日

一、图文匹配

二、Stable-Diffusion(稳定扩散)

图片生成器

Stable-Diffusion(稳定扩散)组成模块:

CrossAttention模块:将文本的语义信息与图像的语义信息进行Attention机制，增强输入文本Prompt对生成图片的控制。
SelfAttention模块:SelfAttention模块的整体结构与CrossAttention模块相同，这是输入全部都是图像信息，不再输入文本信息。
BasicTransformer Block模块: 由LaverNorm+SelfAttention+CrossAttention+FeedForward组成是多重Attention机制的级联，并且也借鉴ResNet模型的“残差结构”。通过加深网络和多Attention机制，大幅增强模型的学习能力与图文的匹配能力。

文章来源:https://blog.csdn.net/weixin_64443786/article/details/135539251
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！