参考:
https://blog.csdn.net/m0_54105644/article/details/134290762
Diffusers是用于生成图像,音频甚至分子3D结构的最先进的扩散模型的首选库。无论是寻找简单的推理解决方案还是训练自己的扩散模型,Diffusers都是一个支持两者的模块化工具箱。该library 的设计侧重于性能,简单的简单性和对抽象的可定制性。
Diffusers提供了三个核心组件:
1、Pipelines: 高层类,以一种用户友好的方式,基于流行的扩散模型快速生成样本
2、Models:训练新扩散模型的流行架构,如UNet
3、Schedulers:推理场景下基于噪声采样生成图像或训练场景下基于噪声生成带噪图像的各种技术
其中常用的:
prompt: 正面提示词
height、width:生成图像的高和宽
num_inference_steps: 采样步数
guidance_scale: 文字相关度,这个值越高,生成的图像就跟文本内容越贴近(但不是越大越好,越大生成出来的质量很差)
negative_prompt: 负面提示词
num_images_per_prompt: 每次出图的数量
generator: 生成器相关属性(可以设置出图的种子之类的)
Args:
prompt</