其中用到了unet和clip
clip是文本转embinding,
clip需要token,token到类别的概念,达不到细分类别的程度,
比如可以到车标,但是具体车型的车标,可能区分不了。
深入浅出完整解析Stable Diffusion(SD)核心基础知识 - 知乎