大家好,最近有个开源项目比较有意思,解决了图像中不支持带有中文的问题。
https://github.com/tyxsspa/AnyText。
数据集局限
Stable Diffusion的训练数据集以英文数据为主,没有大量包含其他语言文本的图像数据。这导致模型对非英文语言的理解和生成能力比较弱。
DALL·E 3 也是类似情况,带有英文情况可以,带有其它语言效果不理想。
多语言处理能力有限
Stable Diffusion的底层语言模型是英文预训练的,没有经过中文细化。它对中文词汇、语法、语义的理解和生成能力有限。
文本渲染能力有限
将文本渲染成逼真图像方面存在局限性,较难生成自然、连贯的中文文本。
阿里巴巴推出开源项目,指定位置精准地向图中加入文字。
项目支持中英日韩四种语言,如图。
官网提供两个环境。
https://huggingface.co/spaces/modelscope/AnyText
https://modelscope.cn/studios/damo/studio_anytext/summary
AnyText的架构,一个基于扩散方法设计的文本生成和编辑系统。
辅助潜在模块:
文本嵌入模块:
为了训练这个模型,使用了特定的损失函数:
这个系统允许准确地生成文本,与图像内容的上下文和视觉效果协调一致。
现在不支持stable diffusion webui 插件,使用只能在官方Demo或者写代码执行。
欢迎交流分享这方面问题,我也深入再尝试下。
朋友们帮忙点赞关注收藏!