【AI】深度学习与图像描述生成——看图说话（1）

发布时间：2024年01月25日

还记得我闲来无事，用大模型来“洗图”吗，就是想抄袭别人的图，但是又要装作原创的样子。因为洗稿大家都熟悉，洗图其实也是一样的。

【AIGC】今天想用AI“洗个图”，失败了，进来看我怎么做的-CSDN博客

【AIGC】接着昨天的AI“洗图”骚操作，继续调戏国产大模型_aigc 洗稿-CSDN博客?

通过提示词来生成图像，或者通过图像来生成描述，真是非常有意思的事情。

我觉得这都是作为一个游戏来开发了。

那么，图像描述到底是怎么生成的呢？

下面我们来一起学习。

大家一定觉得，图像来生成描述，并没有实际的意义，并不是。

图像数据是海量且非结构化的，快速的组织、存储和检索图像，是非常有意义和重要的课题，自然，图像生成描述，并且是图像自动生成描述，就是打开这扇门的钥匙了。有了文字描述，检索才能实现稳准狠。

语言和图像，是两个不同的模态。

模态：一方面，模态可以理解为数据的一种特定存在形式或表达方式。例如，在人工智能和机器学习领域，图像、文本、音频、视频等都可以被视为不同的模态。这些模态各自具有独特的特征表示方法，并且可以用于构建和理解多模态数据之间的关联和交互。另一方面，模态也可以被理解为系统的固有振动特性，这在动力学系统、机械结构等领域中尤为重要。每个模态具有特定的固有频率、阻尼比和模态振型，这些特性决定了系统在不同频率下的响应行为。

这对于人来说，是非常小儿科的事。还记得我们上小学一年级就要练习的考题，对了，就是“看图说话”。?

再复杂的图像，我们也能进行准确的理解和表达，甚至可以脑补很多缺失的画面，把作者的意思，充分的展示出来。比如我们喜欢看的连环画，父与子，文字很少，但是看图像，我们不但能知道一幅图的意思，还能连贯的看图，讲出（很多时候是我们自己的想象力在发挥）一个非常有趣的故事来。

但是这个，对于机器来说，从前那是不可想象的，很多人尝试都失败了。有了深度学习之后，方法论大爆发，算力大爆发，尽管现在AIGC大模型也说胡话，但是靠谱多了。

语言和图像，是2个模态，人来还能在这2个模态之间，自由的切换。我的洗图文章，大家看了可以知道，切换是多么的费事。对于机器来说，不要说脑补了，丢失大量的细节，都是司空见惯的事情。

为了更加接近人类的视觉智能，图像描述成为一个重要的突破口。

视觉智能：视觉智能是一种人工智能技术，旨在让计算机具备类似人类视觉的感知、识别、理解和处理视觉信息的能力。它结合了计算机视觉、机器学习和深度学习等技术，通过对图像和视频等视觉数据的分析，实现自动化检测、识别、分类等功能。视觉智能的关键技术包括图像分类、目标检测、图像分割、姿态估计等。这些技术可以应用于各种场景，如智能安防、自动驾驶、无人机、工业制造、医疗诊断等。

（未完待续）?

文章来源:https://blog.csdn.net/giszz/article/details/135833894
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！