2023年AI的飞速发展（下）

发布时间：2024年01月10日

AI绘图：2023年3月，一组中国小情侣的照片在网络上迅速走红。这组照片看起来普通，就像一对小情侣的合影，但实际上这两个人并不存在，完全是由AI绘制出来的，对于不常关注科技的普通人来说，这可能有些震惊。

提到这组图片的背后，是一家名为MidJourney的科技公司，他们在2023年3月推出了第五代AI绘图模型。更早之前，2022年9月，一位39岁的游戏设计师艾伦使用MidJourney完成的绘画作品“太空歌剧院”在美国科罗纳州博览会的艺术比赛中获得头奖，击败了众多人类艺术家的作品。这一事件在业界引起轰动，也引发了艺术家们的愤怒和对艺术未来的担忧。值得注意的是，MidJourney V5版本和OpenAI的GPT-4大模型几乎同时在2023年3月发布。同时，Adobe也在这个月推出了他们的图像AI工具Adobe Firefly。英伟达的CEO黄仁勋在3月的英伟达发布会上强调，“iPhone moment AI has started”。

在持续的新闻轰炸下，曾被质疑为泡沫的AI革命以百花齐放的方式强势回应了所有质疑。关于AI绘图模型，需要明确的一点是，它与生成语言的大模型（如GPT）完全不同。比起让AI学会听懂并说话，让AI理解并学会绘画实际上是更加困难的任务。毕竟，相比于人人都会说话并至少掌握一门语言，会画画的人要少得多。事实上，AI绘画长期以来一直是一个小众领域，因为其研究成本极高。在2012年，华裔人工智能科学家吴恩达和美国计算机科学家杰夫迪恩（均为Google的顶尖专家）进行了一项实验。他们利用深度自编码器这种深度神经网络技术，基于从平台收集的1000万张猫脸照片，在三天时间内生成了一张模糊的猫脸图片。尽管这只猫看起来像是刚从洗衣机里出来，但这个实验耗资100万美元，使用了1000台电脑和16000个CPU。这项实验显然成本高昂，对于资金不充裕的家庭来说，是不可承受的。

然而，这个看似没有市场机会的实验实际上成为了AI绘画技术的起点。到了2014年，加拿大蒙特利尔大学的AI科学家伊恩古德费洛提出了生成对抗网络（GAN）。基于这项技术，AI首次能够创作出令人惊艳的图片，并能够改变图片的风格。比如，网上那些根据你的照片预测你老了的样子，或者将照片变成漫画风格的应用，都是基于GAN技术。

GAN由两个深度神经网络模型组成：一个是生成器，负责不断作图并交付给判别器；另一个是判别器，它像一个挑剔的客户，不断要求修改。这个过程可能会持续上万次，直到生成器无法继续改进，判别器也满足于结果，最终输出一张最终的图片。

尽管GAN技术使AI能够创作出相当不错的图片，但它存在几个核心问题，阻碍了它成为AI图像创作革命的主角。首先，它的运行非常耗费资源，容易导致个人电脑运行缓慢或卡顿。其次，GAN无法理解画面的细节，也就无法做出局部修改。此外，生成的图片分辨率也并不高。例如，人们在短视频平台上尝试将自己的照片转换成动画风格时，可能一开始觉得新奇，但很快就会发现转换后的图像并不真实，也无法传达原照片的意境。

到了2015年，图像识别技术取得了重大进步，其中最具代表性的应用是人脸识别技术。这项技术因为能够应用于智能门禁、闸机等场景而在国内外广受欢迎。图像识别技术的成熟意味着我们能够从图像中提取出精确的信息，并将其转换为文字。当时，一些科学家开始思考是否可以将这种技术反向应用，即输入文字描述信息给图像识别模型，让AI生成图像。尽管这些最初的生成图像只有32×32像素，质量并不高，但这标志着AI图像生成技术的新起点。

到了2016年，一种新型的AI模型开始流行，这大大提升了AI绘图的质量，并最终使得AI绘图技术走出实验室，进入大众视野。这种模型被称为扩散模型（Diffusion Model），其灵感来源于非平衡热力学，是物理学和计算机科学的结合产物。扩散模型的工作原理类似于墨水滴入水中的扩散过程，其中墨水代表指令中的创意。尽管墨水在水中的扩散过程是随机的，但可以通过手指或笔尖来引导墨水在水中形成特定的图形。AI在这个过程中扮演了引导者的角色，确保墨水沿着预期的路径扩散，并在这个过程中根据对用户意图的理解和对绘画的知识，不断补充信息，最终形成一幅完整的画面。如果用户对生成的图像不满意，可以继续引导扩散过程，直到得到满意的结果。这种过程被网友们称为“咒语修炼”。由于扩散过程本身始终是随机的，AI绘图有时会带来意想不到的惊喜。随着扩散模型技术的发展，AI绘图领域的可能性不断扩大。

在2021年1月，OpenAI发布了一款名为“DALLE”的AI绘画产品，灵感来源于著名画家萨尔瓦多·达利和动画角色WALL-E。这个产品结合了GPT-3的能力，允许用户通过文字提示来生成图片。尽管生成的画面还不够完美，但AI绘图技术迎来了质的飞跃。同年10月底，一款名为“Disco Diffusion”的开源文本生成图像工具诞生，为AI绘图产品的多样化发展奠定了基础。到了2022年，事情发展进一步加速。4月，OpenAI发布了DALLE 2，展示了前所未有的理解和创造能力，产生了大量超现实主义的画作。7月，一家主张AI绘图不仅是现实世界的复刻，而是人类想象力延伸的公司宣布其AI绘图产品开始公测。这家公司名为MidJourney，由专注于激光雷达和火星任务的科学家大卫·霍尔茨创立，公司规模小但营收预计超过2亿美元。

2022年8月，位于伦敦的视觉艺术科技公司Stability AI发布并开源了“Stable Diffusion”，这是目前可用性最高的开源模型，可以免费使用并部署在个人电脑上。到了2023年，AI绘画彻底成为AI生成内容的重要领域。MidJourney在2022年底到2023年上半年间进行了四次重大更新。而在大家研究绘图技巧时，2023年9月，OpenAI在GPT-4的基础上推出了DALLE.3。这项技术在短短两年内取得了显著的进步。

文章来源:https://blog.csdn.net/neptune4751/article/details/135507004
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：chenni525@qq.com进行投诉反馈，一经查实，立即删除！