AI绘图:2023年3月,一组中国小情侣的照片在网络上迅速走红。这组照片看起来普通,就像一对小情侣的合影,但实际上这两个人并不存在,完全是由AI绘制出来的,对于不常关注科技的普通人来说,这可能有些震惊。
提到这组图片的背后,是一家名为MidJourney的科技公司,他们在2023年3月推出了第五代AI绘图模型。更早之前,2022年9月,一位39岁的游戏设计师艾伦使用MidJourney完成的绘画作品“太空歌剧院”在美国科罗纳州博览会的艺术比赛中获得头奖,击败了众多人类艺术家的作品。这一事件在业界引起轰动,也引发了艺术家们的愤怒和对艺术未来的担忧。值得注意的是,MidJourney V5版本和OpenAI的GPT-4大模型几乎同时在2023年3月发布。同时,Adobe也在这个月推出了他们的图像AI工具Adobe Firefly。英伟达的CEO黄仁勋在3月的英伟达发布会上强调,“iPhone moment AI has started”。
在持续的新闻轰炸下,曾被质疑为泡沫的AI革命以百花齐放的方式强势回应了所有质疑。关于AI绘图模型,需要明确的一点是,它与生成语言的大模型(如GPT)完全不同。比起让AI学会听懂并说话,让AI理解并学会绘画实际上是更加困难的任务。毕竟,相比于人人都会说话并至少掌握一门语言,会画画的人要少得多。事实上,AI绘画长期以来一直是一个小众领域,因为其研究成本极高。在2012年,华裔人工智能科学家吴恩达和美国计算机科学家杰夫迪恩(均为Google的顶尖专家)进行了一项实验。他们利用深度自编码器这种深度神经网络技术,基于从平台收集的1000万张猫脸照片,在三天时间内生成了一张模糊的猫脸图片。尽管这只猫看起来像是刚从洗衣机里出来,但这个实验耗资100万美元,使用了1000台电脑和16000个CPU。这项实验显然成本高昂,对于资金不充裕的家庭来说,是不可承受的。
然而,这个看似没有市场机会的实验实际上成为了AI绘画技术的起点。到了2014年,加拿大蒙特利尔大学的AI科学家伊恩古德费洛提出了生成对抗网络(GAN)。基于这项技术,AI首次能够创作出令人惊艳的图片,并能够改变图片的风格。比如,网上那些根据你的照片预测你老了的样子,或者将照片变成漫画风格的应用,都是基于GAN技术。
GAN由两个深度神经网络模型组成:一个是生成器,负责不断作图并交付给判别器;另一个是判别器,它像一个挑剔的客户,不断要求修改。这个过程可能会持续上万次,直到生成器无法继续改进,判别器也满足于结果,最终输出一张最终的图片。
尽管GAN技术使AI能够创作出相当不错的图片,但它存在几个核心问题,阻碍了它成为AI图像创作革命的主角。首先,它的运行非常耗费资源,容易导致个人电脑运行缓慢或卡顿。其次,GAN无法理解画面的细节,也就无法做出局部修改。此外,生成的图片分辨率也并不高。例如,人们在短视频平台上尝试将自己的照片转换成动画风格时,可能一开始觉得新奇,但很快就会发现转换后的图像并不真实,也无法传达原照片的意境。
到了2015年,图像识别技术取得了重大进步,其中最具代表性的应用是人脸识别技术。这项技术因为能够应用于智能门禁、闸机等场景而在国内外广受欢迎。图像识别技术的成熟意味着我们能够从图像中提取出精确的信息,并将其转换为文字。当时,一些科学家开始思考是否可以将这种技术反向应用,即输入文字描述信息给图像识别模型,让AI生成图像。尽管这些最初的生成图像只有32×32像素,质量并不高,但这标志着AI图像生成技术的新起点。
到了2016年,一种新型的AI模型开始流行,这大大提升了AI绘图的质量,并最终使得AI绘图技术走出实验室,进入大众视野。这种模型被称为扩散模型(Diffusion Model),其灵感来源于非平衡热力学,是物理学和计算机科学的结合产物。扩散模型的工作原理类似于墨水滴入水中的扩散过程,其中墨水代表指令中的创意。尽管墨水在水中的扩散过程是随机的,但可以通过手指或笔尖来引导墨水在水中形成特定的图形。AI在这个过程中扮演了引导者的角色,确保墨水沿着预期的路径扩散,并在这个过程中根据对用户意图的理解和对绘画的知识,不断补充信息,最终形成一幅完整的画面。如果用户对生成的图像不满意,可以继续引导扩散过程,直到得到满意的结果。这种过程被网友们称为“咒语修炼”。由于扩散过程本身始终是随机的,AI绘图有时会带来意想不到的惊喜。随着扩散模型技术的发展,AI绘图领域的可能性不断扩大。
在2021年1月,OpenAI发布了一款名为“DALLE”的AI绘画产品,灵感来源于著名画家萨尔瓦多·达利和动画角色WALL-E。这个产品结合了GPT-3的能力,允许用户通过文字提示来生成图片。尽管生成的画面还不够完美,但AI绘图技术迎来了质的飞跃。同年10月底,一款名为“Disco Diffusion”的开源文本生成图像工具诞生,为AI绘图产品的多样化发展奠定了基础。到了2022年,事情发展进一步加速。4月,OpenAI发布了DALLE 2,展示了前所未有的理解和创造能力,产生了大量超现实主义的画作。7月,一家主张AI绘图不仅是现实世界的复刻,而是人类想象力延伸的公司宣布其AI绘图产品开始公测。这家公司名为MidJourney,由专注于激光雷达和火星任务的科学家大卫·霍尔茨创立,公司规模小但营收预计超过2亿美元。
2022年8月,位于伦敦的视觉艺术科技公司Stability AI发布并开源了“Stable Diffusion”,这是目前可用性最高的开源模型,可以免费使用并部署在个人电脑上。到了2023年,AI绘画彻底成为AI生成内容的重要领域。MidJourney在2022年底到2023年上半年间进行了四次重大更新。而在大家研究绘图技巧时,2023年9月,OpenAI在GPT-4的基础上推出了DALLE.3。这项技术在短短两年内取得了显著的进步。