图文详情

在上一期中，我们介绍了GAN模型，以及通过GAN模型可以产生逼真的图片。不过，GAN模型也存在很严重的问题。因为本身存在复杂的对抗行为，GAN很难训练，有的时候模型学习过程中会卡住或者崩溃，性能直接回复到原点。另外，GAN的通用性很低，如果想生成一类图片需要预先找到大量真实的同类图片作为训练数据，这也妨碍了GAN在不同的场景的大规模应用。

图片来源：pixabay

一、民用化、预训练的生成式模型

新的模型很大程度上解决了这一问题。2021年1月，美国研究机构OPEN AI 发布了DALL·E，OPEN AI 随后又在2022年4月公布了DALL·E 2。和GAN相比，DALL·E是预先训练好的大模型，也有理解人类语言的能力，所以只需要用户输入一段文字，就能直接生成对应的图片，不再需要每次都根据对应数据集重新训练。

因为不再需要训练模型的专业知识，直接输入文字就能生成效果惊人的图片，DALL·E 2在国外的社交网络上引起了巨大轰动。大家纷纷尝试用各种各样奇怪的文字输入模型，再把生成的图片公布出来，一度形成了网络迷因。

DALL·E 2不仅能准确地生成各种实体，比如动物、植物、建筑、人，还能按照要求改变绘画风格，从写实照片到数字艺术，从油画到简笔画，从梵高到安迪霍尔，从中国国画到日本浮世绘，从毛线织物到橡皮泥风格。只需要在输入文字中加入一两个描绘风格的词，DALL·E 2就能自动生成符合这种风格的图片。

更令人惊讶的是，DALL·E对语言的内涵经常有非常准确的理解，因此在面对一些完全虚构的场景时，也能生成带有复杂逻辑的惊人图片。例如：

二、DALL·E 2是如何被训练出来的呢？

首先，OPEN AI 获取了几亿张图片和对应的图片说明，并训练了一个名为CLIP的模型。

这个模型可以同时把文字和图片投射到一个复杂的高维空间里。如果图片和文字有对应关系，那么在空间中代表两者的点就会非常接近；反之则会有较大的距离。直观地说，这个模型可以捕捉到人类语言和图片中的语义，也可以根据给定的文字，找到符合文字语义的图片。

CLIP模型可以把语义相近的图片和文字匹配到高维空间里距离较近的点上

随后，生成的图片表示会经过一个叫GLIDE的扩散模型，增加和去除随机噪音。因为整个过程加入了随机因子，所以一句输入的文字可以生成多张不同的图片——每一张图片都符合文字的语义。

除了OpenAI，谷歌也随后推出了自己的模型Disco Diffusion。在技术原理上它和DALLE很类似，但允许艺术家在输入主题文字外，还能控制一些图片参数。

DALLE·2和Disco Diffusion谁更强？看起来他们各有千秋，暂时难分伯仲。而比较两者的作品更是成为国外科技圈和设计圈流行文化。总体来说，它们的风格区别还是很明显。DALLE生成的图片更有逻辑、更写实。照片风格的图片，也不太会因为失真让人反感。而另一方面Disco Diffusion的图片想象力更足，更有自己的风格，也更有“艺术感”。

虽然这些模型都很强大，但却不能理解中文，也难以生成有中国特色的图片，例如国画。因此，很多中国的机构也在训练有创作能力的模型。百度于2022年8月发布了文心一格，不仅可以接受中文输入，还能生成中国国画或带有古诗词意境的图片。

百度的文心一格生成的图片“江南水乡”

三、生成图片的不足之处

当然，在欣赏AI作品的同时，我们也不能忽略人工智能在作画时产生的问题。首先是作品质量问题。虽然人工智能作品充满了冲击力和视觉张力，但和几乎所有其他的深度学习模型一样，在理解知识、推理、逻辑方面做得都不够好。例如“画一张世界上最大的猫科动物的图片”，甚至是“一只狗坐在一只猫的左边”，都不会产生符合逻辑或常识的图片。在生成偏写实风格的人类图片的时候，有时候会因为微小的偏差产生恐怖谷效应，到了让人不适的程度。

另一个已经被广泛注意到的问题，是人工智能经常会生成奇形怪状的手。这种现象的原因很可能是手部是人类身体上形状最丰富的结构之一。人的一只手有超过20个关节（相较而言，脸上只有一个关节）。

而且在大部分用来训练的图片中，手部经常不是最核心的部位，所以角度不同、距离不同、手势不同、还会被阴影和其他物体遮挡。

图注：手部有丰富的姿势

甚至还有些更加奇特的“手”，它们的手的形状和手指数都不相同。这些图片都会被标注成“手”，让模型觉得它们的形状——以及它们形状的平均形态，可能都是合理的，也就因此产生了各种崎岖的手。

图注：甚至这些也可以被标注为“手”

除了质量问题外，人工智能生成的内容还有可能产生各种伦理问题。比如在语言模型上时常会出现的偏见和刻板印象，在图片生成中也有体现，例如生成“大公司CEO”大概率会出现一个白人成熟男性的形象。

更大的担忧在于技术能降低生成虚假内容的门槛。一个例子是一家公司的团队照片几乎都是通过人工智能技术生成的。如果仔细看的话，还是能发现一些线索。比如，第一排坐起第二个人只带了一个耳环，第二排左起第二个人的耳朵轮廓不太正常。

文章由科普中国-星空计划（创作培育）出品，转载请注明来源。

作者：管心宇科普作者

审核：于旸腾讯玄武实验室负责人

来源: 星空计划

内容资源由项目单位提供

刷屏的AI作画，背后的技术是什么？（下）

科普中国系列品牌网站

入驻科普号

合作机构