🌠

当我们在用 AI 画图时,AI 到底在干什么?

Property

image

当我在 Midjourney 上输入这段内容后,AI 绘制了上面这张图。

Ultra realistic tree with green beech leaves, stunning forests in the background, sunrise light, art by Greg Rutkowski + Alphonse Mucha + Rien Portvliet, 8k --ar 16:9 --testp

这段话大概的意思是,希望有一些超现实的树木和光影,在树林中。以及按照三位喜欢的艺术家的作品混合下风格。

虽然成品很满意,但是这个过程中到底发生了什么?AI 究竟是如何知道这三个艺术家混合在一起的风格是什么样的呢?画的时候为何知道树林和光影是这个感觉?AI 能创造一种新的艺术么?

上述这些疑问,在捣鼓一番 DALL · E 2,Stable Diffusion 等新工具后,反而更加困惑了。因为目前 AI 创作内容(简称 AIGC)的应用如雨后春笋冒出来,而周边配套的服务也开始出现,如分享或交易提示词(就是上面那段文字),又或者反 AIGC 的服务等。

的确,如之前沉思录介绍过的层次步速原理,追求最上层的变化,而忽略了对基础结构的理解。所以接下来的一些时间,会试着分享与总结一些关于 AI 生成内容(主要会以图像为主)的相关文章及概念。

image

AI 内容生成虽然发展很快,但是其根本的部分并没有变化很多,所以最重要的是用自己的方式来理解背后的原理(但是并非是技术细节)

想起之前和 light 直播时,他有个观点对我启发挺大:

如果你觉得一个领域的发生的事情很重要,想理解的话,就不要去判断单个信息,而是去建立基本框架。从最基础的概念来理解。如果你不这么做,那就不要花心思关注单个信息了。

这篇文章来自于 Jon Stokes感谢黄东炜的推荐。本来打算直接翻译一版,但后来发给几个朋友提前看说内容不太好理解,所以根据自己的理解重新编排了内容,只保留 AI 生成图片部分。

AI 生成内容的基础分为:机器学习的基础,任务和模型,应用层三个部分。

  • 基础是最稳定的一层,所以这个领域的知识会比较长期有用。
  • 而应用程序则是变化最快的部分。这样当了解了底层,上面的东西很快就能理解。
image

本文值得关注的点有:

  1. 机器学习能做的三件事:生成、分类、转换
    1. 当你进行「AI 内容生成」时,您正在使用文本查询,来返回位于数据空间中某个点的图像。
    2. 当你进行「AI 图像分类」时,您正在使用图像查询,来返回潜在空间中输入图像附近的文本。
    3. 当您进行图像转换或文本摘要时,您正在潜在空间中搜索你用作输入的文件附近的文件。
  2. AI 并没有「生成」图片,而是在已有的数据集中「查找」你要的内容。换句话说,所有的答案早已存在,只不过在等待问题。所以生成提示语时最好的参考不是文学书的描述,而是如何用 Google 搜索的经验。

感兴趣的朋友,推荐阅读编译的内容: