您現在的位置是:首頁 > 人文

AI 繪畫,從「弟弟」到「大神」只用 2 年,為什麼?

由 科技時事小陳 發表于 人文2022-10-02
簡介所以目前大家對 AI 繪畫的進展感到吃驚是完全正常的, 因為從去年到今年, AI 繪畫的技術確實出現了連續的突破性的進展, 從 CLIP 模型基於無需標註的海量網際網路圖片訓練大成, 到 CLIP 開源引發的 AI 繪畫模型嫁接熱潮, 然後

採油工作中如何保障自己的安全

編者按:

隨著 AI 技術的發展,它在不斷進化的過程中,也不斷「取代」了很多工作。

通常的觀點認為,AI 只能取代重複性勞動的工作,像是文學、繪畫這樣的藝術創作,AI 很難勝任。

但是,近兩年各種 AI 繪畫內容生成模型不斷出現,簡單收入幾個單詞,AI 就能生成可以「打敗 98% 人類畫家」的作品,且可以任意切換風格。

「機器作畫」已經有超過 50 年的歷史,為什麼在短短兩年,AI 的繪畫功力能夠取得如此進展,甚至「亂拳打死老師傅」?

Web3 天空之城公眾號主理人 Jamin 的文章,深入解讀了 AI 繪畫的發展歷史。

01

2022,進擊

的 AI 繪畫

今年以來, 輸入文字描述自動生成圖片的 AI 繪畫神器突然雨後春筍的冒了出來。

首先是 Disco Diffusion。

Disco Diffusion 是在今年 2 月初開始爆紅的一個 AI 影象生成程式,它可以根據描述場景的關鍵詞渲染出對應的影象:

AI 繪畫,從「弟弟」到「大神」只用 2 年,為什麼?

到了今年 4 月, 著名人工智慧團隊 OpenAI 也釋出了新模型 DALL·E 2 代,該名稱來源於著名畫家達利(Dalí)和機器人總動員(Wall-E),同樣支援從文字描述生成效果良好的影象。

AI 繪畫,從「弟弟」到「大神」只用 2 年,為什麼?

而很多讀者對 AI 繪畫開始產生特別的關注,或許是從以下這幅 AI 作品鬧出的新聞開始的:

AI 繪畫,從「弟弟」到「大神」只用 2 年,為什麼?

這是一幅使用 AI 繪畫服務 MidJourney 生成的數字油畫,生成它的使用者以這幅畫參加美國科羅拉多州博覽會的藝術比賽,奪得了第一名。這件事被曝光之後引發了網路上巨大的爭論至今。

目前 AI 繪畫的技術仍在不斷變化發展中,其迭代之快,完全可以用

日新月異

來形容。 即使把今年年初的 AI 繪畫和現在相比, 效果也有天壤之別。

在年初的時候, 用 Disco Diffusion 可以生成一些很有氛圍感的草圖, 但基本還無法生成人臉; 僅僅 2 個月後, DALL-E 2 已經可以生成準確的五官; 現在, 最強大的 Stable Diffusion 在畫作的精緻程度和作畫速度上更是有了一個量級的變化。

AI 繪畫這項技術並不是近年才有的, 但是今年以來, AI 產出作品的質量以肉眼可見的速度日益提升, 而效率也從年初的一個小時縮短到現在的十幾秒。

在這個變化後面, 究竟發生了什麼事情? 就讓我們先全面回顧一下 AI 繪畫的歷史, 再來理解一下, 這一年多來, AI 繪畫技術足以載入史冊的突破發展。

02

AI繪畫的歷史

AI 繪畫的出現時間可能比很多人想象的要早。

計算機是上世紀 60 年代出現的, 而就在 70 年代, 一位藝術家,哈羅德·科恩 Harold Cohen(畫家,加利福尼亞大學聖地亞哥分校的教授) 就開始打造電腦程式

AARON

進行繪畫創作。 只是和當下 AI 繪畫輸出數字作品有所不同, AARON 是真的去控制一個機械臂來作畫的。

Harold 對 AARON 的改進一直持續了幾十年, 直到他離世。在 80 年代的時候, ARRON

掌握

了三維物體的繪製; 90 年代時, AARON 能夠使用多種顏色進行繪畫, 據稱直到今天, ARRON 仍然在創作。

不過, AARON 的程式碼沒有開源, 所以其作畫的細節無從知曉, 但可以猜測, ARRON 只是以一種複雜的程式設計方式描述了作者 Harold 本人對繪畫的理解 —— 這也是為什麼 ARRON 經過幾十年的學習迭代,最後仍然只能產生色彩豔麗的抽象派風格畫作,這正是 Harold Cohen 本人的抽象色彩繪畫風格。Harold 用了幾十年時間, 把自己對藝術的理解和表現方式透過程式指導機械臂呈現在了畫布上。

AI 繪畫,從「弟弟」到「大神」只用 2 年,為什麼?

左:ARRON 和哈羅德·科恩 右: ARRON 在 1992 年的創作作品

儘管難說 AARON 如何智慧, 但作為第一個自動作畫且真的在畫布上作畫的程式, 給予它一個 AI 作畫鼻祖的稱號, 倒也符合其身份。

2006 年, 出現了一個類似 ARRON 的電腦繪畫產品 The Painting Fool。它可以觀察照片, 提取照片裡的塊顏色資訊, 使用現實中的繪畫材料如油漆, 粉彩或者和鉛筆等進行創作。

以上這兩個例子算是比較

古典

方式的電腦自動繪畫, 有點像一個學步的嬰兒, 有一點樣子, 但從智慧化的角度來看是相當初級的。

而現在,

我們所說的「AI繪畫」概念, 更多指的是基於深度學習模型來進行自動作圖的計算機程式。這個繪畫方式的發展其實是比較晚的。

2012 年 Google 兩位大名鼎鼎的 AI 大神, 吳恩達和 Jeff Dean 進行了一場空前的試驗, 聯手使用 1。6 萬個 CPU 訓練了一個當時世界上最大的深度學習網路, 用來指導計算機畫出貓臉圖片。 當時他們使用了來自 youtube 的 1000 萬個貓臉圖片, 1。6 萬個 CPU 整整訓練了 3 天, 最終得到的模型, 令人振奮的可以生成一個非常模糊的貓臉。

AI 繪畫,從「弟弟」到「大神」只用 2 年,為什麼?

在今天看起來, 這個模型的訓練效率和輸出結果都不值一提。但對於當時的 AI 研究領域,

這是一次具有突破意義的嘗試, 正式開啟了深度學習模型支援的 AI 繪畫這個「全新」研究方向。

在這裡我們稍微講一點技術細節: 基於深度學習模型的 AI 繪畫究竟有多麻煩呢, 為什麼 2012 年已經很現代水平的大規模計算機叢集耗時多天的訓練只能得出一點可憐的結果?

讀者們或許有個基本概念, 深度學習模型的訓練簡單說來就是利用外部大量標註好的訓練資料輸入, 根據輸入和所對應的預期輸出, 反覆調整模型內部引數加以匹配的過程。

那麼讓 AI 學會繪畫的過程, 就是構建已有畫作的訓練資料, 輸入 AI 模型進行引數迭代調整的過程。

一幅畫帶有多少資訊呢? 首先就是長 x 寬個 RGB 畫素點。

讓計算機學繪畫, 最簡單的出發點,是得到一個輸出有規律畫素組合的AI模型。

但 RGB 畫素組合一起的並非都是畫作, 也可能只是噪點。 一副紋理豐富, 筆觸自然的畫作有很多筆畫完成, 涉及繪畫中每一筆的位置, 形狀, 顏色等多個方面的引數, 這裡涉及到的引數組合是非常龐大的。 而深度模型訓練的計算複雜度隨著引數輸入組合的增長而急劇增長。。。 大家可以理解這個事情為啥不簡單了。

在吳恩達和 Jeff Dean 開創性的貓臉生成模型之後, AI 科學家們開始前赴後繼投入到這個新的挑戰性領域裡。在 2014 年, AI 學術界提出了一個非常重要的深度學習模型, 這就是大名鼎鼎的對抗生成網路 GAN (Generative Adverserial Network, GAN)。

正如同其名字

對抗生成

, 這個深度學習模型的核心理念是讓兩個內部程式

生成器 (generator)

判別器 (discriminator)

互相 PK 平衡之後得到結果。

GAN 模型一問世就風靡 AI 學術界, 在多個領域得到了廣泛的應用。 它也隨即成為了很多 AI 繪畫模型的基礎框架, 其中生成器用來生成圖片, 而判別器用來判斷圖片質量。GAN 的出現大大推動了 AI 繪畫的發展。

但是, 用基礎的 GAN 模型進行 AI 繪畫也有比較明顯的缺陷, 一方面是對輸出結果的控制力很弱, 容易產生隨機影象, 而 AI 藝術家的輸出應該是穩定的。 另外一個問題是生成影象的解析度比較低。

解析度的問題還好說, GAN 在

創作

這個點上還存在一個死結, 這個結恰恰是其自身的核心特點:

根據 GAN 基本架構,判別器要判斷產生的影象是否和已經提供給判別器的其他影象是同一個類別的, 這就決定了在最好的情況下, 輸出的影象也就是對現有作品的模仿, 而不是創新。

在對抗生成網路 GAN 之外, 研究人員也開始利用其他種類的深度學習模型來嘗試教 AI 繪畫。

一個比較著名的例子是 2015 年 Google 釋出的一個影象工具深夢 (Deep Dream)。深夢釋出了一系列畫作, 一時吸引了很多眼球。谷歌甚至為這個深夢的作品策劃了一場畫展。

AI 繪畫,從「弟弟」到「大神」只用 2 年,為什麼?

但如果較真一下, 深夢與其說是 AI 繪畫, 更像是一個高階 AI 版濾鏡, 其濾鏡風格一看上面的作品便可明白。

和作品不尷不尬的 Deep Dream 相比, Google 更靠譜的是 2017 年成千張手繪簡筆畫圖片訓練的一個模型, AI 透過訓練能夠繪製一些簡筆畫。 (Google,《A Neural Representation of Sketch Drawings》)

這個模型之所以受到廣泛關注有一個原因, Google 把相關原始碼開源了, 因此第三方開發者可以基於該模型開發有趣的 AI 簡筆畫應用。一個線上應用叫做「Draw Together with a Neural Network」,隨意畫幾筆,AI 就可以自動幫你補充完整個圖形。

值得注意的是, 在 AI 繪畫模型的研究過程中, 各網際網路大廠成了主力, 除了上述 Google 所做的研究, 比較有名的是 2017 年 7 月, Facebook 聯合羅格斯大學和查爾斯頓學院藝術史系三方合作得到的新模型, 號稱創造性對抗網路 (CAN, Creative Adversarial Networks)

(Facebook,《CAN: Creative Adversarial Networks, Generating

Art

by Learning About Styles and Deviating from Style Norms》)

從下圖的作品集可以看出,這個創造性對抗網路 CAN 在嘗試輸出一些像是藝術家作品的圖畫,它們是獨一無二的,而不是現存藝術作品的仿品。

AI 繪畫,從「弟弟」到「大神」只用 2 年,為什麼?

CAN 模型生成作品裡所體現的創造性讓當時的開發研究人員都感到震驚, 因為這些作品看起來和藝術圈子流行的抽象畫非常類似。於是研究人員組織了一場圖靈測試,請觀眾們去猜這些作品是人類藝術家的作品,還是人工智慧的創作。

結果, 53% 的觀眾認為 CAN 模型的AI藝術作品出自人類之手, 這在歷史上類似的圖靈測試裡首次突破半數。

但 CAN 這個 AI 作畫, 僅限於一些抽象表達, 而且就藝術性評分而言, 還遠遠達不到人類大師的水平。

更不用說創作出一些寫實或者具象的繪畫作品了, 不存在的。

其實一直到 2021 年初, OpenAI 釋出了廣受關注的 DALL-E 系統, 其 AI 繪畫的水平也就一般, 下面是 DALL-E 畫一隻狐狸的結果, 勉強可以辨別。

AI 繪畫,從「弟弟」到「大神」只用 2 年,為什麼?

但值得注意的是,

到了 DALL-E 這裡, AI開始擁有了一個重要的能力, 那就是可以按照文字輸入提示來進行創作了!

接下來, 我們繼續去探求本文一開始提出的問題。不知各位讀者是否有同感, 自今年以來, AI 繪畫的水平突然大漲, 和之前的作品質量相比有本質的飛躍, 恍然有種一日不見如隔三秋的感覺。

究竟發生了什麼?

03

AI繪畫何以突飛猛進

在很多科幻電影或劇集裡, 往往會有這麼一幕, 主角和特別有科幻感的電腦 AI 說了一句話, 然後 AI 生成了一個 3D 影像, 用 VR/AR/全息投影的方式呈現在主角面前。

拋開那些酷炫的視覺效果包裝, 這裡的核心能力是, 人類用語言輸入, 然後電腦 AI 理解人類的表達, 生成一個符合要求的圖形影象, 展示給人類。

仔細一想, 這個能力最基礎的形式, 就是一個 AI 繪畫的概念嘛。(當然, 從平面繪畫到 3D 生成還稍有一點距離, 但相比於 AI 憑空創作一幅具象有意義的繪畫作品的難度, 從 2D 圖自動生成對應的 3D 模型就不是一個量級上的問題)

所以, 無論是用說話控制, 還是更玄乎的腦電波控制, 科幻影視中的酷炫場景實際上描述了一種 AI 能力 , 那就是把

語言描述

透過 AI 理解自動變為了影象。目前語音自動識別文字的技術已經成熟至極, 所以這本質上就是一個從文字到影象的 AI 繪畫過程。

僅靠文字描述, 沒有任何參考圖片, AI 就能理解並自動把對應內容給畫出來了, 而且畫得越來越好! 這在昨天還感覺有點遠的事情, 現在已真真切切出現在所有人的面前。

這一切到底怎麼發生的呢?

首先要提到一個新模型的誕生。還是前面提到的 OpenAI 團隊, 在 2021 年 1 月開源了新的深度學習模型 CLIP(Contrastive Language-Image Pre-Training)。一個當今最先進的影象分類人工智慧。

CLIP 訓練 AI 同時做了兩個事情, 一個是自然語言理解, 一個是計算機視覺分析。它被設計成一個有特定用途的能力強大的工具, 那就是做通用的影象分類, CLIP 可以決定影象和文字提示的對應程度, 比如把貓的影象和

這個詞完全匹配起來。

CLIP 模型的訓練過程, 簡單的說, 就是使用已經標註好的

文字-影象

訓練資料, 一方面對文字進行模型訓練, 一方面對影象進行另一個模型的訓練, 不斷調整兩個模型內部引數, 使得模型分別輸出的文字特徵值和影象特徵值能讓對應的

文字-影象

經過簡單驗證確認匹配。

關鍵的地方來了, 其實呢, 之前也有人嘗試過訓練

文字-影象

匹配的模型, 但 CLIP 最大的不同是,

它搜刮了 40 億個「文字-影象」訓練資料! 透過這天量的資料, 再砸入讓人咂舌的昂貴訓練時間, CLIP 模型終於修成正果。

聰明的讀者會問, 這麼多的

文字-影象

標記是誰做的呢? 40 億張啊, 如果都需要人工來標記影象相關文字, 那時間成本和人力成本都是天價。而這正是 CLIP 最聰明的地方, 它用的是廣泛散佈在網際網路上的圖片。

網際網路上的圖片一般都帶有各種文字描述, 比如標題, 註釋, 甚至使用者打的標籤, 等等, 這就天然的成為了可用的訓練樣本。用這個特別機靈的方式, CLIP 的訓練過程完全避免了最昂貴費時的人工標註, 或者說, 全世界的網際網路使用者已經提前做了標註工作了。

CLIP 功能強大, 但無論如何, 它第一眼看上去, 和藝術創作似乎沒啥關係。

但就在 CLIP 開源釋出幾天後, 一些機器學習工程師玩家就意識到, 這個模型可以用來做更多的事情。比如 Ryan Murdock, 想出瞭如何把其他 AI 連線到 CLIP 上, 來打造一個 AI 影象生成器。Ryan Murdock 在接受採訪時說:「在我把玩它幾天後,我意識到我可以生成影象。」

最終他選擇了 BigGAN, 一個 GAN 模型的變種, 並將程式碼釋出為 Colab 筆記 The Big Sleep。

( 注: Colab Notebook 是 Google 提供的非常方便的 Python Notebook 互動式程式設計筆記本線上服務, 背後是 Google 雲計算的支援。略懂技術的使用者可以在一個類似筆記本的 Web 介面上編輯執行 Python 指令碼並得到輸出。重要的是, 這個程式設計筆記是可以分享的 )

Big Sleep 創作的圖畫其實略詭異和抽象, 但這是一個很好的開始。

AI 繪畫,從「弟弟」到「大神」只用 2 年,為什麼?

隨後, 西班牙玩家 @RiversHaveWings 在此基礎上釋出了 CLIP+VQGAN 的版本和教程, 這個版本透過 Twitter 被廣為轉發傳播, 引起了 AI 研究界和愛好者們的高度關注。而這個 ID 背後, 正是現在所被熟知的計算機資料科學家 Katherine Crowson。

在之前,類似 VQ-GAN 這樣的生成工具在對大量影象進行訓練後,可以合成類似的新影象,然而,如讀者還有印象, 前面說過, GANs 型別的模型本身並不能透過文字提示生成新影象, 也不擅長創作出全新的影象內容。

而把 CLIP 嫁接到 GAN 上去生成影象, 這其中的思路倒也簡單明瞭:

既然利用 CLIP 可以計算出任意一串文字和哪些影象特徵值相匹配, 那隻要把這個匹配驗證過程連結到負責生成影象的 AI 模型 (比如這裡是 VQ-GAN), , 負責生成影象的模型反過來推導一個產生合適影象特徵值, 能透過匹配驗證的影象, 不就得到一幅符合文字描述的作品了嗎?

有人認為 CLIP+VQGAN 是自 2015 年 Deep Dream 以來人工智慧藝術領域最大的創新。而美妙的是, CLIP+VQGAN 對任何想使用它們的人來說都是現成的。

按照 Katherine Crowson 的線上教程和 Colab Notebook, 一個略懂技術的使用者可以在幾分鐘內執行該系統。

有意思的是, 上一章也提到, 在同一個時間 (2021 年初), 開源釋出 CLIP 的 OpenAI 團隊也釋出了自己的影象生成引擎 DALL-E。DALL-E 內部也正是用了 CLIP, 但 DALL-E 並不開源!

所以論社群影響力和貢獻, DALL-E 完全不能和 CLIP+VQGAN 的開源實現釋出相比, 當然, 開源 CLIP 已經是 OpenAI 對社群做出的巨大貢獻了。

說到開源貢獻, 這裡還不得不提到 LAION。

LAION 是一個跨全球的非營利機器學習研究機構,今年 3 月開放了當前最大規模的開源跨模態資料庫 LAION-5B,包含接近 60 億 (5。85 Billion) 個圖片-文字對, 可以被用來訓練所有從文字到影象的的生成模型,也可以用於訓練 CLIP 這種用於給文字和影象的匹配程度打分的模型,而這兩者都是現在 AI 影象生成模型的核心。

除了提供以上的海量訓練素材庫,LAION 還訓練 AI 根據藝術感和視覺美感,給 LAION-5B 裡圖片打分, 並把得高分的圖片歸進了一個叫 LAION-Aesthetics 的子集。

事實上,

最新的AI繪畫模型包括隨後提到的 AI 繪畫模型王者 Stable Diffusion 都是利用 LAION-Aesthetics 這個高質量資料集訓練出來的。

CLIP+VQGAN 引領了全新一代 AI 影象生成技術的風潮,現在所有的開源 TTI(Text to Image, 文字文字生成影象) 模型的簡介裡都會對 Katherine Crowson 致謝,她是當之無愧的全新一代 AI 繪畫模型的奠基者。

技術玩家們圍繞著 CLIP+VQGAN 開始形成社群,程式碼不斷有人做最佳化改進,還有 Twitter 賬號專門收集和釋出 AI 畫作。而最早的踐行者 Ryan Murdoch 還因此被招募進了 Adobe 擔任機器學習演算法工程師。

不過這一波 AI 作畫浪潮的玩家主要還是 AI 技術愛好者。

儘管和本地部署 AI 開發環境相比, 在 Golab Notebooks 上跑 CLIP+VQGAN 的門檻相對而言已經比較低, 但畢竟在 Colab 申請 GPU 執行程式碼並呼叫 AI 輸出圖片,時不時還要處理一下程式碼報錯,這不是大眾化人群特別是沒有技術背景的藝術創作者們可以做的。而這也正是現在 MidJourney 這類零門檻的傻瓜式 AI 付費創作服務大放光彩的原因。

但激動人心的進展到這裡還遠沒結束。細心的讀者注意到, CLIP+VQGAN 這個強力組合是去年初發布並在小圈子傳播的, 但 AI 繪畫的大眾化關注, 如開篇所說, 則是在今年初開始, 由 Disco Diffusion 這個線上服務所引爆。這裡還隔著大半年的時間。是什麼耽擱了呢?

一個原因是 CLIP+VQGAN 模型所用到的影象生成部分, 即 GAN 類模型的生成結果始終不盡如人意。

AI 人員注意到了另外一種影象生成方式。

如果複習一下 GAN 模型的工作原理, 其影象輸出是內部生成器和判斷器的 PK 妥協結果。

但還有另外一種思路, 那就是 Diffusion 模型 (擴散化模型)。

Diffusion 這個詞也很高大上, 但基本原理說出來大家都能理解, 其實就是「去噪點」。

對, 就是我們熟悉的手機拍照 (特別是夜景拍照) 的自動降噪功能。如果把這個去噪點的計算過程反覆進行, 在極端的情況下, 是不是可能把一個完全是噪聲的圖片還原為一個清晰的圖片呢?

AI 繪畫,從「弟弟」到「大神」只用 2 年,為什麼?

靠人當然不行, 簡單的去噪程式也不可能, 但是基於 AI 能力去一邊

一邊去噪, 倒是可行的。

這就是 Diffusion 擴散化模型的基本思路。

Diffusion 擴散化模型目前在計算機視覺領域的影響力越來越大,它能夠高效合成視覺資料,圖片生成完全擊敗了 GAN 模型, 而在其他領域如影片生成和音訊合成也展現出了不俗的潛力。

今年初被大眾首先熟知的 AI 繪畫產品 Disco Diffusion, 正是第一個基於 CLIP + Diffusion 模型的實用化 AI 繪畫產品。

但 Disco Diffusion 的缺點還是有些明顯, 如身為專業藝術家的 Stijn Windig 反覆嘗試了 Disco Diffusion,認為 Disco Diffusion 並沒有取代人工創作的能力,核心原因有 2 點:

Disco Diffusion 無法刻畫具體細節,渲染出的影象第一眼很驚豔,但仔細觀察就會發現大部分都是模糊的概括,達不到商業細節水準。

Disco Diffusion 的初步渲染時間是以小時計算的, 而要在渲染影象的基礎上刻畫細節,則相當於要把整個圖重新畫一遍,這樣一個流程下來花耗費的時間精力,比直接手繪還要多。

不過 Stijn Windig 還是對 AI 繪畫的發展持樂觀態度,他覺得儘管直接利用 Disco Diffusion 進行商業化創作還不可行,但作為一種靈感參考還是非常好的:

……我發現它更適合作為一個創意生成器使用。給一個文字提示,它返回一些圖片能激發我的想象力,並可以作為草圖用來在上面繪畫。

其實從技術上來說, Stijn 提出的兩大痛點, 1) AI 繪畫細節還不夠深入, 2) 渲染時間過長, 實際上都是因為 Diffusion 擴散模型的一個內在缺點, 這就是反向去噪生成圖片的迭代過程很慢, 模型在畫素空間中進行計算,這會導致對計算時間和記憶體資源的巨大需求, 在生成高解析度影象時變得異常昂貴。

(畫素空間, 有點專業化的說法, 實際上就是說模型直接在原始畫素資訊層面上做計算)

因此對於大眾應用級的平臺產品, 這個模型無法在使用者可以接受的生成時間裡去計算挖掘更多的影象細節, 即便那種草稿級別的作圖, 也需要耗費 Disco Diffusion 以小時計算的時間。

但無論如何, Disco Diffusion 給出的繪畫質量, 相對於之前的所有 AI 繪畫模型, 都是碾壓式的超越, 而且已經是大部分普通人無法企及的作畫水平了, Stijn 的挑刺只是站在人類專業創作的高點提出的要求。

但是, Stijn 同學沒想到, 他所指出的 AI 繪畫兩大痛點, 還沒過幾個月, 就被 AI 研究人員近乎完美的解決了!

於是,當今世界最強大的 AI 繪畫模型 Stable Diffusion 終於閃亮登場!

Stable Diffusion 今年 7 月開始測試, 它非常好的解決了上述痛點。

實際上 Stable Diffusion 和之前的 Diffusion 擴散化模型相比, 重點是做了一件事,

那就是把模型的計算空間, 從畫素空間經過數學變換, 在儘可能保留細節資訊的情況下降維到一個稱之為潛空間 (Latent Space) 的低維空間裡, 然後再進行繁重的模型訓練和影象生成計算。

這個

簡單

的思路轉化, 帶來了多大的影響呢?

基於潛空間的 Diffusion 模型與畫素空間 Diffusion 模型相比, 大大降低了記憶體和計算要求。比如 Stable Diffusion 所使用的潛空間編碼縮減因子為 8, 說人話就是影象長和寬都縮減 8 倍, 一個 512x512 的影象在潛空間中直接變為 64x64, 節省了 8x8=64 倍的記憶體!

這就是 Stable Diffusion 之所以又快又好的原因, 它能快速 (以秒計算) 生成一張飽含細節的 512x512 影象, 只需要一張消費級的 8GB 2060 顯示卡即可!

讀者可以簡單算一下, 如沒有這個空間壓縮轉換, 要實現 Stable Diffusion 這樣的秒級影象生成體驗, 則需要一張 8Gx64=512G 視訊記憶體的超級顯示卡。按照顯示卡硬體的發展規律來看, 消費級顯示卡達到這個視訊記憶體恐怕是 8-10 年後的事情。

而 AI 研究人員一個演算法上的重要迭代, 把 10 年後我們才可能享受到的 AI 作畫成果直接帶到了當下所有普通使用者的電腦前!

所以目前大家對 AI 繪畫的進展感到吃驚是完全正常的, 因為從去年到今年, AI 繪畫的技術確實出現了連續的突破性的進展, 從 CLIP 模型基於無需標註的海量網際網路圖片訓練大成, 到 CLIP 開源引發的 AI 繪畫模型嫁接熱潮, 然後找到了 Diffusion 擴散化模型作為更好的影象生成模組, 最後使用潛空間降維的改進方法解決了 Diffusion 模型時間和記憶體資源消耗巨大的問題。。。 這一切的一切, 讓人目不暇接, 可以說 AI 繪畫在這一年間, 變化是以天計算的!

而在這個過程中, 最幸福的莫過於所有 AI 技術愛好者和藝術創作者們。大家親眼目睹著停滯了多年的 AI 繪畫水平以火箭般的速度衝到了頂峰。毫無疑問, 這是 AI 發展歷史上的一個高光時刻。

而對所有普通使用者來說, 最開心的, 當然是享受到了利用 Stable Diffusion 或者 MidJourney 這樣的當今頂級作畫 AI 去生成專業級別畫作的巨大樂趣。

有趣的是, Stable Diffusion 的誕生還和前面提到的兩位先驅 Katherine Crowson 和 Ryan Murdoch 有關。他們成為了一個去中心化組織的 AI 開源研發團隊 EleutherAI 的核心成員。雖然自稱草根團隊, 但 EleutherAI 在超大規模預言模型和 AI 影象生成領域目前都已經是開源團隊的佼佼者。

正是 EleutherAI 作為技術核心團隊支援了 Stability。AI 這一家創始於英國倫敦的 AI 方案提供商。這些有理想的人們聚在一起, 基於以上這些最新的 AI 繪畫技術突破, 推出了當今最強大的 AI 繪畫模型 Stable Diffusion。重要的是, Stable Diffusion 按照承諾, 已經在 8 月完全開源! 這個重要的開源讓全世界的 AI 學者和 AI 技術愛好者感動得痛哭流涕。Stable Diffusion 一經開源, 就始終霸佔著 GitHub 熱榜第一。

Stability。AI 徹底履行了它官網首頁的 Slogan

「AI by the people, for the people」

, 必須給予一個大大的贊。

下圖是作者線上執行的 Stable Diffusion, 感謝開源! 話說這個 AI 生成的自帶光環的日漫小哥是相當的帥氣:)

AI 繪畫,從「弟弟」到「大神」只用 2 年,為什麼?

04

頂級AI繪畫模型

的 PK:

Stable Diffusion

V.S. MidJourney

作者在之前文章裡已經介紹了 MidJourney 這個線上 AI 作畫神器, 它最大的優點就是零門檻的互動和非常好的輸出結果。創作者無需任何技術背景就能利用基於 Discord 的 MidJourney bot 進行對話式繪畫創作 (恩, 當然, 全英文)

從輸出風格上看, MidJourney 非常明顯針對人像做了一些最佳化, 用多了後, MidJourney 的風格傾向也比較明顯 (作者在 MidJourney 上花了數百刀的計算資源嘗試了各種主題創作後的第一手感受) , 說得好聽是比較細膩討巧, 或者說, 比較油膩一點點。

而 Stable Diffusion 的作品, 就明顯的更淡雅一些, 更藝術化一些。

以下是作者使用了同一種文字描述在這兩大平臺上創作的 AI 作品對比。讀者不妨直接感受一下。

(注: 以下生成畫作均有完全版權, 單獨轉載請註明來源)

Stable Diffusion(左) V。S。 MidJourney(右) :

AI 繪畫,從「弟弟」到「大神」只用 2 年,為什麼?

樹屋

AI 繪畫,從「弟弟」到「大神」只用 2 年,為什麼?

浪漫寫實主義美女油畫 (風格參考丹尼爾·戈爾哈茨, 美國畫家)

哪種風格更好? 其實蘿蔔青菜各有所愛。

因為做過針對性的最佳化, 如要出人像圖或者糖水風格美圖用 MidJourney 更方便。但比較了多張作品後, 作者認為 Stable Diffusion 還是明顯技高一籌, 無論從藝術表達上還是風格變化的多樣性上。

不過, MidJourney 這幾個月的迭代是有目共睹的快 (畢竟是付費服務, 很賺錢很有動力啊), 加上 Stable Diffusion 的完全開源, 預計相關技術優勢會很快被吸收進 MidJourney。而另一方面, Stable Diffusion 模型的訓練還在持續進行中, 我們可以非常期待, 未來版本的 Stable Diffusion 模型也將百尺竿頭更進一步。

對所有的創作者使用者而言, 這都是天大的好事。

05

AI繪畫的突破

對人類意味著什麼

2022 年的 AI 領域, 基於文字生成影象的 AI 繪畫模型是風頭無兩的主角。從 2 月份的 Disco Diffusion 開始, 4 月 DALL-E 2 和 MidJourney 邀請內測, 5 月和 6 月 Google 釋出兩大模型 Imagen 和 Parti (不開放內測只有論文, 感覺略水), 然後 7 月底, Stable Diffusion 橫空出世。。。

真的讓人眼花繚亂。也勿怪作者在上篇文章裡感慨, 怎麼稍不注意 AI 繪畫的水平就突飛猛進到如此地步, 事實上, 確實就是在這一年半載裡, AI 繪畫發生了革命性的, 甚至可以說歷史上會留名的突破性進展。

而接下去的時間裡, AI 繪畫, 或者更廣泛的, AI 生成內容領域 (影象, 聲音, 影片, 3D 內容等。。。) 還會發生什麼, 讓人充滿了遐想和期待。

但不用等待未來, 體驗了當下以 Stable Diffusion 為代表的最先進 AI 繪畫模型所能觸達的藝術高度, 我們已經基本可以確認,

想象力

創造力

這兩個曾經充滿著神秘主義的詞彙, 同時也是人類最後的驕傲, 其實也是可以被技術解構的。

對人類靈魂神聖至上說法的擁護者而言,

當今AI繪畫模型所展現的創造力, 是一種對信仰的無情打擊。所謂靈感, 創造力, 想象力, 這些充滿著神性的詞, 即將 (或者已經) 被超級算力+大資料+數學模型的強力組合無情打臉了。

事實上, 類似 Stable Diffusion 這種 AI 生成模型的一個核心思路, 或者說很多深度學習 AI 模型的核心思路, 就是

把人類創作的內容, 表示為某個高維或者低維數學空間裡的一個向量 (更簡單的理解, 一串數字)。

如果這個

內容->向量

的轉化設計足夠合理, 那麼人類所有的創作內容都可以表示為某個數學空間裡的部分向量而已。而存在於這個無限的數學空間裡的其他向量, 正是那些理論上人類可能創造, 但尚未被創造出來的內容。透過逆向的

向量->內容

的轉換, 這些還沒被創造的內容就被 AI 挖掘出來了。

這正是目前 MidJourney, Stable Diffusion 這些最新 AI 繪畫模型所做的事情。AI 可以說是在創作新的內容, 也可以說是新繪畫作品的搬運工。AI 產生的新繪畫作品在數學意義上一直客觀存在, 只是被 AI 透過很聰明的方式, 從數學空間裡還原出來, 而已。

文章本天成, 妙手偶得之

這句話放在這裡非常合適。這

, 是那個無限的數學空間; 而這

, 從人類, 換成了 AI——數學真是世界至高法則。

目前最新 AI 繪畫的

創造力

開始追趕甚至幾已比肩人類, 這或許進一步打擊了人類的尊嚴, 從圍棋阿法狗開始, 人類在

智慧

這個點的尊嚴領地已經越來越小, 而 AI 繪畫的突破性進展則進一步把人類

想像力

創造力

的尊嚴都打碎了 —— 或許還沒完全破碎, 但已經充滿裂痕搖搖欲墜。

作者一直對人類的科技發展保持某種中性看法: 儘管我們寄望於科技讓人類的生活變得更美好, 但事實上正如核彈的發明, 有些科學技術的出現是中性的, 也可能是致命的。完全取代人類的超級 AI 從實踐來看似乎是一件越來越可能的事情。人類需要思考的是, 在不太遠的將來, 我們在所有領域面對 AI 都落荒而逃的時候, 如何保持對世界的主導權。

有個朋友說的很對, 如果 AI 最終學會了寫程式碼 —— 似乎沒有什麼必然的壁壘在阻止這件事的發生 —— 那麼電影《終結者》的故事或許就要發生了。如果這樣太悲觀, 那麼人類至少要考慮, 如何與一個超越自己所有智慧和創造力的 AI 世界相處。

當然咯, 樂觀的角度而言, 未來的世界只會更美好: 人類透過 AR/VR 接入統一的或者個人的元宇宙, 人類主人只要動動嘴皮子, 無所不能的 AI 助理就能根據要求自動生成內容, 甚至直接生成可供人類體驗的故事/遊戲/虛擬生活。

這是一個更美好的盜夢空間, 還是一個更美好的駭客帝國?

無論如何, 今天我們見證的 AI 繪畫能力的突破和超越, 正是這條不歸路的第一步。

推薦文章