您很可能知道計算機可以描述圖片。
例如,一張狗和孩子玩耍的照片可以翻譯為“花園裡的狗和孩子”。 但是你知道相反的方法現在也是可行的嗎? 你輸入一些單詞,機器就會生成一張新圖片。
與搜索現有照片的谷歌搜索不同,這一切都是新鮮的。 近年來,OpenAI 一直是領先的組織之一,報告了驚人的成果。
他們在海量文本和圖片數據庫上訓練算法。 他們發表了一篇關於他們的 GLIDE 圖像模型的論文,該模型接受了數億張照片的訓練。 在照片寫實方面,它優於他們之前的“DALL-E”模型。
在這篇文章中,我們將介紹 OpenAI 的 GLIDE,它是旨在使用文本引導的擴散模型生成和更改逼真圖片的幾個引人入勝的舉措之一。 讓我們開始。
什麼是 打開人工智能滑翔?
雖然大多數圖像可以用文字描述,但從文本輸入創建圖像需要專業知識和大量時間。
允許 AI 代理根據自然語言提示生成逼真的圖片,不僅可以讓人們以前所未有的輕鬆方式創建豐富多樣的視覺材料,還可以更簡單地迭代細化和對創建的圖像進行細粒度控制。
GLIDE 可用於編輯現有照片,利用自然語言文字提示插入新物件、建立陰影和反射、執行 影像修復,等等。
它還可以將基本的線條圖轉換為逼真的照片,並且對於復雜情況具有出色的零樣本製造和修復能力。
最近的研究表明,基於可能性的擴散模型也可以產生高質量的合成圖片,特別是當與平衡多樣性和保真度的指導方法結合使用時。
OpenAI 發布了一個 引導擴散模型 XNUMX 月,它允許擴散模型以分類器的標籤為條件。 GLIDE 通過將引導擴散引入文本條件圖像創建問題來改進這一成功。
在使用文本編碼器以自然語言描述為條件訓練了一個 3.5 億參數的 GLIDE 擴散模型後,研究人員測試了兩種替代指導策略:CLIP 指導和無分類器指導。
CLIP 是一種可擴展的技術,用於學習文本和圖片的聯合表示,它根據圖像與標題的接近程度來提供分數。
該團隊在他們的擴散模型中使用了這種策略,將分類器替換為“引導”模型的 CLIP 模型。 同時,無分類器指導是一種指導擴散模型的策略,不涉及單獨分類器的訓練。
滑翔架構
GLIDE 架構由三個組件組成:經過訓練以生成 64 × 64 圖像的消融擴散模型 (ADM)、通過文本提示影響圖像生成的文本模型(轉換器)以及將我們的小型 64 × 64 圖像轉換為上採樣模型圖像更易於解釋的 256 x 256 像素。
前兩個組件共同控製圖片生成過程,使其適當地反映文本提示,而後一個組件用於使我們創建的圖像更易於理解。 GLIDE 項目的靈感來自於 2021年發布的報告 這表明 ADM 技術在圖片樣本質量方面優於目前流行的、最先進的生成模型。
對於 ADM,GLIDE 作者使用了與 Dhariwal 和 Nichol 相同的 ImageNet 64 x 64 模型,但使用 512 個通道而不是 64 個通道。因此,ImageNet 模型具有大約 2.3 億個參數。
與 Dhariwal 和 Nichol 不同,GLIDE 團隊希望對圖片生成過程有更大的直接控制,因此他們將視覺模型與啟用注意力的轉換器相結合。 GLIDE 通過處理文本輸入提示,讓您對圖片生成過程輸出進行一些控制。
這是通過在適當大的照片和標題數據集(類似於 DALL-E 項目中使用的數據集)上訓練轉換器模型來完成的。
文本最初被編碼為一系列 K 標記以對其進行調節。 之後,令牌被加載到轉換器模型中。 然後可以以兩種方式使用變壓器的輸出。 對於 ADM 模型,使用最終的令牌嵌入而不是類嵌入。
其次,令牌嵌入的最後一層——一系列特徵向量——被獨立投影到 ADM 模型中每個注意力層的維度,並連接到每個注意力上下文。
實際上,這使 ADM 模型能夠基於其對輸入單詞及其相關圖像的學習理解,以獨特且逼真的方式從相似文本標記的新組合中生成圖片。 這個文本編碼轉換器包含 1.2 億個參數,並使用了 24 個剩餘塊,寬度為 2048。
最後,上採樣器擴散模型包括大約 1.5 億個參數,與基本模型不同,與基本模型相比,它的文本編碼器更小,寬度為 1024 和 384 個基本通道。 顧名思義,該模型有助於升級樣本,以提高機器和人類的可解釋性。
擴散模型
GLIDE 使用自己的 ADM 版本(ADM-G 表示“引導”)生成圖像。 ADM-G 模型是對擴散 U-net 模型的修改。 擴散 U-net 模型與更常見的圖像合成技術(如 VAE、GAN 和轉換器)有很大不同。
他們構建了一個馬爾可夫擴散步驟鏈,逐漸將隨機噪聲注入數據中,然後學習逆向擴散過程,並僅從噪聲中重建所需的數據樣本。 它分兩個階段運行:正向擴散和反向擴散。
前向擴散方法,給定來自樣本真實分佈的數據點,在預設的一系列步驟中向樣本添加少量噪聲。 隨著步長的增加和接近無窮大,樣本失去了所有可識別的特徵,並且序列開始類似於各向同性的高斯曲線。
在反向擴散期間 階段,擴散模型 學習扭轉添加的噪聲對圖片的影響,並通過嘗試類似於原始輸入樣本分佈將生成的圖像引導回其原始形狀。
一個完整的模型可以通過真正的高斯噪聲輸入和提示來完成。 ADM-G 方法與前一種方法的不同之處在於模型(CLIP 或自定義轉換器)通過使用輸入的文本提示標記來影響反向擴散階段。
滑翔能力
1. 圖像的生成
GLIDE 最流行和最廣泛使用的用途可能是圖像合成。 儘管圖片是普通的,並且 GLIDE 難以處理動物/人類形式,但單張圖像製作的潛力幾乎是無窮無盡的。
它可以創建動物、名人、風景、建築物等的照片,並且可以以各種藝術風格以及照片般逼真的方式進行。 研究人員的作者斷言,GLIDE 能夠將各種文本輸入解釋和調整為視覺格式,如下面的示例所示。
2. 滑行修復
GLIDE 的自動照片修復可以說是最迷人的用途。 GLIDE 可以將現有圖片作為輸入,根據需要更改的位置的文本提示對其進行處理,然後輕鬆地對這些部分進行主動修改。
它必須與 SDEdit 等編輯模型結合使用,才能產生更好的結果。 將來,利用這些功能的應用程序可能對開發無代碼圖片更改方法至關重要。
結論
現在我們已經完成了這個過程,您應該掌握 GLIDE 工作原理的基本原理,以及它在圖片創建和圖像內修改方面的廣泛能力。
發表評論