近年來,深度學習模型在理解人類語言方面變得更加有效。
想想像這樣的項目 GPT-3,現在可以創建整個文章和網站。 GitHub 最近推出了 GitHub 副駕駛,一種通過簡單描述您需要的代碼類型來提供完整代碼片段的服務。
OpenAI、Facebook 和 Google 的研究人員一直在研究如何使用深度學習來處理另一項任務:為圖像添加字幕。 使用包含數百萬條目的大型數據集,他們提出了一些 奇怪 結果.
最近,這些研究人員試圖執行相反的任務:根據標題創建圖像。 現在可以根據描述創建一個全新的圖像嗎?
本指南將探討兩種最先進的文本到圖像模型:OpenAI 的 DALL-E 2 和 Google 的 Imagen AI。 這些項目中的每一個都引入了可能改變我們所知道的社會的開創性方法。
但首先,讓我們了解文本到圖像生成的含義。
什麼是文本到圖像生成?
文本到圖像模型 允許計算機根據提示創建新的和獨特的圖像。 人們現在可以提供他們想要生成的圖像的文本描述,並且模型將嘗試創建與該描述盡可能匹配的視覺效果。
機器學習模型利用包含圖像-標題對的大型數據集來進一步提高性能。
大多數文本到圖像 模型使用轉換器語言模型 解釋提示。 這種類型的模型是 神經網絡 它試圖學習自然語言的上下文和語義。
接下來,生成模型,例如 擴散模型 生成對抗網絡用於圖像合成。
什麼是 DALLE 2?
達爾-E 2 是 OpenAI 於 2022 年 XNUMX 月發布的計算機模型。該模型在包含數百萬張標記圖片的數據庫上進行了訓練,以將單詞和短語與圖像相關聯。
用戶可以輸入一個簡單的短語,例如“a cat eating lasagna”,DALL-E 2 將生成對短語試圖描述的內容的自己的解釋。
除了從頭開始創建圖像,DALL-E 2 還可以編輯現有圖像。 在下面的示例中,DALL-E 能夠生成添加了沙發的房間的修改圖像。
DALL-E 2 只是 OpenAI 在過去幾年中發布的眾多類似項目之一。 當 OpenAI 的 GPT-3 似乎可以生成不同風格的文本時,它變得有新聞價值。
目前,DALL-E 2 仍處於 beta 測試階段。 有興趣的用戶可以註冊他們的 等候名單 並等待訪問。
它是如何工作的?
雖然 DALL-E 2 的結果令人印象深刻,但您可能想知道它是如何工作的。
DALL-E 2 是 OpenAI 的 GPT-3 項目的多模式實施示例。
首先,用戶的文本提示被放置到一個文本編碼器中,該編碼器將提示映射到一個表示空間。 DALL-E 2 使用另一種稱為 CLIP(對比語言-圖像預訓練)的 OpenAI 模型從自然語言中獲取語義信息。
接下來,一個模型被稱為 將文本編碼映射到圖像編碼。 這種圖像編碼應該捕獲在文本編碼步驟中找到的語義信息。
為了創建實際圖像,DALL-E 2 使用圖像解碼器使用語義信息和圖像編碼細節生成視覺效果。 OpenAI 使用了一個修改版本的 滑行 模型來執行圖像生成。 GLIDE 依賴於 擴散模型 創建圖像。
將 GLIDE 添加到 DALL-E 2 模型可以實現更逼真的輸出。 由於 GLIDE 模型是隨機或隨機確定的,因此 DALL-E 2 模型可以通過反復運行模型輕鬆創建變化。
限制
儘管 DALL-E 2 模型取得了令人印象深刻的結果,但它仍然面臨一些限制。
拼寫文本
嘗試讓 DALL-E 2 生成文本的提示顯示它難以拼寫單詞。 專家認為這可能是因為拼寫信息不是 訓練數據集.
組合推理
研究人員觀察到 DALL-E 2 在成分推理方面仍然存在一些困難。 簡而言之,該模型可以理解圖像的各個方面,但仍然難以弄清楚這些方面之間的關係。
例如,如果給出提示“red cube on top of a blue cube”,DALL-E 將準確生成一個藍色立方體和一個紅色立方體,但無法正確放置它們。 還觀察到該模型難以處理需要提取特定數量對象的提示。
數據集中的偏差
如果提示不包含其他細節,則觀察到 DALL-E 描繪了白人或西方人和環境。 由於數據集中存在大量以西方為中心的圖像,因此會出現這種代表性偏差。
該模型也被觀察到遵循性別刻板印象。 例如,輸入提示“空姐”大多會生成女性空姐的圖像。
什麼是 Google Imagen AI?
谷歌的 影像人工智能 是一個旨在從輸入文本創建逼真圖像的模型。 與 DALL-E 類似,該模型也使用 Transformer 語言模型來理解文本,並依靠使用擴散模型來創建高質量的圖像。
除了 Imagen,谷歌還發布了一個名為 DrawBench 的文本到圖像模型基準。 使用 DrawBench,他們能夠觀察到人類評分者更喜歡 Imagen 輸出而不是其他模型,包括 DALL-E 2。
它是如何工作的?
與 DALL-E 類似,Imagen 首先通過凍結文本編碼器將用戶提示轉換為文本嵌入。
Imagen 使用擴散模型,該模型學習如何將噪聲模式轉換為圖像。 這些圖像的初始輸出是低分辨率的,然後通過另一個稱為超分辨率擴散模型的模型來提高最終圖像的分辨率。 第一個擴散模型輸出一個 64×64 像素的圖像,然後被放大為一個高分辨率的 1024×1024 圖像。
根據 Imagen 團隊的研究,僅在文本數據上訓練的大型凍結語言模型仍然是用於文本到圖像生成的高效文本編碼器。
該研究還引入了動態閾值的概念。 此方法通過在生成圖像時增加引導權重,使圖像看起來更逼真。
DALLE 2 與 Imagen 的性能對比
谷歌基準測試的初步結果表明,人類受訪者更喜歡 Imagen 生成的圖像,而不是 DALL-E 2 和其他文本到圖像模型,如 Latent Diffusion 和 VQGAN+CLIP。
Imagen 團隊的輸出還表明,他們的模型在拼寫文本方面表現更好,這是 DALL-E 2 模型的一個已知弱點。
然而,由於谷歌尚未向公眾發布該模型,谷歌的基準測試有多準確還有待觀察。
結論
逼真的文本到圖像模型的興起是有爭議的,因為這些模型已經成熟,可以不道德地使用。
該技術可能會導致創建明確的內容或作為虛假信息的工具。 谷歌和 OpenAI 的研究人員都意識到了這一點,這也是為什麼這些技術仍然無法為所有人所用的部分原因。
文本到圖像模型也具有重要的經濟意義。 如果DALL-E等模特成為主流,模特、攝影師、藝術家等職業會受到影響嗎?
目前,這些模型仍然存在局限性。 對任何 AI 生成的圖像進行審查都會發現其缺陷。 隨著 OpenAI 和 Google 都在爭奪最有效的模型,生成真正完美的輸出可能只是時間問題:與真實事物無法區分的圖像。
您認為當技術發展到那麼遠時會發生什麼?
發表評論