目錄[隱藏][顯示]
新的和改進的人工智能提高了能力、理解力和產生更高分辨率圖像的能力。 您最近可能會在互聯網上看到一些奇怪而有趣的圖像。
Shiba Inu 狗穿著貝雷帽和黑色高領毛衣。 還有荷蘭畫家維米爾的《戴珍珠耳環的女孩》中的海獺。 還有一杯看起來像毛茸茸的怪物的湯。
這些圖像 不是由人類藝術家創作的。
相反,DALL-E 2,一個可以將文本描述轉換為圖像的新 AI 系統,創建了它們。
只需寫下你想看到的內容,人工智能就會為你創造出來——細節生動、質量上乘,在某些情況下,還有真正的創造力。 在這篇文章中,我們將深入了解 OpenAI 的最新研究 DALL.E 2,以及它的工作原理等等。 讓我們開始吧。
那麼,究竟是什麼 達爾.E 2?
DALL-E 2 是一種“生成模型”,一種機器學習算法,可生成複雜的輸出,而不是對輸入數據執行預測或分類任務。
您向 DALL-E 2 提供書面描述,它會創建與之對應的圖片。 通過結合概念、品質和風格,OpenAI 的 DALLE 2 可以從基本的語言描述產生創新、逼真的圖形和藝術。
最新版本 DALLE 2 據說更加通用,能夠以更高分辨率和更廣泛的創意風格從字幕製作圖片。 例如,下面的圖片(來自 DALL-E 2 博客文章)是由描述“宇航員騎馬”創建的。
一種描述總結為“像鉛筆素描一樣”,而另一種描述總結為“以逼真的方式”。
它還可以以驚人的精度更改現有照片。 因此,您可以在保留顏色、反射和陰影的同時添加或刪除元素,同時保持原始圖像的外觀。
它如何運作?
DALL-E 2 使用 CLIP 和擴散模型,兩種複雜的 深入學習 近年來發展起來的方法。 但是,它基於與所有其他深度相同的概念 神經網絡: 表徵學習。 CLIP 同時訓練兩個 神經網絡 在圖片和標題上。
一個網絡學習圖片中的視覺表示,而另一個網絡學習文本表示。 在訓練期間,這兩個網絡嘗試修改它們的參數,以便可比較的圖片和描述產生相似的嵌入。
“擴散”是一種通過逐漸對其訓練樣本進行去噪和去噪來學習製作圖片的生成模型,是 DALL-E 2 中使用的另一種機器學習方法。擴散模型類似於自動編碼器,因為它們將輸入數據轉換為嵌入表示,然後使用嵌入信息重新創建原始數據。
使用 OpenAI 的 語言模型 CLIP 可以將文字描述與照片聯繫起來,它首先將書面提示翻譯成一種中間形式,該形式包含圖片應具有的關鍵屬性以匹配該提示(根據 CLIP)。
其次,DALL-E 2 創建一個符合 CLIP 的 使用擴散模型的圖像,這是一個神經網絡。
在具有隨機像素的失真照片上,學習了擴散模型。 他們學習如何恢復照片的原始形式。 擴散模型可以生成高質量的合成圖像,尤其是與將準確性優先於多樣性的指導方法結合使用時。
因此, 擴散模型 獲取隨機像素並使用 CLIP 將它們轉換為與單詞提示匹配的新圖像。 由於擴散概念,DALL-E 2 可以比 DALL-E 更快地生成更高分辨率的圖像。
DALL.E 2 用例
在過去的二十年裡, 計算機視覺 技術已經從一個簡單的概念發展到一個重大突破。 儘管取得了這些進步,圖片和物體識別模型在日常生活中仍然面臨重大障礙。 缺乏數據集是圖像識別和計算機視覺的最顯著缺點之一。 由於兩端都缺乏數據,訓練圖像識別模型以給出 100% 準確的結果幾乎是困難的。
幸運的是,OpenAI 的新機器學習模型可以彌補技術上的差距。 DALLE 2 能夠根據文字描述生成令人驚嘆的圖片。 這種假圖片生產可以根據圖像識別模型的要求為其提供數據。 數據的缺失是物體和圖片識別的一個重要障礙。
在數字時代,數據集無處不在,但我們仍在尋找提供 AI 模型的捷徑,以便它能夠提供良好的結果。 然而,訓練一個圖像識別模型並不簡單。 它需要大量差異很小的數據集,我們可能無法簡單地檢索這些數據集。
那麼,答案是什麼:答案是 DALLE 2。OpenAI 圖片生成器具有從文本生成圖像並更改現有圖像的能力,可以幫助彌合差距。 這將有助於生成額外的訓練數據,同時也減少所需的人工標記量。 儘管有顯著的好處,但您應該注意欺詐性圖像製作和排除包含的圖像。 這可能會導致圖像檢測方法產生有偏差的結果。
限制
據 OpenAI 稱,如果 DALL.E 2 落入壞人之手,它很可能會產生有害影響。 在當今深度造假的世界中,該模型很容易被用來傳播虛假信息或種族主義圖像,這就是為什麼 OpenAI 只允許開發人員通過邀請使用 DALL.2。 對於她獲得的所有建議,該模型必須遵守嚴格的內容限制。
為了排除 DALL.E 2 創建任何敵對或暴力圖片的可能性,創建的數據集沒有任何致命武器。 雖然 OpenAI 已表示計劃在未來將其轉換為 API,但對於 DALL.E 2,它願意謹慎行事。
結論
DALL-E 2 是另一個有趣的 OpenAI 研究發現,它為新應用打開了大門。
一個例子是創建海量數據集來滿足計算機視覺的主要瓶頸之一——數據。 雖然許多基於 DALL-E 的應用程序的經濟案例將取決於 OpenAI 為其 API 用戶制定的價格和政策,但它們無疑都會推動圖片製作。
發表評論