我們可能正處於新的生成式 AI 革命的開端。
生成式人工智能是指能夠創建內容的算法和模型。 此類模型的輸出包括文本、音頻和圖像,這些通常會被誤認為是真實的人類輸出。
諸如 ChatGPT 已經表明生成式 AI 不僅僅是新奇事物。 人工智能現在能夠遵循詳細的指令,並且似乎對世界的運作方式有著深刻的理解。
但是我們是怎麼走到這一步的呢? 在本指南中,我們將介紹 AI 研究中的一些關鍵突破,這些突破為這場激動人心的全新生成 AI 革命鋪平了道路。
神經網絡的興起
您可以將現代人工智能的起源追溯到對 深度學習和神經網絡 在2012。
那一年,來自多倫多大學的 Alex Krizhevsky 和他的團隊實現了一種可以對物體進行分類的高精度算法。
最先進的神經網絡,現在稱為 AlexNet,能夠以比亞軍低得多的錯誤率對 ImageNet 視覺數據庫中的對象進行分類。
神經網絡 是使用數學函數網絡根據某些訓練數據學習特定行為的算法。 例如,您可以為神經網絡提供醫療數據,以訓練模型診斷癌症等疾病。
希望神經網絡慢慢地在數據中找到模式,並在給定新數據時變得更加準確。
AlexNet 是一個突破性的應用 卷積神經網絡 或 CNN。 “卷積”關鍵字是指添加卷積層,它更加強調更靠近在一起的數據。
雖然 CNN 在 1980 年代就已經是一個想法,但直到 2010 年代初期,最新的 GPU 技術將該技術推向了新的高度,它們才開始流行起來。
CNNs在領域的成功 計算機視覺 引起了人們對神經網絡研究的更多興趣。
谷歌和 Facebook 等科技巨頭決定向公眾發布他們自己的人工智能框架。 高級 API,例如 凱拉斯 為用戶提供了一個用戶友好的界面來試驗深度神經網絡。
CNN 擅長圖像識別和視頻分析,但在解決基於語言的問題時卻遇到了麻煩。 自然語言處理中的這種限制可能存在,因為圖像和文本實際上是根本不同的問題。
例如,如果您有一個模型可以對圖像是否包含交通燈進行分類,則相關交通燈可以出現在圖像中的任何位置。 然而,這種寬容在語言中並不適用。 儘管使用相同的詞,“Bob ate fish”和“Fish ate Bob”這句話的含義卻大相徑庭。
很明顯,研究人員需要找到一種新方法來解決涉及人類語言的問題。
變形金剛改變一切
在2017 研究論文 名為“Attention Is All You Need”的論文提出了一種新型網絡:Transformer。
CNN 通過重複過濾圖像的一小部分來工作,而轉換器將數據中的每個元素與其他所有元素連接起來。 研究人員稱這個過程為“自我關注”。
在嘗試解析句子時,CNN 和 Transformer 的工作方式截然不同。 CNN 將專注於與彼此靠近的單詞建立聯繫,而 Transformer 將在句子中的每個單詞之間建立聯繫。
自註意力過程是理解人類語言不可或缺的一部分。 通過縮小並查看整個句子是如何組合在一起的,機器可以更清楚地了解句子的結構。
第一個 transformer 模型發布後,研究人員很快就使用新架構來利用互聯網上海量的文本數據。
GPT-3 和互聯網
2020 年,OpenAI 的 GPT-3 模型展示了變壓器的有效性。 GPT-3 能夠輸出與人類幾乎沒有區別的文本。 使 GPT-3 如此強大的部分原因在於所使用的訓練數據量。 該模型的大部分預訓練數據集來自一個名為 Common Crawl 的數據集,該數據集包含超過 400 億個標記。
雖然 GPT-3 生成逼真的人類文本的能力本身俱有開創性,但研究人員發現了同一模型如何解決其他任務。
例如,可用於生成推文的 GPT-3 模型也可幫助您總結文本、重寫段落和完成故事。 語言模型 已經變得如此強大,以至於它們現在本質上是遵循任何類型命令的通用工具。
GPT-3 的通用性質允許這樣的應用 GitHub副駕駛, 它允許程序員用簡單的英語生成工作代碼。
擴散模型:從文本到圖像
Transformer 和 NLP 取得的進展也為其他領域的生成式 AI 鋪平了道路。
在計算機視覺領域,我們已經介紹了深度學習如何讓機器理解圖像。 然而,我們仍然需要找到一種方法讓 AI 自己生成圖像,而不僅僅是對它們進行分類。
DALL-E 2、Stable Diffusion 和 Midjourney 等生成圖像模型之所以流行,是因為它們能夠將文本輸入轉換為圖像。
這些圖像模型依賴於兩個關鍵方面:理解圖像和文本之間關係的模型,以及能夠實際創建與輸入匹配的高清圖像的模型。
OpenAI的 CLIP (Contrastive Language–Image Pre-training)是一個開源模型,旨在解決第一個方面。 給定一張圖像,CLIP 模型可以預測與該特定圖像最相關的文本描述。
CLIP 模型通過學習如何提取重要的圖像特徵和創建更簡單的圖像表示來工作。
當用戶向 DALL-E 2 提供示例文本輸入時,輸入會使用 CLIP 模型轉換為“圖像嵌入”。 現在的目標是找到一種方法來生成與生成的圖像嵌入相匹配的圖像。
最新的生成圖像 AI 使用 擴散模型 處理實際創建圖像的任務。 擴散模型依賴於經過預訓練的神經網絡,可以知道如何從圖像中去除額外的噪聲。
在這個訓練過程中,神經網絡最終可以學習如何從隨機噪聲圖像創建高分辨率圖像。 由於我們已經有了 CLIP 提供的文本和圖像的映射,我們可以 訓練擴散模型 在 CLIP 圖像嵌入上創建一個生成任何圖像的過程。
生成式 AI 革命:接下來會發生什麼?
我們現在正處於生成人工智能每兩天就會出現突破的地步。 隨著使用人工智能生成不同類型的媒體變得越來越容易,我們是否應該擔心這會對我們的社會產生怎樣的影響?
自從蒸汽機發明以來,人們一直在談論機器取代工人的擔憂,但這一次似乎有點不同。
生成式人工智能正在成為一種多用途工具,可能會擾亂那些被認為不會被人工智能接管的行業。
如果 AI 可以從一些基本指令開始編寫完美的代碼,我們還需要程序員嗎? 如果人們可以使用生成模型以更便宜的價格生產他們想要的輸出,他們會僱傭創意人員嗎?
很難預測生成式人工智能革命的未來。 但既然比喻性的潘多拉魔盒已經打開,我希望這項技術能夠帶來更多激動人心的創新,從而對世界產生積極影響。
發表評論