近年來,經過訓練用於語言識別和生成的大型神經網絡在各種任務中表現出出色的成果。 GPT-3 證明,大型語言模型 (LLM) 可用於小樣本學習並獲得出色的結果,而無需大量特定於任務的數據或更改模型參數。
矽谷科技巨頭谷歌已將 PaLM 或 Pathways 語言模型作為下一代 AI 語言模型引入全球科技行業。 谷歌已經加入了一個新的 人工智能 架構到 PaLM 的戰略目標是提高 AI 語言模型的質量。
在這篇文章中,我們將詳細研究 Palm 算法,包括用於訓練它的參數、它解決的問題等等。
什麼是 谷歌的PaLM算法?
Pathways 語言模型是什麼 棕櫚 代表。 這是谷歌為加強 Pathways AI 架構而開發的一種新算法。 該結構的主要目標是一次執行一百萬個不同的活動。
這些包括從破譯複雜數據到演繹推理的所有內容。 PaLM 有能力在語言和推理任務上超越當前最先進的 AI 以及人類。
這包括 Few-Shot Learning,它模仿人類如何學習新事物並結合不同的知識來應對前所未有的新挑戰,而機器可以利用其所有知識來解決新挑戰; PaLM 中這種技能的一個例子是它能夠解釋一個以前從未聽過的笑話。
PaLM 在各種具有挑戰性的任務中展示了許多突破性技能,包括語言理解和創造、多步算術代碼相關活動、常識推理、翻譯等等。
它已經展示了使用多語言 NLP 集解決複雜問題的能力。 全球科技市場可以使用 PaLM 來區分因果、概念組合、獨特的遊戲和許多其他事物。
它還可以使用多步邏輯推理、深度語言、全球知識和其他技術為許多上下文生成深入的解釋。
Google 是如何開發 PaLM 算法的?
對於 Google 在 PaLM 中的突破性表現,路徑計劃擴展到 540 億個參數。 它被公認為可以在眾多領域中高效且有效地泛化的一種模型。 Google Pathways 致力於為加速器開發分佈式計算。
PaLM 是一個僅解碼器的變壓器模型,已使用 Pathways 系統進行了訓練。 據 Google 稱,PaLM 已經成功地在多個工作負載中實現了最先進的小樣本性能。 PaLM 首次使用 Pathways 系統將訓練擴展到最大的基於 TPU 的系統配置,即 6144 芯片。
AI 語言模型的訓練數據集由英語和其他多語言數據集組成。 憑藉“無損”詞彙,它包含高質量的網絡內容、討論、書籍、GitHub 代碼、維基百科等等。 無損詞彙表被認可為保留空格並將不在詞彙表中的 Unicode 字符分解為字節。
PaLM 由 Google 和 Pathways 開發,使用標準的轉換器模型架構和解碼器配置,其中包括 SwiGLU 激活、並行層、RoPE 嵌入、共享輸入輸出嵌入、多查詢注意,並且沒有偏差或詞彙。 另一方面,PaLM 準備為 Google 和 Pathways 的 AI 語言模型提供堅實的基礎。
用於訓練 PaLM 的參數
去年,谷歌推出了 Pathways,這是一個可以被訓練做數千甚至數百萬事情的單一模型——被稱為“下一代人工智能架構”,因為它可以克服現有模型被訓練只做一件事的局限性. 新模型通常不是擴展當前模型的功能,而是自下而上構建以完成一項工作。
結果,他們為數以萬計的不同活動創建了數以萬計的模型。 這是一項耗時且資源密集型的任務。
谷歌通過 Pathways 證明,單一模型可以處理各種活動,並利用和結合現有人才來更快、更有效地學習新任務。
同時包括視覺、語言理解和聽覺處理的多模態模型可以通過路徑啟用。 Pathways 語言模型 (PaLM) 憑藉其 4 億參數模型,允許在眾多 TPU v540 Pod 中訓練單個模型。
PaLM 是一種僅使用密集解碼器的 Transformer 模型,在各種工作負載中的表現優於最先進的少量鏡頭性能。 PaLM 正在通過數據中心網絡 (DCN) 鏈接的兩個 TPU v4 Pod 上進行訓練。
它利用了模型和數據並行性。 研究人員在每個 Pod for PaLM 中使用了 3072 個 TPU v4 處理器,這些處理器連接到 768 台主機。 據研究人員稱,這是迄今為止披露的最大的 TPU 配置,允許他們在不使用管道並行性的情況下擴展訓練。
流水線通常是通過流水線從 CPU 收集指令的過程。 模型的層被劃分為可以通過管道模型並行(或管道並行)並行處理的階段。
當一個階段完成微批次的前向傳遞時,激活內存被發送到下一步。 當下一階段完成其反向傳播時,然後將梯度向後發送。
PaLM 突破性能力
PaLM 在一系列艱鉅的任務中展現出突破性的能力。 這裡有幾個例子:
1. 語言創造和理解
PaLM 在 29 種不同的英語 NLP 任務上進行了測試。
在少數情況下,PaLM 540B 在 3 項任務中的 28 項(包括開放域閉卷變體問答任務)中的表現優於之前的大型模型,例如 GLaM、GPT-29、Megatron-Turing NLG、Gopher、Chinchilla 和 LaMDA 、完形填空和句子完成任務、Winograd 風格的任務、上下文閱讀理解任務、常識推理任務、SuperGLUE 任務和自然推理。
在幾個 BIG-bench 任務中,PaLM 展示了出色的自然語言解釋和生成技能。 例如,該模型可以區分因果關係,理解某些情況下的概念組合,甚至可以從表情符號中猜測電影。 儘管只有 22% 的訓練語料庫是非英語的,但除了英語 NLP 任務之外,PaLM 在多語言 NLP 基準測試(包括翻譯)上表現良好。
2. 推理
PaLM 將模型大小與思維鏈提示相結合,以展示在需要多步算術或常識推理的推理挑戰方面的突破性技能。
以前的 LLM,例如 Gopher,在提高性能方面從模型大小中受益較少。 帶有思維鏈提示的 PaLM 540B 在三個算術和兩個常識性思維數據集上表現良好。
PaLM 優於之前 55% 的最佳分數,這是通過使用 3 個問題的訓練集對 GPT-175 7500B 模型進行微調並將其與外部計算器和驗證器結合以解決 GSM58K 中 8% 的問題而獲得的,這是一個使用 8-shot 提示對數千個困難的小學數學問題進行基準測試。
這個新分數特別值得注意,因為它接近 60-9 歲兒童所經歷障礙的 12% 的平均值。 它還可以回應互聯網上沒有的原創笑話。
3. 代碼生成
LLM 也被證明在編碼任務中表現出色,包括從自然語言描述(文本到代碼)生成代碼、在語言之間翻譯代碼以及解決編譯錯誤。 儘管在預訓練數據集中只有 5% 的代碼,PaLM 540B 在單個模型中的編碼和自然語言任務上都表現良好。
它的少鏡頭性能令人難以置信,因為它與微調的 Codex 12B 相匹配,同時訓練的 Python 代碼少了 50 倍。 這一發現與先前的發現相吻合,即較大的模型比較小的模型更有效率,因為它們可以更有效地從多個模型中遷移學習 編程語言 和簡單的語言數據。
結論
PaLM 展示了 Pathways 系統在兩個 TPU v4 Pod 上擴展到數千個加速器處理器的能力,方法是使用經過充分研究、成熟的密集解碼器 Transformer 模型的配方有效地訓練一個 540 億參數的模型。
它通過突破模型規模的界限,在一系列自然語言處理、推理和編碼挑戰中實現了突破性的小樣本性能。
發表評論