โครงข่ายประสาทเทียมขนาดใหญ่ที่ได้รับการฝึกอบรมสำหรับการจดจำภาษาและการสร้างได้แสดงให้เห็นผลลัพธ์ที่โดดเด่นในงานที่หลากหลายในช่วงไม่กี่ปีที่ผ่านมา GPT-3 พิสูจน์แล้วว่าแบบจำลองภาษาขนาดใหญ่ (LLM) สามารถใช้สำหรับการเรียนรู้แบบไม่กี่ช็อตและได้ผลลัพธ์ที่ยอดเยี่ยมโดยไม่ต้องใช้ข้อมูลเฉพาะงานอย่างละเอียดหรือเปลี่ยนพารามิเตอร์ของแบบจำลอง
Google ซึ่งเป็นยักษ์ใหญ่ด้านเทคโนโลยีของ Silicon Valley ได้เปิดตัว PaLM หรือ Pathways Language Model ให้กับอุตสาหกรรมเทคโนโลยีทั่วโลกในฐานะโมเดลภาษา AI ยุคหน้า Google ได้รวมเอาใหม่ ปัญญาประดิษฐ์ สถาปัตยกรรมเข้าสู่ PaLM โดยมีเป้าหมายเชิงกลยุทธ์เพื่อปรับปรุงคุณภาพของแบบจำลองภาษา AI
ในโพสต์นี้ เราจะตรวจสอบอัลกอริธึม Palm โดยละเอียด รวมถึงพารามิเตอร์ที่ใช้ในการฝึกอบรม ปัญหาที่แก้ไข และอื่นๆ อีกมากมาย
ความหมายของ อัลกอริทึม PaLM ของ Google?
รูปแบบภาษาของ Pathways คืออะไร ปาล์ม หมายถึง. นี่เป็นอัลกอริธึมใหม่ที่พัฒนาโดย Google เพื่อเสริมความแข็งแกร่งให้กับสถาปัตยกรรม Pathways AI เป้าหมายหลักของโครงสร้างคือการทำกิจกรรมที่แตกต่างกันนับล้านครั้งในคราวเดียว
ซึ่งรวมถึงทุกอย่างตั้งแต่การถอดรหัสข้อมูลที่ซับซ้อนไปจนถึงการให้เหตุผลแบบนิรนัย PaLM มีความสามารถเหนือกว่า AI ที่ล้ำสมัยในปัจจุบัน เช่นเดียวกับมนุษย์ในด้านภาษาและการให้เหตุผล
ซึ่งรวมถึงการเรียนรู้แบบไม่กี่ช็อต ซึ่งเลียนแบบวิธีที่มนุษย์เรียนรู้สิ่งใหม่ ๆ และผสมผสานความรู้ที่หลากหลายเพื่อจัดการกับความท้าทายใหม่ ๆ ที่ไม่เคยมีมาก่อน ด้วยประโยชน์ของเครื่องจักรที่สามารถใช้ความรู้ทั้งหมดเพื่อแก้ปัญหาความท้าทายใหม่ ๆ ตัวอย่างหนึ่งของทักษะนี้ใน PaLM คือความสามารถในการอธิบายเรื่องตลกที่ไม่เคยได้ยินมาก่อน
PaLM ได้แสดงทักษะที่ก้าวล้ำมากมายในงานที่ท้าทายหลากหลาย รวมถึงการทำความเข้าใจและการสร้างภาษา กิจกรรมที่เกี่ยวข้องกับรหัสเลขคณิตแบบหลายขั้นตอน การให้เหตุผลตามสามัญสำนึก การแปล และอื่นๆ อีกมากมาย
ได้แสดงให้เห็นถึงความสามารถในการแก้ปัญหาที่ซับซ้อนโดยใช้ชุด NLP หลายภาษา ตลาดเทคโนโลยีทั่วโลกสามารถใช้ PaLM เพื่อสร้างความแตกต่างของเหตุและผล การผสมผสานแนวคิด เกมที่แตกต่าง และอื่นๆ อีกมากมาย
นอกจากนี้ยังสามารถสร้างคำอธิบายเชิงลึกสำหรับบริบทต่างๆ โดยใช้การอนุมานเชิงตรรกะแบบหลายขั้นตอน ภาษาที่ลึกซึ้ง ความรู้ระดับโลก และเทคนิคอื่นๆ
Google พัฒนาอัลกอริทึมของ PaLM อย่างไร
สำหรับประสิทธิภาพที่ก้าวล้ำของ Google ใน PaLM มีกำหนดเส้นทางที่จะขยายขนาดพารามิเตอร์ได้ถึง 540 พันล้านพารามิเตอร์ เป็นที่ยอมรับว่าเป็นแบบจำลองเดียวที่สามารถสรุปผลในหลายโดเมนได้อย่างมีประสิทธิภาพและประสิทธิผล เส้นทางที่ Google ทุ่มเทให้กับการพัฒนาการคำนวณแบบกระจายสำหรับตัวเร่งความเร็ว
PaLM เป็นหม้อแปลงไฟฟ้ารุ่นถอดรหัสเท่านั้นที่ได้รับการฝึกอบรมโดยใช้ระบบ Pathways PaLM ประสบความสำเร็จในการบรรลุประสิทธิภาพการทำงานแบบไม่กี่ช็อตที่ล้ำสมัยในหลายเวิร์กโหลด ตามข้อมูลของ Google PaLM ได้ใช้ระบบ Pathways เพื่อขยายการฝึกอบรมไปยังการกำหนดค่าระบบที่ใช้ TPU ที่ใหญ่ที่สุด ซึ่งรู้จักกันในชื่อชิป 6144 เป็นครั้งแรก
ชุดข้อมูลการฝึกอบรมสำหรับแบบจำลองภาษา AI ประกอบด้วยชุดข้อมูลภาษาอังกฤษและหลายภาษาผสมกัน ด้วยคำศัพท์ที่ "ไม่สูญเสีย" ประกอบด้วยเนื้อหาเว็บคุณภาพสูง การอภิปราย หนังสือ รหัส GitHub วิกิพีเดีย และอีกมากมาย คำศัพท์แบบไม่สูญเสียเป็นที่รู้จักสำหรับการรักษาช่องว่างและการแยกอักขระ Unicode ที่ไม่ได้อยู่ในคำศัพท์ออกเป็นไบต์
PaLM ได้รับการพัฒนาโดย Google และ Pathways โดยใช้สถาปัตยกรรมโมเดลหม้อแปลงมาตรฐานและการกำหนดค่าตัวถอดรหัสที่รวมการเปิดใช้งาน SwiGLU, เลเยอร์คู่ขนาน, การฝัง RoPE, การฝังอินพุต-เอาท์พุตที่ใช้ร่วมกัน, การให้ความสนใจหลายข้อความค้นหา และไม่มีอคติหรือคำศัพท์ ในทางกลับกัน PaLM พร้อมที่จะสร้างพื้นฐานที่มั่นคงสำหรับโมเดลภาษา AI ของ Google และ Pathways
พารามิเตอร์ที่ใช้ในการฝึกอบรม PaLM
ปีที่แล้ว Google ได้เปิดตัว Pathways ซึ่งเป็นโมเดลเดียวที่สามารถฝึกทำสิ่งต่างๆ ได้เป็นพันๆ อย่าง เรียกว่า "สถาปัตยกรรม AI ยุคหน้า" เนื่องจากสามารถเอาชนะข้อจำกัดของโมเดลที่มีอยู่ในการฝึกฝนให้ทำสิ่งเดียวเท่านั้น . แทนที่จะขยายขีดความสามารถของรุ่นปัจจุบัน โมเดลใหม่ๆ มักจะถูกสร้างขึ้นจากล่างขึ้นบนเพื่อทำงานชิ้นเดียวให้สำเร็จ
เป็นผลให้พวกเขาได้สร้างแบบจำลองนับหมื่นสำหรับกิจกรรมต่างๆ นับหมื่น นี่เป็นงานที่ต้องใช้เวลาและทรัพยากรมาก
Google พิสูจน์ผ่าน Pathways ว่ารูปแบบเดียวสามารถจัดการกับกิจกรรมที่หลากหลาย ดึงและรวมความสามารถในปัจจุบันเพื่อเรียนรู้งานใหม่ได้อย่างรวดเร็วและมีประสิทธิภาพยิ่งขึ้น
โมเดลต่อเนื่องหลายรูปแบบซึ่งรวมถึงการมองเห็น ความเข้าใจในภาษา และการประมวลผลการได้ยินทั้งหมดพร้อมกันอาจเปิดใช้งานผ่านเส้นทางได้ Pathways Language Model (PaLM) ช่วยให้ฝึกโมเดลเดียวใน TPU v4 Pods จำนวนมากด้วยโมเดลพารามิเตอร์ 540 พันล้าน
PaLM ซึ่งเป็นรุ่น Transformer เฉพาะตัวถอดรหัสหนาแน่น มีประสิทธิภาพเหนือกว่าประสิทธิภาพการถ่ายภาพไม่กี่ช็อตที่ล้ำสมัยในเวิร์กโหลดที่หลากหลาย PaLM กำลังได้รับการฝึกอบรมเกี่ยวกับ TPU v4 Pod สองเครื่องที่ลิงก์ผ่านเครือข่ายศูนย์ข้อมูล (DCN)
ใช้ประโยชน์จากทั้งแบบจำลองและข้อมูลคู่ขนานกัน นักวิจัยใช้โปรเซสเซอร์ 3072 TPU v4 ในแต่ละ Pod สำหรับ PaLM ซึ่งเชื่อมต่อกับโฮสต์ 768 ตามที่นักวิจัยกล่าวว่านี่คือการกำหนดค่า TPU ที่ใหญ่ที่สุดที่ยังเปิดเผย ทำให้พวกเขาสามารถปรับขนาดการฝึกอบรมโดยไม่ต้องใช้ไปป์ไลน์ขนานกัน
การบุท่อเป็นกระบวนการรวบรวมคำสั่งจาก CPU ผ่านไปป์ไลน์โดยทั่วไป เลเยอร์ของแบบจำลองแบ่งออกเป็นเฟสที่สามารถประมวลผลแบบขนานได้โดยใช้แบบจำลองไปป์ไลน์แบบขนาน (หรือไปป์ไลน์แบบขนาน)
หน่วยความจำการเปิดใช้งานจะถูกส่งไปยังขั้นตอนถัดไปเมื่อขั้นตอนหนึ่งเสร็จสิ้นการส่งต่อสำหรับไมโครแบทช์ จากนั้นการไล่ระดับสีจะถูกส่งไปทางด้านหลังเมื่อสเตจต่อไปนี้เสร็จสิ้นการขยายพันธุ์แบบย้อนกลับ
ความสามารถที่ก้าวล้ำของ PaLM
PaLM แสดงความสามารถที่ก้าวล้ำในงานยากต่างๆ นี่คือตัวอย่างบางส่วน:
1. การสร้างและความเข้าใจภาษา
PaLM ได้รับการทดสอบในงาน NLP ที่แตกต่างกัน 29 งานเป็นภาษาอังกฤษ
PaLM 540B ทำผลงานได้ดีกว่ารุ่นใหญ่รุ่นก่อนๆ เช่น GLaM, GPT-3, Megatron-Turing NLG, Gopher, Chinchilla และ LaMDA ในบางงาน โดยทำผลงานได้ดีกว่ารุ่นใหญ่รุ่นก่อนๆ เช่น GLaM, GPT-28, Megatron-Turing NLG, Gopher, Chinchilla และ LaMDA ในงาน 29 จาก XNUMX งาน ซึ่งรวมถึงงานตอบคำถามแบบเปิดโดเมนแบบปิด , งานปิดและการเติมประโยค, งานสไตล์ Winograd, งานเพื่อความเข้าใจในการอ่านในบริบท, งานให้เหตุผลทั่วไป, งาน SuperGLUE และการอนุมานตามธรรมชาติ
ในงาน BIG-bench หลายงาน PaLM แสดงให้เห็นถึงการแปลภาษาธรรมชาติที่ยอดเยี่ยมและทักษะการสร้าง ตัวอย่างเช่น โมเดลสามารถแยกแยะระหว่างเหตุและผล เข้าใจการผสมผสานแนวคิดในบางสถานการณ์ และแม้แต่เดาภาพยนตร์จากอีโมจิ แม้ว่าคลังข้อมูลการฝึกอบรมเพียง 22% ไม่ใช่ภาษาอังกฤษ แต่ PaLM ก็ทำงานได้ดีกับเกณฑ์มาตรฐาน NLP หลายภาษา รวมถึงการแปล นอกเหนือจากงาน NLP ภาษาอังกฤษ
2. การให้เหตุผล
PaLM ผสมผสานขนาดของแบบจำลองเข้ากับการกระตุ้นความคิดแบบลูกโซ่เพื่อแสดงทักษะที่ก้าวล้ำในการให้เหตุผลในการท้าทายที่ต้องใช้เลขคณิตหลายขั้นตอนหรือการใช้เหตุผลร่วมกัน
LLM ก่อนหน้า เช่น Gopher ได้รับประโยชน์น้อยลงจากขนาดโมเดลในแง่ของการเพิ่มประสิทธิภาพ PaLM 540B ที่มีการเตือนลูกโซ่ของความคิดทำงานได้ดีกับชุดข้อมูลเลขคณิตสามชุดและชุดข้อมูลการคิดทั่วไปสองชุด
PaLM ทำได้ดีกว่าคะแนนที่ดีที่สุดก่อนหน้านี้ที่ 55% ซึ่งได้มาจากการปรับรุ่น GPT-3 175B อย่างละเอียดด้วยชุดการฝึกที่มีปัญหา 7500 รายการ และรวมเข้ากับเครื่องคำนวณภายนอกและตัวตรวจสอบเพื่อแก้ปัญหา 58 เปอร์เซ็นต์ใน GSM8K เกณฑ์มาตรฐานของคำถามคณิตศาสตร์ระดับประถมศึกษาที่ยากนับพันโดยใช้การแจ้งเตือนแบบ 8-shot
คะแนนใหม่นี้น่าสังเกตเป็นพิเศษเนื่องจากเข้าใกล้ค่าเฉลี่ย 60% ของสิ่งกีดขวางที่เด็กอายุ 9-12 ปีประสบ นอกจากนี้ยังสามารถตอบสนองต่อเรื่องตลกดั้งเดิมที่ไม่มีอยู่ในอินเทอร์เน็ต
3. การสร้างรหัส
LLM ยังแสดงให้เห็นว่าทำงานได้ดีในงานเขียนโค้ด รวมถึงการสร้างโค้ดจากคำอธิบายภาษาธรรมชาติ (ข้อความเป็นโค้ด) การแปลโค้ดระหว่างภาษา และการแก้ไขข้อผิดพลาดในการรวบรวม แม้ว่าจะมีโค้ดเพียง 5% ในชุดข้อมูลก่อนการฝึกอบรม แต่ PaLM 540B ก็ทำงานได้ดีทั้งกับงานเขียนโค้ดและภาษาธรรมชาติในโมเดลเดียว
ประสิทธิภาพการถ่ายเพียงไม่กี่ช็อตนั้นน่าทึ่งมาก เนื่องจากมันเข้ากับ Codex 12B ที่ปรับแต่งมาอย่างละเอียดในขณะที่ฝึกด้วยโค้ด Python ที่น้อยกว่า 50 เท่า การค้นพบนี้สนับสนุนด้วยการค้นพบก่อนหน้านี้ว่าโมเดลขนาดใหญ่สามารถสุ่มตัวอย่างได้อย่างมีประสิทธิภาพมากกว่าแบบจำลองขนาดเล็ก เนื่องจากสามารถถ่ายทอดการเรียนรู้จากหลาย ๆ อย่างได้อย่างมีประสิทธิภาพมากขึ้น การเขียนโปรแกรมภาษา และข้อมูลภาษาธรรมดา
สรุป
PaLM แสดงให้เห็นถึงความสามารถของระบบ Pathways ในการปรับขนาดเป็นโปรเซสเซอร์ตัวเร่งความเร็วหลายพันตัวบน TPU v4 Pod สองตัวโดยการฝึกโมเดลพารามิเตอร์ 540 พันล้านอย่างมีประสิทธิภาพด้วยสูตรที่เป็นที่ยอมรับและศึกษามาอย่างดีของโมเดล Transformer ที่มีตัวถอดรหัสเท่านั้นที่มีความหนาแน่นสูง
มันบรรลุประสิทธิภาพการทำงานแบบไม่กี่ช็อตที่ก้าวล้ำข้ามช่วงของการประมวลผลภาษาธรรมชาติ การให้เหตุผล และความท้าทายในการเขียนโค้ดโดยการผลักดันขอบเขตของขนาดโมเดล
เขียนความเห็น