โมเดลภาษาขนาดใหญ่: ทุกสิ่งที่คุณต้องรู้

สารบัญ[ซ่อน][แสดง]

โมเดลภาษาขนาดใหญ่คืออะไร?
LLMs ได้รับการฝึกฝนอย่างไร?+-
- การฝึกอบรมล่วงหน้ากับสถาปัตยกรรม Transformer
- ปรับจูน
ข้อจำกัดของโมเดลภาษาขนาดใหญ่+-
สรุป

ปัญหาคลาสสิกของปัญญาประดิษฐ์คือการแสวงหาเครื่องที่สามารถเข้าใจภาษามนุษย์ได้

ตัวอย่างเช่น เมื่อค้นหา “ร้านอาหารอิตาลีใกล้เคียง” บนเครื่องมือค้นหาที่คุณชื่นชอบ อัลกอริทึมจะต้องวิเคราะห์แต่ละคำในข้อความค้นหาของคุณและแสดงผลลัพธ์ที่เกี่ยวข้อง แอปแปลภาษาที่ดีจะต้องเข้าใจบริบทของคำเฉพาะในภาษาอังกฤษ และคำนึงถึงความแตกต่างของไวยากรณ์ระหว่างภาษาต่างๆ

งานเหล่านี้และอื่น ๆ อีกมากมายอยู่ภายใต้สาขาย่อยของวิทยาการคอมพิวเตอร์ที่เรียกว่า ประมวลผลภาษาธรรมชาติ หรือ NLP ความก้าวหน้าของ NLP ทำให้เกิดแอปพลิเคชันที่ใช้งานได้จริงมากมายตั้งแต่ผู้ช่วยเสมือนอย่าง Alexa ของ Amazon ไปจนถึงตัวกรองสแปมที่ตรวจจับอีเมลที่เป็นอันตราย

ความก้าวหน้าล่าสุดของ NLP คือแนวคิดของ แบบจำลองภาษาขนาดใหญ่ หรือนิติศาสตร์มหาบัณฑิต LLM เช่น GPT-3 มีประสิทธิภาพมากจนดูเหมือนจะประสบความสำเร็จในงาน NLP หรือกรณีการใช้งานเกือบทุกชนิด

ในบทความนี้ เราจะพิจารณาว่า LLMs คืออะไร แบบจำลองเหล่านี้ได้รับการฝึกอบรมอย่างไร และข้อจำกัดในปัจจุบันที่พวกเขามี

โมเดลภาษาขนาดใหญ่คืออะไร?

โดยพื้นฐานแล้ว โมเดลภาษาเป็นเพียงอัลกอริทึมที่รู้ว่าลำดับของคำนั้นน่าจะเป็นประโยคที่ถูกต้องเพียงใด

รูปแบบภาษาง่ายๆ ที่ได้รับการฝึกฝนจากหนังสือสองสามร้อยเล่มควรจะสามารถบอกได้ว่า “เขากลับบ้าน” นั้นถูกต้องมากกว่า “กลับบ้านไปเขา”

ถ้าเราแทนที่ชุดข้อมูลที่มีขนาดค่อนข้างเล็กด้วยชุดข้อมูลขนาดใหญ่ที่คัดมาจากอินเทอร์เน็ต เราจะเริ่มเข้าใกล้แนวคิดของ แบบจำลองภาษาขนาดใหญ่.

การใช้ เครือข่ายประสาทเทียมนักวิจัยสามารถฝึกอบรม LLM กับข้อมูลข้อความจำนวนมากได้ เนื่องจากโมเดลเห็นข้อมูลข้อความจำนวนมาก LLM จึงเก่งมากในการทำนายคำถัดไปในลำดับ

แบบจำลองมีความซับซ้อนมาก สามารถทำงาน NLP ได้มากมาย งานเหล่านี้รวมถึงการสรุปข้อความ การสร้างเนื้อหาที่แปลกใหม่ และแม้แต่การจำลองการสนทนาที่เหมือนมนุษย์

แบบจำลองภาษาขนาดใหญ่สามารถสร้างเนื้อหาที่แปลกใหม่ตามพร้อมท์

ตัวอย่างเช่น โมเดลภาษา GPT-3 ที่ได้รับความนิยมสูงได้รับการฝึกฝนด้วยพารามิเตอร์มากกว่า 175 พันล้านพารามิเตอร์ และถือเป็นโมเดลภาษาที่ก้าวหน้าที่สุดจนถึงปัจจุบัน

สามารถสร้างรหัสการทำงาน เขียนบทความทั้งหมด และสามารถตอบคำถามเกี่ยวกับหัวข้อใดก็ได้

LLMs ได้รับการฝึกฝนอย่างไร?

เราได้กล่าวถึงข้อเท็จจริงสั้นๆ ว่า LLMs เป็นหนี้อำนาจจำนวนมากจากขนาดของข้อมูลการฝึกอบรมของพวกเขา มีเหตุผลที่เราเรียกมันว่าโมเดลภาษา "ใหญ่"

การฝึกอบรมล่วงหน้ากับสถาปัตยกรรม Transformer

ในช่วงก่อนการฝึกอบรม LLM จะได้รับการแนะนำให้รู้จักกับข้อมูลข้อความที่มีอยู่เพื่อเรียนรู้โครงสร้างทั่วไปและกฎของภาษา

ในช่วงไม่กี่ปีที่ผ่านมา LLM ได้รับการฝึกอบรมล่วงหน้าเกี่ยวกับชุดข้อมูลที่ครอบคลุมส่วนสำคัญของอินเทอร์เน็ตสาธารณะ ตัวอย่างเช่น โมเดลภาษาของ GPT-3 ได้รับการฝึกโดยใช้ข้อมูลจาก การรวบรวมข้อมูลทั่วไป ชุดข้อมูล คลังบทความบนเว็บ หน้าเว็บ และหนังสือดิจิทัลที่คัดมาจากโดเมนกว่า 50 ล้านโดเมน

ชุดข้อมูลขนาดใหญ่จะถูกป้อนเข้าสู่แบบจำลองที่เรียกว่า หม้อแปลงไฟฟ้า. หม้อแปลงเป็นประเภทของ โครงข่ายประสาทลึก ที่ทำงานได้ดีที่สุดสำหรับข้อมูลตามลำดับ

โมเดลภาษาขนาดใหญ่ใช้ตัวแปลง

หม้อแปลงใช้ สถาปัตยกรรมตัวเข้ารหัส-ตัวถอดรหัส สำหรับจัดการอินพุตและเอาต์พุต โดยพื้นฐานแล้ว หม้อแปลงประกอบด้วยเครือข่ายประสาทสองเครือข่าย: ตัวเข้ารหัสและตัวถอดรหัส ตัวเข้ารหัสสามารถแยกความหมายของข้อความที่ป้อนและจัดเก็บเป็นเวกเตอร์ได้ จากนั้นตัวถอดรหัสจะรับเวกเตอร์และสร้างการตีความข้อความ

อย่างไรก็ตาม แนวคิดหลักที่ทำให้สถาปัตยกรรมหม้อแปลงทำงานได้ดีคือการเพิ่ม กลไกการเอาใจใส่ตนเอง. แนวคิดเรื่องความใส่ใจในตนเองทำให้ตัวแบบสามารถใส่ใจกับคำที่สำคัญที่สุดในประโยคที่กำหนดได้ กลไกนี้พิจารณาถึงน้ำหนักระหว่างคำที่อยู่ห่างกันตามลำดับ

ข้อดีอีกประการของการเอาใจใส่ตนเองคือกระบวนการสามารถดำเนินไปพร้อมกันได้ แทนที่จะประมวลผลข้อมูลตามลำดับ แบบจำลองหม้อแปลงสามารถประมวลผลอินพุตทั้งหมดพร้อมกันได้ สิ่งนี้ทำให้ทรานส์ฟอร์เมอร์สามารถฝึกกับข้อมูลจำนวนมหาศาลได้ค่อนข้างเร็วเมื่อเทียบกับวิธีอื่นๆ

ปรับจูน

หลังจากขั้นตอนก่อนการฝึกอบรม คุณสามารถเลือกที่จะแนะนำข้อความใหม่สำหรับ LLM พื้นฐานเพื่อฝึกฝนต่อไป เราเรียกกระบวนการนี้ว่า ปรับจูน และมักใช้เพื่อปรับปรุงผลลัพธ์ของ LLM ในงานเฉพาะ

ตัวอย่างเช่น คุณอาจต้องการใช้ LLM เพื่อสร้างเนื้อหาสำหรับบัญชี Twitter ของคุณ เราสามารถให้แบบจำลองหลายตัวอย่างทวีตก่อนหน้าของคุณเพื่อให้ทราบผลลัพธ์ที่ต้องการ

มีการปรับแต่งแบบละเอียดที่แตกต่างกันสองสามประเภท

โมเดลภาษาขนาดใหญ่มีความสามารถในการเรียนรู้เพียงไม่กี่ช็อต

การเรียนรู้ไม่กี่ช็อตshot หมายถึงกระบวนการให้ตัวอย่างจำนวนน้อยแก่โมเดลด้วยความคาดหวังว่าโมเดลภาษาจะหาวิธีสร้างผลลัพธ์ที่คล้ายคลึงกัน การเรียนรู้เพียงครั้งเดียว เป็นกระบวนการที่คล้ายคลึงกัน ยกเว้นเพียงตัวอย่างเดียวเท่านั้นที่มีให้

ข้อจำกัดของโมเดลภาษาขนาดใหญ่

LLM เช่น GPT-3 สามารถใช้งานกรณีการใช้งานจำนวนมากได้แม้ไม่มีการปรับแต่งอย่างละเอียด อย่างไรก็ตาม โมเดลเหล่านี้ยังคงมีข้อจำกัดในตัวเอง

ขาดความเข้าใจความหมายของโลก

ที่ผิวเผิน LLMs ดูเหมือนจะแสดงความเฉลียวฉลาด อย่างไรก็ตาม โมเดลเหล่านี้ไม่ได้ทำงานในลักษณะเดียวกัน สมองมนุษย์ ทำ. LLMs อาศัยการคำนวณทางสถิติเพียงอย่างเดียวเพื่อสร้างผลลัพธ์ พวกเขาไม่มีความสามารถในการให้เหตุผลเกี่ยวกับแนวคิดและแนวคิดด้วยตนเอง

ด้วยเหตุนี้ LLM จึงสามารถแสดงคำตอบที่ไร้สาระเพียงเพราะคำที่ดูเหมือน "ถูกต้อง" หรือ "มีความเป็นไปได้ทางสถิติ" เมื่ออยู่ในลำดับนั้น

ภาพหลอน

โมเดลเช่น GPT-3 ก็ประสบกับการตอบสนองที่ไม่ถูกต้องเช่นกัน LLM อาจประสบกับปรากฏการณ์ที่เรียกว่า ภาพหลอน โดยที่ตัวแบบแสดงการตอบสนองที่ไม่ถูกต้องตามความเป็นจริงโดยไม่ได้ตระหนักว่าการตอบสนองนั้นไม่มีพื้นฐานในความเป็นจริง

ตัวอย่างเช่น ผู้ใช้อาจขอให้นางแบบอธิบายความคิดของ Steve Jobs เกี่ยวกับ iPhone รุ่นล่าสุด แบบจำลองอาจสร้างใบเสนอราคาจากอากาศที่เบาบางตามข้อมูลการฝึกอบรม

อคติและความรู้ที่จำกัด

เช่นเดียวกับอัลกอริธึมอื่น ๆ โมเดลภาษาขนาดใหญ่มีแนวโน้มที่จะสืบทอดอคติที่มีอยู่ในข้อมูลการฝึกอบรม เมื่อเราเริ่มพึ่งพา LLM มากขึ้นในการดึงข้อมูล ผู้พัฒนาโมเดลเหล่านี้ควรหาวิธีลดผลกระทบที่อาจเป็นอันตรายของการตอบสนองที่มีอคติ

ในความสามารถที่ใกล้เคียงกัน จุดบอดของข้อมูลการฝึกอบรมของโมเดลก็จะขัดขวางตัวโมเดลด้วยเช่นกัน ปัจจุบัน โมเดลภาษาขนาดใหญ่ใช้เวลาฝึกหลายเดือน โมเดลเหล่านี้ยังใช้ชุดข้อมูลที่มีขอบเขตจำกัดอีกด้วย ด้วยเหตุนี้ ChatGPT จึงมีความรู้จำกัดเกี่ยวกับเหตุการณ์ที่เกิดขึ้นหลังปี 2021

สรุป

โมเดลภาษาขนาดใหญ่มีศักยภาพในการเปลี่ยนแปลงวิธีที่เราโต้ตอบกับเทคโนโลยีและโลกของเราโดยทั่วไปอย่างแท้จริง

ข้อมูลจำนวนมหาศาลบนอินเทอร์เน็ตทำให้นักวิจัยมีวิธีสร้างแบบจำลองความซับซ้อนของภาษา อย่างไรก็ตาม ระหว่างทาง แบบจำลองภาษาเหล่านี้ดูเหมือนจะเข้าใจโลกอย่างที่มันเป็นเหมือนมนุษย์

เมื่อประชาชนเริ่มเชื่อถือโมเดลภาษาเหล่านี้เพื่อให้ผลลัพธ์ที่ถูกต้อง นักวิจัยและพัฒนาจึงหาวิธีเพิ่มเกราะป้องกันเพื่อให้เทคโนโลยียังคงถูกหลักจริยธรรม

คุณคิดว่าอนาคตของ LLM คืออะไร?

โมเดลภาษาขนาดใหญ่: ทุกสิ่งที่คุณต้องรู้

โมเดลภาษาขนาดใหญ่คืออะไร?

LLMs ได้รับการฝึกฝนอย่างไร?