ปัญหาคลาสสิกของปัญญาประดิษฐ์คือการแสวงหาเครื่องที่สามารถเข้าใจภาษามนุษย์ได้
ตัวอย่างเช่น เมื่อค้นหา “ร้านอาหารอิตาลีใกล้เคียง” บนเครื่องมือค้นหาที่คุณชื่นชอบ อัลกอริทึมจะต้องวิเคราะห์แต่ละคำในข้อความค้นหาของคุณและแสดงผลลัพธ์ที่เกี่ยวข้อง แอปแปลภาษาที่ดีจะต้องเข้าใจบริบทของคำเฉพาะในภาษาอังกฤษ และคำนึงถึงความแตกต่างของไวยากรณ์ระหว่างภาษาต่างๆ
งานเหล่านี้และอื่น ๆ อีกมากมายอยู่ภายใต้สาขาย่อยของวิทยาการคอมพิวเตอร์ที่เรียกว่า ประมวลผลภาษาธรรมชาติ หรือ NLP ความก้าวหน้าของ NLP ทำให้เกิดแอปพลิเคชันที่ใช้งานได้จริงมากมายตั้งแต่ผู้ช่วยเสมือนอย่าง Alexa ของ Amazon ไปจนถึงตัวกรองสแปมที่ตรวจจับอีเมลที่เป็นอันตราย
ความก้าวหน้าล่าสุดของ NLP คือแนวคิดของ แบบจำลองภาษาขนาดใหญ่ หรือนิติศาสตร์มหาบัณฑิต LLM เช่น GPT-3 มีประสิทธิภาพมากจนดูเหมือนจะประสบความสำเร็จในงาน NLP หรือกรณีการใช้งานเกือบทุกชนิด
ในบทความนี้ เราจะพิจารณาว่า LLMs คืออะไร แบบจำลองเหล่านี้ได้รับการฝึกอบรมอย่างไร และข้อจำกัดในปัจจุบันที่พวกเขามี
โมเดลภาษาขนาดใหญ่คืออะไร?
โดยพื้นฐานแล้ว โมเดลภาษาเป็นเพียงอัลกอริทึมที่รู้ว่าลำดับของคำนั้นน่าจะเป็นประโยคที่ถูกต้องเพียงใด
รูปแบบภาษาง่ายๆ ที่ได้รับการฝึกฝนจากหนังสือสองสามร้อยเล่มควรจะสามารถบอกได้ว่า “เขากลับบ้าน” นั้นถูกต้องมากกว่า “กลับบ้านไปเขา”
ถ้าเราแทนที่ชุดข้อมูลที่มีขนาดค่อนข้างเล็กด้วยชุดข้อมูลขนาดใหญ่ที่คัดมาจากอินเทอร์เน็ต เราจะเริ่มเข้าใกล้แนวคิดของ แบบจำลองภาษาขนาดใหญ่.
การใช้ เครือข่ายประสาทเทียมนักวิจัยสามารถฝึกอบรม LLM กับข้อมูลข้อความจำนวนมากได้ เนื่องจากโมเดลเห็นข้อมูลข้อความจำนวนมาก LLM จึงเก่งมากในการทำนายคำถัดไปในลำดับ
แบบจำลองมีความซับซ้อนมาก สามารถทำงาน NLP ได้มากมาย งานเหล่านี้รวมถึงการสรุปข้อความ การสร้างเนื้อหาที่แปลกใหม่ และแม้แต่การจำลองการสนทนาที่เหมือนมนุษย์
ตัวอย่างเช่น โมเดลภาษา GPT-3 ที่ได้รับความนิยมสูงได้รับการฝึกฝนด้วยพารามิเตอร์มากกว่า 175 พันล้านพารามิเตอร์ และถือเป็นโมเดลภาษาที่ก้าวหน้าที่สุดจนถึงปัจจุบัน
สามารถสร้างรหัสการทำงาน เขียนบทความทั้งหมด และสามารถตอบคำถามเกี่ยวกับหัวข้อใดก็ได้
LLMs ได้รับการฝึกฝนอย่างไร?
เราได้กล่าวถึงข้อเท็จจริงสั้นๆ ว่า LLMs เป็นหนี้อำนาจจำนวนมากจากขนาดของข้อมูลการฝึกอบรมของพวกเขา มีเหตุผลที่เราเรียกมันว่าโมเดลภาษา "ใหญ่"
การฝึกอบรมล่วงหน้ากับสถาปัตยกรรม Transformer
ในช่วงก่อนการฝึกอบรม LLM จะได้รับการแนะนำให้รู้จักกับข้อมูลข้อความที่มีอยู่เพื่อเรียนรู้โครงสร้างทั่วไปและกฎของภาษา
ในช่วงไม่กี่ปีที่ผ่านมา LLM ได้รับการฝึกอบรมล่วงหน้าเกี่ยวกับชุดข้อมูลที่ครอบคลุมส่วนสำคัญของอินเทอร์เน็ตสาธารณะ ตัวอย่างเช่น โมเดลภาษาของ GPT-3 ได้รับการฝึกโดยใช้ข้อมูลจาก การรวบรวมข้อมูลทั่วไป ชุดข้อมูล คลังบทความบนเว็บ หน้าเว็บ และหนังสือดิจิทัลที่คัดมาจากโดเมนกว่า 50 ล้านโดเมน
ชุดข้อมูลขนาดใหญ่จะถูกป้อนเข้าสู่แบบจำลองที่เรียกว่า หม้อแปลงไฟฟ้า. หม้อแปลงเป็นประเภทของ โครงข่ายประสาทลึก ที่ทำงานได้ดีที่สุดสำหรับข้อมูลตามลำดับ
หม้อแปลงใช้ สถาปัตยกรรมตัวเข้ารหัส-ตัวถอดรหัส สำหรับจัดการอินพุตและเอาต์พุต โดยพื้นฐานแล้ว หม้อแปลงประกอบด้วยเครือข่ายประสาทสองเครือข่าย: ตัวเข้ารหัสและตัวถอดรหัส ตัวเข้ารหัสสามารถแยกความหมายของข้อความที่ป้อนและจัดเก็บเป็นเวกเตอร์ได้ จากนั้นตัวถอดรหัสจะรับเวกเตอร์และสร้างการตีความข้อความ
อย่างไรก็ตาม แนวคิดหลักที่ทำให้สถาปัตยกรรมหม้อแปลงทำงานได้ดีคือการเพิ่ม กลไกการเอาใจใส่ตนเอง. แนวคิดเรื่องความใส่ใจในตนเองทำให้ตัวแบบสามารถใส่ใจกับคำที่สำคัญที่สุดในประโยคที่กำหนดได้ กลไกนี้พิจารณาถึงน้ำหนักระหว่างคำที่อยู่ห่างกันตามลำดับ
ข้อดีอีกประการของการเอาใจใส่ตนเองคือกระบวนการสามารถดำเนินไปพร้อมกันได้ แทนที่จะประมวลผลข้อมูลตามลำดับ แบบจำลองหม้อแปลงสามารถประมวลผลอินพุตทั้งหมดพร้อมกันได้ สิ่งนี้ทำให้ทรานส์ฟอร์เมอร์สามารถฝึกกับข้อมูลจำนวนมหาศาลได้ค่อนข้างเร็วเมื่อเทียบกับวิธีอื่นๆ
ปรับจูน
หลังจากขั้นตอนก่อนการฝึกอบรม คุณสามารถเลือกที่จะแนะนำข้อความใหม่สำหรับ LLM พื้นฐานเพื่อฝึกฝนต่อไป เราเรียกกระบวนการนี้ว่า ปรับจูน และมักใช้เพื่อปรับปรุงผลลัพธ์ของ LLM ในงานเฉพาะ
ตัวอย่างเช่น คุณอาจต้องการใช้ LLM เพื่อสร้างเนื้อหาสำหรับบัญชี Twitter ของคุณ เราสามารถให้แบบจำลองหลายตัวอย่างทวีตก่อนหน้าของคุณเพื่อให้ทราบผลลัพธ์ที่ต้องการ
มีการปรับแต่งแบบละเอียดที่แตกต่างกันสองสามประเภท
การเรียนรู้ไม่กี่ช็อตshot หมายถึงกระบวนการให้ตัวอย่างจำนวนน้อยแก่โมเดลด้วยความคาดหวังว่าโมเดลภาษาจะหาวิธีสร้างผลลัพธ์ที่คล้ายคลึงกัน การเรียนรู้เพียงครั้งเดียว เป็นกระบวนการที่คล้ายคลึงกัน ยกเว้นเพียงตัวอย่างเดียวเท่านั้นที่มีให้
ข้อจำกัดของโมเดลภาษาขนาดใหญ่
LLM เช่น GPT-3 สามารถใช้งานกรณีการใช้งานจำนวนมากได้แม้ไม่มีการปรับแต่งอย่างละเอียด อย่างไรก็ตาม โมเดลเหล่านี้ยังคงมีข้อจำกัดในตัวเอง
ขาดความเข้าใจความหมายของโลก
ที่ผิวเผิน LLMs ดูเหมือนจะแสดงความเฉลียวฉลาด อย่างไรก็ตาม โมเดลเหล่านี้ไม่ได้ทำงานในลักษณะเดียวกัน สมองมนุษย์ ทำ. LLMs อาศัยการคำนวณทางสถิติเพียงอย่างเดียวเพื่อสร้างผลลัพธ์ พวกเขาไม่มีความสามารถในการให้เหตุผลเกี่ยวกับแนวคิดและแนวคิดด้วยตนเอง
ด้วยเหตุนี้ LLM จึงสามารถแสดงคำตอบที่ไร้สาระเพียงเพราะคำที่ดูเหมือน "ถูกต้อง" หรือ "มีความเป็นไปได้ทางสถิติ" เมื่ออยู่ในลำดับนั้น
ภาพหลอน
โมเดลเช่น GPT-3 ก็ประสบกับการตอบสนองที่ไม่ถูกต้องเช่นกัน LLM อาจประสบกับปรากฏการณ์ที่เรียกว่า ภาพหลอน โดยที่ตัวแบบแสดงการตอบสนองที่ไม่ถูกต้องตามความเป็นจริงโดยไม่ได้ตระหนักว่าการตอบสนองนั้นไม่มีพื้นฐานในความเป็นจริง
ตัวอย่างเช่น ผู้ใช้อาจขอให้นางแบบอธิบายความคิดของ Steve Jobs เกี่ยวกับ iPhone รุ่นล่าสุด แบบจำลองอาจสร้างใบเสนอราคาจากอากาศที่เบาบางตามข้อมูลการฝึกอบรม
อคติและความรู้ที่จำกัด
เช่นเดียวกับอัลกอริธึมอื่น ๆ โมเดลภาษาขนาดใหญ่มีแนวโน้มที่จะสืบทอดอคติที่มีอยู่ในข้อมูลการฝึกอบรม เมื่อเราเริ่มพึ่งพา LLM มากขึ้นในการดึงข้อมูล ผู้พัฒนาโมเดลเหล่านี้ควรหาวิธีลดผลกระทบที่อาจเป็นอันตรายของการตอบสนองที่มีอคติ
ในความสามารถที่ใกล้เคียงกัน จุดบอดของข้อมูลการฝึกอบรมของโมเดลก็จะขัดขวางตัวโมเดลด้วยเช่นกัน ปัจจุบัน โมเดลภาษาขนาดใหญ่ใช้เวลาฝึกหลายเดือน โมเดลเหล่านี้ยังใช้ชุดข้อมูลที่มีขอบเขตจำกัดอีกด้วย ด้วยเหตุนี้ ChatGPT จึงมีความรู้จำกัดเกี่ยวกับเหตุการณ์ที่เกิดขึ้นหลังปี 2021
สรุป
โมเดลภาษาขนาดใหญ่มีศักยภาพในการเปลี่ยนแปลงวิธีที่เราโต้ตอบกับเทคโนโลยีและโลกของเราโดยทั่วไปอย่างแท้จริง
ข้อมูลจำนวนมหาศาลบนอินเทอร์เน็ตทำให้นักวิจัยมีวิธีสร้างแบบจำลองความซับซ้อนของภาษา อย่างไรก็ตาม ระหว่างทาง แบบจำลองภาษาเหล่านี้ดูเหมือนจะเข้าใจโลกอย่างที่มันเป็นเหมือนมนุษย์
เมื่อประชาชนเริ่มเชื่อถือโมเดลภาษาเหล่านี้เพื่อให้ผลลัพธ์ที่ถูกต้อง นักวิจัยและพัฒนาจึงหาวิธีเพิ่มเกราะป้องกันเพื่อให้เทคโนโลยียังคงถูกหลักจริยธรรม
คุณคิดว่าอนาคตของ LLM คืออะไร?
เขียนความเห็น