เราน่าจะเป็นจุดเริ่มต้นของการปฏิวัติ AI เจนเนอเรชั่นใหม่
ปัญญาประดิษฐ์เชิงกำเนิดหมายถึงอัลกอริทึมและแบบจำลองที่สามารถสร้างเนื้อหาได้ เอาต์พุตของโมเดลดังกล่าวประกอบด้วยข้อความ เสียง และภาพที่มักถูกเข้าใจผิดว่าเป็นเอาต์พุตของมนุษย์จริง
แอพพลิเคชั่นเช่น ChatGPT ได้แสดงให้เห็นว่า AI กำเนิดไม่ได้เป็นเพียงสิ่งแปลกใหม่ ตอนนี้ AI สามารถทำตามคำแนะนำโดยละเอียดได้ และดูเหมือนว่าจะมีความเข้าใจอย่างลึกซึ้งเกี่ยวกับการทำงานของโลก
แต่เรามาถึงจุดนี้ได้อย่างไร? ในคู่มือนี้ เราจะกล่าวถึงความก้าวหน้าที่สำคัญบางประการในการวิจัย AI ซึ่งได้ปูทางสำหรับการปฏิวัติ AI แบบกำเนิดใหม่และน่าตื่นเต้นนี้
การเพิ่มขึ้นของโครงข่ายประสาทเทียม
คุณสามารถติดตามต้นกำเนิดของ AI สมัยใหม่ไปจนถึงการวิจัยได้ การเรียนรู้เชิงลึกและโครงข่ายประสาทเทียม ใน 2012
ในปีนั้น Alex Krizhevsky และทีมงานของเขาจากมหาวิทยาลัยโตรอนโตสามารถบรรลุอัลกอริทึมที่มีความแม่นยำสูงที่สามารถจำแนกวัตถุได้
พื้นที่ โครงข่ายประสาทเทียมที่ล้ำสมัยซึ่งปัจจุบันรู้จักกันในชื่อ AlexNet สามารถจัดประเภทออบเจกต์ในฐานข้อมูลภาพ ImageNet โดยมีอัตราข้อผิดพลาดต่ำกว่ารองอันดับต้นมาก
โครงข่ายประสาท เป็นอัลกอริทึมที่ใช้เครือข่ายของฟังก์ชันทางคณิตศาสตร์เพื่อเรียนรู้พฤติกรรมเฉพาะตามข้อมูลการฝึกบางอย่าง ตัวอย่างเช่น คุณสามารถป้อนข้อมูลทางการแพทย์ของโครงข่ายประสาทเทียมเพื่อฝึกโมเดลให้วินิจฉัยโรค เช่น มะเร็ง
ความหวังก็คือโครงข่ายประสาทเทียมจะค่อยๆ ค้นหารูปแบบในข้อมูล และจะแม่นยำยิ่งขึ้นเมื่อได้รับข้อมูลใหม่
AlexNet เป็นแอปพลิเคชั่นที่ก้าวล้ำของ a เครือข่ายประสาทเทียม หรือซีเอ็นเอ็น คำหลัก "convolutional" หมายถึงการเพิ่มเลเยอร์ convolutional ซึ่งให้ความสำคัญกับข้อมูลที่อยู่ใกล้กันมากขึ้น
ในขณะที่ CNNs เป็นแนวคิดอยู่แล้วในทศวรรษที่ 1980 แต่พวกเขาเริ่มได้รับความนิยมในช่วงต้นปี 2010 เมื่อเทคโนโลยี GPU ล่าสุดผลักดันเทคโนโลยีให้สูงขึ้นไปอีกขั้น
ความสำเร็จของซีเอ็นเอ็นในด้าน วิสัยทัศน์คอมพิวเตอร์ ทำให้เกิดความสนใจในการวิจัยโครงข่ายประสาทเทียมมากขึ้น
ยักษ์ใหญ่ด้านเทคโนโลยีอย่าง Google และ Facebook ตัดสินใจเปิดตัวเฟรมเวิร์ก AI ของตนเองต่อสาธารณะ API ระดับสูง เช่น Keras ให้อินเทอร์เฟซที่เป็นมิตรต่อผู้ใช้ในการทดลองกับโครงข่ายประสาทเทียมเชิงลึก
CNN เก่งในการจดจำภาพและวิเคราะห์วิดีโอ แต่มีปัญหาในการแก้ปัญหาเกี่ยวกับภาษา ข้อจำกัดนี้ในการประมวลผลภาษาธรรมชาติอาจมีอยู่ เนื่องจากแท้จริงแล้วรูปภาพและข้อความเป็นปัญหาที่แตกต่างกันโดยพื้นฐาน
ตัวอย่างเช่น หากคุณมีโมเดลที่จำแนกว่ารูปภาพมีสัญญาณไฟจราจรหรือไม่ สัญญาณไฟจราจรดังกล่าวสามารถปรากฏที่ใดก็ได้ในภาพ อย่างไรก็ตาม การผ่อนปรนในลักษณะนี้ใช้ไม่ได้ผลในภาษา ประโยค “Bob eat fish” และ “Fish eat Bob” มีความหมายต่างกันอย่างมากแม้จะใช้คำเดียวกันก็ตาม
เห็นได้ชัดว่านักวิจัยจำเป็นต้องค้นหาแนวทางใหม่ในการแก้ปัญหาเกี่ยวกับภาษามนุษย์
Transformers เปลี่ยนแปลงทุกสิ่ง
ใน 2017 เพื่อ รายงานการวิจัย ชื่อเรื่อง “Attention Is All You Need” นำเสนอเครือข่ายประเภทใหม่: Transformer
ในขณะที่ CNN ทำงานโดยการกรองส่วนเล็กๆ ของภาพซ้ำๆ หม้อแปลงจะเชื่อมต่อทุกองค์ประกอบในข้อมูลกับองค์ประกอบอื่นๆ ทุกองค์ประกอบ นักวิจัยเรียกกระบวนการนี้ว่า “การเอาใจใส่ตนเอง”
เมื่อพยายามแยกวิเคราะห์ประโยค CNN และ Transformers ทำงานแตกต่างกันมาก ในขณะที่ CNN จะเน้นไปที่การเชื่อมต่อกับคำที่อยู่ใกล้กัน Transformer จะสร้างการเชื่อมต่อระหว่างแต่ละคำและทุกคำในประโยค
กระบวนการเอาใจใส่ตนเองเป็นส่วนสำคัญของการเข้าใจภาษามนุษย์ เมื่อซูมออกและดูว่าประโยคทั้งหมดเข้ากันได้อย่างไร เครื่องจักรจะสามารถเข้าใจโครงสร้างของประโยคได้ชัดเจนยิ่งขึ้น
เมื่อหม้อแปลงรุ่นแรกเปิดตัว ในไม่ช้านักวิจัยก็ใช้สถาปัตยกรรมใหม่นี้เพื่อใช้ประโยชน์จากข้อมูลข้อความจำนวนมหาศาลที่พบในอินเทอร์เน็ต
GPT-3 และอินเทอร์เน็ต
ในปี 2020 OpenAI จีพีที-3 แบบจำลองแสดงให้เห็นว่าหม้อแปลงมีประสิทธิภาพเพียงใด GPT-3 สามารถแสดงข้อความที่ดูเหมือนแทบจะแยกไม่ออกจากมนุษย์ ส่วนหนึ่งของสิ่งที่ทำให้ GPT-3 มีประสิทธิภาพมากคือจำนวนข้อมูลการฝึกอบรมที่ใช้ ชุดข้อมูลก่อนการฝึกอบรมของโมเดลส่วนใหญ่มาจากชุดข้อมูลที่เรียกว่า Common Crawl ซึ่งมาพร้อมกับโทเค็นมากกว่า 400 พันล้านโทเค็น
ในขณะที่ความสามารถของ GPT-3 ในการสร้างข้อความที่เหมือนจริงของมนุษย์นั้นถือเป็นเรื่องแปลกใหม่ แต่นักวิจัยก็ค้นพบว่าแบบจำลองเดียวกันสามารถแก้ปัญหางานอื่นๆ ได้อย่างไร
ตัวอย่างเช่น โมเดล GPT-3 เดียวกันกับที่คุณสามารถใช้สร้างทวีตสามารถช่วยคุณสรุปข้อความ เขียนย่อหน้าใหม่ และจบเรื่องราวได้ โมเดลภาษา มีประสิทธิภาพมากจนปัจจุบันกลายเป็นเครื่องมืออเนกประสงค์ที่ทำตามคำสั่งทุกประเภท
ลักษณะการใช้งานทั่วไปของ GPT-3 อนุญาตให้ใช้งานในลักษณะดังกล่าวได้ นักบิน GitHub, ซึ่งช่วยให้โปรแกรมเมอร์สร้างรหัสการทำงานจากภาษาอังกฤษธรรมดา
โมเดลการแพร่กระจาย: จากข้อความเป็นรูปภาพ
ความก้าวหน้าของ Transformers และ NLP ได้ปูทางไปสู่ AI กำเนิดในสาขาอื่นๆ
ในขอบเขตของการมองเห็นด้วยคอมพิวเตอร์ เราได้อธิบายแล้วว่าการเรียนรู้เชิงลึกช่วยให้เครื่องจักรเข้าใจภาพได้อย่างไร อย่างไรก็ตาม เรายังจำเป็นต้องหาวิธีให้ AI สร้างภาพเองแทนที่จะจัดประเภทภาพ
โมเดลสร้างภาพเช่น DALL-E 2, Stable Diffusion และ Midjourney ได้รับความนิยมเนื่องจากวิธีที่พวกเขาสามารถแปลงการป้อนข้อความเป็นรูปภาพได้
โมเดลภาพเหล่านี้อาศัยลักษณะสำคัญสองประการ: โมเดลที่เข้าใจความสัมพันธ์ระหว่างรูปภาพและข้อความ และโมเดลที่สามารถสร้างภาพความละเอียดสูงที่ตรงกับอินพุต
OpenAI's CLIP (Contrastive Language–Image Pre-training) เป็นโมเดลโอเพ่นซอร์สที่มีจุดมุ่งหมายเพื่อแก้ปัญหาด้านแรก เมื่อพิจารณาจากรูปภาพ โมเดล CLIP สามารถคาดการณ์คำอธิบายข้อความที่เกี่ยวข้องมากที่สุดสำหรับรูปภาพนั้นๆ
โมเดล CLIP ทำงานโดยเรียนรู้วิธีแยกคุณลักษณะที่สำคัญของรูปภาพและสร้างการนำเสนอรูปภาพที่ง่ายขึ้น
เมื่อผู้ใช้ป้อนข้อความตัวอย่างให้กับ DALL-E 2 อินพุตจะถูกแปลงเป็น "การฝังรูปภาพ" โดยใช้โมเดล CLIP เป้าหมายตอนนี้คือการหาวิธีสร้างรูปภาพที่ตรงกับการฝังรูปภาพที่สร้างขึ้น
AIs กำเนิดภาพล่าสุดใช้ แบบจำลองการแพร่กระจาย เพื่อรับมือกับงานสร้างภาพจริงๆ แบบจำลองการแพร่กระจายอาศัยโครงข่ายประสาทเทียมที่ได้รับการฝึกอบรมมาล่วงหน้าเพื่อให้ทราบวิธีขจัดสัญญาณรบกวนที่เพิ่มเข้ามาจากภาพ
ในระหว่างขั้นตอนการฝึกนี้ โครงข่ายประสาทเทียมสามารถเรียนรู้วิธีสร้างภาพความละเอียดสูงจากภาพสัญญาณรบกวนแบบสุ่มได้ในที่สุด เนื่องจากเรามีการจับคู่ข้อความและรูปภาพที่ CLIP จัดเตรียมไว้แล้ว เราจึงทำได้ ฝึกแบบจำลองการแพร่กระจาย ในการฝังภาพ CLIP เพื่อสร้างกระบวนการสร้างภาพใดๆ
การปฏิวัติ AI เจเนอเรทีฟ: อะไรจะเกิดขึ้นต่อไป
ตอนนี้เราอยู่ในจุดที่ความก้าวหน้าใน AI เชิงกำเนิดกำลังเกิดขึ้นทุกๆ สองสามวัน เมื่อ AI สร้างสื่อประเภทต่างๆ ได้ง่ายขึ้น เราควรกังวลว่าสิ่งนี้จะส่งผลกระทบต่อสังคมของเราอย่างไร
ในขณะที่ความกังวลเกี่ยวกับเครื่องจักรที่เข้ามาแทนที่คนงานมักจะอยู่ในบทสนทนาเสมอตั้งแต่มีการประดิษฐ์เครื่องจักรไอน้ำ แต่ดูเหมือนว่าครั้งนี้จะแตกต่างออกไปเล็กน้อย
เจเนอเรทีฟเอไอกำลังกลายเป็นเครื่องมืออเนกประสงค์ที่อาจขัดขวางอุตสาหกรรมที่ถือว่าปลอดภัยจากการเทคโอเวอร์ของเอไอ
เราต้องการโปรแกรมเมอร์หรือไม่หาก AI สามารถเริ่มเขียนโค้ดที่ไร้ที่ติจากคำแนะนำพื้นฐานไม่กี่ขั้นตอน ผู้คนจะจ้างครีเอทีฟหรือไม่หากพวกเขาสามารถใช้โมเดลเชิงสร้างสรรค์เพื่อสร้างผลลัพธ์ที่ต้องการในราคาที่ถูกกว่าได้
เป็นการยากที่จะคาดเดาอนาคตของการปฏิวัติ AI กำเนิด แต่ตอนนี้กล่องแพนดอร่าที่เป็นรูปเป็นร่างได้ถูกเปิดออกแล้ว ฉันหวังว่าเทคโนโลยีนี้จะช่วยให้เกิดนวัตกรรมที่น่าตื่นเต้นมากขึ้น ซึ่งสามารถส่งผลดีต่อโลกได้
เขียนความเห็น