อะไรทำให้เกิดการปฏิวัติ AI กำเนิด?

สารบัญ[ซ่อน][แสดง]

การเพิ่มขึ้นของโครงข่ายประสาทเทียม
Transformers เปลี่ยนแปลงทุกสิ่ง
GPT-3 และอินเทอร์เน็ต
โมเดลการแพร่กระจาย: จากข้อความเป็นรูปภาพ
การปฏิวัติ AI เจเนอเรทีฟ: อะไรจะเกิดขึ้นต่อไป

เราน่าจะเป็นจุดเริ่มต้นของการปฏิวัติ AI เจนเนอเรชั่นใหม่

ปัญญาประดิษฐ์เชิงกำเนิดหมายถึงอัลกอริทึมและแบบจำลองที่สามารถสร้างเนื้อหาได้ เอาต์พุตของโมเดลดังกล่าวประกอบด้วยข้อความ เสียง และภาพที่มักถูกเข้าใจผิดว่าเป็นเอาต์พุตของมนุษย์จริง

แอพพลิเคชั่นเช่น ChatGPT ได้แสดงให้เห็นว่า AI กำเนิดไม่ได้เป็นเพียงสิ่งแปลกใหม่ ตอนนี้ AI สามารถทำตามคำแนะนำโดยละเอียดได้ และดูเหมือนว่าจะมีความเข้าใจอย่างลึกซึ้งเกี่ยวกับการทำงานของโลก

แต่เรามาถึงจุดนี้ได้อย่างไร? ในคู่มือนี้ เราจะกล่าวถึงความก้าวหน้าที่สำคัญบางประการในการวิจัย AI ซึ่งได้ปูทางสำหรับการปฏิวัติ AI แบบกำเนิดใหม่และน่าตื่นเต้นนี้

การเพิ่มขึ้นของโครงข่ายประสาทเทียม

คุณสามารถติดตามต้นกำเนิดของ AI สมัยใหม่ไปจนถึงการวิจัยได้ การเรียนรู้เชิงลึกและโครงข่ายประสาทเทียม ใน 2012

ในปีนั้น Alex Krizhevsky และทีมงานของเขาจากมหาวิทยาลัยโตรอนโตสามารถบรรลุอัลกอริทึมที่มีความแม่นยำสูงที่สามารถจำแนกวัตถุได้

พื้นที่ โครงข่ายประสาทเทียมที่ล้ำสมัยซึ่งปัจจุบันรู้จักกันในชื่อ AlexNet สามารถจัดประเภทออบเจกต์ในฐานข้อมูลภาพ ImageNet โดยมีอัตราข้อผิดพลาดต่ำกว่ารองอันดับต้นมาก

แผนภาพอเล็กซ์เน็ต

โครงข่ายประสาท เป็นอัลกอริทึมที่ใช้เครือข่ายของฟังก์ชันทางคณิตศาสตร์เพื่อเรียนรู้พฤติกรรมเฉพาะตามข้อมูลการฝึกบางอย่าง ตัวอย่างเช่น คุณสามารถป้อนข้อมูลทางการแพทย์ของโครงข่ายประสาทเทียมเพื่อฝึกโมเดลให้วินิจฉัยโรค เช่น มะเร็ง

ความหวังก็คือโครงข่ายประสาทเทียมจะค่อยๆ ค้นหารูปแบบในข้อมูล และจะแม่นยำยิ่งขึ้นเมื่อได้รับข้อมูลใหม่

AlexNet เป็นแอปพลิเคชั่นที่ก้าวล้ำของ a เครือข่ายประสาทเทียม หรือซีเอ็นเอ็น คำหลัก "convolutional" หมายถึงการเพิ่มเลเยอร์ convolutional ซึ่งให้ความสำคัญกับข้อมูลที่อยู่ใกล้กันมากขึ้น

ในขณะที่ CNNs เป็นแนวคิดอยู่แล้วในทศวรรษที่ 1980 แต่พวกเขาเริ่มได้รับความนิยมในช่วงต้นปี 2010 เมื่อเทคโนโลยี GPU ล่าสุดผลักดันเทคโนโลยีให้สูงขึ้นไปอีกขั้น

ความสำเร็จของซีเอ็นเอ็นในด้าน วิสัยทัศน์คอมพิวเตอร์ ทำให้เกิดความสนใจในการวิจัยโครงข่ายประสาทเทียมมากขึ้น

ยักษ์ใหญ่ด้านเทคโนโลยีอย่าง Google และ Facebook ตัดสินใจเปิดตัวเฟรมเวิร์ก AI ของตนเองต่อสาธารณะ API ระดับสูง เช่น Keras ให้อินเทอร์เฟซที่เป็นมิตรต่อผู้ใช้ในการทดลองกับโครงข่ายประสาทเทียมเชิงลึก

keras ให้วิธีที่เป็นมิตรกับผู้ใช้ในการทดลองกับโมเดลการเรียนรู้เชิงลึก

CNN เก่งในการจดจำภาพและวิเคราะห์วิดีโอ แต่มีปัญหาในการแก้ปัญหาเกี่ยวกับภาษา ข้อจำกัดนี้ในการประมวลผลภาษาธรรมชาติอาจมีอยู่ เนื่องจากแท้จริงแล้วรูปภาพและข้อความเป็นปัญหาที่แตกต่างกันโดยพื้นฐาน

ตัวอย่างเช่น หากคุณมีโมเดลที่จำแนกว่ารูปภาพมีสัญญาณไฟจราจรหรือไม่ สัญญาณไฟจราจรดังกล่าวสามารถปรากฏที่ใดก็ได้ในภาพ อย่างไรก็ตาม การผ่อนปรนในลักษณะนี้ใช้ไม่ได้ผลในภาษา ประโยค “Bob eat fish” และ “Fish eat Bob” มีความหมายต่างกันอย่างมากแม้จะใช้คำเดียวกันก็ตาม

เห็นได้ชัดว่านักวิจัยจำเป็นต้องค้นหาแนวทางใหม่ในการแก้ปัญหาเกี่ยวกับภาษามนุษย์

Transformers เปลี่ยนแปลงทุกสิ่ง

ใน 2017 เพื่อ รายงานการวิจัย ชื่อเรื่อง “Attention Is All You Need” นำเสนอเครือข่ายประเภทใหม่: Transformer

ในขณะที่ CNN ทำงานโดยการกรองส่วนเล็กๆ ของภาพซ้ำๆ หม้อแปลงจะเชื่อมต่อทุกองค์ประกอบในข้อมูลกับองค์ประกอบอื่นๆ ทุกองค์ประกอบ นักวิจัยเรียกกระบวนการนี้ว่า “การเอาใจใส่ตนเอง”

แผนภาพร่างของสถาปัตยกรรม CNN

เมื่อพยายามแยกวิเคราะห์ประโยค CNN และ Transformers ทำงานแตกต่างกันมาก ในขณะที่ CNN จะเน้นไปที่การเชื่อมต่อกับคำที่อยู่ใกล้กัน Transformer จะสร้างการเชื่อมต่อระหว่างแต่ละคำและทุกคำในประโยค

แผนภาพร่างสถาปัตยกรรมของหม้อแปลงไฟฟ้า

กระบวนการเอาใจใส่ตนเองเป็นส่วนสำคัญของการเข้าใจภาษามนุษย์ เมื่อซูมออกและดูว่าประโยคทั้งหมดเข้ากันได้อย่างไร เครื่องจักรจะสามารถเข้าใจโครงสร้างของประโยคได้ชัดเจนยิ่งขึ้น

เมื่อหม้อแปลงรุ่นแรกเปิดตัว ในไม่ช้านักวิจัยก็ใช้สถาปัตยกรรมใหม่นี้เพื่อใช้ประโยชน์จากข้อมูลข้อความจำนวนมหาศาลที่พบในอินเทอร์เน็ต

GPT-3 และอินเทอร์เน็ต

ในปี 2020 OpenAI จีพีที-3 แบบจำลองแสดงให้เห็นว่าหม้อแปลงมีประสิทธิภาพเพียงใด GPT-3 สามารถแสดงข้อความที่ดูเหมือนแทบจะแยกไม่ออกจากมนุษย์ ส่วนหนึ่งของสิ่งที่ทำให้ GPT-3 มีประสิทธิภาพมากคือจำนวนข้อมูลการฝึกอบรมที่ใช้ ชุดข้อมูลก่อนการฝึกอบรมของโมเดลส่วนใหญ่มาจากชุดข้อมูลที่เรียกว่า Common Crawl ซึ่งมาพร้อมกับโทเค็นมากกว่า 400 พันล้านโทเค็น

ในขณะที่ความสามารถของ GPT-3 ในการสร้างข้อความที่เหมือนจริงของมนุษย์นั้นถือเป็นเรื่องแปลกใหม่ แต่นักวิจัยก็ค้นพบว่าแบบจำลองเดียวกันสามารถแก้ปัญหางานอื่นๆ ได้อย่างไร

ตัวอย่างเช่น โมเดล GPT-3 เดียวกันกับที่คุณสามารถใช้สร้างทวีตสามารถช่วยคุณสรุปข้อความ เขียนย่อหน้าใหม่ และจบเรื่องราวได้ โมเดลภาษา มีประสิทธิภาพมากจนปัจจุบันกลายเป็นเครื่องมืออเนกประสงค์ที่ทำตามคำสั่งทุกประเภท

การปฏิวัติ ai กำเนิดถูกเร่งโดยโมเดลภาษาขนาดใหญ่เช่น gpt-3

ลักษณะการใช้งานทั่วไปของ GPT-3 อนุญาตให้ใช้งานในลักษณะดังกล่าวได้ นักบิน GitHub, ซึ่งช่วยให้โปรแกรมเมอร์สร้างรหัสการทำงานจากภาษาอังกฤษธรรมดา

การสาธิตของ Google Copilot การปฏิวัติ ai กำเนิดอาจส่งผลกระทบต่อแม้แต่โปรแกรมเมอร์ที่สร้าง ai

โมเดลการแพร่กระจาย: จากข้อความเป็นรูปภาพ

ความก้าวหน้าของ Transformers และ NLP ได้ปูทางไปสู่ AI กำเนิดในสาขาอื่นๆ

ในขอบเขตของการมองเห็นด้วยคอมพิวเตอร์ เราได้อธิบายแล้วว่าการเรียนรู้เชิงลึกช่วยให้เครื่องจักรเข้าใจภาพได้อย่างไร อย่างไรก็ตาม เรายังจำเป็นต้องหาวิธีให้ AI สร้างภาพเองแทนที่จะจัดประเภทภาพ

โมเดลสร้างภาพเช่น DALL-E 2, Stable Diffusion และ Midjourney ได้รับความนิยมเนื่องจากวิธีที่พวกเขาสามารถแปลงการป้อนข้อความเป็นรูปภาพได้

ตัวอย่างผลลัพธ์ของ dall-e 2

โมเดลภาพเหล่านี้อาศัยลักษณะสำคัญสองประการ: โมเดลที่เข้าใจความสัมพันธ์ระหว่างรูปภาพและข้อความ และโมเดลที่สามารถสร้างภาพความละเอียดสูงที่ตรงกับอินพุต

OpenAI's CLIP (Contrastive Language–Image Pre-training) เป็นโมเดลโอเพ่นซอร์สที่มีจุดมุ่งหมายเพื่อแก้ปัญหาด้านแรก เมื่อพิจารณาจากรูปภาพ โมเดล CLIP สามารถคาดการณ์คำอธิบายข้อความที่เกี่ยวข้องมากที่สุดสำหรับรูปภาพนั้นๆ

โมเดล CLIP ทำงานโดยเรียนรู้วิธีแยกคุณลักษณะที่สำคัญของรูปภาพและสร้างการนำเสนอรูปภาพที่ง่ายขึ้น

CLIP ทำหน้าที่เป็นสะพานเชื่อมระหว่างรูปภาพและข้อความ และช่วยย้ายการปฏิวัติ AI กำเนิดไปสู่ Visual Sphere

เมื่อผู้ใช้ป้อนข้อความตัวอย่างให้กับ DALL-E 2 อินพุตจะถูกแปลงเป็น "การฝังรูปภาพ" โดยใช้โมเดล CLIP เป้าหมายตอนนี้คือการหาวิธีสร้างรูปภาพที่ตรงกับการฝังรูปภาพที่สร้างขึ้น

AIs กำเนิดภาพล่าสุดใช้ แบบจำลองการแพร่กระจาย เพื่อรับมือกับงานสร้างภาพจริงๆ แบบจำลองการแพร่กระจายอาศัยโครงข่ายประสาทเทียมที่ได้รับการฝึกอบรมมาล่วงหน้าเพื่อให้ทราบวิธีขจัดสัญญาณรบกวนที่เพิ่มเข้ามาจากภาพ

ในระหว่างขั้นตอนการฝึกนี้ โครงข่ายประสาทเทียมสามารถเรียนรู้วิธีสร้างภาพความละเอียดสูงจากภาพสัญญาณรบกวนแบบสุ่มได้ในที่สุด เนื่องจากเรามีการจับคู่ข้อความและรูปภาพที่ CLIP จัดเตรียมไว้แล้ว เราจึงทำได้ ฝึกแบบจำลองการแพร่กระจาย ในการฝังภาพ CLIP เพื่อสร้างกระบวนการสร้างภาพใดๆ

การปฏิวัติ AI เจเนอเรทีฟ: อะไรจะเกิดขึ้นต่อไป

ตอนนี้เราอยู่ในจุดที่ความก้าวหน้าใน AI เชิงกำเนิดกำลังเกิดขึ้นทุกๆ สองสามวัน เมื่อ AI สร้างสื่อประเภทต่างๆ ได้ง่ายขึ้น เราควรกังวลว่าสิ่งนี้จะส่งผลกระทบต่อสังคมของเราอย่างไร

ในขณะที่ความกังวลเกี่ยวกับเครื่องจักรที่เข้ามาแทนที่คนงานมักจะอยู่ในบทสนทนาเสมอตั้งแต่มีการประดิษฐ์เครื่องจักรไอน้ำ แต่ดูเหมือนว่าครั้งนี้จะแตกต่างออกไปเล็กน้อย

เจเนอเรทีฟเอไอกำลังกลายเป็นเครื่องมืออเนกประสงค์ที่อาจขัดขวางอุตสาหกรรมที่ถือว่าปลอดภัยจากการเทคโอเวอร์ของเอไอ

เราต้องการโปรแกรมเมอร์หรือไม่หาก AI สามารถเริ่มเขียนโค้ดที่ไร้ที่ติจากคำแนะนำพื้นฐานไม่กี่ขั้นตอน ผู้คนจะจ้างครีเอทีฟหรือไม่หากพวกเขาสามารถใช้โมเดลเชิงสร้างสรรค์เพื่อสร้างผลลัพธ์ที่ต้องการในราคาที่ถูกกว่าได้

เป็นการยากที่จะคาดเดาอนาคตของการปฏิวัติ AI กำเนิด แต่ตอนนี้กล่องแพนดอร่าที่เป็นรูปเป็นร่างได้ถูกเปิดออกแล้ว ฉันหวังว่าเทคโนโลยีนี้จะช่วยให้เกิดนวัตกรรมที่น่าตื่นเต้นมากขึ้น ซึ่งสามารถส่งผลดีต่อโลกได้

อะไรทำให้เกิดการปฏิวัติ AI กำเนิด?

การเพิ่มขึ้นของโครงข่ายประสาทเทียม

Transformers เปลี่ยนแปลงทุกสิ่ง

GPT-3 และอินเทอร์เน็ต

โมเดลการแพร่กระจาย: จากข้อความเป็นรูปภาพ

การปฏิวัติ AI เจเนอเรทีฟ: อะไรจะเกิดขึ้นต่อไป

เกี่ยวกับเรา ดีออน เมเนอร์

บทความเพิ่มเติมเกี่ยวกับ HashDork:

วิธีลดอาการประสาทหลอนใน AI ของคุณ

โคลอสเซียน vs เฮย์เก้น

จดหมายข่าวเทคโนโลยีแห่งอนาคตนี้ไม่ห่วย

อะไรทำให้เกิดการปฏิวัติ AI กำเนิด?

การเพิ่มขึ้นของโครงข่ายประสาทเทียม

Transformers เปลี่ยนแปลงทุกสิ่ง

GPT-3 และอินเทอร์เน็ต

โมเดลการแพร่กระจาย: จากข้อความเป็นรูปภาพ

การปฏิวัติ AI เจเนอเรทีฟ: อะไรจะเกิดขึ้นต่อไป

เกี่ยวกับเรา ดีออน เมเนอร์

บทความเพิ่มเติมเกี่ยวกับ HashDork:

วิธีลดอาการประสาทหลอนใน AI ของคุณ

10 เครื่องมือ AI ที่ดีที่สุดสำหรับโซเชียลมีเดีย

โคลอสเซียน vs เฮย์เก้น

10 เครื่องมือสร้างวิดีโอแอนิเมชั่น AI ที่ดีที่สุด

ปฏิสัมพันธ์ของผู้อ่าน

เขียนความเห็น ยกเลิกการตอบ

จดหมายข่าวเทคโนโลยีแห่งอนาคตนี้ไม่ห่วย