โดยทั่วไป โมเดลกำเนิดเชิงลึก เช่น GAN, VAE และแบบจำลองการถดถอยอัตโนมัติจะจัดการกับปัญหาการสังเคราะห์ภาพ
ด้วยข้อมูลคุณภาพสูงที่พวกเขาสร้างขึ้น เครือข่ายปฏิปักษ์เชิงกำเนิด (GAN) ได้รับความสนใจอย่างมากในช่วงไม่กี่ปีที่ผ่านมา
แบบจำลองการแพร่กระจายเป็นอีกสาขาวิชาหนึ่งที่น่าสนใจที่สร้างขึ้นเอง เขตข้อมูลของการสร้างภาพ วิดีโอ และเสียงทั้งสองพบว่ามีการใช้กันอย่างแพร่หลายสำหรับทั้งคู่
แบบจำลองการแพร่กระจายเทียบกับ GAN: แบบใดให้ผลลัพธ์ที่ดีกว่า แน่นอนว่าสิ่งนี้นำไปสู่การอภิปรายอย่างต่อเนื่อง
ในสถาปัตยกรรมการคำนวณที่เรียกว่า GAN สอง เครือข่ายประสาทเทียม กำลังต่อสู้กันเองเพื่อสร้างอินสแตนซ์ข้อมูลที่สังเคราะห์ขึ้นใหม่ซึ่งสามารถส่งต่อข้อมูลของแท้ได้
โมเดลการแพร่กระจายกำลังได้รับความนิยมมากขึ้นเรื่อย ๆ เนื่องจากมีความเสถียรในการฝึกฝนและให้ผลลัพธ์สูงในการผลิตเพลงและกราฟิก
บทความนี้จะกล่าวถึงรายละเอียดเกี่ยวกับรูปแบบการแพร่กระจายและ GAN รวมถึงความแตกต่างจากที่อื่นและเรื่องอื่นๆ อีกเล็กน้อย
แล้ว Generative Adversarial Networks คืออะไร?
เพื่อสร้างอินสแตนซ์ของข้อมูลใหม่ที่อาจเข้าใจผิดว่าเป็นข้อมูลจริง เครือข่าย generative adversarial (GAN) ใช้เครือข่ายประสาทเทียม XNUMX เครือข่ายและแยกแต่ละเครือข่ายเข้าด้วยกัน (จึงเป็น "ฝ่ายตรงข้าม" ในชื่อ)
มีการใช้กันอย่างแพร่หลายสำหรับคำพูด วิดีโอ และการสร้างภาพ
วัตถุประสงค์ของ GAN คือการสร้างข้อมูลที่ยังไม่ได้ค้นพบก่อนหน้านี้จากชุดข้อมูลเฉพาะ ความพยายามที่จะอนุมานแบบจำลองของการกระจายข้อมูลพื้นฐานที่ไม่สามารถระบุได้จริงจากกลุ่มตัวอย่าง ทำเช่นนี้
อีกทางหนึ่งคือเครือข่ายเหล่านี้เป็นแบบจำลองโดยนัยที่พยายามเรียนรู้การแจกแจงทางสถิติเฉพาะ
วิธีที่ GAN ใช้ในการค้นพบวิธีการบรรลุเป้าหมายนี้เป็นเรื่องแปลกใหม่ อันที่จริงแล้ว พวกเขาสร้างข้อมูลโดยการเล่นเกมที่มีผู้เล่นสองคนเพื่อพัฒนาแบบจำลองโดยนัย
ต่อไปนี้อธิบายโครงสร้าง:
- ผู้แยกแยะที่ได้รับความสามารถในการแยกความแตกต่างระหว่างข้อมูลจริงและปลอม
- เครื่องกำเนิดที่เลือกวิธีการใหม่ ๆ ในการสร้างข้อมูลสามารถหลอกลวงผู้เลือกปฏิบัติได้
ผู้เลือกปฏิบัติวางตัวเป็นโครงข่ายประสาทเทียม ดังนั้นตัวสร้างจึงต้องสร้างภาพที่มีคุณภาพสูงเพื่อหลอกล่อ
ความจริงที่ว่าเครื่องกำเนิดไฟฟ้าเหล่านี้ไม่ได้รับการฝึกฝนโดยใช้การกระจายเอาต์พุตเป็นข้อแตกต่างที่สำคัญระหว่างรุ่น autoencoder และรุ่นอื่นๆ
มีสองวิธีในการย่อยสลายฟังก์ชันการสูญเสียของแบบจำลอง:
- ความสามารถในการหาจำนวนหากผู้เลือกปฏิบัติมองเห็นข้อมูลจริงได้อย่างแม่นยำ
- ข้อมูลที่สร้างขึ้นถูกคาดการณ์อย่างแม่นยำโดยส่วนหนึ่ง
ในการเลือกปฏิบัติที่ดีที่สุด ฟังก์ชันการสูญเสียนี้จะถูกย่อให้เล็กสุด:
ดังนั้น โมเดลทั่วไปจึงสามารถคิดได้ว่าเป็นโมเดลการลดระยะทาง และหากตัวแบ่งแยกเป็นอุดมคติ จะเป็นการลดความแตกต่างระหว่างการแจกแจงจริงและที่เกิดขึ้นจริง
ในความเป็นจริง อาจใช้ความแตกต่างที่แตกต่างกันและส่งผลให้วิธีการฝึกอบรม GAN ต่างๆ
พลวัตการเรียนรู้ซึ่งรวมถึงการแลกเปลี่ยนระหว่างตัวสร้างและตัวแบ่งแยกนั้นเป็นสิ่งที่ท้าทายในการติดตาม แม้จะปรับฟังก์ชันการสูญเสียของ GAN ได้ง่ายก็ตาม
นอกจากนี้ยังไม่มีการรับประกันว่าการเรียนรู้จะมาบรรจบกัน ด้วยเหตุนี้ การฝึกโมเดล GAN จึงเป็นเรื่องยาก เนื่องจากเป็นเรื่องปกติที่จะพบปัญหาต่างๆ เช่น การไล่ระดับสีที่หายไปและการล่มสลายของโหมด (เมื่อไม่มีความหลากหลายในตัวอย่างที่สร้างขึ้น)
ถึงเวลาสำหรับโมเดลการแพร่กระจาย
ปัญหาของการลู่เข้าการฝึกอบรมของ GAN ได้รับการแก้ไขแล้วผ่านการพัฒนาแบบจำลองการแพร่กระจาย
โมเดลเหล่านี้สันนิษฐานว่ากระบวนการแพร่กระจายเทียบเท่ากับการสูญเสียข้อมูลที่เกิดจากการรบกวนแบบก้าวหน้าของสัญญาณรบกวน
จุดประสงค์ของแบบจำลองดังกล่าวคือเพื่อกำหนดว่าเสียงมีผลกระทบต่อข้อมูลที่มีอยู่ในตัวอย่างอย่างไร หรือกล่าวอีกนัยหนึ่งคือ ข้อมูลจะสูญหายไปเนื่องจากการแพร่ระบาดมากน้อยเพียงใด
หากตัวแบบสามารถเข้าใจสิ่งนี้ได้ ก็ควรจะสามารถดึงตัวอย่างต้นฉบับและยกเลิกการสูญหายของข้อมูลที่เกิดขึ้นได้
ทำได้โดยใช้แบบจำลองการแพร่กระจายแบบดีนอยซิ่ง กระบวนการส่งต่อและกระบวนการแพร่กระจายย้อนกลับประกอบขึ้นเป็นสองขั้นตอน
กระบวนการแพร่กระจายไปข้างหน้าจะค่อยๆ เพิ่มสัญญาณรบกวนแบบเกาส์เซียน (เช่น กระบวนการแพร่) จนกว่าข้อมูลจะปนเปื้อนสัญญาณรบกวนอย่างสมบูรณ์
โครงข่ายประสาทเทียมได้รับการฝึกอบรมในภายหลังโดยใช้วิธีการแพร่กระจายย้อนกลับเพื่อเรียนรู้ความน่าจะเป็นของการแจกแจงแบบมีเงื่อนไขเพื่อย้อนกลับสัญญาณรบกวน
ที่นี่คุณสามารถเข้าใจเพิ่มเติมเกี่ยวกับ แบบจำลองการแพร่กระจาย.
แบบจำลองการแพร่กระจาย Vs GANs
เช่นเดียวกับแบบจำลองการแพร่กระจาย GAN สร้างภาพจากสัญญาณรบกวน
โมเดลนี้ประกอบด้วยโครงข่ายประสาทเทียม ซึ่งเริ่มต้นด้วยสัญญาณรบกวนของตัวแปรปรับสภาพข้อมูลบางอย่าง เช่น ป้ายกำกับคลาสหรือการเข้ารหัสข้อความ
ผลลัพธ์ควรเป็นสิ่งที่คล้ายกับภาพที่เหมือนจริง
ในการสร้างภาพที่เหมือนจริงและมีความเที่ยงตรงสูง เราใช้ GAN ภาพที่สมจริงยิ่งกว่า GAN ถูกสร้างขึ้นโดยใช้แบบจำลองการแพร่กระจาย
ในทางหนึ่ง แบบจำลองการแพร่กระจายมีความแม่นยำมากขึ้นในการอธิบายข้อเท็จจริง
ในขณะที่ GAN ใช้เป็นอินพุตสุ่มสัญญาณรบกวนหรือตัวแปรปรับสภาพคลาสและส่งออกตัวอย่างที่เหมือนจริง แบบจำลองการแพร่กระจายมักจะช้ากว่า ทำซ้ำ และต้องการคำแนะนำเพิ่มเติม
ไม่มีที่ว่างสำหรับข้อผิดพลาดมากนักเมื่อใช้การ Denoising ซ้ำๆ โดยมีเป้าหมายเพื่อกลับไปเป็นภาพต้นฉบับจากสัญญาณรบกวน
แต่ละจุดตรวจจะถูกส่งผ่านตลอดขั้นตอนการสร้าง และในแต่ละขั้นตอน รูปภาพอาจได้รับข้อมูลมากขึ้นเรื่อยๆ
สรุป
โดยสรุป เนื่องจากงานวิจัยที่สำคัญเพียงไม่กี่ชิ้นที่เผยแพร่ในปี 2020 และ 2021 เท่านั้น แบบจำลองการแพร่กระจายจึงมีประสิทธิภาพเหนือกว่า GAN ในแง่ของการสังเคราะห์ภาพ
ปีนี้ OpenAI เปิดตัว DALL-E2ซึ่งเป็นแบบจำลองการผลิตภาพที่อนุญาตให้ผู้ปฏิบัติงานใช้แบบจำลองการแพร่กระจาย
แม้ว่า GAN จะล้ำสมัย แต่ข้อจำกัดเหล่านี้ทำให้ยากต่อการปรับขนาดและใช้ในบริบทใหม่
เพื่อให้ได้คุณภาพตัวอย่างที่เหมือน GAN โดยใช้แบบจำลองที่อิงตามความน่าจะเป็น จึงได้มีการใส่งานจำนวนมากลงไป
เขียนความเห็น