แบบจำลองการแพร่กระจายได้กวาดล้างโลกด้วยพายุด้วยการเปิดตัว ดัล-อี 2, Imagen ของ Google, การแพร่กระจายที่เสถียรและ กลางการเดินทางจุดประกายนวัตกรรมและขยายขอบเขตการเรียนรู้ของเครื่อง
โมเดลเหล่านี้สามารถสร้างรูปภาพได้ไม่จำกัดจำนวนเกือบทั้งหมดจากการแจ้งคำ ซึ่งรวมถึงรูปภาพที่เหมือนจริง มหัศจรรย์ ล้ำยุค และแน่นอน รูปภาพน่ารัก
ความสามารถเหล่านี้พลิกโฉมความหมายของการที่มนุษย์เชื่อมต่อกับซิลิคอน ทำให้เราสามารถสร้างภาพตามที่เราจินตนาการได้
เมื่อแบบจำลองเหล่านี้พัฒนาขึ้นหรือกระบวนทัศน์การกำเนิดใหม่เข้ามาแทนที่ มนุษย์จะสามารถสร้างภาพ ภาพยนตร์ และประสบการณ์ที่ดื่มด่ำอื่นๆ ด้วยความคิดเท่านั้น
ในโพสต์นี้เราจะพูดถึงไฟล์ แบบจำลองการแพร่กระจาย, การแพร่กระจายที่เสถียร, วิธีการทำงาน และรูปแบบการแพร่ภาพในบทแนะนำการวาดภาพ และอีกมากมาย
รูปแบบการแพร่กระจายคืออะไร?
โมเดลการเรียนรู้ของเครื่องที่สามารถสร้างข้อมูลใหม่จากข้อมูลการฝึกอบรมเรียกว่าแบบจำลองกำเนิด โมเดลกำเนิดอื่นๆ ได้แก่ โมเดลตามโฟลว์ ตัวเข้ารหัสอัตโนมัติแบบแปรผัน และเครือข่ายปฏิปักษ์กำเนิด (GAN)
แต่ละคนสามารถสร้างภาพที่มีคุณภาพดีเยี่ยมได้ แบบจำลองการแพร่กระจายเรียนรู้ที่จะกู้คืนข้อมูลโดยการย้อนกลับกระบวนการเพิ่มสัญญาณรบกวนนี้หลังจากสร้างความเสียหายให้กับข้อมูลการฝึกโดยการเพิ่มสัญญาณรบกวน กล่าวอีกนัยหนึ่ง โมเดลการแพร่กระจายสามารถสร้างภาพที่เชื่อมโยงกันจากจุดรบกวนได้
แบบจำลองการแพร่กระจายเรียนรู้โดยการแนะนำจุดรบกวนให้กับรูปภาพ ซึ่งต่อมาแบบจำลองจะเชี่ยวชาญในการกำจัดสัญญาณรบกวน ในการสร้างภาพที่สมจริง นางแบบจึงใช้เทคนิคการลดทอนสัญญาณนี้กับเมล็ดแบบสุ่ม
โดยการปรับสภาพกระบวนการผลิตรูปภาพ โมเดลเหล่านี้สามารถใช้ร่วมกับคำแนะนำข้อความเป็นรูปภาพเพื่อสร้างรูปภาพจากข้อความเพียงอย่างเดียวได้ไม่จำกัดจำนวน เมล็ดพืชสามารถควบคุมได้โดยอินพุตจากการฝัง เช่น CLIP เพื่อให้มีความสามารถในการแปลงข้อความเป็นรูปภาพ
โมเดลการแพร่กระจายสามารถทำงานต่างๆ ได้หลากหลาย รวมถึงการสร้างภาพ การลบภาพ การลงสี การลงสี และการกระจายบิต
ทีนี้ การแพร่กระจายที่เสถียรคืออะไร?
Stable Diffusion เป็นโมเดลการเรียนรู้ของเครื่องสำหรับการสร้างรูปภาพแบบข้อความโดย ความเสถียร.AI. สามารถสร้างรูปภาพจากข้อความได้
ส่วนประกอบของการแพร่กระจายที่เสถียร
การแพร่กระจายที่เสถียร เป็นระบบที่ประกอบด้วยองค์ประกอบและแนวคิดหลายอย่าง มันไม่ใช่รุ่นเดียว เมื่อเราตรวจสอบเบื้องหลังฮูด สิ่งแรกที่เราเห็นคือมีคอมโพเนนต์การทำความเข้าใจข้อความที่แปลงข้อมูลข้อความเป็นการแสดงตัวเลขที่จับแนวคิดของข้อความ
เราสามารถเรียกตัวเข้ารหัสข้อความนี้ว่า Transformer แบบจำลองภาษา (ในทางเทคนิค: ตัวเข้ารหัสข้อความของโมเดล CLIP) ใช้ข้อความอินพุตและสร้างรายการจำนวนเต็ม (เวกเตอร์) สำหรับแต่ละคำ/โทเค็นในข้อความ ข้อมูลดังกล่าวจะถูกส่งไปยัง Image Generator ซึ่งประกอบด้วยส่วนประกอบหลายอย่าง
มีสองขั้นตอนในโปรแกรมสร้างภาพ:
1. ผู้สร้างข้อมูลรูปภาพ
องค์ประกอบหลักใน Stable Diffusion คือองค์ประกอบนี้ เป็นที่ที่มีการปรับปรุงประสิทธิภาพส่วนใหญ่มากกว่าเวอร์ชันก่อนหน้า
ส่วนประกอบนี้ผ่านหลายขั้นตอนเพื่อให้ข้อมูลรูปภาพ ผู้สร้างข้อมูลรูปภาพทำงานเฉพาะภายในพื้นที่ข้อมูลรูปภาพ (หรือพื้นที่แฝง)
เร็วกว่ารุ่นการแพร่กระจายก่อนหน้านี้ที่ทำงานในพื้นที่พิกเซลเนื่องจากคุณลักษณะนี้ ในทางเทคนิค องค์ประกอบนี้ประกอบด้วยอัลกอริธึมการตั้งเวลาและ UNet เครือข่ายประสาท.
กระบวนการที่เกิดขึ้นในส่วนนี้เรียกว่า "การแพร่กระจาย" ในที่สุดรูปภาพคุณภาพสูงก็ถูกสร้างขึ้นอันเป็นผลมาจากการประมวลผลข้อมูลเป็นขั้นตอน (โดยองค์ประกอบถัดไปคือตัวถอดรหัสรูปภาพ)
2. ตัวถอดรหัสภาพ
การใช้ข้อมูลที่ได้รับจากผู้ผลิตข้อมูล ตัวถอดรหัสรูปภาพจะสร้างรูปภาพขึ้นมา มันดำเนินการเพียงครั้งเดียวเพื่อสร้างภาพพิกเซลที่เสร็จสิ้นเมื่อสิ้นสุดการดำเนินการ
กวดวิชา Impainting การแพร่กระจายที่มั่นคง
การเพ้นท์ภาพแบบ Stable Diffusion เป็นเทคนิคการเติมส่วนที่ขาดหายหรือเสียหายของรูปภาพ จุดประสงค์ของการวาดภาพในภาพวาดคือเพื่อปกปิดความจริงที่ว่าภาพนั้นได้รับการฟื้นฟูแล้ว
เทคนิคนี้มักใช้เพื่อขจัดสิ่งที่ไม่ต้องการออกจากภาพหรือเพื่อฟื้นฟูพื้นที่ที่เสียหายของภาพถ่ายประวัติศาสตร์ Stable Diffusion Inpainting เป็นวิธีการใหม่ล่าสุดในการลงสีที่ได้ผลดี
การปฏิบัติตามคำแนะนำด้านล่างจะช่วยให้คุณเริ่มสำรวจการลงสีและแก้ไขภาพถ่ายที่มีอยู่ได้ หากคุณต้องการลองวาดภาพด้วยการกระจายภาพแบบคงที่:
- ไปที่ Huggingface การแพร่เชื้ออย่างเสถียร
- อัพโหลดภาพของคุณเอง
- ลบส่วนของภาพที่ต้องการเปลี่ยน
- ป้อนข้อความแจ้งของคุณที่นี่ (สิ่งที่คุณต้องการเพิ่มแทนสิ่งที่คุณกำลังลบ)
- เลือก “วิ่ง”
ในวิดีโอด้านบน เราอัปโหลดรูปภาพที่มีมะนาวสามลูกแล้วเปลี่ยนเป็นแอปเปิ้ล โดยส่วนตัวแล้วฉันแนะนำให้ลองใช้รูปถ่ายและข้อความแจ้งของคุณเอง
สรุป
โดยทั่วไปแล้ว การแพร่ภาพแบบคงที่เป็นวิธีที่ยอดเยี่ยมในการสร้างภาพหรือวิดีโอปลอมที่ดูเหมือนของจริงอย่างยิ่ง เมื่อเราก้าวไปสู่ความก้าวหน้าทางเทคโนโลยีใหม่ๆ การแยกความแตกต่างระหว่างของแท้และของปลอมจะยากขึ้นเรื่อยๆ เนื่องจากความก้าวหน้าทางเทคโนโลยี
สวาฮีร์
ครึ่งแรกไม่เกี่ยวกับครึ่งหลังเลย คงจะดีมากถ้าผู้เขียนจะอธิบายวิธีการทำงานของ inpaint ในกรอบของแบบจำลองที่เขาอธิบายไว้ก่อนหน้านี้ อาจให้ข้อมูลเชิงลึกได้ แต่ไม่มี! สิ่งนั้นต้องการความเข้าใจที่แท้จริงมากกว่าการรวบรวมและประมวลผลข้อความแบบสุ่ม