คุณมักจะรู้ว่าคอมพิวเตอร์สามารถอธิบายรูปภาพได้
ตัวอย่างเช่น รูปภาพของสุนัขที่เล่นกับลูกๆ ของคุณสามารถแปลว่า 'สุนัขและเด็กในสวน' แต่คุณรู้หรือไม่ว่าทางที่ตรงกันข้ามตอนนี้ก็เป็นไปได้เช่นกัน? คุณพิมพ์คำบางคำและเครื่องจะสร้างภาพใหม่
ต่างจากการค้นหาของ Google ซึ่งค้นหารูปภาพที่มีอยู่ ทั้งหมดนี้เป็นสิ่งที่ใหม่ ในช่วงไม่กี่ปีที่ผ่านมา OpenAI เป็นหนึ่งในองค์กรชั้นนำที่รายงานผลลัพธ์ที่น่าทึ่ง
พวกเขาฝึกอัลกอริทึมบนฐานข้อมูลข้อความและรูปภาพขนาดใหญ่ พวกเขาตีพิมพ์บทความเกี่ยวกับแบบจำลองภาพ GLIDE ซึ่งได้รับการฝึกฝนเกี่ยวกับภาพถ่ายหลายร้อยล้านภาพ ในแง่ของความสมจริงด้วยแสง มันมีประสิทธิภาพเหนือกว่ารุ่น 'DALL-E' รุ่นก่อน
ในโพสต์นี้ เราจะมาดู GLIDE ของ OpenAI ซึ่งเป็นหนึ่งในโครงการริเริ่มที่น่าสนใจมากมายที่มุ่งสร้างและปรับแต่งรูปภาพที่เหมือนจริงด้วยภาพด้วยโมเดลการแพร่กระจายที่มีข้อความนำทาง เอาล่ะ.
ความหมายของ เปิด AI Glide?
แม้ว่ารูปภาพส่วนใหญ่สามารถอธิบายเป็นคำพูดได้ แต่การสร้างรูปภาพจากการป้อนข้อความจำเป็นต้องใช้ความรู้เฉพาะทางและใช้เวลาพอสมควร
การอนุญาตให้เอเจนต์ AI สร้างภาพที่เหมือนจริงเสมือนภาพถ่ายจากข้อความแจ้งที่เป็นธรรมชาติ ไม่เพียงแต่ช่วยให้ผู้คนสร้างเนื้อหาภาพที่หลากหลายและหลากหลายได้อย่างง่ายดายอย่างที่ไม่เคยมีมาก่อน แต่ยังช่วยให้ปรับแต่งซ้ำได้ง่ายขึ้นและควบคุมภาพที่สร้างขึ้นอย่างละเอียดอีกด้วย
GLIDE สามารถใช้แก้ไขรูปภาพที่มีอยู่ได้โดยใช้ข้อความภาษาธรรมชาติเพื่อแทรกวัตถุใหม่ สร้างเงาและภาพสะท้อน แสดง ภาพในการวาดภาพ, และอื่น ๆ
นอกจากนี้ยังสามารถเปลี่ยนการวาดเส้นพื้นฐานเป็นภาพถ่ายเสมือนจริง และมีความสามารถในการผลิตและซ่อมแซมตัวอย่างที่เป็นศูนย์สำหรับสถานการณ์ที่ซับซ้อน
การวิจัยเมื่อเร็ว ๆ นี้แสดงให้เห็นว่าแบบจำลองการแพร่กระจายตามความน่าจะเป็นสามารถผลิตภาพสังเคราะห์คุณภาพสูง โดยเฉพาะอย่างยิ่งเมื่อรวมกับแนวทางที่สมดุลความหลากหลายและความเที่ยงตรง
OpenAI เผยแพร่ แบบจำลองการแพร่กระจายแบบนำทาง ในเดือนพฤษภาคม ซึ่งช่วยให้แบบจำลองการแพร่กระจายมีเงื่อนไขบนฉลากของลักษณนาม GLIDE ปรับปรุงความสำเร็จนี้โดยนำการแพร่ภาพมาสู่ปัญหาของการสร้างรูปภาพตามเงื่อนไขข้อความ
หลังจากฝึกแบบจำลองการแพร่กระจาย GLIDE พารามิเตอร์ 3.5 พันล้านพารามิเตอร์โดยใช้ตัวเข้ารหัสข้อความเพื่อปรับเงื่อนไขในคำอธิบายภาษาธรรมชาติ นักวิจัยได้ทดสอบกลยุทธ์แนวทางทางเลือกสองทาง: คำแนะนำ CLIP และคำแนะนำที่ไม่มีตัวแยกประเภท
CLIP เป็นเทคนิคที่ปรับขนาดได้สำหรับการเรียนรู้การแสดงข้อความและรูปภาพร่วมกัน ซึ่งจะให้คะแนนโดยพิจารณาจากความใกล้เคียงของรูปภาพกับคำอธิบายภาพ
ทีมงานใช้กลยุทธ์นี้ในแบบจำลองการแพร่กระจายโดยแทนที่ตัวแยกประเภทด้วยแบบจำลอง CLIP ที่ "นำทาง" แบบจำลอง ในขณะเดียวกัน คำแนะนำแบบไม่มีตัวแยกประเภทเป็นกลยุทธ์สำหรับการกำกับแบบจำลองการแพร่กระจายที่ไม่เกี่ยวข้องกับการฝึกอบรมตัวแยกประเภทต่างหาก
สถาปัตยกรรมร่อน
สถาปัตยกรรม GLIDE ประกอบด้วยสามองค์ประกอบ: Ablated Diffusion Model (ADM) ที่ได้รับการฝึกฝนเพื่อสร้างภาพขนาด 64 × 64 แบบจำลองข้อความ (ทรานส์ฟอร์มเมอร์) ที่มีอิทธิพลต่อการสร้างภาพผ่านข้อความแจ้ง และโมเดลการสุ่มตัวอย่างที่แปลงขนาดเล็ก 64 × 64 ของเรา รูปภาพเป็น 256 x 256 พิกเซลที่ตีความได้มากขึ้น
ส่วนประกอบสองส่วนแรกทำงานร่วมกันเพื่อควบคุมกระบวนการสร้างรูปภาพเพื่อให้สะท้อนข้อความแสดงข้อความได้อย่างเหมาะสม ในขณะที่องค์ประกอบหลังจำเป็นต้องทำให้รูปภาพที่เราสร้างเข้าใจง่ายขึ้น โครงการ GLIDE ได้รับแรงบันดาลใจจากa รายงานที่เผยแพร่ในปี 2021 ที่แสดงให้เห็นว่าเทคนิค ADM มีประสิทธิภาพดีกว่าโมเดลกำเนิดที่ล้ำสมัยและเป็นที่นิยมในปัจจุบันในแง่ของคุณภาพของตัวอย่างภาพ
สำหรับ ADM ผู้เขียน GLIDE ใช้โมเดล ImageNet 64 x 64 เดียวกันกับ Dhariwal และ Nichol แต่มี 512 ช่องแทนที่จะเป็น 64 รุ่น ImageNet มีพารามิเตอร์ประมาณ 2.3 พันล้านตัวจากสิ่งนี้
ทีมงาน GLIDE ซึ่งแตกต่างจาก Dhariwal และ Nichol ต้องการควบคุมกระบวนการสร้างภาพโดยตรงมากขึ้น ดังนั้นพวกเขาจึงรวมแบบจำลองภาพเข้ากับหม้อแปลงที่เปิดใช้งานความสนใจ GLIDE ให้คุณควบคุมผลลัพธ์ของกระบวนการสร้างรูปภาพโดยการประมวลผลข้อความแจ้ง
ซึ่งทำได้โดยการฝึกโมเดลหม้อแปลงในชุดข้อมูลขนาดใหญ่ที่เหมาะสมของภาพถ่ายและคำอธิบายภาพ (คล้ายกับที่ใช้ในโครงการ DALL-E)
ข้อความในขั้นต้นถูกเข้ารหัสเป็นชุดของโทเค็น K เพื่อปรับสภาพ หลังจากนั้น โทเค็นจะถูกโหลดเข้าสู่โมเดลหม้อแปลงไฟฟ้า เอาต์พุตของหม้อแปลงสามารถใช้งานได้สองวิธี สำหรับโมเดล ADM การฝังโทเค็นสุดท้ายจะถูกใช้แทนการฝังคลาส
อย่างที่สอง เลเยอร์สุดท้ายของการฝังโทเค็น ซึ่งเป็นชุดของเวกเตอร์คุณลักษณะ ถูกฉายโดยอิสระกับมิติสำหรับเลเยอร์ความสนใจแต่ละชั้นในโมเดล ADM และเชื่อมโยงกับบริบทความสนใจแต่ละรายการ
ในความเป็นจริง สิ่งนี้ทำให้โมเดล ADM สามารถสร้างรูปภาพจากการรวมกันของโทเค็นข้อความที่คล้ายกันในรูปแบบที่ไม่เหมือนใครและเหมือนจริง โดยอิงจากความเข้าใจที่เรียนรู้เกี่ยวกับคำที่ป้อนเข้าและรูปภาพที่เกี่ยวข้อง หม้อแปลงเข้ารหัสข้อความนี้มีพารามิเตอร์ 1.2 พันล้านตัวและใช้บล็อกที่เหลือ 24 บล็อกที่มีความกว้าง 2048
สุดท้าย โมเดลการแพร่กระจายของอัพแซมเพลอร์มีพารามิเตอร์ประมาณ 1.5 พันล้านตัว และแตกต่างจากรุ่นพื้นฐานตรงที่ตัวเข้ารหัสข้อความมีขนาดเล็กกว่า โดยมีความกว้าง 1024 และ 384 ช่องสัญญาณฐาน เมื่อเทียบกับรุ่นพื้นฐาน โมเดลนี้ ตามชื่อระบุ ช่วยในการอัปเกรดตัวอย่าง เพื่อปรับปรุงความสามารถในการตีความสำหรับทั้งเครื่องจักรและมนุษย์
แบบจำลองการแพร่กระจาย
GLIDE สร้างภาพโดยใช้ ADM เวอร์ชันของตัวเอง (ADM-G สำหรับ “ไกด์”) รุ่น ADM-G เป็นการดัดแปลงรุ่น U-net แบบกระจาย แบบจำลอง U-net แบบแพร่แตกต่างอย่างมากจากเทคนิคการสังเคราะห์ภาพทั่วไป เช่น VAE, GAN และหม้อแปลง
พวกเขาสร้างห่วงโซ่ Markov ของขั้นตอนการแพร่เพื่อค่อย ๆ แทรกสัญญาณรบกวนแบบสุ่มลงในข้อมูล จากนั้นเรียนรู้ที่จะย้อนกลับกระบวนการแพร่กระจายและสร้างตัวอย่างข้อมูลที่ต้องการใหม่จากสัญญาณรบกวนเพียงอย่างเดียว มันทำงานในสองขั้นตอน: การแพร่กระจายไปข้างหน้าและย้อนกลับ
วิธีการแพร่กระจายไปข้างหน้า ให้จุดข้อมูลจากการกระจายที่แท้จริงของตัวอย่าง เพิ่มสัญญาณรบกวนเล็กน้อยไปยังตัวอย่างผ่านชุดขั้นตอนที่กำหนดไว้ล่วงหน้า เมื่อขั้นตอนเพิ่มขึ้นในขนาดและเข้าใกล้อนันต์ ตัวอย่างจะสูญเสียคุณลักษณะที่จดจำได้ทั้งหมด และลำดับเริ่มคล้ายกับเส้นโค้งเกาส์เซียนไอโซโทรปิก
ในระหว่างการแพร่ย้อนกลับ เฟส แบบจำลองการแพร่กระจาย เรียนรู้ที่จะย้อนกลับอิทธิพลของสัญญาณรบกวนที่เพิ่มเข้ามาบนรูปภาพและนำรูปภาพที่ผลิตกลับมาเป็นรูปร่างดั้งเดิมโดยพยายามทำให้คล้ายกับการกระจายตัวอย่างอินพุตดั้งเดิม
โมเดลที่สมบูรณ์สามารถทำได้ด้วยอินพุตเสียงเกาส์เซียนจริงและพร้อมท์ วิธี ADM-G แตกต่างจากวิธีก่อนหน้านี้ในรุ่น CLIP หรือหม้อแปลงแบบกำหนดเอง ส่งผลกระทบต่อระยะการแพร่กระจายย้อนกลับโดยใช้โทเค็นพร้อมท์ข้อความที่ป้อน
ความสามารถในการร่อน
1. การสร้างภาพ
การใช้ GLIDE ที่ได้รับความนิยมและใช้กันอย่างแพร่หลายมากที่สุดน่าจะเป็นการสังเคราะห์ภาพ แม้ว่ารูปภาพจะดูเรียบง่ายและ GLIDE จะมีปัญหากับรูปร่างของสัตว์/มนุษย์ แต่ศักยภาพในการผลิตภาพแบบช็อตเดียวนั้นแทบจะไม่มีที่สิ้นสุด
มันสามารถสร้างภาพถ่ายของสัตว์ ดารา ทิวทัศน์ อาคาร และอื่นๆ อีกมากมาย และสามารถทำได้ในรูปแบบศิลปะที่หลากหลายเช่นเดียวกับภาพถ่ายที่เหมือนจริง ผู้เขียนของนักวิจัยยืนยันว่า GLIDE สามารถตีความและปรับเปลี่ยนข้อความที่ป้อนเข้าในรูปแบบภาพได้หลากหลาย ดังที่แสดงในตัวอย่างด้านล่าง
2. เหินในภาพวาด
การลงสีภาพถ่ายอัตโนมัติของ GLIDE ถือได้ว่าเป็นการใช้งานที่น่าสนใจที่สุด GLIDE สามารถใช้รูปภาพที่มีอยู่เป็นอินพุต ประมวลผลโดยคำนึงถึงข้อความแจ้งสำหรับตำแหน่งที่ต้องแก้ไข จากนั้นทำการปรับเปลี่ยนส่วนต่างๆ เหล่านั้นอย่างง่ายดาย
ต้องใช้ร่วมกับรูปแบบการแก้ไข เช่น SDEdit เพื่อให้ได้ผลลัพธ์ที่ดียิ่งขึ้น ในอนาคต แอพที่ใช้ประโยชน์จากความสามารถเช่นนี้อาจมีความสำคัญต่อการพัฒนาวิธีการแก้ไขรูปภาพโดยไม่ต้องใช้โค้ด
สรุป
เมื่อเราได้ผ่านกระบวนการนี้ไปแล้ว คุณควรเข้าใจพื้นฐานวิธีการทำงานของ GLIDE รวมถึงความกว้างของความสามารถในการสร้างภาพและการปรับแต่งภาพ
เขียนความเห็น