เปิด AI Glide (การแพร่กระจาย) - การสร้างภาพด้วยการป้อนข้อความ

สารบัญ[ซ่อน][แสดง]

Open AI Glide คืออะไร?
สถาปัตยกรรมร่อน
แบบจำลองการแพร่กระจาย
ความสามารถในการร่อน+-
- 1. การสร้างภาพ
- 2. เหินในภาพวาด
สรุป

คุณมักจะรู้ว่าคอมพิวเตอร์สามารถอธิบายรูปภาพได้

ตัวอย่างเช่น รูปภาพของสุนัขที่เล่นกับลูกๆ ของคุณสามารถแปลว่า 'สุนัขและเด็กในสวน' แต่คุณรู้หรือไม่ว่าทางที่ตรงกันข้ามตอนนี้ก็เป็นไปได้เช่นกัน? คุณพิมพ์คำบางคำและเครื่องจะสร้างภาพใหม่

ต่างจากการค้นหาของ Google ซึ่งค้นหารูปภาพที่มีอยู่ ทั้งหมดนี้เป็นสิ่งที่ใหม่ ในช่วงไม่กี่ปีที่ผ่านมา OpenAI เป็นหนึ่งในองค์กรชั้นนำที่รายงานผลลัพธ์ที่น่าทึ่ง

พวกเขาฝึกอัลกอริทึมบนฐานข้อมูลข้อความและรูปภาพขนาดใหญ่ พวกเขาตีพิมพ์บทความเกี่ยวกับแบบจำลองภาพ GLIDE ซึ่งได้รับการฝึกฝนเกี่ยวกับภาพถ่ายหลายร้อยล้านภาพ ในแง่ของความสมจริงด้วยแสง มันมีประสิทธิภาพเหนือกว่ารุ่น 'DALL-E' รุ่นก่อน

ในโพสต์นี้ เราจะมาดู GLIDE ของ OpenAI ซึ่งเป็นหนึ่งในโครงการริเริ่มที่น่าสนใจมากมายที่มุ่งสร้างและปรับแต่งรูปภาพที่เหมือนจริงด้วยภาพด้วยโมเดลการแพร่กระจายที่มีข้อความนำทาง เอาล่ะ.

ความหมายของ เปิด AI Glide?

แม้ว่ารูปภาพส่วนใหญ่สามารถอธิบายเป็นคำพูดได้ แต่การสร้างรูปภาพจากการป้อนข้อความจำเป็นต้องใช้ความรู้เฉพาะทางและใช้เวลาพอสมควร

การอนุญาตให้เอเจนต์ AI สร้างภาพที่เหมือนจริงเสมือนภาพถ่ายจากข้อความแจ้งที่เป็นธรรมชาติ ไม่เพียงแต่ช่วยให้ผู้คนสร้างเนื้อหาภาพที่หลากหลายและหลากหลายได้อย่างง่ายดายอย่างที่ไม่เคยมีมาก่อน แต่ยังช่วยให้ปรับแต่งซ้ำได้ง่ายขึ้นและควบคุมภาพที่สร้างขึ้นอย่างละเอียดอีกด้วย

GLIDE สามารถใช้แก้ไขรูปภาพที่มีอยู่ได้โดยใช้ข้อความภาษาธรรมชาติเพื่อแทรกวัตถุใหม่ สร้างเงาและภาพสะท้อน แสดง ภาพในการวาดภาพ, และอื่น ๆ

นอกจากนี้ยังสามารถเปลี่ยนการวาดเส้นพื้นฐานเป็นภาพถ่ายเสมือนจริง และมีความสามารถในการผลิตและซ่อมแซมตัวอย่างที่เป็นศูนย์สำหรับสถานการณ์ที่ซับซ้อน

การวิจัยเมื่อเร็ว ๆ นี้แสดงให้เห็นว่าแบบจำลองการแพร่กระจายตามความน่าจะเป็นสามารถผลิตภาพสังเคราะห์คุณภาพสูง โดยเฉพาะอย่างยิ่งเมื่อรวมกับแนวทางที่สมดุลความหลากหลายและความเที่ยงตรง

เปิด AI Glide

OpenAI เผยแพร่ แบบจำลองการแพร่กระจายแบบนำทาง ในเดือนพฤษภาคม ซึ่งช่วยให้แบบจำลองการแพร่กระจายมีเงื่อนไขบนฉลากของลักษณนาม GLIDE ปรับปรุงความสำเร็จนี้โดยนำการแพร่ภาพมาสู่ปัญหาของการสร้างรูปภาพตามเงื่อนไขข้อความ

หลังจากฝึกแบบจำลองการแพร่กระจาย GLIDE พารามิเตอร์ 3.5 พันล้านพารามิเตอร์โดยใช้ตัวเข้ารหัสข้อความเพื่อปรับเงื่อนไขในคำอธิบายภาษาธรรมชาติ นักวิจัยได้ทดสอบกลยุทธ์แนวทางทางเลือกสองทาง: คำแนะนำ CLIP และคำแนะนำที่ไม่มีตัวแยกประเภท

CLIP เป็นเทคนิคที่ปรับขนาดได้สำหรับการเรียนรู้การแสดงข้อความและรูปภาพร่วมกัน ซึ่งจะให้คะแนนโดยพิจารณาจากความใกล้เคียงของรูปภาพกับคำอธิบายภาพ

ทีมงานใช้กลยุทธ์นี้ในแบบจำลองการแพร่กระจายโดยแทนที่ตัวแยกประเภทด้วยแบบจำลอง CLIP ที่ "นำทาง" แบบจำลอง ในขณะเดียวกัน คำแนะนำแบบไม่มีตัวแยกประเภทเป็นกลยุทธ์สำหรับการกำกับแบบจำลองการแพร่กระจายที่ไม่เกี่ยวข้องกับการฝึกอบรมตัวแยกประเภทต่างหาก

สถาปัตยกรรมร่อน

สถาปัตยกรรม GLIDE ประกอบด้วยสามองค์ประกอบ: Ablated Diffusion Model (ADM) ที่ได้รับการฝึกฝนเพื่อสร้างภาพขนาด 64 × 64 แบบจำลองข้อความ (ทรานส์ฟอร์มเมอร์) ที่มีอิทธิพลต่อการสร้างภาพผ่านข้อความแจ้ง และโมเดลการสุ่มตัวอย่างที่แปลงขนาดเล็ก 64 × 64 ของเรา รูปภาพเป็น 256 x 256 พิกเซลที่ตีความได้มากขึ้น

ส่วนประกอบสองส่วนแรกทำงานร่วมกันเพื่อควบคุมกระบวนการสร้างรูปภาพเพื่อให้สะท้อนข้อความแสดงข้อความได้อย่างเหมาะสม ในขณะที่องค์ประกอบหลังจำเป็นต้องทำให้รูปภาพที่เราสร้างเข้าใจง่ายขึ้น โครงการ GLIDE ได้รับแรงบันดาลใจจากa รายงานที่เผยแพร่ในปี 2021 ที่แสดงให้เห็นว่าเทคนิค ADM มีประสิทธิภาพดีกว่าโมเดลกำเนิดที่ล้ำสมัยและเป็นที่นิยมในปัจจุบันในแง่ของคุณภาพของตัวอย่างภาพ

สำหรับ ADM ผู้เขียน GLIDE ใช้โมเดล ImageNet 64 x 64 เดียวกันกับ Dhariwal และ Nichol แต่มี 512 ช่องแทนที่จะเป็น 64 รุ่น ImageNet มีพารามิเตอร์ประมาณ 2.3 พันล้านตัวจากสิ่งนี้

ทีมงาน GLIDE ซึ่งแตกต่างจาก Dhariwal และ Nichol ต้องการควบคุมกระบวนการสร้างภาพโดยตรงมากขึ้น ดังนั้นพวกเขาจึงรวมแบบจำลองภาพเข้ากับหม้อแปลงที่เปิดใช้งานความสนใจ GLIDE ให้คุณควบคุมผลลัพธ์ของกระบวนการสร้างรูปภาพโดยการประมวลผลข้อความแจ้ง

การเปรียบเทียบ Glide กับรุ่นอื่นๆ

ซึ่งทำได้โดยการฝึกโมเดลหม้อแปลงในชุดข้อมูลขนาดใหญ่ที่เหมาะสมของภาพถ่ายและคำอธิบายภาพ (คล้ายกับที่ใช้ในโครงการ DALL-E)

ข้อความในขั้นต้นถูกเข้ารหัสเป็นชุดของโทเค็น K เพื่อปรับสภาพ หลังจากนั้น โทเค็นจะถูกโหลดเข้าสู่โมเดลหม้อแปลงไฟฟ้า เอาต์พุตของหม้อแปลงสามารถใช้งานได้สองวิธี สำหรับโมเดล ADM การฝังโทเค็นสุดท้ายจะถูกใช้แทนการฝังคลาส

อย่างที่สอง เลเยอร์สุดท้ายของการฝังโทเค็น ซึ่งเป็นชุดของเวกเตอร์คุณลักษณะ ถูกฉายโดยอิสระกับมิติสำหรับเลเยอร์ความสนใจแต่ละชั้นในโมเดล ADM และเชื่อมโยงกับบริบทความสนใจแต่ละรายการ

ในความเป็นจริง สิ่งนี้ทำให้โมเดล ADM สามารถสร้างรูปภาพจากการรวมกันของโทเค็นข้อความที่คล้ายกันในรูปแบบที่ไม่เหมือนใครและเหมือนจริง โดยอิงจากความเข้าใจที่เรียนรู้เกี่ยวกับคำที่ป้อนเข้าและรูปภาพที่เกี่ยวข้อง หม้อแปลงเข้ารหัสข้อความนี้มีพารามิเตอร์ 1.2 พันล้านตัวและใช้บล็อกที่เหลือ 24 บล็อกที่มีความกว้าง 2048

สุดท้าย โมเดลการแพร่กระจายของอัพแซมเพลอร์มีพารามิเตอร์ประมาณ 1.5 พันล้านตัว และแตกต่างจากรุ่นพื้นฐานตรงที่ตัวเข้ารหัสข้อความมีขนาดเล็กกว่า โดยมีความกว้าง 1024 และ 384 ช่องสัญญาณฐาน เมื่อเทียบกับรุ่นพื้นฐาน โมเดลนี้ ตามชื่อระบุ ช่วยในการอัปเกรดตัวอย่าง เพื่อปรับปรุงความสามารถในการตีความสำหรับทั้งเครื่องจักรและมนุษย์

เลื่อนรูปภาพขนาดเล็กที่กรองแล้ว

แบบจำลองการแพร่กระจาย

GLIDE สร้างภาพโดยใช้ ADM เวอร์ชันของตัวเอง (ADM-G สำหรับ “ไกด์”) รุ่น ADM-G เป็นการดัดแปลงรุ่น U-net แบบกระจาย แบบจำลอง U-net แบบแพร่แตกต่างอย่างมากจากเทคนิคการสังเคราะห์ภาพทั่วไป เช่น VAE, GAN และหม้อแปลง

แบบจำลองการแพร่กระจาย

พวกเขาสร้างห่วงโซ่ Markov ของขั้นตอนการแพร่เพื่อค่อย ๆ แทรกสัญญาณรบกวนแบบสุ่มลงในข้อมูล จากนั้นเรียนรู้ที่จะย้อนกลับกระบวนการแพร่กระจายและสร้างตัวอย่างข้อมูลที่ต้องการใหม่จากสัญญาณรบกวนเพียงอย่างเดียว มันทำงานในสองขั้นตอน: การแพร่กระจายไปข้างหน้าและย้อนกลับ

วิธีการแพร่กระจายไปข้างหน้า ให้จุดข้อมูลจากการกระจายที่แท้จริงของตัวอย่าง เพิ่มสัญญาณรบกวนเล็กน้อยไปยังตัวอย่างผ่านชุดขั้นตอนที่กำหนดไว้ล่วงหน้า เมื่อขั้นตอนเพิ่มขึ้นในขนาดและเข้าใกล้อนันต์ ตัวอย่างจะสูญเสียคุณลักษณะที่จดจำได้ทั้งหมด และลำดับเริ่มคล้ายกับเส้นโค้งเกาส์เซียนไอโซโทรปิก

ภาพร่อนที่ไม่มีเสียงรบกวน

ในระหว่างการแพร่ย้อนกลับ เฟส แบบจำลองการแพร่กระจาย เรียนรู้ที่จะย้อนกลับอิทธิพลของสัญญาณรบกวนที่เพิ่มเข้ามาบนรูปภาพและนำรูปภาพที่ผลิตกลับมาเป็นรูปร่างดั้งเดิมโดยพยายามทำให้คล้ายกับการกระจายตัวอย่างอินพุตดั้งเดิม

โมเดลที่สมบูรณ์สามารถทำได้ด้วยอินพุตเสียงเกาส์เซียนจริงและพร้อมท์ วิธี ADM-G แตกต่างจากวิธีก่อนหน้านี้ในรุ่น CLIP หรือหม้อแปลงแบบกำหนดเอง ส่งผลกระทบต่อระยะการแพร่กระจายย้อนกลับโดยใช้โทเค็นพร้อมท์ข้อความที่ป้อน

ความสามารถในการร่อน

1. การสร้างภาพ

การใช้ GLIDE ที่ได้รับความนิยมและใช้กันอย่างแพร่หลายมากที่สุดน่าจะเป็นการสังเคราะห์ภาพ แม้ว่ารูปภาพจะดูเรียบง่ายและ GLIDE จะมีปัญหากับรูปร่างของสัตว์/มนุษย์ แต่ศักยภาพในการผลิตภาพแบบช็อตเดียวนั้นแทบจะไม่มีที่สิ้นสุด

การสร้างภาพด้วย GLIDE

มันสามารถสร้างภาพถ่ายของสัตว์ ดารา ทิวทัศน์ อาคาร และอื่นๆ อีกมากมาย และสามารถทำได้ในรูปแบบศิลปะที่หลากหลายเช่นเดียวกับภาพถ่ายที่เหมือนจริง ผู้เขียนของนักวิจัยยืนยันว่า GLIDE สามารถตีความและปรับเปลี่ยนข้อความที่ป้อนเข้าในรูปแบบภาพได้หลากหลาย ดังที่แสดงในตัวอย่างด้านล่าง

2. เหินในภาพวาด

การลงสีภาพถ่ายอัตโนมัติของ GLIDE ถือได้ว่าเป็นการใช้งานที่น่าสนใจที่สุด GLIDE สามารถใช้รูปภาพที่มีอยู่เป็นอินพุต ประมวลผลโดยคำนึงถึงข้อความแจ้งสำหรับตำแหน่งที่ต้องแก้ไข จากนั้นทำการปรับเปลี่ยนส่วนต่างๆ เหล่านั้นอย่างง่ายดาย

ต้องใช้ร่วมกับรูปแบบการแก้ไข เช่น SDEdit เพื่อให้ได้ผลลัพธ์ที่ดียิ่งขึ้น ในอนาคต แอพที่ใช้ประโยชน์จากความสามารถเช่นนี้อาจมีความสำคัญต่อการพัฒนาวิธีการแก้ไขรูปภาพโดยไม่ต้องใช้โค้ด

สรุป

เมื่อเราได้ผ่านกระบวนการนี้ไปแล้ว คุณควรเข้าใจพื้นฐานวิธีการทำงานของ GLIDE รวมถึงความกว้างของความสามารถในการสร้างภาพและการปรับแต่งภาพ

เปิด AI Glide (การแพร่กระจาย) – การสร้างภาพด้วยการป้อนข้อความ

ความหมายของ เปิด AI Glide?

สถาปัตยกรรมร่อน

แบบจำลองการแพร่กระจาย

ความสามารถในการร่อน

1. การสร้างภาพ

2. เหินในภาพวาด

สรุป

เกี่ยวกับเรา เจย์

บทความเพิ่มเติมเกี่ยวกับ HashDork:

วิธีลดอาการประสาทหลอนใน AI ของคุณ

โคลอสเซียน vs เฮย์เก้น

จดหมายข่าวเทคโนโลยีแห่งอนาคตนี้ไม่ห่วย

เปิด AI Glide (การแพร่กระจาย) – การสร้างภาพด้วยการป้อนข้อความ

ความหมายของ เปิด AI Glide?

สถาปัตยกรรมร่อน

แบบจำลองการแพร่กระจาย

ความสามารถในการร่อน

1. การสร้างภาพ

2. เหินในภาพวาด

สรุป

เกี่ยวกับเรา เจย์

บทความเพิ่มเติมเกี่ยวกับ HashDork:

วิธีลดอาการประสาทหลอนใน AI ของคุณ

10 เครื่องมือ AI ที่ดีที่สุดสำหรับโซเชียลมีเดีย

โคลอสเซียน vs เฮย์เก้น

10 เครื่องมือสร้างวิดีโอแอนิเมชั่น AI ที่ดีที่สุด

ปฏิสัมพันธ์ของผู้อ่าน

เขียนความเห็น ยกเลิกการตอบ

จดหมายข่าวเทคโนโลยีแห่งอนาคตนี้ไม่ห่วย