สารบัญ[ซ่อน][แสดง]
โมเดลข้อความเป็นรูปภาพขนาดใหญ่ทำให้เกิดความก้าวหน้าอย่างมากในการพัฒนา AI โดยสร้างการสังเคราะห์รูปภาพคุณภาพสูงและหลากหลายจากข้อความแจ้งที่กำหนด
โมเดลเหล่านี้ไม่สามารถสังเคราะห์การแสดงแทนตัวแบบเฉพาะตัวในฉากต่างๆ หรือจำลองลักษณะที่ปรากฏของตัวแบบในชุดอ้างอิงที่กำหนด
เทคโนโลยีที่ออกใหม่ เช่น DALL.E2 ของ OpenAI หรือ StabilityAI การแพร่กระจายที่เสถียร และ Midjourney กำลังใช้อินเทอร์เน็ตโดยพายุ ได้เวลาปรับแต่งผลลัพธ์แล้ว อย่างไร?
Google DreamBooth AI มาถึงแล้ว
DreamBooth มีความสามารถในการจดจำหัวข้อของรูปภาพ แยกโครงสร้างออกจากบริบทดั้งเดิม แล้วสังเคราะห์ให้เป็นบริบทใหม่ที่ต้องการได้อย่างแม่นยำ นอกจากนี้ยังสามารถใช้กับโปรแกรมสร้างภาพ AI ปัจจุบันได้อีกด้วย
ในบทความนี้ เราจะเจาะลึกเกี่ยวกับ DreamBooth การใช้งาน บทช่วยสอน ข้อจำกัด และอื่นๆ อีกมากมาย
Dreambooth คืออะไร?
ดรีมบูธGoogle นำเสนอโมเดลการแพร่กระจายข้อความเป็นรูปภาพใหม่ล่าสุด Google DreamBooth AI สามารถใช้ข้อความแจ้งเป็นลายลักษณ์อักษรเพื่อสร้างรูปภาพที่หลากหลายของหัวข้อที่ผู้ใช้เลือกในการตั้งค่าต่างๆ
กลุ่มวิจัยจากมหาวิทยาลัยบอสตันและ Google ได้พัฒนา DreamBooth ซึ่งเป็นเทคนิคที่ล้ำสมัยสำหรับการปรับเปลี่ยนโมเดลข้อความเป็นรูปภาพที่ได้รับการฝึกอบรมล่วงหน้าอย่างกว้างขวาง
แนวคิดโดยรวมค่อนข้างตรงไปตรงมา: พวกเขาต้องการเพิ่มพจนานุกรมการมองเห็นภาษาเพื่อให้ ID โทเค็นที่ผิดปกติเชื่อมโยงกับหัวข้อที่กำหนดเองที่ผู้ใช้สามารถกำหนดได้
เป้าหมายหลักของโมเดลคือการเชื่อมต่อผู้ใช้กับ แบบจำลองการแพร่กระจายข้อความเป็นรูปภาพ โดยให้ทรัพยากรที่จำเป็นในการสร้างภาพเสมือนจริงของอินสแตนซ์ของหัวข้อที่เลือก
ด้วยเหตุนี้ เทคนิคนี้จึงดูเหมือนว่าจะใช้ได้ผลดีในการสรุปความท้าทายในสถานการณ์ต่างๆ
DreamBooth ของ Google แตกต่างจากเครื่องมือแปลงข้อความเป็นรูปภาพก่อนหน้า เช่น DALL-E2, การแพร่กระจายที่เสถียรและ กลางการเดินทางโดยช่วยให้ผู้ใช้ควบคุมรูปภาพของหัวข้อได้มากขึ้น ก่อนปล่อยให้พวกเขาจัดการรูปแบบการแพร่กระจายโดยใช้อินพุตแบบข้อความ
คุณสมบัติ
- DreamBooth AI อาจปรับปรุงโมเดลข้อความเป็นรูปภาพด้วยรูปภาพ 3-5 รูป
- สามารถสร้างภาพถ่ายเสมือนจริงด้วย DreamBooth AI
- นอกจากนี้ DreamBooth AI ยังสร้างภาพถ่ายหัวข้อจากหลายมุมได้อีกด้วย
การใช้งาน
การเรนเดอร์งานศิลปะ
งานนี้แตกต่างจากการถ่ายโอนรูปแบบโดยเฉพาะ ซึ่งรักษาความหมายของฉากต้นทางในขณะที่รวมสไตล์ของภาพอื่นเข้ากับฉากดั้งเดิม
ตามแนวทางที่สร้างสรรค์ AI สามารถเปลี่ยนแปลงฉากได้อย่างมีนัยสำคัญในขณะที่ยังคงระบุการระบุและเฉพาะอินสแตนซ์ของหัวข้อ
การปรับเปลี่ยนคุณสมบัติ
ลักษณะของอินสแตนซ์ของเรื่องสามารถแก้ไขได้โดย DreamBooth AI
อุปกรณ์เสริม
องค์ประกอบที่แข็งแกร่งก่อนโมเดลรุ่นคือสิ่งที่ทำให้ความสามารถของ DreamBooth AI ในการประดับวัตถุนั้นน่าสนใจมาก
การปรับบริบทใหม่
DreamBooth AI สามารถสร้างภาพที่โดดเด่นสำหรับบางเรื่องได้โดยการให้ประโยคที่มีตัวระบุเฉพาะและคำนามในชั้นเรียนแก่โมเดลที่ผ่านการฝึกอบรม
สามารถสร้างตัวแบบด้วยท่าทาง ข้อต่อ และโครงสร้างฉากที่ไม่เหมือนใครซึ่งไม่เคยมีมาก่อนซึ่งไม่เคยมีมาก่อน แทนที่จะเปลี่ยนสภาพแวดล้อม การสะท้อนและเงาที่สมจริง รวมถึงการโต้ตอบระหว่างตัวแบบกับวัตถุรอบข้าง
กวดวิชาดรีมบูธ
ในบทช่วยสอนนี้ เราจะติดตาม สมุดบันทึก Google Collabและฉันจะแนะนำคุณผ่านมันซึ่งจะทำให้คุณเข้าใจและใช้มันด้วยตัวเอง
การตั้งค่า GPU และติดตั้งไลบรารี่
การค้นหาว่า GPU และ VRAM ชนิดใดบ้างที่มีให้บริการเป็นขั้นตอนแรก การติดตั้งข้อกำหนดและการพึ่งพาบางอย่างก็จำเป็นเช่นกัน เพียงกดปุ่มเล่น จากนั้นรอให้เล่นจบ
สร้างบัญชีบน Huggingface และสร้างโทเค็น
ขั้นตอนต่อไปคือการลงทะเบียนบัญชี Huggingface เมื่อเสร็จแล้ว คลิกการตั้งค่าที่มุมบนขวา คุณจะมาถึงในหน้าถัดไป
สร้างโทเค็นและชื่อตามที่ร้องขอจากที่นี่ ควรคัดลอกและวางโทเค็นลงในการทำงานร่วมกันของ Google ในเซลล์ด้านล่าง
ติดตั้ง xformers
ในขั้นตอนนี้ คุณสามารถกดปุ่มเล่นเพื่อติดตั้ง xformers ได้โดยคลิกที่รันไทม์
เชื่อมต่อกับไดรฟ์
ตอนนี้ คุณเพียงแค่ต้องเรียกใช้เซลล์นี้เพื่อเชื่อมต่อกับ Google ไดรฟ์
ป้อนข้อความแจ้ง
ในเซลล์ต่อไปนี้ คุณเพียงแค่ป้อนพรอมต์
กำลังอัพโหลดรูปภาพ
ในขั้นตอนนี้ คุณเพียงแค่อัปโหลดรูปภาพที่คุณต้องการฝึก
ฝึก AI model
นี่เป็นช่วงที่สำคัญที่สุด เนื่องจากคุณจะใช้ DreamBooth เพื่อฝึกโมเดล AI ใหม่โดยอิงจากภาพถ่ายอ้างอิงที่คุณส่งมาทั้งหมด คุณต้องจำกัดความสนใจของคุณไว้ที่ช่องป้อนข้อมูลสองช่อง “—instance prompt” เป็นพารามิเตอร์แรก คุณต้องระบุชื่อที่แตกต่างกันอย่างมากที่นี่
อาร์กิวเมนต์ '–concept list' เป็นฟิลด์อินพุตที่สำคัญที่สอง ต้องเปลี่ยนชื่อให้ตรงกับชื่อที่ใช้ในส่วน "เปลี่ยนข้อความแจ้ง"
สร้างภาพ AI
รูปภาพ AI จะถูกสร้างขึ้นในขั้นตอนนี้ ซึ่งคุณสามารถป้อนคำแนะนำที่เป็นข้อความได้
ข้อจำกัดของดรีมบูธ
- พรอมต์คำสั่งกลายเป็นอุปสรรคต่อการทำซ้ำในหัวข้อที่มีรายละเอียดสูง DreamBooth สามารถเปลี่ยนบริบทของตัวแบบได้ แต่ถ้าโมเดลต้องการเปลี่ยนตัวแบบเอง เฟรมก็มีปัญหา
- ปัญหาอีกประการหนึ่งคือการใส่รูปภาพที่ส่งออกไปเป็นรูปภาพที่นำเข้ามากเกินไป หากมีรูปภาพไม่เพียงพอ บุคคลนั้นอาจไม่ได้รับการพิจารณาหรืออาจผสมผสานกับบริบทของรูปภาพที่ส่งมา เมื่อมีการถามบริบทสำหรับคนรุ่นคี่ สิ่งเดียวกันก็เกิดขึ้น
สรุป
ในการผลิตเอาต์พุตจากการป้อนข้อความเดียว โมเดลข้อความเป็นรูปภาพจำนวนมากต้องการพารามิเตอร์และไลบรารีหลายล้านรายการ
DreamBooth ช่วยลดความยุ่งยากในการได้มาซึ่งเนื้อหาและการใช้งานสำหรับผู้บริโภค โดยเพียงแค่ป้อนภาพถ่ายหัวข้อสามถึงห้าภาพพร้อมกับพื้นหลังที่เป็นข้อความ
เขียนความเห็น