Гарчиг[Нуух][Үзүүлэх]
Томоохон текстээс зураг руу шилжих загварууд нь өгөгдсөн текстээс өндөр чанартай, төрөлжсөн зургийн синтезийг гаргаж, хиймэл оюун ухааны хөгжилд мэдэгдэхүйц ахиц дэвшил гаргасан.
Эдгээр загварууд нь янз бүрийн тохиргоон дахь субьектуудын өвөрмөц дүрслэлийг нэгтгэх эсвэл өгөгдсөн лавлагааны багц дахь субьектуудын дүр төрхийг хуулбарлах боломжгүй юм.
OpenAI-ийн DALL.E2 эсвэл StabilityAI зэрэг шинээр гарсан технологиуд Тогтвортой тархалт болон Midjourney аль хэдийн шуурганаар интернэт авч байна. Одоо үр дүнг өөрчлөх цаг болжээ. Гэсэн хэдий ч яаж?
Google DreamBooth AI ирлээ.
DreamBooth нь зургийн сэдвийг таньж, түүнийг анхны нөхцөл байдлаас нь салгаж, дараа нь хүссэн шинэ контекст болгон нарийн нэгтгэх чадвартай. Нэмж дурдахад энэ нь одоогийн AI зураг үүсгэгчтэй хамт ашиглагдаж болно.
Энэ нийтлэлд бид DreamBooth, түүний хэрэглээ, зааварчилгаа, хязгаарлалтууд болон бусад олон зүйлийг нарийвчлан авч үзэх болно.
Dreambooth гэж юу вэ?
мөрөөдлийн лангуу, цоо шинэ текстээс зураг руу тархах загварыг Google-ээс танилцуулав. Google DreamBooth AI өөр өөр тохиргоонд хэрэглэгчийн сонгосон сэдвийн өргөн хүрээний зургийг үүсгэхийн тулд бичмэл сануулгыг удирдамж болгон ашиглаж болно.
Бостоны Их Сургууль болон Google-ийн судалгааны баг DreamBooth-ийг боловсруулсан бөгөөд энэ нь текстийг дүрс болгон өөрчлөхөд зориулсан хамгийн сүүлийн үеийн арга техник бөгөөд урьдчилсан бэлтгэлд хамрагдсан байна.
Ерөнхий үзэл баримтлал нь маш энгийн: тэд хэлний харааны толь бичгийг нэмэгдүүлэхийг хүсч байгаа бөгөөд ердийн бус токен ID нь хэрэглэгчдийн тодорхойлж болох захиалгат сэдвүүдтэй холбоотой байх болно.
Загварын гол зорилго нь хэрэглэгчдийг холбох явдал юм текстээс зураг руу тархах загвар сонгосон сэдвийнхээ жишээнүүдийн фото бодит дүрслэлийг бий болгоход шаардлагатай нөөцийг тэдэнд өгөх замаар.
Үүний үр дүнд энэ техник нь янз бүрийн нөхцөл байдалд тулгарч буй бэрхшээлийг нэгтгэн дүгнэхэд сайн ажилладаг бололтой.
Google-ийн DreamBooth нь өмнөх текстийг дүрслэх хэрэгслүүдээс ялгаатай DALL-E2, Тогтвортой тархалтБолон Замын дунд, учир нь энэ нь хэрэглэгчдэд текстэд суурилсан оролтыг ашиглан тархалтын загварыг удирдахаас өмнө сэдвийн зураг дээр илүү их хяналт тавих боломжийг олгодог.
онцлог
- DreamBooth AI нь 3-5 зураг бүхий текстээс зураг руу шилжих загварыг сайжруулж магадгүй юм.
- DreamBooth AI ашиглан жинхэнэ фото бодит зургуудыг бүтээх боломжтой.
- Нэмж дурдахад DreamBooth AI нь олон өнцгөөс сэдэвчилсэн зургийг бүтээх боломжтой.
Програмын
Урлагийн бүтээлүүд
Энэ даалгавар нь өөр зургийн хэв маягийг анхны үзэгдэлд оруулахын зэрэгцээ эх үзэгдэлийн семантикийг хадгалдаг хэв маягийг шилжүүлэхээс онцгой ялгаатай.
Бүтээлч арга барил дээр үндэслэн хиймэл оюун ухаан нь таних болон сэдвийн жишээний онцлогийг хадгалахын зэрэгцээ дүр зурагт томоохон өөрчлөлтүүдийг хийж чадна.
Үл хөдлөх хөрөнгийн өөрчлөлт
Сэдвийн жишээний шинж чанарыг DreamBooth AI-ээр өөрчилж болно.
Дагалдах хэрэгсэл
Үе үеийн загвараас өмнөх хүчирхэг найрлага нь DreamBooth AI-ийн объектыг чимэглэх чадварыг маш сонирхолтой болгодог.
Контекстыг дахин өөрчлөх
DreamBooth AI нь сургагдсан загварт өвөрмөц танигч болон ангиллын нэр үг агуулсан өгүүлбэрийг өгснөөр тодорхой сэдвийн жишээнд өвөрмөц дүрсийг гаргаж чадна.
Энэ нь хүрээлэн буй орчныг өөрчлөхөөс илүүтэйгээр өвөрмөц, урьд өмнө сонсогдоогүй байрлал, үе мөч, үзэгдлийн бүтцээр сэдвийг үүсгэж чаддаг. Бодит тусгал, сүүдэр, түүнчлэн субьект болон хүрээлэн буй объектуудын хоорондын харилцан үйлчлэл.
Dreambooth заавар
Энэ зааварт бид дараах зүйлсийг дагах болно Google Collab дэвтэр, мөн би танд үүнийг тайлбарлах болно, энэ нь танд үүнийг ойлгож, өөрөө ашиглах болно.
GPU-г тохируулж, номын санг суулгаж байна
GPU болон VRAM-ийн ямар төрлүүд байгааг олж мэдэх нь эхний алхам юм. Мөн хэд хэдэн шаардлага, хамаарлыг суулгах шаардлагатай. Зүгээр л тоглох товчийг дараад дуусгахыг хүлээнэ үү.
Huggingface дээр бүртгэл үүсгэж, жетон үүсгэ
Дараагийн алхам бол Huggingface дансанд бүртгүүлэх явдал юм. Дуусаад баруун дээд буланд байрлах тохиргоонууд дээр дарна уу. Та дараагийн хуудсанд очих болно.
Эндээс хүссэнээр токен болон нэрийг үүсгэ. Токеныг доорх нүдэн дэх Google-н хамтын хэсэгт хуулж буулгана.
xformers суулгана уу
Энэ үе шатанд та зүгээр л тоглох товчийг дарж ажиллах цаг дээр дарж xformers суулгаж болно.
Драйвтай холбогдоно уу
Одоо та Google Drive-тай холбогдохын тулд энэ нүдийг ажиллуулахад л хангалттай.
Сануулгыг оруулна уу
Дараах нүдэнд та зөвхөн хүлээх мөрийг оруулах хэрэгтэй.
Зураг байршуулж байна
Энэ алхамд та зүгээр л сургахыг хүссэн зургаа байршуулах хэрэгтэй.
AI загварыг сургах
Энэ бол хамгийн чухал үе шат бөгөөд та DreamBooth программыг ашиглан өөрийн оруулсан бүх лавлагааны гэрэл зураг дээр үндэслэн хиймэл оюун ухааны шинэ загварыг сургах болно. Та хоёр оролтын талбарт анхаарлаа хандуулах ёстой. "-Instance prompt" нь эхний параметр юм. Та энд маш тод нэр өгөх ёстой.
'-үзэл баримтлалын жагсаалт' аргумент нь хоёр дахь чухал оролтын талбар юм. Үүнийг "Сануулгыг өөрчлөх" хэсэгт ашигласантай тааруулахын тулд нэрлэсэн байх ёстой.
AI дүрс үүсгэх
Энэ үе шатанд хиймэл оюун ухааны зургууд хийгдэх бөгөөд та текстийн зааврыг оруулах боломжтой.
Dreambooth-ийн хязгаарлалт
- Тушаалын мөр нь сэдвийг өндөр нарийвчлалтайгаар давталт хийхэд саад болдог. DreamBooth нь субьектийн нөхцөлийг өөрчлөх боломжтой боловч хэрэв загвар нь тухайн сэдвийг өөрөө өөрчлөхийг хүсвэл хүрээтэй холбоотой асуудал гарна.
- Өөр нэг асуудал бол гаралтын зургийг оролтын зураг дээр хэт тохируулах явдал юм. Хэрэв хангалттай зураг байхгүй бол тухайн сэдвийг авч үзэхгүй эсвэл оруулсан зургийн контексттэй хольж болно. Хачирхалтай үеийн контекстийг асуухад ижил зүйл тохиолддог.
Дүгнэлт
Нэг текстийн оролтоос гаралт гаргахын тулд текстээс зураг руу шилжүүлэх загваруудын ихэнх нь сая сая параметр, санг шаарддаг.
DreamBooth нь XNUMX-XNUMX сэдэвтэй гэрэл зургийг текстийн дэвсгэртэй оруулахад л хэрэглэгчдэд контент олж авах, ашиглахад хялбар болгодог.
хариу үлдээх