Компьютер зургийг дүрсэлж чаддаг гэдгийг та хамгийн сайн мэддэг байх.
Жишээлбэл, хүүхдүүдтэйгээ тоглож буй нохойн зургийг "цэцэрлэгт байгаа нохой, хүүхдүүд" гэж орчуулж болно. Гэхдээ эсрэгээр нь одоо бас боломжтой гэдгийг та мэдэх үү? Та хэдэн үг бичихэд машин шинэ зураг үүсгэдэг.
Одоо байгаа гэрэл зургуудыг хайдаг Google хайлтаас ялгаатай нь энэ бүхэн шинэ юм. Сүүлийн жилүүдэд OpenAI нь гайхалтай үр дүнг мэдээлдэг тэргүүлэгч байгууллагуудын нэг юм.
Тэд асар том текст болон зургийн мэдээллийн сан дээр алгоритмуудаа сургадаг. Тэд хэдэн зуун сая гэрэл зураг дээр сургагдсан GLIDE зургийн загварынхаа талаар нийтлэл хэвлүүлсэн. Фотореализмын хувьд энэ нь тэдний өмнөх 'DALL-E' загвараас илүү гарсан.
Энэ нийтлэлд бид OpenAI-ийн GLIDE-ийг авч үзэх болно, энэ нь текстийн удирдамж бүхий тархалтын загвар бүхий фото бодит зургуудыг бүтээх, өөрчлөх зорилготой хэд хэдэн сонирхолтой санаачилга юм. Эхэлцгээе.
Гэж юу вэ AI Glide-г нээнэ үү?
Ихэнх зургийг үгээр дүрсэлж болох ч текстийн оруулгуудаас зураг бүтээхэд тусгай мэдлэг, ихээхэн цаг хугацаа шаардагдана.
AI агентийг байгалийн хэлээр фото бодит зураг гаргах боломжийг олгох нь хүмүүст урьд өмнө байгаагүй хялбараар баялаг, олон янзын харааны материалыг бүтээх боломжийг олгодог төдийгүй бүтээгдсэн зургуудыг илүү хялбар давталттай сайжруулж, нарийн хянах боломжийг олгодог.
GLIDE нь шинэ объект оруулах, сүүдэр, тусгал үүсгэх, гүйцэтгэхийн тулд байгалийн хэл дээрх текстийн сануулгыг ашиглан одоо байгаа зургуудыг засахад ашиглаж болно. зураг зурах, гэх мэт.
Энэ нь мөн үндсэн шугамын зургийг фото бодит гэрэл зураг болгон хувиргах боломжтой бөгөөд нарийн төвөгтэй нөхцөлд үйлдвэрлэх, засах онцгой чадвартай.
Сүүлийн үеийн судалгаагаар магадлалд суурилсан тархалтын загварууд нь олон янз байдал, үнэнч байдлыг тэнцвэржүүлдэг чиглүүлэгч арга барилтай хослуулсан тохиолдолд өндөр чанартай синтетик зураг гаргаж чаддаг болохыг харуулсан.
OpenAI нийтэлсэн чиглүүлсэн диффузын загвар XNUMX-р сард, энэ нь тархалтын загваруудыг ангилагчийн шошгон дээр нөхцөлт байлгах боломжийг олгодог. GLIDE нь текстийн нөхцөлт зураг үүсгэх асуудалд чиглүүлсэн тархалтыг авчрах замаар энэ амжилтыг сайжруулдаг.
Байгалийн хэлээр тайлбарлах нөхцөлийг бүрдүүлэхийн тулд текст кодлогч ашиглан 3.5 тэрбум параметр бүхий GLIDE тархалтын загварыг сургасны дараа судлаачид CLIP удирдамж болон ангилагчгүй удирдамж гэсэн хоёр өөр чиглүүлэх стратегийг туршиж үзсэн.
CLIP бол текст болон зургийн хамтарсан дүрслэлийг сурахад зориулсан өргөтгөх боломжтой арга бөгөөд зураг нь тайлбарт хэр ойрхон байгааг харгалзан оноо өгдөг.
Баг нь ангилагчийг загваруудыг "хөтөч" болгодог CLIP загвараар орлуулах замаар тархалтын загвартаа энэхүү стратегийг ашигласан. Үүний зэрэгцээ ангилагчгүй удирдамж нь тусдаа ангилагчийг сургах шаардлагагүй тархалтын загваруудыг чиглүүлэх стратеги юм.
GLIDE архитектур
GLIDE архитектур нь гурван бүрэлдэхүүн хэсгээс бүрдэнэ: 64 × 64 хэмжээтэй зураг үүсгэхээр бэлтгэгдсэн Ablated Diffusion Model (ADM), текст сануулгаар дамжуулан дүрс үүсгэхэд нөлөөлдөг текст загвар (трансформатор), бидний жижиг 64 × 64-ийг хөрвүүлдэг дээд түүвэр загвар. зургуудыг 256 x 256 пикселээр илүү тайлбарлах боломжтой.
Эхний хоёр бүрэлдэхүүн хэсэг нь зураг үүсгэх үйл явцыг хянахын тулд хамтран ажилладаг бөгөөд ингэснээр текстийн сануулгыг зохих ёсоор тусгадаг бол сүүлийнх нь бидний бүтээсэн зургуудыг ойлгоход хялбар болгох шаардлагатай. GLIDE төсөл нь a.-аас санаа авсан 2021 онд хэвлэгдсэн тайлан Энэ нь ADM техникүүд нь зургийн дээжийн чанарын хувьд одоогийн алдартай, хамгийн сүүлийн үеийн генерацийн загваруудаас давж гарсныг харуулсан.
ADM-ийн хувьд GLIDE зохиогчид Dhariwal, Nichol нартай ижил ImageNet 64 x 64 загварыг ашигласан боловч 512 биш 64 сувагтай. Үүний үр дүнд ImageNet загвар нь ойролцоогоор 2.3 тэрбум параметртэй.
GLIDE багийнхан Даривал, Никол нараас ялгаатай нь зураг үүсгэх үйл явцыг илүү сайн хянахыг хүссэн тул харааны загварыг анхаарал татахуйц трансформатортай хослуулсан. GLIDE нь текст оруулах хүсэлтийг боловсруулах замаар зураг үүсгэх процессын гаралтыг хянах боломжийг танд олгоно.
Энэ нь трансформаторын загварт тохирох том өгөгдлийн багц зураг, тайлбар (DALL-E төсөлд ашигласантай адил) дээр сургах замаар хийгддэг.
Текстийг нөхцөл болгохын тулд эхлээд хэд хэдэн K жетон болгон кодлодог. Үүний дараа токенуудыг трансформаторын загварт ачаална. Дараа нь трансформаторын гаралтыг хоёр аргаар ашиглаж болно. ADM загварын хувьд анги оруулахын оронд эцсийн токен оруулахыг ашигладаг.
Хоёрдугаарт, жетон шигтгээний эцсийн давхарга болох хэд хэдэн онцлог векторууд нь ADM загвар дахь анхаарлын давхарга бүрийн хэмжээсүүдэд тус тусад нь төлөвлөгдөж, анхаарлын контекст тус бүрд нэгтгэгддэг.
Бодит байдал дээр энэ нь ADM загварт орц үг болон тэдгээртэй холбоотой зургуудыг сурсан ойлголтдоо тулгуурлан ижил төстэй текстийн жетонуудын шинэ хослолоос өвөрмөц, фото бодит загвараар зураг гаргах боломжийг олгодог. Энэхүү текст кодлогч трансформатор нь 1.2 тэрбум параметр агуулсан бөгөөд 24 өргөнтэй 2048 үлдэгдэл блокуудыг ашигладаг.
Эцэст нь, дээд түүвэрлэгчийн тархалтын загвар нь 1.5 тэрбум орчим параметрийг багтаасан бөгөөд үндсэн загвартай харьцуулахад текст кодлогч нь 1024 ба 384 үндсэн сувгийн өргөнтэй жижиг хэмжээтэй гэдгээрээ үндсэн загвараас ялгаатай. Нэрнээс нь харахад энэ загвар нь машин болон хүмүүсийн тайлбарыг сайжруулахын тулд дээжийг шинэчлэхэд тусалдаг.
Диффузын загвар
GLIDE нь ADM-ийн өөрийн хувилбарыг ("хөтөгдсөн" гэсэн утгатай ADM-G) ашиглан зураг үүсгэдэг. ADM-G загвар нь диффузын U-net загварын өөрчлөлт юм. Диффузын U-net загвар нь VAE, GAN, трансформатор гэх мэт нийтлэг дүрсний синтезийн аргуудаас эрс ялгаатай.
Тэд санамсаргүй дуу чимээг өгөгдөлд аажмаар оруулахын тулд Марковын гинжин тархалтын шат дамжлагыг бий болгож, дараа нь тархалтын процессыг эргүүлж, шаардлагатай өгөгдлийн дээжийг зөвхөн дуу чимээнээс дахин бүтээхэд суралцдаг. Энэ нь хоёр үе шаттайгаар ажилладаг: урагш ба урвуу тархалт.
Дээжийн жинхэнэ тархалтын өгөгдлийн цэгийг өгөгдсөн урагш тараах арга нь урьдчилан тохируулсан цуврал алхмууд дээр дээжинд бага хэмжээний дуу чимээг нэмдэг. Алхам хэмжээ нь нэмэгдэж, хязгааргүйд ойртох тусам дээж нь бүх танигдах шинж чанараа алдаж, дараалал нь изотроп Гауссын муруйтай төстэй болж эхэлдэг.
Буцах тархалтын үед үе шат, тархалтын загвар зураг дээр нэмсэн дуу чимээний нөлөөллийг эргүүлж, анхны оролтын түүврийн тархалттай төстэй болгохыг оролдох замаар бүтээсэн зургийг анхны хэлбэрт нь эргүүлж сурдаг.
Дууссан загвар нь жинхэнэ Гауссын дуу чимээний оролт, шуурхай ажиллагааны тусламжтайгаар үүнийг хийж чадна. ADM-G арга нь өмнөхөөсөө ялгаатай бөгөөд загвар нь CLIP эсвэл өөрчлөн тохируулсан трансформаторын аль нэг нь оруулсан текст мессежийн жетонуудыг ашиглан ухрах тархалтын үе шатанд нөлөөлдөг.
Гулсах чадвар
1. Зураг үүсгэх
GLIDE-ийн хамгийн алдартай бөгөөд өргөн хэрэглэгддэг хэрэглээ нь зургийн синтез байж магадгүй юм. Хэдийгээр зургууд нь даруухан бөгөөд GLIDE нь амьтан/хүний дүрд хүндрэлтэй байдаг ч нэг удаагийн зураг бүтээх боломж бараг хязгааргүй юм.
Энэ нь амьтад, алдартнууд, ландшафт, барилга байгууламж болон бусад олон зүйлийн зургийг бүтээх боломжтой бөгөөд үүнийг янз бүрийн урлагийн хэв маягаар, мөн фото бодитоор хийх боломжтой. Судлаачдын зохиогчид GLIDE нь доорх жишээнүүдээс харахад олон төрлийн текстийн оруулгыг визуал формат руу орчуулах, тохируулах чадвартай гэж үздэг.
2. Уран зураг зурахдаа гулсах
GLIDE-ийн автомат зураг зурах нь хамгийн сонирхолтой хэрэглээ юм. GLIDE нь одоо байгаа зургийг оролт болгон авч, өөрчлөх шаардлагатай байршлыг харгалзан текстийн сануулгыг боловсруулж, дараа нь тэдгээр хэсгүүдэд хялбархан идэвхтэй өөрчлөлт хийх боломжтой.
Илүү сайн үр дүнд хүрэхийн тулд үүнийг SDEdit гэх мэт засварлах загвартай хамт ашиглах ёстой. Ирээдүйд ийм боломжуудыг ашигладаг програмууд нь кодгүй зургийг өөрчлөх арга барилыг хөгжүүлэхэд чухал ач холбогдолтой байж магадгүй юм.
Дүгнэлт
Одоо бид энэ үйл явцыг даван туулсан тул та GLIDE хэрхэн ажилладаг, түүнчлэн зураг үүсгэх, дүрсийг өөрчлөх чадварын өргөн цар хүрээг ойлгох хэрэгтэй.
хариу үлдээх