Talaan ng nilalaman[Tago][Ipakita]
Malamang na alam mo na ang isang computer ay maaaring maglarawan ng isang larawan.
Halimbawa, ang larawan ng asong nakikipaglaro sa iyong mga anak ay maaaring isalin bilang 'aso at mga bata sa hardin.' Ngunit alam mo ba na ang kabaligtaran na paraan sa paligid ay magagawa na rin ngayon? Nag-type ka ng ilang mga salita, at ang makina ay bumubuo ng isang bagong larawan.
Hindi tulad ng paghahanap sa Google, na naghahanap ng mga kasalukuyang larawan, lahat ito ay sariwa. Sa mga nakalipas na taon, ang OpenAI ay isa sa mga nangungunang organisasyon, na nag-uulat ng mga nakamamanghang resulta.
Sinasanay nila ang kanilang mga algorithm sa napakalaking database ng teksto at larawan. Nag-publish sila ng papel sa kanilang GLIDE image model, na sinanay sa daan-daang milyong larawan. Sa mga tuntunin ng photorealism, nahihigitan nito ang kanilang dating modelong 'DALL-E'.
Sa post na ito, titingnan natin ang GLIDE ng OpenAI, isa sa ilang mga kamangha-manghang mga hakbangin na naglalayong gumawa at baguhin ang mga photorealistic na larawan gamit ang mga modelo ng diffusion na ginagabayan ng teksto. Magsimula tayo.
Ano ang Buksan ang AI Glide?
Habang ang karamihan sa mga imahe ay maaaring ilarawan sa mga salita, ang paglikha ng mga imahe mula sa mga input ng teksto ay nangangailangan ng espesyal na kaalaman at isang makabuluhang tagal ng oras.
Ang pagpayag sa isang ahente ng AI na gumawa ng mga photorealistic na larawan mula sa natural na mga senyas ng wika ay hindi lamang nagbibigay-daan sa mga tao na lumikha ng mayaman at magkakaibang visual na materyal nang walang katulad na kadalian ngunit nagbibigay-daan din para sa mas simpleng umuulit na pagpipino at pinong kontrol ng mga larawang ginawa.
Maaaring gamitin ang GLIDE upang i-edit ang mga umiiral nang larawan sa pamamagitan ng paggamit ng natural na wika ng text prompt upang magpasok ng mga bagong bagay, lumikha ng mga anino at reflection, magsagawa pagpinta ng imahe, At iba pa.
Maaari din nitong gawing mga photorealistic na larawan ang mga pangunahing guhit ng linya, at mayroon itong pambihirang zero-sample na kakayahan sa pagmamanupaktura at pagkumpuni para sa mga kumplikadong sitwasyon.
Ipinakita ng kamakailang pananaliksik na ang mga modelo ng diffusion na nakabatay sa posibilidad ay maaari ding gumawa ng mga de-kalidad na sintetikong larawan, lalo na kapag isinama sa isang gabay na diskarte na nagbabalanse sa pagkakaiba-iba at katapatan.
Inilathala ng OpenAI a guided diffusion model sa Mayo, na nagpapahintulot sa mga modelo ng pagsasabog na maging kondisyon sa mga label ng isang classifier. Ang GLIDE ay nagpapabuti sa tagumpay na ito sa pamamagitan ng pagdadala ng guided diffusion sa problema ng paggawa ng text-conditional na imahe.
Pagkatapos magsanay ng 3.5 bilyong parameter na GLIDE diffusion model gamit ang isang text encoder para ikondisyon ang mga natural na paglalarawan ng wika, sinubukan ng mga mananaliksik ang dalawang alternatibong diskarte sa paggabay: CLIP guidance at classifier-free guidance.
Ang CLIP ay isang scalable na pamamaraan para sa pag-aaral ng magkasanib na representasyon ng teksto at mga larawan na naghahatid ng marka batay sa kung gaano kalapit ang isang larawan sa isang caption.
Ginamit ng team ang diskarteng ito sa kanilang mga diffusion model sa pamamagitan ng pagpapalit sa classifier ng isang CLIP model na "gumagabay" sa mga modelo. Samantala, ang gabay na walang classifier ay isang diskarte para sa pagdidirekta ng mga modelo ng diffusion na hindi kasama ang pagsasanay ng isang hiwalay na classifier.
GLIDE Arkitektura
Ang arkitektura ng GLIDE ay binubuo ng tatlong bahagi: isang Ablated Diffusion Model (ADM) na sinanay upang makabuo ng 64 × 64 na imahe, isang text model (transformer) na nakakaimpluwensya sa pagbuo ng larawan sa pamamagitan ng text prompt, at isang upsampling na modelo na nagko-convert sa aming maliit na 64 × 64 mga larawan sa mas naiintindihang 256 x 256 pixels.
Ang unang dalawang bahagi ay nagtutulungan upang kontrolin ang proseso ng pagbuo ng larawan upang ito ay naaangkop na sumasalamin sa text prompt, habang ang huli ay kinakailangan upang gawing mas madaling maunawaan ang mga larawang nilikha namin. Ang proyekto ng GLIDE ay inspirasyon ng isang ulat na inilathala noong 2021 na nagpakita na ang mga diskarte ng ADM ay nalampasan ang kasalukuyang sikat, makabagong mga generative na modelo sa mga tuntunin ng kalidad ng sample ng larawan.
Para sa ADM, ginamit ng mga may-akda ng GLIDE ang parehong modelo ng ImageNet 64 x 64 bilang Dhariwal at Nichol, ngunit may 512 channel sa halip na 64. Ang modelo ng ImageNet ay may humigit-kumulang 2.3 bilyong mga parameter bilang resulta nito.
Ang GLIDE team, hindi tulad nina Dhariwal at Nichol, ay gustong magkaroon ng higit na direktang kontrol sa proseso ng pagbuo ng larawan, kaya pinagsama nila ang visual na modelo sa isang transformer na pinagana ng pansin. Binibigyan ka ng GLIDE ng ilang kontrol sa output ng proseso ng pagbuo ng larawan sa pamamagitan ng pagproseso ng mga prompt ng text input.
Nagagawa ito sa pamamagitan ng pagsasanay sa modelo ng transformer sa isang angkop na malaking dataset ng mga larawan at caption (katulad ng ginamit sa proyekto ng DALL-E).
Ang teksto ay unang naka-encode sa isang serye ng mga K token upang makondisyon ito. Pagkatapos nito, ang mga token ay na-load sa isang modelo ng transpormer. Ang output ng transpormer ay maaaring gamitin sa dalawang paraan. Para sa modelong ADM, ang panghuling pag-embed ng token ay ginagamit sa halip na ang pag-embed ng klase.
Pangalawa, ang panghuling layer ng mga token embeddings – isang serye ng mga feature vectors – ay ine-project nang hiwalay sa mga dimensyon para sa bawat layer ng atensyon sa modelo ng ADM at pinagsama-sama sa bawat konteksto ng atensyon.
Sa totoo lang, binibigyang-daan nito ang modelo ng ADM na makabuo ng isang larawan mula sa mga bagong kumbinasyon ng magkatulad na mga token ng teksto sa isang natatangi at photorealistic na paraan, batay sa natutunan nitong pag-unawa sa mga salitang input at mga kaugnay na larawan ng mga ito. Ang text-encoding transpormer na ito ay naglalaman ng 1.2 bilyong mga parameter at gumagamit ng 24 na natitirang mga bloke na may lapad na 2048.
Panghuli, ang upsampler diffusion model ay may kasamang humigit-kumulang 1.5 bilyong mga parameter at nag-iiba mula sa pangunahing modelo dahil ang text encoder nito ay mas maliit, na may lapad na 1024 at 384 na base channel, kumpara sa batayang modelo. Ang modelong ito, gaya ng ipinahihiwatig ng pangalan, ay tumutulong sa pag-upgrade ng sample upang mapabuti ang interpretability para sa parehong mga makina at tao.
Modelo ng pagsasabog
Ang GLIDE ay bumubuo ng mga larawan gamit ang sarili nitong bersyon ng ADM (ADM-G para sa "guided"). Ang modelong ADM-G ay isang pagbabago ng diffusion U-net na modelo. Malaki ang pagkakaiba ng diffusion U-net na modelo sa mas karaniwang mga diskarte sa synthesis ng imahe gaya ng VAE, GAN, at mga transformer.
Bumubuo sila ng Markov chain of diffusion steps upang unti-unting mag-inject ng random na ingay sa data, at pagkatapos ay matutunang baligtarin ang proseso ng diffusion at muling itayo ang mga kinakailangang sample ng data mula sa ingay lamang. Gumagana ito sa dalawang yugto: pasulong at baligtad na pagsasabog.
Ang paraan ng pagpapasabog ng pasulong, na binigyan ng punto ng data mula sa tunay na pamamahagi ng sample, ay nagdaragdag ng kaunting ingay sa sample sa isang preset na serye ng mga hakbang. Habang tumataas ang laki ng mga hakbang at lumalapit sa infinity, nawawala sa sample ang lahat ng nakikilalang katangian at ang sequence ay nagsisimulang maging katulad ng isotropic Gaussian curve.
Sa panahon ng paatras na pagsasabog phase, ang diffusion model natututong baligtarin ang impluwensya ng idinagdag na ingay sa mga larawan at ibalik ang ginawang imahe sa orihinal nitong hugis sa pamamagitan ng pagsubok na maging katulad ng orihinal na pamamahagi ng sample ng input.
Ang isang nakumpletong modelo ay maaaring gawin ito gamit ang isang tunay na Gaussian noise input at isang prompt. Ang paraan ng ADM-G ay nag-iiba mula sa nauna dahil ang isang modelo, alinman sa CLIP o isang customized na transpormer, ay nakakaapekto sa paatras na yugto ng pagsasabog sa pamamagitan ng paggamit ng mga text prompt token na nai-input.
Mga kakayahan sa pag-glide
1. Pagbuo ng Imahe
Ang pinakasikat at malawakang ginagamit na paggamit ng GLIDE ay malamang na ang image synthesis. Bagama't ang mga larawan ay katamtaman at ang GLIDE ay nahihirapan sa mga anyo ng hayop/tao, ang potensyal para sa one-shot na paggawa ng larawan ay halos walang katapusan.
Maaari itong lumikha ng mga larawan ng mga hayop, celebrity, landscape, gusali, at marami pang iba, at magagawa ito sa iba't ibang istilo ng sining gayundin sa photo-realistically. Iginiit ng mga may-akda ng mga mananaliksik na ang GLIDE ay may kakayahang mag-interpret at mag-adapt ng malawak na iba't ibang textual input sa isang visual na format, tulad ng nakikita sa mga sample sa ibaba.
2. Glide inpainting
Ang awtomatikong pagpinta ng larawan ng GLIDE ay masasabing ang pinakakaakit-akit na paggamit. Maaaring kumuha ng kasalukuyang larawan ang GLIDE bilang input, iproseso ito nang nasa isip ang text prompt para sa mga lokasyong kailangang baguhin, at pagkatapos ay gumawa ng mga aktibong pagbabago sa mga bahaging iyon nang madali.
Dapat itong gamitin kasabay ng isang modelo ng pag-edit, tulad ng SDEdit, upang makagawa ng mas magagandang resulta. Sa hinaharap, ang mga app na sinasamantala ang mga kakayahan na tulad nito ay maaaring maging mahalaga sa pagbuo ng mga diskarte sa pagbabago ng larawan na walang code.
Konklusyon
Ngayong napagdaanan na natin ang proseso, dapat mong maunawaan ang mga pangunahing kaalaman sa kung paano gumagana ang GLIDE, pati na rin ang lawak ng mga kakayahan nito sa paggawa ng larawan at pagbabago sa larawan.
Mag-iwan ng Sagot