Lagmit nahibal-an nimo nga ang usa ka kompyuter makahulagway sa usa ka litrato.
Pananglitan, ang hulagway sa usa ka iro nga nagdula uban sa imong mga anak mahimong hubaron nga 'iro ug mga bata sa tanaman.' Apan nahibal-an ba nimo nga ang kaatbang nga paagi sa palibot mahimo na usab karon? Nag-type ka og pipila ka mga pulong, ug ang makina makamugna og bag-ong hulagway.
Dili sama sa usa ka pagpangita sa Google, nga nangita sa kasamtangan nga mga litrato, kini tanan bag-o. Sa bag-ohay nga mga tuig, ang OpenAI usa sa mga nanguna nga organisasyon, nga nagreport sa mga katingad-an nga sangputanan.
Gibansay nila ang ilang mga algorithm sa daghang mga database sa teksto ug litrato. Gipatik nila ang usa ka papel sa ilang GLIDE nga modelo sa imahe, nga gibansay sa gatusan ka milyon nga mga litrato. Sa termino sa photorealism, kini labaw sa ilang naunang modelo nga 'DALL-E'.
Sa kini nga post, atong tan-awon ang OpenAI's GLIDE, usa sa daghang makaiikag nga mga inisyatibo nga gitumong sa paghimo ug pag-usab sa mga photorealistic nga mga litrato nga adunay mga modelo sa pagsabwag nga gigiyahan sa teksto. Magsugod ta.
Unsa ang Ablihi ang AI Glide?
Samtang ang kadaghanan sa mga imahe mahimong gihulagway sa mga pulong, ang paghimo sa mga imahe gikan sa mga input sa teksto nanginahanglan espesyal nga kahibalo ug usa ka hinungdanon nga oras.
Ang pagtugot sa usa ka ahente sa AI nga makahimo og mga photorealistic nga mga hulagway gikan sa natural nga pinulongan nga nag-aghat dili lamang nagtugot sa mga tawo sa paghimo og dato ug lain-laing biswal nga materyal uban sa wala pa mahitabo nga kasayon apan usab nagtugot alang sa mas simple nga iterative refinement ug fine-grained nga pagkontrolar sa mga hulagway nga gibuhat.
Ang GLIDE mahimong gamiton sa pag-edit sa kasamtangan nga mga litrato pinaagi sa paggamit sa natural nga pinulongan nga text prompt aron sa pagsal-ot sa bag-ong mga butang, paghimo og mga anino ug mga pamalandong, paghimo pagpintal sa imahe, ug uban pa.
Mahimo usab niini nga himuon ang sukaranan nga mga drowing sa linya nga mahimong photorealistic nga mga litrato, ug kini adunay talagsaon nga zero-sample nga paghimo ug mga kapabilidad sa pag-ayo alang sa komplikado nga mga sitwasyon.
Gipakita sa bag-ong panukiduki nga ang mga modelo sa pagsabwag nga gibase sa posibilidad mahimo usab nga makahimo og taas nga kalidad nga sintetikong mga litrato, labi na kung giubanan sa usa ka giya nga pamaagi nga nagbalanse sa pagkalainlain ug pagkamatinud-anon.
Gimantala sa OpenAI ang usa ka giya nga modelo sa pagsabwag sa Mayo, nga nagtugot sa mga modelo sa pagsabwag nga mahimong kondisyon sa mga label sa usa ka classifier. Gipauswag sa GLIDE kini nga kalampusan pinaagi sa pagdala sa giya nga pagsabwag sa problema sa paghimo sa imahe nga adunay kondisyon nga teksto.
Pagkahuman sa pagbansay sa usa ka 3.5 bilyon nga parameter nga GLIDE diffusion model gamit ang usa ka text encoder aron makondisyon ang natural nga mga paghubit sa lengguwahe, gisulayan sa mga tigdukiduki ang duha ka alternatibong mga pamaagi sa paggiya: CLIP nga giya ug giya nga wala’y klase.
Ang CLIP usa ka scalable nga teknik para sa pagkat-on sa hiniusang representasyon sa teksto ug mga hulagway nga maghatag ug score base sa kung unsa ka duol ang usa ka hulagway sa usa ka caption.
Gigamit sa team kini nga estratehiya sa ilang mga modelo sa pagsabwag pinaagi sa pag-ilis sa classifier sa usa ka modelo nga CLIP nga "naggiya" sa mga modelo. Samtang, ang giya nga wala’y classifier usa ka estratehiya alang sa pagdirekta sa mga modelo sa pagsabwag nga wala maglakip sa pagbansay sa usa ka bulag nga classifier.
GLIDE Arkitektura
Ang arkitektura sa GLIDE naglangkob sa tulo ka mga sangkap: usa ka Ablated Diffusion Model (ADM) nga gibansay aron makamugna og 64 × 64 nga imahe, usa ka modelo sa teksto (transformer) nga nag-impluwensya sa paghimo og imahe pinaagi sa usa ka text prompt, ug usa ka upsampling nga modelo nga nagbag-o sa among gamay nga 64 × 64 mga hulagway ngadto sa mas masabtan nga 256 x 256 pixels.
Ang una nga duha ka mga sangkap nagtinabangay aron makontrol ang proseso sa paghimo og litrato aron kini tukma nga nagpakita sa pag-aghat sa teksto, samtang ang naulahi gikinahanglan aron mas dali masabtan ang mga imahe nga atong gihimo. Ang GLIDE nga proyekto giinspirar sa a report nga gipatik sa 2021 nga nagpakita nga ang mga teknik sa ADM milabaw sa popular karon, pinakabag-o nga generative nga mga modelo sa termino sa kalidad sa sample sa hulagway.
Alang sa ADM, ang mga tagsulat sa GLIDE migamit sa parehas nga ImageNet 64 x 64 nga modelo sama sa Dhariwal ug Nichol, apan adunay 512 nga mga channel imbes nga 64. Ang ImageNet nga modelo adunay halos 2.3 bilyon nga mga parameter isip resulta niini.
Ang grupo sa GLIDE, dili sama ni Dhariwal ug Nichol, gusto nga adunay mas dako nga direktang kontrol sa proseso sa paghimo og litrato, sa ingon ilang gihiusa ang biswal nga modelo sa usa ka transformer nga makapahimo sa atensyon. Ang GLIDE naghatag kanimo og pipila ka kontrol sa proseso sa paghimo og hulagway nga output pinaagi sa pagproseso sa text input prompt.
Nahimo kini pinaagi sa pagbansay sa modelo sa transformer sa usa ka haom nga dako nga dataset sa mga litrato ug mga caption (sama sa gigamit sa DALL-E nga proyekto).
Ang teksto sa sinugdan gi-encode sa usa ka serye sa mga K token aron makondisyon kini. Pagkahuman niana, ang mga token gikarga sa usa ka modelo sa transformer. Ang output sa transformer mahimong gamiton sa duha ka paagi. Alang sa modelo sa ADM, ang katapusan nga pag-embed sa token gigamit imbes nga pag-embed sa klase.
Ikaduha, ang katapusang layer sa token embeddings - usa ka serye sa mga feature vectors - giplano nga independente sa mga dimensyon alang sa matag attention layer sa ADM model ug gidugtong sa matag konteksto sa atensyon.
Sa pagkatinuod, kini makapahimo sa modelo sa ADM sa paghimo og usa ka hulagway gikan sa bag-ong mga kombinasyon sa susama nga mga token sa teksto sa usa ka talagsaon ug photorealistic nga paagi, base sa iyang nakat-unan nga pagsabot sa mga input nga mga pulong ug sa ilang mga may kalabutan nga mga hulagway. Kini nga text-encoding transformer adunay 1.2 bilyon nga mga parameter ug naggamit sa 24 nga nahabilin nga mga bloke nga adunay gilapdon nga 2048.
Sa katapusan, ang upsampler diffusion model naglakip sa mga 1.5 bilyon nga mga parameter ug lainlain gikan sa batakang modelo tungod kay ang text encoder niini mas gamay, nga adunay gilapdon nga 1024 ug 384 nga base channel, kung itandi sa base nga modelo. Kini nga modelo, ingon sa gipakita sa ngalan, makatabang sa pag-upgrade sa sample aron mapauswag ang pagkahubad sa mga makina ug tawo.
Modelo sa pagsabwag
Ang GLIDE nagmugna og mga hulagway gamit ang kaugalingong bersyon sa ADM (ADM-G alang sa "gigiyahan"). Ang modelo sa ADM-G usa ka pagbag-o sa diffusion U-net nga modelo. Ang usa ka diffusion U-net nga modelo lahi kaayo gikan sa mas komon nga mga teknik sa synthesis sa imahe sama sa VAE, GAN, ug mga transformer.
Nagtukod sila og Markov nga kadena sa mga lakang sa pagsabwag aron anam-anam nga mag-inject sa random nga kasaba ngadto sa datos, ug dayon makakat-on sa pag-usab sa proseso sa pagsabwag ug pagtukod pag-usab sa gikinahanglan nga mga sample sa datos gikan sa kasaba lamang. Naglihok kini sa duha ka yugto: pasulong ug baliktad nga pagsabwag.
Ang paagi sa pagsabwag sa unahan, gihatagan usa ka punto sa datos gikan sa tinuud nga pag-apod-apod sa sample, nagdugang gamay nga kasaba sa sample sa usa ka preset nga serye sa mga lakang. Samtang ang mga lakang nagdugang sa gidak-on ug nagkaduol sa infinity, ang sample nawad-an sa tanan nga mailhan nga mga kinaiya ug ang pagkasunod-sunod nagsugod nga susama sa isotropic Gaussian curve.
Atol sa atras nga pagsabwag hugna, ang diffusion model nakakat-on nga balihon ang impluwensya sa gidugang nga kasaba sa mga litrato ug dad-on ang gihimo nga imahe balik sa orihinal nga porma pinaagi sa pagsulay nga mahisama sa orihinal nga pag-apod-apod sa sample sa input.
Ang usa ka kompleto nga modelo makahimo niini gamit ang tinuod nga Gaussian noise input ug usa ka prompt. Ang pamaagi sa ADM-G lainlain gikan sa nag-una tungod kay ang usa ka modelo, bisan ang CLIP o usa ka naandan nga pagbag-o, nakaapekto sa atras nga yugto sa pagsabwag pinaagi sa paggamit sa mga timaan sa pag-aghat sa teksto nga gi-input.
Mga katakus sa pag-glide
1. Kaliwatan sa Imahe
Ang pinakasikat ug kaylap nga gigamit nga paggamit sa GLIDE lagmit mao ang image synthesis. Bisan pa nga ang mga litrato kasarangan ug ang GLIDE adunay kalisud sa mga porma sa hayop/tawo, ang potensyal alang sa usa ka shot nga paghimo sa imahe hapit walay katapusan.
Makahimo kini og mga litrato sa mga mananap, mga celebrity, mga talan-awon, mga building, ug daghan pa, ug mahimo kini sa lain-laing mga estilo sa arte ingon man sa photo-realistic. Ang mga tagsulat sa mga tigdukiduki nag-ingon nga ang GLIDE makahimo sa paghubad ug pagpahiangay sa usa ka halapad nga lainlain nga mga input sa teksto sa usa ka visual format, ingon sa makita sa mga sample sa ubos.
2. Glide inpainting
Ang awtomatik nga pagpintal sa litrato sa GLIDE lagmit ang labing makaiikag nga paggamit. Ang GLIDE makahimo sa pagkuha sa usa ka kasamtangan nga hulagway isip input, pagproseso niini uban sa text prompt diha sa hunahuna alang sa mga lokasyon nga kinahanglan nga usbon, ug dayon paghimo sa aktibo nga mga pagbag-o sa mga bahin sa kasayon.
Kinahanglan kini gamiton kauban sa usa ka modelo sa pag-edit, sama sa SDEdit, aron makahimo og mas maayo nga mga resulta. Sa umaabot, ang mga app nga nagpahimulos sa mga kapabilidad nga sama niini mahimong hinungdanon sa pagpalambo sa code-free picture-altering approach.
Panapos
Karon nga nakaagi na kami sa proseso, kinahanglan nimong masabtan ang mga sukaranan kung giunsa paglihok ang GLIDE, ingon man ang gilapdon sa mga kapabilidad niini sa paghimo og litrato ug pagbag-o sa imahe.
Leave sa usa ka Reply