Sa mga nagdaang taon, naging mas epektibo ang mga modelo ng deep-learning sa pag-unawa sa wika ng tao.
Mag-isip ng mga proyekto tulad ng GPT-3, na ngayon ay nakakagawa ng buong mga artikulo at website. Ipinakilala kamakailan ang GitHub Github Copilot, isang serbisyong nagbibigay ng buong code snippet sa pamamagitan lamang ng paglalarawan sa uri ng code na kailangan mo.
Ang mga mananaliksik sa OpenAI, Facebook, at Google ay gumagawa ng mga paraan upang magamit ang malalim na pag-aaral upang mahawakan ang isa pang gawain: pag-caption ng mga larawan. Gamit ang isang malaking dataset na may milyun-milyong entry, nakabuo sila ng ilan kagulat-gulat resulta.
Kamakailan lamang, sinubukan ng mga mananaliksik na ito na gawin ang kabaligtaran na gawain: paglikha ng mga larawan mula sa isang caption. Posible na bang lumikha ng isang ganap na bagong imahe mula sa isang paglalarawan?
I-explore ng gabay na ito ang dalawa sa mga pinaka-advanced na text-to-image na mga modelo: DALL-E 2 ng OpenAI at Imagen AI ng Google. Ang bawat isa sa mga proyektong ito ay nagpasimula ng mga groundbreaking na pamamaraan na maaaring magbago ng lipunan gaya ng alam natin.
Ngunit una, unawain natin kung ano ang ibig sabihin ng pagbuo ng text-to-image.
Ano ang pagbuo ng text-to-image?
Mga modelo ng text-to-image payagan ang mga computer na lumikha ng bago at natatanging mga larawan batay sa mga senyas. Ang mga tao ay maaari na ngayong magbigay ng isang text na paglalarawan ng isang imahe na gusto nilang gawin, at ang modelo ay susubukan na lumikha ng isang visual na tumutugma sa paglalarawan na iyon nang mas malapit hangga't maaari.
Ginamit ng mga modelo ng machine learning ang paggamit ng malalaking dataset na naglalaman ng mga pares ng caption ng larawan upang higit pang mapahusay ang performance.
Karamihan sa text-to-image ang mga modelo ay gumagamit ng isang modelo ng wikang transpormador upang bigyang-kahulugan ang mga senyas. Ang ganitong uri ng modelo ay a neural network na sinusubukang matutunan ang konteksto at semantikong kahulugan ng natural na wika.
Susunod, ang mga generative na modelo tulad ng mga modelo ng pagsasabog at generative adversarial network ay ginagamit para sa synthesis ng imahe.
Ano ang DALLE 2?
DALL-E2 ay isang modelo ng computer ng OpenAI na inilabas noong Abril 2022. Ang modelo ay sinanay sa isang database ng milyun-milyong may label na larawan upang iugnay ang mga salita at parirala sa mga larawan.
Ang mga gumagamit ay maaaring mag-type ng isang simpleng parirala, tulad ng "isang pusang kumakain ng lasagna", at ang DALL-E 2 ay bubuo ng sarili nitong interpretasyon kung ano ang sinusubukang ilarawan ng parirala.
Bukod sa paglikha ng mga larawan mula sa simula, ang DALL-E 2 ay maaari ding mag-edit ng mga kasalukuyang larawan. Sa halimbawa sa ibaba, ang DALL-E ay nakabuo ng binagong larawan ng isang silid na may idinagdag na sopa.
Ang DALL-E 2 ay isa lamang sa maraming katulad na proyektong inilabas ng OpenAI sa nakalipas na ilang taon. Naging karapat-dapat sa balita ang GPT-3 ng OpenAI nang tila nakabuo ito ng teksto ng iba't ibang istilo.
Sa kasalukuyan, ang DALL-E 2 ay nasa beta testing pa rin. Maaaring mag-sign up ang mga interesadong user para sa kanilang listahan ng paghihintay at maghintay ng access.
Paano Magtrabaho ba ito?
Habang ang mga resulta ng DALL-E 2 ay kahanga-hanga, maaaring nagtataka ka kung paano gumagana ang lahat.
Ang DALL-E 2 ay isang halimbawa ng multimodal na pagpapatupad ng GPT-3 na proyekto ng OpenAI.
Una, inilalagay ang text prompt ng user sa isang text encoder na nagmamapa sa prompt sa isang representasyong espasyo. Gumagamit ang DALL-E 2 ng isa pang modelo ng OpenAI na tinatawag na CLIP ( Contrastive Language-Image Pre-Training) upang makakuha ng semantic na impormasyon mula sa natural na wika.
Susunod, isang modelo na kilala bilang ang bago nagmamapa ng text encoding sa isang image encoding. Dapat makuha ng pag-encode ng larawang ito ang semantic na impormasyon na makikita sa hakbang ng pag-encode ng teksto.
Upang lumikha ng aktwal na imahe, ang DALL-E 2 ay gumagamit ng isang decoder ng imahe upang bumuo ng isang visual gamit ang semantic na impormasyon at mga detalye ng pag-encode ng imahe. Gumagamit ang OpenAI ng binagong bersyon ng LABAN modelo upang maisagawa ang pagbuo ng imahe. Ang GLIDE ay umaasa sa a modelo ng pagsasabog upang lumikha ng mga larawan.
Ang pagdaragdag ng GLIDE sa modelong DALL-E 2 ay nagpagana ng higit pang photorealistic na output. Dahil ang GLIDE model ay stochastic o random na tinutukoy, ang DALL-E 2 na modelo ay madaling makagawa ng mga variation sa pamamagitan ng pagpapatakbo ng modelo nang paulit-ulit.
Mga hangganan
Sa kabila ng mga kahanga-hangang resulta ng modelong DALL-E 2, nahaharap pa rin ito sa ilang mga limitasyon.
Teksto sa Pagbaybay
Ang mga senyas na sumusubok na gumawa ng DALL-E 2 na bumuo ng teksto ay nagpapakita na nahihirapan itong baybayin ang mga salita. Ipinapalagay ng mga eksperto na maaaring ito ay dahil ang impormasyon sa pagbabaybay ay hindi bahagi ng dataset ng pagsasanay.
Komposisyonal na Pangangatwiran
Napansin ng mga mananaliksik na ang DALL-E 2 ay nahihirapan pa rin sa compositional reasoning. Sa madaling salita, mauunawaan ng modelo ang mga indibidwal na aspeto ng isang imahe habang nagkakaproblema pa rin sa pag-uunawa ng mga ugnayan sa pagitan ng mga aspetong ito.
Halimbawa, kung bibigyan ng prompt na "pulang kubo sa ibabaw ng isang asul na kubo", ang DALL-E ay bubuo ng isang asul na kubo at isang pulang kubo nang tumpak ngunit hindi ito mailalagay nang tama. Ang modelo ay naobserbahan din na nahihirapan sa mga senyas na nangangailangan ng isang tiyak na bilang ng mga bagay na iguguhit.
Bias sa dataset
Kung ang prompt ay walang ibang mga detalye, ang DALL-E ay naobserbahan upang ilarawan ang mga puti o Kanluraning tao at kapaligiran. Ang representational bias na ito ay nangyayari dahil sa kasaganaan ng Western-centric na mga imahe sa dataset.
Ang modelo ay naobserbahan din na sumusunod sa mga stereotype ng kasarian. Halimbawa, ang pag-type sa prompt na "flight attendant" ay kadalasang bumubuo ng mga larawan ng mga babaeng flight attendant.
Ano ang Google Imagen AI?
Google Imagen AI ay isang modelo na naglalayong lumikha ng mga photorealistic na larawan mula sa input text. Katulad ng DALL-E, gumagamit din ang modelo ng mga modelo ng wika ng transpormer upang maunawaan ang teksto at umaasa sa paggamit ng mga modelo ng pagsasabog upang lumikha ng mga de-kalidad na larawan.
Sa tabi ng Imagen, naglabas din ang Google ng benchmark para sa mga text-to-image na modelo na tinatawag na DrawBench. Gamit ang DrawBench, napagmasdan nilang mas gusto ng mga taga-rate ng tao ang Imagen na output kaysa sa iba pang mga modelo kabilang ang DALL-E 2.
Paano Magtrabaho ba ito?
Katulad ng DALL-E, kino-convert muna ng Imagen ang prompt ng user sa isang text embedding sa pamamagitan ng frozen text encoder.
Gumagamit ang Imagen ng diffusion model na natututo kung paano i-convert ang isang pattern ng ingay sa mga imahe. Ang paunang output ng mga larawang ito ay mababa ang resolution at kalaunan ay ipinapasa sa isa pang modelo na kilala bilang isang super-resolution na modelo ng pagsasabog upang mapataas ang resolution ng panghuling larawan. Ang unang modelo ng diffusion ay naglalabas ng 64×64 pixel na imahe at sa kalaunan ay pinasabog hanggang sa isang high-resolution na 1024×1024 na imahe.
Batay sa pananaliksik ng Imagen team, ang malalaking naka-frozen na mga modelo ng wika na sinanay lamang sa data ng text ay napakabisa pa ring mga text encoder para sa pagbuo ng text-to-image.
Ipinakilala din ng pag-aaral ang konsepto ng dynamic na thresholding. Ang pamamaraang ito ay nagbibigay-daan sa mga larawan na lumitaw nang mas photorealistic sa pamamagitan ng pagtaas ng mga timbang ng gabay kapag bumubuo ng larawan.
Pagganap ng DALLE 2 vs Imagen
Ang mga paunang resulta mula sa benchmark ng Google ay nagpapakita na ang mga taong sumasagot ay mas gusto ang mga larawang nabuo ng Imagen kaysa sa DALL-E 2 at iba pang mga text-to-image na modelo gaya ng Latent Diffusion at VQGAN+CLIP.
Ang output na nagmumula sa Imagen team ay nagpakita din na ang kanilang modelo ay gumaganap nang mas mahusay sa spelling text, isang kilalang kahinaan ng DALL-E 2 na modelo.
Gayunpaman, dahil hindi pa inilalabas ng Google ang modelo sa publiko, nananatili pa rin itong makita kung gaano katumpak ang mga benchmark ng Google.
Konklusyon
Ang pagtaas ng mga photorealistic na text-to-image na mga modelo ay kontrobersyal dahil ang mga modelong ito ay hinog na para sa hindi etikal na paggamit.
Ang teknolohiya ay maaaring humantong sa paglikha ng tahasang nilalaman o bilang isang tool para sa disinformation. Alam ito ng mga mananaliksik mula sa Google at OpenAI, na dahilan kung bakit hindi pa rin naa-access ng lahat ang mga teknolohiyang ito.
Ang mga modelo ng text-to-image ay mayroon ding makabuluhang implikasyon sa ekonomiya. Maaapektuhan ba ang mga propesyon gaya ng mga modelo, photographer, at artist kung magiging mainstream ang mga modelong gaya ng DALL-E?
Sa ngayon, may mga limitasyon pa rin ang mga modelong ito. Ang paghawak sa anumang imaheng binuo ng AI sa pagsisiyasat ay magbubunyag ng mga di-kasakdalan nito. Sa parehong OpenAI at Google na nakikipagkumpitensya para sa pinaka-epektibong mga modelo, maaaring isang oras bago mabuo ang isang tunay na perpektong output: isang imahe na hindi nakikilala mula sa totoong bagay.
Ano sa palagay mo ang mangyayari kapag ang teknolohiya ay umabot nang ganoon kalayo?
Mag-iwan ng Sagot