X'aktarx int taf li kompjuter jista' jiddeskrivi stampa.
Pereżempju, stampa ta' kelb jilgħab mat-tfal tiegħek tista' tiġi tradotta bħala 'kelb u tfal fil-ġnien.' Imma kont taf li l-mod oppost madwar issa huwa fattibbli wkoll? Ttajpja xi kliem, u l-magna tiġġenera stampa ġdida.
B'differenza minn tfittxija Google, li tfittex ritratti eżistenti, dan huwa kollu frisk. F'dawn l-aħħar snin, OpenAI kienet waħda mill-organizzazzjonijiet ewlenin, li rrapporta riżultati tal-isturdament.
Huma jħarrġu l-algoritmi tagħhom fuq databases massivi ta’ test u stampi. Huma ppubblikaw dokument dwar il-mudell tal-immaġni GLIDE tagħhom, li kien imħarreġ fuq mijiet ta 'miljuni ta' ritratti. F'termini ta 'fotorealiżmu, huwa ogħla mill-mudell 'DALL-E' preċedenti tagħhom.
F'din il-kariga, se nħarsu lejn GLIDE ta' OpenAI, waħda minn bosta inizjattivi affaxxinanti mmirati biex jipproduċu u jbiddlu stampi fotorealistiċi b'mudelli ta' diffużjoni iggwidati mit-test. Ejja nibdew.
X'inhu Iftaħ AI Glide?
Filwaqt li l-biċċa l-kbira tal-immaġini jistgħu jiġu deskritti bil-kliem, il-ħolqien ta 'immaġini minn inputs tat-test jeħtieġ għarfien speċjalizzat u ammont sinifikanti ta' ħin.
Il-permess ta' aġent tal-AI jipproduċi stampi fotorealistiċi minn kliem naturali mhux biss jippermetti lin-nies joħolqu materjal viżiv għani u divers b'faċilità mingħajr preċedent iżda jippermetti wkoll raffinar iterattiv aktar sempliċi u kontroll irqiq tal-immaġini maħluqa.
GLIDE tista' tintuża biex teditja ritratti eżistenti billi tuża test ta' lingwa naturali biex tiddaħħal oġġetti ġodda, toħloq dellijiet u riflessjonijiet, twettaq immaġni fil-pittura, U l-bqija.
Jista 'wkoll idawwar tpinġijiet tal-linji bażiċi f'ritratti fotorealistiċi, u għandu kapaċitajiet eċċezzjonali ta' manifattura u tiswija ta 'kampjun żero għal sitwazzjonijiet kumplessi.
Riċerka reċenti wriet li mudelli ta 'diffużjoni bbażati fuq il-probabbiltà jistgħu wkoll jipproduċu stampi sintetiċi ta' kwalità għolja, partikolarment meta kkombinati ma 'approċċ ta' gwida li jibbilanċja l-varjetà u l-fedeltà.
OpenAI ppubblikat a mudell ta' diffużjoni ggwidata f'Mejju, li jippermetti li mudelli ta 'diffużjoni jkunu kundizzjonali fuq it-tikketti ta' klassifikatur. GLIDE itejjeb dan is-suċċess billi jġib diffużjoni ggwidata għall-problema tal-ħolqien ta 'immaġini b'kondizzjoni tat-test.
Wara li tħarreġ mudell ta 'diffużjoni GLIDE ta' parametru ta '3.5 biljun bl-użu ta' encoder tat-test biex jikkondizzjona fuq deskrizzjonijiet tal-lingwa naturali, ir-riċerkaturi ttestjaw żewġ strateġiji ta 'gwida alternattivi: gwida CLIP u gwida mingħajr klassifikatur.
CLIP hija teknika skalabbli għat-tagħlim ta' rappreżentazzjonijiet konġunti ta' test u stampi li tagħti punteġġ ibbażat fuq kemm tkun qrib immaġini għal caption.
It-tim uża din l-istrateġija fil-mudelli tad-diffużjoni tagħhom billi ssostitwixxa l-klassifikatur b'mudell CLIP li "jiggwida" il-mudelli. Sadanittant, il-gwida mingħajr klassifikatur hija strateġija biex tidderieġi mudelli ta 'diffużjoni li ma jinvolvux it-taħriġ ta' klassifikatur separat.
GLIDE Arkitettura
L-arkitettura GLIDE tikkonsisti fi tliet komponenti: Mudell ta’ Diffużjoni Ablated (ADM) imħarreġ biex jiġġenera immaġni 64 × 64, mudell ta’ test (transformer) li jinfluwenza l-ġenerazzjoni ta’ l-immaġini permezz ta’ pront ta’ test, u mudell ta’ kampjunar li jikkonverti ż-żgħir 64 × 64 tagħna. immaġini għal aktar interpretabbli 256 x 256 pixels.
L-ewwel żewġ komponenti jaħdmu flimkien biex jikkontrollaw il-proċess tal-ġenerazzjoni tal-istampa sabiex jirrifletti b'mod xieraq it-test fil-pront, filwaqt li dan tal-aħħar huwa meħtieġ biex l-immaġini li noħolqu jkunu aktar faċli biex jinftiehmu. Il-proġett GLIDE kien ispirat minn a rapport ippubblikat fl-2021 li wera li t-tekniki ADM qabżu l-mudelli ġenerattivi ta 'l-aħħar popolari bħalissa f'termini ta' kwalità ta 'kampjun ta' stampa.
Għall-ADM, l-awturi GLIDE impjegaw l-istess mudell ImageNet 64 x 64 bħal Dhariwal u Nichol, iżda b'512-il kanal minflok 64. Il-mudell ImageNet għandu bejn wieħed u ieħor 2.3 biljun parametri bħala riżultat ta 'dan.
It-tim GLIDE, kuntrarjament għal Dhariwal u Nichol, ried li jkollu kontroll dirett akbar fuq il-proċess li jiġġenera l-istampa, u b'hekk għaqqad il-mudell viżwali ma 'transformer li jagħti l-attenzjoni. GLIDE jagħtik xi kontroll fuq l-output tal-proċess li jiġġenera l-istampa billi tipproċessa l-input tat-test prompts.
Dan jitwettaq billi tħarreġ il-mudell tat-transformer fuq sett ta 'dejta kbir xieraq ta' ritratti u captions (simili għal dak użat fil-proġett DALL-E).
It-test huwa inizjalment kodifikat f'serje ta 'K tokens sabiex jiġi kkundizzjonat. Wara dan, it-tokens huma mgħobbija f'mudell ta 'transformer. L-output tat-transformer jista 'mbagħad jintuża f'żewġ modi. Għall-mudell ADM, l-inkorporazzjoni finali tat-token hija utilizzata minflok l-inkorporazzjoni tal-klassi.
It-tieni, is-saff finali tal-inkorporazzjonijiet tat-tokens - serje ta 'vettori ta' karatteristiċi - huwa pproġettat b'mod indipendenti għad-dimensjonijiet għal kull saff ta 'attenzjoni fil-mudell ADM u magħqud għal kull kuntest ta' attenzjoni.
Fir-realtà, dan jippermetti lill-mudell ADM jipproduċi stampa minn kombinazzjonijiet ġodda ta 'tokens ta' test simili b'mod uniku u fotorealistiku, ibbażat fuq il-fehim mitgħallmu tiegħu tal-kliem inputs u l-immaġini relatati tagħhom. Dan it-transformer ta 'kodifikazzjoni tat-test fih 1.2 biljun parametru u jimpjega 24 blokka li jibqa' b'wisa' ta '2048.
Fl-aħħarnett, il-mudell tad-diffużjoni tal-upsampler jinkludi madwar 1.5 biljun parametru u jvarja mill-mudell bażiku peress li l-encoder tat-test tiegħu huwa iżgħar, b'wisa 'ta' 1024 u 384 kanal bażi, meta mqabbel mal-mudell bażi. Dan il-mudell, kif jindika l-isem, jgħin fl-aġġornament tal-kampjun sabiex itejjeb l-interpretabilità kemm għall-magni kif ukoll għall-bnedmin.
Mudell ta' tixrid
GLIDE tiġġenera immaġini billi tuża l-verżjoni tagħha stess tal-ADM (ADM-G għal "iggwidata"). Il-mudell ADM-G huwa modifika tal-mudell U-net tad-diffużjoni. Mudell U-net tad-diffużjoni jvarja b'mod drammatiku mit-tekniki ta 'sinteżi ta' immaġni aktar komuni bħal VAE, GAN, u transformers.
Jibnu katina Markov ta 'passi ta' diffużjoni biex gradwalment jinjettaw storbju każwali fid-dejta, u mbagħad jitgħallmu jreġġgħu lura l-proċess ta 'diffużjoni u jerġgħu jibnu l-kampjuni tad-dejta meħtieġa mill-istorbju waħdu. Topera f'żewġ stadji: diffużjoni 'l quddiem u b'lura.
Il-metodu tad-diffużjoni 'l quddiem, mogħti punt tad-dejta mid-distribuzzjoni vera tal-kampjun, iżid ammont żgħir ta' storbju mal-kampjun fuq serje ta 'passi ssettjati minn qabel. Hekk kif il-passi jiżdiedu fid-daqs u jersqu lejn l-infinità, il-kampjun jitlef il-karatteristiċi kollha rikonoxxibbli u s-sekwenza tibda tixbah kurva Gaussjana iżotropika.
Matul id-diffużjoni b'lura fażi, il-mudell tad-diffużjoni jitgħallem ireġġa' lura l-influwenza tal-ħoss miżjud fuq l-istampi u jwassal l-immaġni prodotta lura għall-forma oriġinali tagħha billi tipprova tixbah id-distribuzzjoni oriġinali tal-kampjun tad-dħul.
Mudell komplut jista 'jagħmel dan b'input reali ta' storbju Gaussian u fil-pront. Il-metodu ADM-G ivarja minn dak preċedenti peress li mudell, jew CLIP jew transformer apposta, ikollu impatt fuq il-fażi tad-diffużjoni b'lura billi juża t-tokens fil-pront tat-test li jiddaħħlu.
Kapaċitajiet ta 'glide
1. Ġenerazzjoni ta 'Immaġini
L-aktar użu popolari u użat ħafna ta 'GLIDE probabbilment se jkun is-sinteżi tal-immaġni. Għalkemm l-istampi huma modesti u GLIDE għandu diffikultà b'forom ta 'annimali/bniedem, il-potenzjal għall-produzzjoni ta' immaġni ta 'one-shot huwa kważi bla tmiem.
Jista 'joħloq ritratti ta' annimali, ċelebritajiet, pajsaġġi, bini, u ħafna aktar, u jista 'jagħmel dan f'varjetà ta' stili ta 'arti kif ukoll b'mod fotorealistiku. L-awturi tar-riċerkaturi jsostnu li GLIDE huwa kapaċi jinterpreta u jadatta varjetà wiesgħa ta 'inputs testwali f'format viżwali, kif jidher fil-kampjuni hawn taħt.
2. Glide inpainting
Ir-ritratt awtomatiku ta' GLIDE huwa bla dubju l-aktar użu affaxxinanti. GLIDE jista 'jieħu stampa eżistenti bħala input, jipproċessaha bil-pront tat-test f'moħħu għal postijiet li jeħtieġ li jiġu mibdula, u mbagħad tagħmel modifiki attivi għal dawk il-partijiet b'faċilità.
Għandu jintuża flimkien ma 'mudell ta' editjar, bħal SDEdit, biex jipproduċi riżultati saħansitra aħjar. Fil-futur, apps li jieħdu vantaġġ minn kapaċitajiet bħal dawn jistgħu jkunu kruċjali fl-iżvilupp ta' approċċi li jbiddlu l-istampa mingħajr kodiċi.
konklużjoni
Issa li għaddejna mill-proċess, għandek tifhem il-prinċipji fundamentali ta’ kif jaħdem GLIDE, kif ukoll il-wisa’ tal-kapaċitajiet tiegħu fil-ħolqien ta’ stampi u l-modifika fl-immaġini.
Ħalli Irrispondi