Table of Contents[Veşartin][Rêdan]
Hûn bi îhtîmalek mezin dizanin ku komputerek dikare wêneyek rave bike.
Mesela, wêneyê kûçikekî ku bi zarokên we re dileyze, dikare wekî 'kûçik û zarokên li baxçeyê' were wergerandin. Lê we dizanibû ku berevajî vê yekê niha jî pêkan e? Hûn hin peyvan dinivîsin, û makîne wêneyek nû çêdike.
Berevajî lêgerînek Google, ku li wêneyên heyî digere, ev hemî nû ye. Di salên dawî de, OpenAI yek ji rêxistinên pêşeng e, ku encamên balkêş radigihîne.
Ew algorîtmayên xwe li ser databasên nivîs û wêneyan ên girseyî perwerde dikin. Wan kaxezek li ser modela wêneya xwe ya GLIDE, ku li ser bi sedan mîlyon wêneyan hatî perwerde kirin, weşandin. Di warê fotorealîzmê de, ew ji modela xwe ya berê ya 'DALL-E' derdikeve.
Di vê postê de, em ê li OpenAI's GLIDE, yek ji çend destpêşxeriyên balkêş ên ku bi mebesta hilberandin û guheztina wêneyên fotorealîst ên bi modelên belavkirinê-rêberî yên nivîsê re, binihêrin. Were em destpêkin.
Çi ye AI Glide vekin?
Digel ku pir wêne dikarin bi peyvan werin ravekirin, çêkirina wêneyan ji têketinên nivîsê pêdivî bi zanîna pispor û demek girîng heye.
Destûrkirina karmendek AI-ê ku wêneyên fotorealîst ji şîretên zimanê xwezayî çêbike, ne tenê dihêle ku mirov materyalên dîtbarî yên dewlemend û cihêreng bi hêsanîyek nedîtî biafirînin, lê di heman demê de rê dide safîkirina dubare ya hêsan û kontrolkirina hûrgulî ya wêneyên hatine afirandin.
GLIDE dikare ji bo guherandina wêneyên heyî bi karanîna pêşniyarên nivîsê yên bi zimanê xwezayî were bikar anîn da ku tiştên nû têxin nav xwe, sîwan û rengan biafirînin, pêk bînin. xêzkirina wêneyê, wate ya vê çîye.
Di heman demê de ew dikare xêzên bingehîn veguhezîne wêneyên fotorealîst, û ji bo rewşên tevlihev xwedan kapasîteyên çêkirin û tamîrkirina zero-nimûne ye.
Lêkolîna vê dawîyê destnîşan kir ku modelên belavkirinê yên bi îhtimalê jî dikarin wêneyên sentetîk-kalîteya bilind hilberînin, nemaze dema ku bi nêzîkatiyek rêberî ya ku cûrbecûr û dilsoziyê hevseng dike were hevber kirin.
OpenAI weşand a modela belavkirina rêberî di gulanê de, ku dihêle ku modelên belavbûnê li ser etîketên dabeşkerek mercdar bin. GLIDE vê serkeftinê bi anîna belavkirina rêberî ji pirsgirêka afirandina wêneya şert-nivîsê re çêtir dike.
Piştî perwerdekirina modelek belavbûna GLIDE ya 3.5 mîlyar parametre ku bi karanîna şîfreyek nivîsê ve tê bikar anîn da ku li ser danasînên zimanê xwezayî şert bikin, lêkolîner du stratejiyên rêbernameyê yên alternatîf ceriband: rêberiya CLIP û rêbernameya bê dabeşker.
CLIP ji bo hînbûna temsîla hevbeş a nivîs û wêneyan teknîkek berbelavkirî ye ku li gorî ka çiqasî wêneyek ji sernavê re nêzîk e, xalek peyda dike.
Tîmê vê stratejiyê di modelên xwe yên belavbûnê de bi cîh kirina dabeşker bi modelek CLIP-ê ku modelan "rêberiyê" dike, bikar anî. Di vê navberê de, rêbernameya bê dabeşker stratejiyek e ji bo rêvekirina modelên belavbûnê yên ku perwerdehiya dabeşkerek cihêreng nagirin.
GLIDE Architecture
Mîmariya GLIDE ji sê hêmanan pêk tê: Modelek Ablated Diffusion (ADM) ku hatî perwerdekirin da ku wêneyek 64 × 64 çêbike, modelek nivîsê (transformer) ku bandorê li hilberîna wêneyê bi navgînek nivîsê dike, û modelek nûvekirî ya ku 64 × 64 meya piçûk vediguherîne. Wêneyên ku 256 x 256 pixelên bêtir şirovekirî ne.
Her du hêmanên yekem bi hev re dixebitin da ku pêvajoya hilberîna wêneyê kontrol bikin da ku ew bi guncan xêzkirina nivîsê nîşan bide, dema ku ya paşîn hewce ye ku wêneyên ku em diafirînin hêsan werin fam kirin. Projeya GLIDE ji hêla a rapora sala 2021 hat weşandin ku destnîşan kir ku teknîkên ADM-ê di warê kalîteya nimûneya wêneyê de ji modelên nûjen ên populer, yên herî pêşkeftî derketine.
Ji bo ADM, nivîskarên GLIDE heman modela ImageNet 64 x 64 wekî Dhariwal û Nichol bikar anîn, lê bi 512 kanalan li şûna 64. Modela ImageNet bi qasî 2.3 mîlyar parametre wekî encama vê yekê heye.
Tîma GLIDE, berevajî Dhariwal û Nichol, dixwest ku kontrola rasterast a mezintir li ser pêvajoya hilberîna wêneyê hebe, ji ber vê yekê wan modela dîtbarî bi veguherînerek balkêş-çalakkirî re li hev kir. GLIDE bi hilberandina pêşnumayên têketina nivîsê hin kontrolê li ser derana pêvajoya hilberîna wêneyê dide we.
Ev bi perwerdekirina modela transformatorê li ser danûstendinek mezin a wêne û sernivîsan (wek ya ku di projeya DALL-E de hatî xebitandin) pêk tê.
Nivîs di destpêkê de di nav rêzek nîşanekên K-yê de tê kod kirin da ku wê were şert kirin. Piştî wê, token di modelek veguherîner de têne barkirin. Dûv re hilberîna veguherîner dikare bi du awayan were bikar anîn. Ji bo modela ADM-ê, li şûna vegirtina polê, pêvekirina nîşana dawîn tê bikar anîn.
Ya duyemîn, qata dawîn a binavkirina token - rêzek vektorên taybetmendiyê - ji bo her qatek baldariyê di modela ADM-ê de serbixwe tê pêşandan û bi her çarçoweya baldariyê ve tê girêdan.
Di rastiyê de, ev rê dide modela ADM ku li ser bingeha têgihîştina fêrbûna peyvên têketinê û wêneyên wan ên têkildar, wêneyek ji berhevokên nû yên nîgarên nivîsê yên mîna hev bi şêwazek bêhempa û fotorealîst hilberîne. Ev transformatora kodkirina nivîsê 1.2 mîlyar parametre dihewîne û 24 blokên bermayî yên bi firehiya 2048-an bi kar tîne.
Di dawiyê de, modela belavkirina upsampler dora 1.5 mîlyar parametreyan vedigire û ji modela bingehîn diguhezîne ku şîfrekera nivîsa wê piçûktir e, bi firehiya 1024 û 384 kanalên bingehîn, li gorî modela bingehîn. Ev model, wekî ku nav nîşan dide, di nûvekirina nimûneyê de dibe alîkar da ku hem ji bo makîneyan û hem jî ji mirovan re şirovekirinê baştir bike.
Modela belavbûnê
GLIDE bi karanîna guhertoya xwe ya ADM (ADM-G ji bo "rêber") wêneyan diafirîne. Modela ADM-G guherînek modela belavkirina U-net e. Modelek U-neta belavkirinê ji teknîkên hevberdana wêneyê yên wekî VAE, GAN, û veguherîner bi rengek berbiçav cûda dibe.
Ew zincîreyek Markov a gavên belavbûnê ava dikin da ku hêdî hêdî dengê bêserûber li daneyan derxînin, û dûv re fêr bibin ku pêvajoya belavbûnê berevajî bikin û nimûneyên daneya pêwîst ji deng tenê ji nû ve ava bikin. Ew di du qonaxan de dixebite: belavkirina pêş û paşveçûn.
Rêbaza belavkirina pêş, ku ji dabeşkirina rastîn a nimûneyê xalek daneyê tê dayîn, di nav rêzek gavên pêşwext de dengek piçûk li nimûneyê zêde dike. Her ku gav mezin dibin û nêzikî bêdawîbûnê dibin, nimûne hemî taybetmendiyên naskirî winda dike û rêzik dest pê dike ku dişibihe kemberek Gaussian îzotropîk.
Di dema belavbûna paşverû de qonax, modela belavbûnê fêr dibe ku bandora dengê lêzêdekirî ya li ser wêneyan berevajî bike û bi hewildana ku dişibihe dabeşkirina nimûneya têketina orîjînal, wêneya hatî hilberandin vegere şiklê xwe yê orjînal.
Modelek qedandî dikare bi têketina dengek rastîn a Gaussian û bilez wiya bike. Rêbaza ADM-G ji ya berê diguhere di wê yekê de ku modelek, CLIP an jî veguherînerek xwerû, bandorê li qonaxa belavbûna paşverû dike bi karanîna nîgarên bilez ên nivîsê yên ku têne destnîşan kirin.
Kapasîteyên Glide
1. Nifşa Wêne
Bikaranîna herî populer û berfireh a GLIDE-ê belkî dê senteza wêneyê be. Her çend wêne hûrgulî ne û GLIDE bi formên heywanan/mirovî re dijwar e, potansiyela hilberîna wêneya yek-fîşek hema hema bêdawî ye.
Ew dikare wêneyên heywanan, navdar, perestgeh, avahî, û hêj bêtir biafirîne, û ew dikare di cûrbecûr şêwazên hunerî de û hem jî bi wêne-realîst bike. Nivîskarên lêkolîneran îdia dikin ku GLIDE dikare cûrbecûr têketinên nivîsê di forma dîtbarî de şîrove bike û adapte bike, wekî ku di nimûneyên jêrîn de tê dîtin.
2. Glide inpainting
Paqijkirina wêneya otomatîkî ya GLIDE bê guman karanîna herî balkêş e. GLIDE dikare wêneyek heyî wekî têketinê bikişîne, ji bo cîhên ku divê bêne guheztin bi hişê nivîsê re wê pêvajoyê bike, û dûv re bi hêsanî guheztinên çalak li wan beşan bike.
Pêdivî ye ku ew bi modelek guherandinê re, wek SDEdit, were bikar anîn da ku encamên hîn çêtir derxe holê. Di pêşerojê de, serîlêdanên ku ji kapasîteyên mîna van sûd werdigirin dibe ku di pêşxistina nêzîkatiyên guheztina wêneya bê kod de pir girîng bin.
Xelasî
Naha ku me pêvajo derbas kir, divê hûn bingehên ka GLIDE çawa dixebite, û her weha berfirehiya kapasîteyên wê di çêkirina wêne û guheztina wêneyê de fêm bikin.
Leave a Reply