Table of Contents[Veşartin][Rêdan]
Di salên dawî de, modelên hînbûna kûr di têgihîştina zimanê mirovan de bi bandortir bûne.
Projeyên mîna bifikirin Gpt-3, ku niha dikare bi tevahî gotar û malperan biafirîne. GitHub herî dawî destnîşan kir GitHub Copilot, karûbarek ku bi tenê bi danasîna celebê koda ku hûn hewce ne bi tevahî perçeyên kodê peyda dike.
Lekolînwanên li OpenAI, Facebook, û Google li ser awayên karanîna fêrbûna kûr dixebitin ku karekî din bikin: sernavkirina wêneyan. Bi karanîna danûstendinek mezin a bi mîlyonan navnîşan re, wan hinekan peyda kirin nişkevaşakir results.
Di van demên dawî de, van lêkolîneran hewl didin ku peywira berevajî bikin: afirandina wêneyan ji sernavê. Ma naha gengaz e ku meriv ji danasînê wêneyek bi tevahî nû biafirîne?
Ev rêber dê du modelên pêşkeftî yên nivîs-bi-image vekolîne: OpenAI's DALL-E 2 û Google's Imagen AI. Her yek ji van projeyan rêbazên bingehîn destnîşan kirine ku dibe ku civaka ku em pê dizanin biguherînin.
Lê pêşî, em fêm bikin ka mebesta me ji nifşa nivîs-bi-image çi ye.
Hilberîna nivîs-bi-image çi ye?
Modelên nivîs-bi-image destûrê dide komputeran ku li ser bingeha pêşniyaran wêneyên nû û bêhempa biafirînin. Mirov naha dikare raveyek nivîsê ya wêneyek ku ew dixwazin hilberînin peyda bikin, û model dê hewl bide ku dîmenek ku bi qasî ku gengaz bi wê danasînê re têkildar biafirîne.
Modelên fêrbûna makîneyê karanîna danehevên mezin ên ku cotên wêne-sernavê vedihewînin bi kar anîne da ku performansê bêtir çêtir bikin.
Piraniya nivîs-bi-image modelan modela zimanê veguherîner bikar tînin ji bo şîrovekirina pêşniyaran. Ev cure model a torê neural ku hewl dide ku çarçove û wateya wateya zimanê xwezayî fêr bibe.
Piştre, modelên hilberîner ên wekî modelên belavbûnê û torên dijber ên hilberîner ji bo senteza wêneyê têne bikar anîn.
DALLE 2 çi ye?
DALL-E2 Modelek kompîturê ye ji hêla OpenAI ve ku di Nîsana 2022-an de hate derxistin. Model li ser databasek bi mîlyonan wêneyên bi etîketkirî hate perwerde kirin da ku peyv û hevokan bi wêneyan ve girêbide.
Bikarhêner dikarin hevokek hêsan binivîsin, wek "pisîkek lasagna dixwe", û DALL-E 2 dê şiroveya xwe ya ku hevok hewl dide rave bike çêbike.
Ji bilî afirandina wêneyan ji sifirê, DALL-E 2 dikare wêneyên heyî jî biguherîne. Di mînaka jêrîn de, DALL-E karîbû wêneyek guherbar a jûreyek bi nivînek lêzêdekirî çêbike.
DALL-E 2 tenê yek ji gelek projeyên wekhev e ku OpenAI di van çend salên borî de derxistiye. GPT-3 ya OpenAI-ê dema ku xuya bû ku nivîsek bi şêwazên cihêreng çêdike bû hêjayî nûçeyê.
Heya niha, DALL-E 2 hîn jî di ceribandina betayê de ye. Bikarhênerên eleqedar dikarin xwe qeyd bikin lîsteya bendewariyê û li benda gihîştinê bisekinin.
Çawa kar dike?
Dema ku encamên DALL-E 2 balkêş in, dibe ku hûn meraq bikin ka ew hemî çawa dixebite.
DALL-E 2 mînakek pêkanîna multimodal a projeya GPT-3 ya OpenAI ye.
Pêşîn, tavilê nivîsa bikarhêner di şîfreyek nivîsê de tê danîn ku daxwaznameyê li cîhek nûnertiyê nexşe dike. DALL-E 2 modelek din a OpenAI-ê ya bi navê CLIP (Pê-perwerdekirina Ziman-Wêneya Berevajîkirî) bikar tîne da ku agahdariya semantîkî ji zimanê xwezayî bistîne.
Piştre, modelek ku wekî tê zanîn berî kodkirina nivîsê di kodkirina wêneyê de nexşe dike. Pêdivî ye ku ev şîfrekirina wêneyê agahdariya semantîkî ya ku di qonaxa şîfrekirina nivîsê de tê dîtin bigire.
Ji bo afirandina wêneya rastîn, DALL-E 2 dekoderek wêneyê bikar tîne da ku dîmenek bi karanîna agahdariya semantîk û hûrguliyên şîfrekirina wêneyê çêbike. OpenAI guhertoyek guhertî ya ya bikar tîne GLIDE modela ku hilberîna wêneyê pêk tîne. GLIDE xwe dispêre a modela belavbûnê ji bo afirandina wêneyan.
Zêdekirina GLIDE-ê li modela DALL-E 2 hilberana fotorealîst bêtir çalak kir. Ji ber ku modela GLIDE stokastîk e an bi rasthatinî hatî destnîşankirin, modela DALL-E 2 dikare bi hêsanî guhertoyan bi xebitandina modelê dîsa û dîsa biafirîne.
tengasîyên
Tevî encamên balkêş ên modela DALL-E 2, ew hîn jî bi hin sînoran re rû bi rû dimîne.
Nivîsar rastnivîsîn
Pêşniyarên ku hewl didin ku DALL-E 2 nivîsê biafirînin diyar dikin ku ew di rastnivîsandina peyvan de dijwar e. Pispor texmîn dikin ku ev dibe ku ji ber ku agahdariya rastnivîsê ne beşek ji wê be databasa perwerdehiyê.
Reasoning Pêkhatî
Lekolînwan dinihêrin ku DALL-E 2 hîn jî bi ramana pêkhatî re hin dijwariyek heye. Bi hêsanî, model dikare aliyên takekesî yên wêneyek fam bike di heman demê de ku hîn jî di fêhmkirina têkiliyên di navbera van aliyan de pirsgirêk heye.
Mînakî, heke talîmata "kuba sor li ser kubarek şîn" were dayîn, DALL-E dê kubarek şîn û kubarek sor bi duristî çêbike lê nekare wan rast bi cîh bike. Di heman demê de hate dîtin ku modêl bi şîretên ku hewce dike ku hejmarek taybetî ya tiştan were derxistin de dijwariyek heye.
Bias di databasê de
Ger di navberê de hûrguliyên din tune ne, DALL-E hatiye dîtin ku mirov û derdorên spî an rojavayî destnîşan dike. Ev neyartiya temsîlî ji ber pirbûna wêneyên rojavayî-navendî di danezanê de pêk tê.
Di heman demê de modela ku stereotipên zayendî dişopîne jî hate dîtin. Mînakî, nivîsandina bilez "karmendê firîna balafirê" bi piranî wêneyên karmendên firîna jin çêdike.
Google Imagen AI çi ye?
Google Imagen AI modelek e ku armanc dike ku ji nivîsa têketinê wêneyên fotorealîst biafirîne. Mîna DALL-E, model di heman demê de modelên zimanê veguherîner bikar tîne da ku nivîsê fam bike û xwe dispêre karanîna modelên belavbûnê ji bo afirandina wêneyên qalîteya bilind.
Li gel Imagen, Google ji bo modelên nivîs-bi-image pîvanek bi navê DrawBench jî derxistiye. Bi karanîna DrawBench, wan karîbû mêze bikin ku rêjeyên mirovan hilberîna Imagen li ser modelên din, tevî DALL-E 2, tercîh dikin.
Çawa kar dike?
Mîna DALL-E, Imagen pêşî bikarhênerê diguhezîne nivîsek ku bi şîfreyek nivîsê ya cemidî ve tê veguheztin.
Imagen modelek belavbûnê bikar tîne ku fêr dibe ka meriv çawa şêwazek deng li wêneyan vediguherîne. Hilberîna destpêkê ya van wêneyan rezîliya kêm in û paşê di modelek din de têne derbas kirin ku wekî modela belavbûna super-çareseriyê tê zanîn da ku çareseriya wêneya paşîn zêde bike. Yekem modela belavbûnê wêneyek 64 × 64 pixel derdixe û dûv re wêneyek 1024 × 1024 bi rezîliya bilind tê hilanîn.
Li ser bingeha lêkolîna tîmê Imagen, modelên mezin ên zimanê cemidî yên ku tenê li ser daneyên nivîsê hatine perwerde kirin hîn jî şîfrekerên nivîsê yên pir bi bandor in ji bo hilberîna nivîs-bi-wêne.
Di lêkolînê de her weha têgîna sînorên dînamîkî destnîşan dike. Ev rêbaz dihêle ku dema çêkirina wêneyê giraniya rêberiyê zêde bike, wêneyan bêtir fotorealîst xuya bikin.
Performansa DALLE 2 vs Imagen
Encamên pêşîn ên ji pîvana Google-ê destnîşan dikin ku bersivdêrên mirovî wêneyên ku ji hêla Imagen ve têne hilberandin ji DALL-E 2 û modelên din ên nivîs-bi-wêne yên wekî Latent Diffusion û VQGAN+CLIP tercîh dikin.
Hilbera ku ji tîmê Imagen tê di heman demê de destnîşan kir ku modela wan di rastnivîsa nivîsê de çêtir dike, qelsiyek naskirî ya modela DALL-E 2.
Lêbelê, ji ber ku Google hîn modela ji raya giştî re nekiriye, hîn jî tê dîtin ku pîvanên Google-ê çiqas rast in.
Xelasî
Zêdebûna modelên nivîs-bi-wêne fotorealîst nakokî ye ji ber ku ev model ji bo karanîna neexlaqî ne.
Teknolojî dibe ku bibe sedema afirandina naverokek eşkere an jî wekî amûrek ji bo dezenformasyonê. Lekolînwan hem ji Google û hem jî OpenAI ji vê yekê haydar in, ji ber vê yekê ev teknolojiyê hîn jî ji her kesî re ne gihîştî ye.
Modelên Nivîs-bi-Wêne jî xwedî bandorên aborî yên girîng in. Ger ku modelên wekî DALL-E serdest bibin dê pîşeyên wekî model, wênekêş û hunermend bandor bibin?
Di vê demê de, van modelan hîn jî sînor hene. Girtina her wêneyek ku ji hêla AI-ê ve hatî çêkirin ji bo lêkolînê dê kêmasiyên wê eşkere bike. Digel ku OpenAI û Google hem ji bo modelên herî bibandor pêşbaziyê dikin, dibe ku demek be ku bertekek bi rastî bêkêmasî were hilberandin: wêneyek ku ji tiştê rastîn nayê cûda kirin.
Ma hûn difikirin ku dê çi bibe gava ku teknolojî ew qas dûr biçe?
Leave a Reply