En la lastaj jaroj, profundlernaj modeloj fariĝis pli efikaj por kompreni homan lingvon.
Pensu pri projektoj kiel GPT-3, kiu nun kapablas krei tutajn artikolojn kaj retejojn. GitHub lastatempe enkondukis GitHub-Kopiloto, servo kiu provizas tutajn kodpecetojn simple priskribante la tipon de kodo, kiun vi bezonas.
Esploristoj ĉe OpenAI, Facebook, kaj Google laboris pri manieroj uzi profundan lernadon por trakti alian taskon: subtitobligi bildojn. Uzante grandan datumaron kun milionoj da eniroj, ili elpensis kelkajn mirinda rezultoj.
Lastatempe, ĉi tiuj esploristoj provis plenumi la kontraŭan taskon: krei bildojn el bildoteksto. Ĉu nun eblas krei tute novan bildon el priskribo?
Ĉi tiu gvidilo esploros du el la plej altnivelaj tekst-al-bildaj modeloj: DALL-E 2 de OpenAI kaj Imagen AI de Google. Ĉiu el ĉi tiuj projektoj enkondukis mirindajn metodojn, kiuj povas ŝanĝi la socion kiel ni konas ĝin.
Sed unue, ni komprenu, kion ni signifas per teksto-al-bilda generacio.
Kio estas teksto-al-bilda generacio?
Teksto-al-bildaj modeloj permesi komputilojn krei novajn kaj unikajn bildojn surbaze de instigoj. Homoj nun povas provizi tekstan priskribon de bildo, kiun ili volas produkti, kaj la modelo provos krei vidaĵon, kiu kongruas kun tiu priskribo kiel eble plej proksime.
Maŝinlernado-modeloj ekspluatis la uzon de grandaj datumaroj enhavantaj bild-bildtitografajn parojn por plu plibonigi efikecon.
Plej teksto-al-bildo modeloj uzas transformlingvan modelon interpreti instigojn. Ĉi tiu tipo de modelo estas a Neŭra reto kiu provas lerni la kuntekston kaj semantikan signifon de natura lingvo.
Poste, generaj modeloj kiel ekzemple elsendaj modeloj kaj generaj kontraŭaj retoj estas uzitaj por bildsintezo.
Kio estas DALLE 2?
DALL-E2 estas komputila modelo de OpenAI kiu estis publikigita en aprilo 2022. La modelo estis trejnita sur datumbazo de milionoj da etikeditaj bildoj por asocii vortojn kaj frazojn al bildoj.
Uzantoj povas tajpi simplan frazon, kiel "kato manĝanta lasanjon", kaj DALL-E 2 generos sian propran interpreton pri tio, kion la frazo provas priskribi.
Krom krei bildojn de nulo, DALL-E 2 ankaŭ povas redakti ekzistantajn bildojn. En la malsupra ekzemplo, DALL-E povis generi modifitan bildon de ĉambro kun aldonita kanapo.
DALL-E 2 estas nur unu el multaj similaj projektoj kiujn OpenAI publikigis en la lastaj jaroj. GPT-3 de OpenAI iĝis novaĵinda kiam ĝi ŝajnis generi tekston de diversaj stiloj.
Nuntempe, DALL-E 2 ankoraŭ estas en beta-testado. Interesataj uzantoj povas registriĝi por sia atendlisto kaj atendu la aliron.
Kiel ĝi funkcias?
Dum la rezultoj de DALL-E 2 estas imponaj, vi eble scivolas, kiel ĉio funkcias.
DALL-E 2 estas ekzemplo de multmodala efektivigo de la projekto GPT-3 de OpenAI.
Unue, la tekstprogrameto de la uzanto estas metita en tekstokodilon kiu mapas la instigon al reprezenta spaco. DALL-E 2 uzas alian OpenAI-modelon nomitan CLIP (Kontrastive Language-Image Pre-Training) por akiri semantikajn informojn de natura lingvo.
Poste, modelo konata kiel la antaŭ mapas la tekstokodigon en bildkodigon. Ĉi tiu bildkodigo devus kapti la semantikajn informojn trovitajn en la tekstkodiga paŝo.
Por krei la faktan bildon, DALL-E 2 uzas bildmalĉifrilon por generi vidaĵon uzante semantikajn informojn kaj bildkodigajn detalojn. OpenAI uzas modifitan version de la GLIDO modelo por elfari bildgeneradon. GLIDE dependas de a disvastiga modelo por krei bildojn.
La aldono de GLIDE al la DALL-E 2 modelo ebligis pli fotorealisman produktaĵon. Ĉar la GLIDE-modelo estas stokastika aŭ hazarde determinita, la DALL-E 2-modelo povas facile krei variojn prizorgante la modelon denove kaj denove.
Limigoj
Malgraŭ la impresaj rezultoj de la modelo DALL-E 2, ĝi ankoraŭ alfrontas iujn limigojn.
Literuma Teksto
Demandoj, kiuj provas igi DALL-E 2 generi tekston, malkaŝas, ke ĝi havas malfacilecon literumi vortojn. Fakuloj supozas, ke tio povas esti ĉar literumaj informoj ne estas parto de la trejna datumaro.
Kompozicia Rezonado
Esploristoj observas, ke DALL-E 2 ankoraŭ havas iom da malfacilaĵo kun kompona rezonado. Simple dirite, la modelo povas kompreni individuajn aspektojn de bildo dum ankoraŭ havas problemojn eltrovi la rilatojn inter ĉi tiuj aspektoj.
Ekzemple, se donita la prompto "ruĝa kubo sur blua kubo", DALL-E generos bluan kubon kaj ruĝan kubon precize sed malsukcesos ĝuste meti ilin. La modelo ankaŭ estis observita havi malfacilecon kun instigoj kiuj postulas specifan nombron da objektoj esti tiritaj.
Biaso en la datumaro
Se la prompto enhavas neniujn aliajn detalojn, DALL-E estis observita bildigi blankajn aŭ okcidentajn homojn kaj mediojn. Tiu reprezenta biaso okazas pro la abundo de Okcident-centraj bildoj en la datumaro.
La modelo ankaŭ estis observita sekvi seksajn stereotipojn. Ekzemple, tajpi la prompton "flugservisto" plejparte generas bildojn de virinaj stevardinoj.
Kio estas Google Imagen AI?
Google Bildo AI estas modelo, kiu celas krei fotorealismajn bildojn el eniga teksto. Simila al DALL-E, la modelo ankaŭ uzas transformigajn lingvomodelojn por kompreni la tekston kaj dependas de la uzo de disvastigmodeloj por krei altkvalitajn bildojn.
Kune kun Imagen, Google ankaŭ publikigis komparnormon por tekst-al-bildaj modeloj nomitaj DrawBench. Uzante DrawBench, ili povis observi, ke homaj taksantoj preferis Imagen-produktadon ol aliaj modeloj inkluzive de DALL-E 2.
Kiel ĝi funkcias?
Simila al DALL-E, Imagen unue konvertas la uzantpromeson en tekston enkorpigantan per frosta tekstokodilo.
Imagen uzas disvastigmodelon kiu lernas kiel konverti ŝablonon de bruo en bildojn. La komenca produktado de tiuj bildoj estas malalta rezolucio kaj poste estas pasitaj tra alia modelo konata kiel super-rezolucia difuzmodelo por pliigi la rezolucion de la fina bildo. La unua difuzmodelo produktas 64×64 pikselan bildon kaj poste estas krevigita al alt-rezolucia 1024×1024 bildo.
Surbaze de la esplorado de la Imagen-teamo, grandaj frostlingvaj modeloj trejnitaj nur sur tekstaj datumoj daŭre estas tre efikaj tekstaj kodiloj por teksto-al-bilda generacio.
La studo ankaŭ enkondukas la koncepton de dinamika sojlado. Ĉi tiu metodo ebligas bildojn prezentiĝi pli fotorealismaj pliigante gvidajn pezojn dum generado de la bildo.
Agado de DALLE 2 vs Imagen
Antaŭaj rezultoj de la komparnormo de Guglo montras, ke homaj respondantoj preferas bildojn generitajn de Imagen ol DALL-E 2 kaj aliajn tekst-al-bildajn modelojn kiel Latent Diffusion kaj VQGAN+CLIP.
Eligo venanta de la Imagen-teamo ankaŭ montris ke ilia modelo funkcias pli bone ĉe literuma teksto, konata malforto de la DALL-E 2 modelo.
Tamen, ĉar Guglo ankoraŭ ne publikigis la modelon al la publiko, ankoraŭ restas vidi kiom precizaj estas la komparnormoj de Guglo.
konkludo
La pliiĝo de fotorealismaj tekst-al-bildaj modeloj estas kontestata ĉar tiuj modeloj estas maturaj por maletika uzo.
La teknologio povas konduki al la kreado de eksplicita enhavo aŭ kiel ilo por misinformado. Esploristoj de kaj Guglo kaj OpenAI konscias pri tio, tial ĉi tiuj teknologioj ankoraŭ ne estas alireblaj por ĉiuj.
Tekst-al-bildaj modeloj ankaŭ havas signifajn ekonomiajn implicojn. Ĉu profesioj kiel modeloj, fotistoj kaj artistoj estos tuŝitaj se modeloj kiel DALL-E fariĝos ĉefaj?
Nuntempe, ĉi tiuj modeloj ankoraŭ havas limojn. Teni ajnan AI-generitan bildon al ekzamenado rivelos ĝiajn neperfektaĵojn. Kun kaj OpenAI kaj Google konkurantaj por la plej efikaj modeloj, povas esti demando de tempo antaŭ ol vere perfekta eligo estas generita: bildo kiu estas nedistingebla de la reala afero.
Kion vi pensas okazos kiam teknologio iros tiom malproksimen?
Lasi Respondon