Inhaltsverzeechnes[Verstoppen][Show]
An de leschte Joeren sinn Deep-Learning Modeller méi effektiv ginn fir mënschlech Sprooch ze verstoen.
Denkt un Projeten wéi GPT-3, déi elo fäeg ass ganz Artikelen a Websäiten ze kreéieren. GitHub huet viru kuerzem agefouert GitHub Copilot, e Service dee ganze Code Snippets ubitt andeems Dir einfach d'Art vu Code beschreiwt déi Dir braucht.
Fuerscher bei OpenAI, Facebook a Google hunn u Weeër geschafft fir déif Léieren ze benotzen fir eng aner Aufgab ze verschaffen: Ënnerschrëft Biller. Mat engem groussen Datesaz mat Millioune vun Entréen, si si mat e puer erauskomm iwwerraschend Resultater.
Zënter kuerzem hunn dës Fuerscher probéiert déi entgéintgesate Aufgab auszeféieren: Biller aus engem Iwwerschrëft ze kreéieren. Ass et elo méiglech e komplett neit Bild aus enger Beschreiwung ze kreéieren?
Dëse Guide wäert zwee vun de meescht fortgeschratt Text-zu-Bild Modeller entdecken: OpenAI's DALL-E 2 a Google's Imagen AI. All eenzel vun dëse Projeten huet banebrytende Methoden agefouert, datt d'Gesellschaft änneren kann wéi mir et kennen.
Awer als éischt, loosst eis verstoen wat mir mat Text-zu-Bild Generatioun mengen.
Wat ass Text-zu-Bild Generatioun?
Text-zu-Bild Modeller erlaabt Computeren nei an eenzegaarteg Biller ze kreéieren baséiert op Ufroen. D'Leit kënnen elo eng Textbeschreiwung vun engem Bild ubidden dat se produzéieren wëllen, an de Modell probéiert e Visual ze kreéieren deen dës Beschreiwung esou no wéi méiglech passt.
Maschinnléiere Modeller hunn d'Benotzung vu groussen Datesätz mat Bild-Iwwerschrëftpairen benotzt fir d'Performance weider ze verbesseren.
Déi meescht Text-zu-Bild Modeller benotzen en Transformator Sproochmodell Ufroen ze interpretéieren. Dës Zort Modell ass eng neural Netz déi probéiert de Kontext an déi semantesch Bedeitung vun der natierlecher Sprooch ze léieren.
Als nächst, generativ Modeller wéi Diffusioun Modeller a generativ adversarial Netzwierker gi fir Bildsynthese benotzt.
Wat ass DALLE 2?
DALL-E2 ass e Computermodell vun OpenAI deen am Abrëll 2022 verëffentlecht gouf. De Modell gouf op enger Datebank vu Millioune markéierte Biller trainéiert fir Wierder a Sätze mat Biller ze associéieren.
D'Benotzer kënnen en einfachen Ausdrock tippen, wéi "eng Kaz déi Lasagne iesst", an DALL-E 2 generéiert seng eege Interpretatioun vun deem wat de Saz probéiert ze beschreiwen.
Nieft Biller vun Null schafen, kann DALL-E 2 och bestehend Biller änneren. Am Beispill hei ënnendrënner konnt DALL-E e geännert Bild vun engem Sall mat enger dobäi Couch Generéiere.
DALL-E 2 ass just ee vu ville ähnlechen Projeten, déi OpenAI an de leschte Jore verëffentlecht huet. OpenAI's GPT-3 gouf newsworthy wann et schéngt Text vu verschiddene Stiler ze generéieren.
De Moment ass DALL-E 2 nach ëmmer am Beta-Test. Interesséiert Benotzer kënne sech fir hir aschreiwen Waardelëscht a waarden op Zougang.
Wéi as et Aarbecht?
Iwwerdeems d'Resultater vun DALL-E 2 sinn beandrockend, Dir kéint Fro wéi et all Wierker.
DALL-E 2 ass e Beispill vun enger multimodaler Implementatioun vum OpenAI GPT-3 Projet.
Als éischt gëtt den Textprompt vum Benotzer an en Textencoder gesat, deen d'Prompt op e Representatiounsraum mapéiert. DALL-E 2 benotzt en aneren OpenAI Modell mam Numm CLIP (Contrastive Language-Image Pre-Training) fir semantesch Informatioun aus der natierlecher Sprooch ze kréien.
Als nächst ass e Modell bekannt als de virewech mapt den Textkodéierung an eng Bildkodéierung. Dës Bildkodéierung soll déi semantesch Informatioun erfaassen, déi am Textkodéierungsschrëtt fonnt gëtt.
Fir d'tatsächlech Bild ze schafen, benotzt DALL-E 2 e Bilddecoder fir eng visuell mat semanteschen Informatioun a Bildkodéierungsdetailer ze generéieren. OpenAI benotzt eng modifizéiert Versioun vum GLIDEN Modell fir Bildgeneratioun ze maachen. GLIDE hänkt op engem Diffusioun Modell Biller ze kreéieren.
D'Zousätzlech vu GLIDE zum DALL-E 2 Modell huet méi photorealistesch Output aktivéiert. Well de GLIDE Modell stochastesch oder zoufälleg bestëmmt ass, kann den DALL-E 2 Modell einfach Variatiounen erstellen andeems de Modell ëmmer erëm leeft.
Beschränkungen
Trotz den beandrockende Resultater vum DALL-E 2 Modell, huet et nach ëmmer e puer Aschränkungen.
Schreifweis Text
Prompts déi probéieren DALL-E 2 ze generéieren Text verroden datt et Schwieregkeeten huet fir Wierder ze schreiwen. Experten dovun ausgoen, datt dëst vläicht well Schreifweis Informatiounen net Deel vun der Training Dataset.
Kompositiounsbegrënnung
D'Fuerscher beobachten datt DALL-E 2 nach ëmmer e puer Schwieregkeete mat kompositiounsbegrënnung huet. Einfach gesot, de Modell kann eenzel Aspekter vun engem Bild verstoen, wärend nach ëmmer Probleemer hunn d'Relatiounen tëscht dësen Aspekter erauszefannen.
Zum Beispill, wann d'Prompt "roude Wierfel uewen op engem bloe Würfel" gëtt, generéiert DALL-E e bloe Würfel an e roude Würfel präzis, awer versoen se richteg ze placéieren. De Modell gouf och beobachtet fir Schwieregkeeten mat Ufroen ze hunn, déi eng spezifesch Zuel vun Objeten erfuerderen fir erauszezéien.
Bias am Dataset
Wann d'Prompt keng aner Detailer enthält, ass DALL-E observéiert fir wäiss oder westlech Leit an Ëmfeld ze weisen. Dës Representatiounsbias geschitt wéinst der Iwwerfloss vu westlech-centric Biller am Dataset.
De Modell gouf och observéiert fir Geschlechtstereotypen ze verfollegen. Zum Beispill, wann Dir d'Prompt "Flight Attendant" tippt, generéiert meeschtens Biller vu Frae Fluchbegleeder.
Wat ass Google Imagen AI?
Google Bild AI ass e Modell dee zielt fir photorealistesch Biller aus Input Text ze kreéieren. Ähnlech zu DALL-E benotzt de Modell och Transformator Sproochmodeller fir den Text ze verstoen an setzt op d'Benotzung vun Diffusiounsmodeller fir qualitativ héichwäerteg Biller ze kreéieren.
Niewent Imagen huet Google och e Benchmark fir Text-zu-Bild Modeller mam Numm DrawBench verëffentlecht. Mat DrawBench konnten se beobachten datt mënschlech Bewäerter Imagen Output iwwer aner Modeller wéi DALL-E 2 léiwer hunn.
Wéi as et Aarbecht?
Ähnlech wéi DALL-E konvertéiert Imagen als éischt d'Benotzerprompt an en Text Embedding duerch e gefruerenen Textencoder.
Imagen benotzt en Diffusiounsmodell dee léiert wéi e Muster vu Kaméidi a Biller ëmgewandelt gëtt. Den initialen Output vun dëse Biller ass niddereg Opléisung a gi spéider duerch en anere Modell bekannt als Super-Resolutioun Diffusiounsmodell fir d'Resolutioun vum finalen Bild ze erhéijen. Den éischten Diffusiounsmodell gëtt e 64 × 64 Pixel Bild eraus a gëtt spéider op eng Héichopléisung 1024 × 1024 Bild opgeblosen.
Baséierend op der Fuerschung vum Imagen Team, grouss gefruerene Sproochmodeller, déi nëmmen op Textdaten trainéiert sinn, sinn nach ëmmer héich effektiv Textencoder fir Text-zu-Bild Generatioun.
D'Etude féiert och d'Konzept vun dynamescher Schwellung vir. Dës Method erlaabt Biller méi photorealistesch ze erschéngen andeems d'Leedungsgewiichter erhéicht ginn wann d'Bild generéiert.
Leeschtung vun DALLE 2 vs Imagen
Virleefeg Resultater vum Google Benchmark weisen datt mënschlech Befroten Biller léiwer generéiert vu Imagen iwwer DALL-E 2 an aner Text-zu-Bild Modeller wéi Latent Diffusion a VQGAN + CLIP.
D'Ausgab aus dem Imagen Team huet och gewisen datt hire Modell besser am Schreifweis Text funktionnéiert, eng bekannte Schwächt vum DALL-E 2 Modell.
Wéi och ëmmer, well Google de Modell nach net un de Public verëffentlecht huet, bleift et nach ze gesinn wéi genau d'Benchmarks vu Google sinn.
Konklusioun
Den Opstig vu photorealisteschen Text-zu-Bild Modeller ass kontrovers well dës Modeller reift fir onethesch Notzung.
D'Technologie kann zu der Schafung vun expliziten Inhalter oder als Instrument fir Desinformatioun féieren. Fuerscher vu Google an OpenAI sinn dat bewosst, dat ass deelweis firwat dës Technologien nach ëmmer net fir jiddereen zougänglech sinn.
Text-zu-Bild Modeller hunn och bedeitend wirtschaftlech Implikatiounen. Ginn Beruffer wéi Modeller, Fotografen a Kënschtler betraff wann Modeller wéi DALL-E Mainstream ginn?
Am Moment hunn dës Modeller nach ëmmer Aschränkungen. All AI-generéiert Bild ze iwwerpréiwen wäert seng Mängel verroden. Mat béid OpenAI a Google konkurréiere fir déi effektivste Modeller, kann et eng Fro vun der Zäit sinn ier e wierklech perfekten Output generéiert gëtt: e Bild dat net z'ënnerscheeden ass vun der realer Saach.
Wat mengt Dir wäert geschéien wann Technologie esou wäit geet?
Hannerlooss eng Äntwert