Inhoudsopgave[Zich verstoppen][Laten zien]
In de afgelopen jaren zijn deep-learningmodellen effectiever geworden in het begrijpen van menselijke taal.
Denk aan projecten als GPT-3, die nu hele artikelen en websites kan maken. GitHub heeft onlangs geïntroduceerd GitHub-copiloot, een service die volledige codefragmenten biedt door eenvoudig het type code te beschrijven dat u nodig hebt.
Onderzoekers van OpenAI, Facebook en Google hebben gewerkt aan manieren om deep learning te gebruiken voor een andere taak: het ondertitelen van afbeeldingen. Met behulp van een grote dataset met miljoenen ingangen, hebben ze er een paar bedacht verrassend .
De laatste tijd hebben deze onderzoekers geprobeerd de tegenovergestelde taak uit te voeren: afbeeldingen maken van een bijschrift. Is het nu mogelijk om van een beschrijving een geheel nieuwe afbeelding te maken?
In deze gids worden twee van de meest geavanceerde tekst-naar-beeld-modellen onderzocht: OpenAI's DALL-E 2 en Google's Imagen AI. Elk van deze projecten heeft baanbrekende methoden geïntroduceerd die de samenleving zoals wij die kennen kunnen veranderen.
Maar laten we eerst begrijpen wat we bedoelen met het genereren van tekst naar afbeelding.
Wat is het genereren van tekst naar afbeelding?
Tekst-naar-beeld modellen laat computers nieuwe en unieke afbeeldingen maken op basis van aanwijzingen. Mensen kunnen nu een tekstbeschrijving geven van een afbeelding die ze willen produceren, en het model zal proberen een beeld te creëren dat zo goed mogelijk overeenkomt met die beschrijving.
Machine learning-modellen hebben gebruik gemaakt van het gebruik van grote datasets met afbeelding-bijschriftparen om de prestaties verder te verbeteren.
De meeste tekst-naar-afbeelding modellen gebruiken een transformatortaalmodel om aanwijzingen te interpreteren. Dit type model is een neuraal netwerk dat probeert de context en semantische betekenis van natuurlijke taal te leren.
Vervolgens generatieve modellen zoals diffusiemodellen en generatieve vijandige netwerken worden gebruikt voor beeldsynthese.
Wat is DALLE 2?
DALL-E2 is een computermodel van OpenAI dat in april 2022 is uitgebracht. Het model is getraind in een database van miljoenen gelabelde afbeeldingen om woorden en zinsdelen aan afbeeldingen te koppelen.
Gebruikers kunnen een eenvoudige zin typen, zoals "een kat die lasagne eet", en DALL-E 2 genereert zijn eigen interpretatie van wat de zin probeert te beschrijven.
Naast het maken van afbeeldingen vanaf het begin, kan de DALL-E 2 ook bestaande afbeeldingen bewerken. In het onderstaande voorbeeld kon DALL-E een aangepast beeld genereren van een kamer met een toegevoegde bank.
DALL-E 2 is slechts een van de vele vergelijkbare projecten die OpenAI de afgelopen jaren heeft uitgebracht. OpenAI's GPT-3 kreeg nieuwswaarde toen het tekst van verschillende stijlen leek te genereren.
Momenteel bevindt DALL-E 2 zich nog in bètatests. Geïnteresseerde gebruikers kunnen zich aanmelden voor hun wachtlijst en wacht op toegang.
Hoe werkt het?
Hoewel de resultaten van DALL-E 2 indrukwekkend zijn, vraagt u zich misschien af hoe het allemaal werkt.
DALL-E 2 is een voorbeeld van een multimodale implementatie van OpenAI's GPT-3-project.
Eerst wordt de tekstprompt van de gebruiker in een tekstencoder geplaatst die de prompt toewijst aan een representatieruimte. DALL-E 2 gebruikt een ander OpenAI-model genaamd CLIP (Contrastive Language-Image Pre-Training) om semantische informatie uit natuurlijke taal te verkrijgen.
Vervolgens een model dat bekend staat als de voorafgaand zet de tekstcodering om in een afbeeldingscodering. Deze afbeeldingscodering moet de semantische informatie bevatten die wordt gevonden in de tekstcoderingsstap.
Om het daadwerkelijke beeld te creëren, gebruikt DALL-E 2 een beelddecoder om een beeld te genereren met behulp van semantische informatie en beeldcoderingsdetails. OpenAI gebruikt een aangepaste versie van de GLIJDEN model om beeldgeneratie uit te voeren. GLIDE vertrouwt op een diffusiemodel afbeeldingen te maken.
De toevoeging van GLIDE aan het DALL-E 2-model zorgde voor meer fotorealistische output. Aangezien het GLIDE-model stochastisch of willekeurig bepaald is, kan het DALL-E 2-model gemakkelijk variaties creëren door het model steeds opnieuw uit te voeren.
Beperkingen
Ondanks de indrukwekkende resultaten van het DALL-E 2-model, heeft het nog steeds te maken met enkele beperkingen.
Tekst spellen
Prompts die proberen DALL-E 2 tekst te laten genereren, laten zien dat het moeite heeft met het spellen van woorden. Deskundigen gaan ervan uit dat dit kan komen doordat spellingsinformatie geen deel uitmaakt van de trainingsgegevensset.
Compositioneel redeneren
Onderzoekers merken op dat DALL-E 2 nog wat moeite heeft met compositorisch redeneren. Simpel gezegd, het model kan individuele aspecten van een afbeelding begrijpen, terwijl het nog steeds moeite heeft om de relaties tussen deze aspecten te achterhalen.
Als bijvoorbeeld de prompt "rode kubus bovenop een blauwe kubus" wordt gegeven, zal DALL-E een blauwe kubus en een rode kubus nauwkeurig genereren, maar deze niet correct plaatsen. Er is ook waargenomen dat het model moeite heeft met prompts waarvoor een bepaald aantal objecten moet worden getekend.
Bias in de dataset
Als de prompt geen andere details bevat, is waargenomen dat DALL-E blanke of westerse mensen en omgevingen weergeeft. Deze representatieve bias treedt op vanwege de overvloed aan op het Westen gerichte afbeeldingen in de dataset.
Er is ook waargenomen dat het model genderstereotypen volgt. Als u bijvoorbeeld de prompt 'stewardess' intypt, worden meestal afbeeldingen van vrouwelijke stewardessen gegenereerd.
Wat is Google Imagen AI?
Google Afbeelding AI is een model dat tot doel heeft fotorealistische afbeeldingen te maken van invoertekst. Net als bij DALL-E gebruikt het model ook transformatortaalmodellen om de tekst te begrijpen en vertrouwt het op het gebruik van diffusiemodellen om afbeeldingen van hoge kwaliteit te creëren.
Naast Imagen heeft Google ook een benchmark uitgebracht voor tekst-naar-afbeelding-modellen, DrawBench genaamd. Met DrawBench konden ze vaststellen dat menselijke beoordelaars Imagen-uitvoer prefereerden boven andere modellen, waaronder DALL-E 2.
Hoe werkt het?
Net als bij DALL-E converteert Imagen eerst de gebruikersprompt naar een tekst die is ingesloten via een bevroren tekst-encoder.
Imagen maakt gebruik van een diffusiemodel dat leert hoe een ruispatroon in beelden kan worden omgezet. De initiële uitvoer van deze afbeeldingen heeft een lage resolutie en wordt later door een ander model geleid dat bekend staat als een superresolutie-diffusiemodel om de resolutie van het uiteindelijke beeld te verhogen. Het eerste diffusiemodel levert een afbeelding van 64 × 64 pixels en wordt later opgeblazen tot een afbeelding met een hoge resolutie van 1024 × 1024.
Op basis van het onderzoek van het Imagen-team zijn grote bevroren taalmodellen die alleen op tekstgegevens zijn getraind, nog steeds zeer effectieve tekst-encoders voor het genereren van tekst naar afbeelding.
De studie introduceert ook het concept van dynamische drempels. Met deze methode kunnen afbeeldingen fotorealistischer lijken door de geleidingsgewichten te verhogen bij het genereren van de afbeelding.
Prestaties van DALLE 2 vs Imagen
Uit voorlopige resultaten van Google's benchmark blijkt dat menselijke respondenten de voorkeur geven aan afbeeldingen die zijn gegenereerd door Imagen boven DALL-E 2 en andere tekst-naar-afbeelding-modellen zoals Latent Diffusion en VQGAN+CLIP.
Uit de output van het Imagen-team is ook gebleken dat hun model beter presteert bij het spellen van tekst, een bekende zwakte van het DALL-E 2-model.
Aangezien Google het model echter nog niet aan het publiek heeft vrijgegeven, valt nog te bezien hoe nauwkeurig de benchmarks van Google zijn.
Conclusie
De opkomst van fotorealistische tekst-naar-beeld-modellen is controversieel omdat deze modellen rijp zijn voor onethisch gebruik.
De technologie kan leiden tot het creëren van expliciete inhoud of als een hulpmiddel voor desinformatie. Onderzoekers van zowel Google als OpenAI zijn zich hiervan bewust, mede daardoor zijn deze technologieën nog niet voor iedereen toegankelijk.
Tekst-naar-beeld-modellen hebben ook belangrijke economische implicaties. Zullen beroepen zoals modellen, fotografen en kunstenaars worden beïnvloed als modellen zoals DALL-E mainstream worden?
Op dit moment hebben deze modellen nog beperkingen. Als je een door AI gegenereerde afbeelding onder de loep neemt, worden de onvolkomenheden ervan onthuld. Nu zowel OpenAI als Google strijden om de meest effectieve modellen, kan het een kwestie van tijd zijn voordat een werkelijk perfecte output wordt gegenereerd: een afbeelding die niet van echt te onderscheiden is.
Wat denk je dat er zal gebeuren als de technologie zo ver gaat?
Laat een reactie achter