Inhoudsopgave[Zich verstoppen][Laten zien]
U weet waarschijnlijk dat een computer een afbeelding kan beschrijven.
Een foto van een hond die met uw kinderen speelt, kan bijvoorbeeld worden vertaald als 'hond en kinderen in de tuin'. Maar wist je dat de omgekeerde weg nu ook haalbaar is? U typt enkele woorden en de machine genereert een nieuwe afbeelding.
In tegenstelling tot een Google-zoekopdracht, die bestaande foto's doorzoekt, is dit allemaal nieuw. In de afgelopen jaren was OpenAI een van de toonaangevende organisaties die verbluffende resultaten rapporteerde.
Ze trainen hun algoritmen op enorme tekst- en beelddatabases. Ze publiceerden een paper over hun GLIDE-beeldmodel, dat was getraind op honderden miljoenen foto's. In termen van fotorealisme presteert het beter dan hun eerdere 'DALL-E'-model.
In dit bericht kijken we naar OpenAI's GLIDE, een van de vele fascinerende initiatieven gericht op het produceren en wijzigen van fotorealistische afbeeldingen met tekstgestuurde diffusiemodellen. Laten we beginnen.
Wat is AI Glide openen?
Hoewel de meeste afbeeldingen in woorden kunnen worden beschreven, vereist het maken van afbeeldingen op basis van tekstinvoer gespecialiseerde kennis en een aanzienlijke hoeveelheid tijd.
Door een AI-agent in staat te stellen fotorealistische afbeeldingen te produceren op basis van aanwijzingen in natuurlijke taal, kunnen mensen niet alleen met ongekend gemak rijk en divers visueel materiaal maken, maar kunnen ze ook eenvoudiger iteratieve verfijning en fijnmazige controle over de gemaakte afbeeldingen maken.
GLIDE kan worden gebruikt om bestaande foto's te bewerken door tekstprompts in natuurlijke taal te gebruiken om nieuwe objecten in te voegen, schaduwen en reflecties te creëren, afbeelding in schilderen, Enzovoort.
Het kan ook eenvoudige lijntekeningen omzetten in fotorealistische foto's en het heeft uitzonderlijke fabricage- en reparatiemogelijkheden zonder monsters voor complexe situaties.
Recent onderzoek heeft aangetoond dat op waarschijnlijkheid gebaseerde diffusiemodellen ook synthetische beelden van hoge kwaliteit kunnen opleveren, vooral in combinatie met een leidende benadering die een evenwicht biedt tussen variëteit en getrouwheid.
OpenAI gepubliceerd op geleid diffusiemodel in mei, waardoor diffusiemodellen afhankelijk kunnen zijn van de labels van een classificator. GLIDE verbetert dit succes door geleide diffusie toe te voegen aan het probleem van het creëren van tekstvoorwaardelijke afbeeldingen.
Na het trainen van een GLIDE-diffusiemodel met 3.5 miljard parameters met behulp van een tekstencoder om te conditioneren op beschrijvingen in natuurlijke taal, testten de onderzoekers twee alternatieve begeleidingsstrategieën: CLIP-begeleiding en classificatievrije begeleiding.
CLIP is een schaalbare techniek voor het leren van gezamenlijke representaties van tekst en afbeeldingen die een score levert op basis van hoe dicht een afbeelding bij een bijschrift staat.
Het team gebruikte deze strategie in hun diffusiemodellen door de classifier te vervangen door een CLIP-model dat de modellen "leidt". Ondertussen is classificatievrije begeleiding een strategie voor het sturen van diffusiemodellen waarbij geen afzonderlijke classificator hoeft te worden getraind.
GLIDE-architectuur
De GLIDE-architectuur bestaat uit drie componenten: een Ablated Diffusion Model (ADM) dat is getraind om een 64 × 64-afbeelding te genereren, een tekstmodel (transformator) dat het genereren van afbeeldingen beïnvloedt via een tekstprompt, en een upsampling-model dat onze kleine 64 × 64-afbeeldingen converteert naar beter interpreteerbare 256 x 256 pixels.
De eerste twee componenten werken samen om het proces voor het genereren van afbeeldingen te regelen, zodat het de tekstprompt op de juiste manier weergeeft, terwijl de laatste nodig is om de afbeeldingen die we maken gemakkelijker te begrijpen te maken. Het GLIDE-project is geïnspireerd door een rapport gepubliceerd in 2021 waaruit bleek dat ADM-technieken beter presteerden dan de momenteel populaire, geavanceerde generatieve modellen in termen van beeldmonsterkwaliteit.
Voor de ADM gebruikten de GLIDE-auteurs hetzelfde ImageNet 64 x 64-model als Dhariwal en Nichol, maar met 512 kanalen in plaats van 64. Het ImageNet-model heeft daardoor ongeveer 2.3 miljard parameters.
Het GLIDE-team wilde, in tegenstelling tot Dhariwal en Nichol, meer directe controle hebben over het beeldgenererende proces, dus combineerden ze het visuele model met een aandachtstransformator. GLIDE geeft u enige controle over de uitvoer van het beeldgenererende proces door de tekstinvoerprompts te verwerken.
Dit wordt bereikt door het transformatormodel te trainen op een voldoende grote dataset van foto's en bijschriften (vergelijkbaar met die gebruikt in het DALL-E-project).
De tekst wordt aanvankelijk gecodeerd in een reeks K-tokens om deze te conditioneren. Daarna worden de tokens in een transformatormodel geladen. De output van de transformator kan dan op twee manieren worden gebruikt. Voor het ADM-model wordt de definitieve token-inbedding gebruikt in plaats van de klasse-inbedding.
Ten tweede wordt de laatste laag van de token-inbedding - een reeks kenmerkvectoren - onafhankelijk geprojecteerd op de dimensies voor elke aandachtslaag in het ADM-model en aaneengeschakeld met elke aandachtscontext.
In werkelijkheid stelt dit het ADM-model in staat om op een unieke en fotorealistische manier een afbeelding te produceren uit nieuwe combinaties van vergelijkbare teksttokens, gebaseerd op het aangeleerde begrip van de ingevoerde woorden en hun gerelateerde afbeeldingen. Deze tekstcoderingstransformator bevat 1.2 miljard parameters en gebruikt 24 overgebleven blokken met een breedte van 2048.
Ten slotte bevat het upsampler-diffusiemodel ongeveer 1.5 miljard parameters en verschilt het van het basismodel doordat de tekstencoder kleiner is, met een breedte van 1024 en 384 basiskanalen, in vergelijking met het basismodel. Dit model helpt, zoals de naam aangeeft, bij de upgrade van het voorbeeld om de interpreteerbaarheid voor zowel machines als mensen te verbeteren.
Diffusiemodel
GLIDE genereert afbeeldingen met behulp van zijn eigen versie van de ADM (ADM-G voor "geleid"). Het ADM-G-model is een modificatie van het diffusie-U-net-model. Een diffusie-U-net-model verschilt dramatisch van de meer gebruikelijke beeldsynthesetechnieken zoals VAE, GAN en transformatoren.
Ze bouwen een Markov-keten van diffusiestappen om geleidelijk willekeurige ruis in de gegevens te injecteren, en leren vervolgens het diffusieproces om te keren en de vereiste gegevensmonsters opnieuw op te bouwen uit alleen de ruis. Het werkt in twee fasen: voorwaartse en achterwaartse diffusie.
De voorwaartse diffusiemethode, gegeven een gegevenspunt van de ware verdeling van het monster, voegt een kleine hoeveelheid ruis toe aan het monster over een vooraf ingestelde reeks stappen. Naarmate de stappen groter worden en oneindig naderen, verliest het monster alle herkenbare kenmerken en begint de reeks te lijken op een isotrope Gauss-curve.
Tijdens de achterwaartse diffusie fase, het diffusiemodel leert de invloed van de toegevoegde ruis op de foto's om te keren en het geproduceerde beeld terug te brengen naar zijn oorspronkelijke vorm door te proberen te lijken op de oorspronkelijke invoersampledistributie.
Een voltooid model zou dit kunnen doen met een echte Gaussiaanse ruisinvoer en een prompt. De ADM-G-methode verschilt van de voorgaande doordat een model, CLIP of een aangepaste transformator, de achterwaartse diffusiefase beïnvloedt door gebruik te maken van de ingevoerde tekstprompt-tokens.
Glij mogelijkheden
1. Generatie van afbeelding
Het meest populaire en meest gebruikte gebruik van GLIDE zal waarschijnlijk beeldsynthese zijn. Hoewel de foto's bescheiden zijn en GLIDE moeite heeft met dierlijke/menselijke vormen, is het potentieel voor one-shot beeldproductie bijna eindeloos.
Het kan foto's maken van dieren, beroemdheden, landschappen, gebouwen en nog veel meer, en het kan dit zowel in verschillende kunststijlen als fotorealistisch doen. De auteurs van de onderzoekers beweren dat GLIDE in staat is om een breed scala aan tekstuele invoer te interpreteren en om te zetten in een visueel formaat, zoals te zien is in de onderstaande voorbeelden.
2. Glijden in schilderen
GLIDE's automatische foto-inpainting is misschien wel het meest fascinerende gebruik. GLIDE kan een bestaande afbeelding als invoer nemen, deze verwerken met de tekstprompt in gedachten voor locaties die moeten worden gewijzigd, en vervolgens met gemak actieve wijzigingen aanbrengen in die onderdelen.
Het moet worden gebruikt in combinatie met een bewerkingsmodel, zoals SDEdit, om nog betere resultaten te krijgen. In de toekomst kunnen apps die profiteren van dergelijke mogelijkheden van cruciaal belang zijn bij het ontwikkelen van codevrije beeldveranderende benaderingen.
Conclusie
Nu we het proces hebben doorlopen, zou u de grondbeginselen moeten begrijpen van hoe GLIDE werkt, evenals de reikwijdte van zijn mogelijkheden voor het maken van afbeeldingen en het wijzigen van afbeeldingen.
Laat een reactie achter