Inhoudsopgave[Zich verstoppen][Laten zien]
In de afgelopen jaren zijn generatieve modellen genaamd "diffusiemodellen" steeds populairder geworden, en met goede reden.
De wereld heeft gezien waartoe diffusiemodellen in staat zijn, zoals beter presteren dan GAN's op het gebied van beeldsynthese, dankzij een select aantal historische publicaties die net in de jaren 2020 en 2021 zijn gepubliceerd.
Beoefenaars zagen onlangs het gebruik van diffusiemodellen in DALL-E2, het beeldcreatiemodel van OpenAI dat vorige maand werd gepubliceerd.
Veel machine learning-beoefenaars zijn ongetwijfeld nieuwsgierig naar de innerlijke werking van Diffusion Models, gezien hun recente golf van succes.
In dit bericht zullen we kijken naar de theoretische onderbouwing van diffusiemodellen, hun ontwerp, hun voordelen en nog veel meer. Laten we gaan.
Wat is het diffusiemodel?
Laten we beginnen met uit te zoeken waarom dit model een diffusiemodel wordt genoemd.
Een woord dat verband houdt met thermodynamica in de natuurkundelessen wordt diffusie genoemd. Een systeem is niet in evenwicht als er een grote concentratie van een materiaal, zoals een geur, op één plek aanwezig is.
Er moet diffusie plaatsvinden om het systeem in evenwicht te brengen. De moleculen van de geur verspreiden zich door het systeem vanuit een gebied met een hogere concentratie, waardoor het systeem overal uniform is.
Alles wordt uiteindelijk homogeen door diffusie.
Diffusiemodellen worden gemotiveerd door deze thermodynamische niet-evenwichtstoestand. Diffusiemodellen gebruiken een Markov-keten, een reeks variabelen waarbij de waarde van elke variabele afhankelijk is van de status van de vorige gebeurtenis.
Als we een foto maken, voegen we er achtereenvolgens een bepaalde hoeveelheid ruis aan toe tijdens de voorwaartse diffusiefase.
Na het opslaan van het luidruchtigere beeld, gaan we verder met het maken van het volgende beeld in de serie door extra ruis te introduceren.
Deze procedure wordt meerdere keren uitgevoerd. Door deze methode een paar keer te herhalen, ontstaat een puur ruisbeeld.
Hoe kunnen we dan een foto maken van dit rommelige beeld?
Het diffusieproces wordt omgekeerd met behulp van a neuraal netwerk. Dezelfde netwerken en dezelfde gewichten worden gebruikt in het achterwaartse diffusieproces om het beeld van t naar t-1 te creëren.
In plaats van het netwerk te laten anticiperen op het beeld, kan men proberen de ruis bij elke stap te voorspellen, die uit het beeld moet worden verwijderd om de taak verder te vereenvoudigen.
In elk scenario kan de ontwerp van neuraal netwerk moet zodanig worden geselecteerd dat de gegevensdimensionaliteit behouden blijft.
Diep duiken in het diffusiemodel
De componenten van een diffusiemodel zijn een voorwaarts proces (ook bekend als een diffusieproces), waarbij een datum (vaak een afbeelding) geleidelijk wordt geruist, en een omgekeerd proces (ook bekend als een omgekeerd diffusieproces), waarbij ruis wordt weer omgezet in een steekproef uit de doelverdeling.
Wanneer het geluidsniveau laag genoeg is, kunnen voorwaardelijke Gaussianen worden gebruikt om de overgangen van de bemonsteringsketen in het voorwaartse proces vast te stellen. Een gemakkelijke parametrering van het voorwaartse proces is het resultaat van het koppelen van deze kennis aan de Markov-aanname:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
Here 1 ....T is een variantieschema (aangeleerd of vast) dat ervoor zorgt, voor voldoende hoge T, dat xT vrijwel een isotrope Gaussiaans is.
Het tegenovergestelde proces is waar diffusiemodelmagie plaatsvindt. Het model leert dit diffusieproces tijdens de training om te keren om zo nieuwe data te produceren. Het model leert de gezamenlijke verdeling als (x0:T) het resultaat van het starten met de zuivere Gauss-ruisvergelijking
(xT):=N(xT,0,I).
pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, t))
waar de tijdafhankelijke parameters van de Gauss-overgangen worden ontdekt. Merk in het bijzonder op hoe de Markov-formulering stelt dat een gegeven omgekeerde diffusie-overgangsdistributie uitsluitend afhangt van de voorafgaande tijdstap (of de volgende tijdstap, afhankelijk van hoe je ernaar kijkt):
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Model opleiding
Een omgekeerd Markov-model dat de waarschijnlijkheid van de trainingsgegevens maximaliseert, wordt gebruikt om een diffusiemodel te trainen. In de praktijk is training analoog aan het verminderen van de bovengrens van de variatie op de negatieve log-kans.
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L
Modellen
We moeten nu beslissen hoe we ons diffusiemodel gaan uitvoeren nadat we de wiskundige onderbouwing van onze doelfunctie hebben vastgesteld. De enige beslissing die nodig is voor het voorwaartse proces is het bepalen van het variantieschema, waarvan de waarden doorgaans stijgen tijdens de procedure.
We overwegen sterk om de Gauss-distributieparametrisering en modelarchitectuur te gebruiken voor de omgekeerde procedure.
De enige voorwaarde van ons ontwerp is dat zowel de invoer als de uitvoer dezelfde afmetingen hebben. Dit onderstreept de enorme mate van vrijheid die Diffusion Models bieden.
Hieronder gaan we dieper in op deze opties.
Doorsturen proces
We moeten het variantieschema verstrekken met betrekking tot het voorwaartse proces. We hebben ze specifiek ingesteld als tijdafhankelijke constanten en hebben geen rekening gehouden met de mogelijkheid dat ze kunnen worden geleerd. Een chronologisch schema van
β1 = 10−4 tot βT = 0.02.
Lt wordt een constante met betrekking tot onze set van leerbare parameters vanwege het vaste variantieschema, waardoor we het tijdens de training kunnen negeren, ongeacht de specifieke geselecteerde waarden.
Omgekeerd proces
We bespreken nu de beslissingen die nodig zijn om het omgekeerde proces te definiëren. Weet je nog hoe we de omgekeerde Markov-overgangen beschreven als Gaussiaans:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Nu we de functionele typen hebben geïdentificeerd. Ondanks het feit dat er meer ingewikkelde technieken zijn om te parametriseren, stellen we gewoon in
Σθ(xt, t) = σ 2 t I
σ 2t = βt
Anders gezegd, we beschouwen de multivariate Gauss als het resultaat van afzonderlijke Gaussianen met dezelfde variantie, een variantiewaarde die in de tijd kan fluctueren. Deze afwijkingen zijn afgestemd op het tijdschema van afwijkingen in het doorstuurproces.
Als resultaat van deze nieuwe formulering, we hebben:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t)) :=N (xt−1; µθ (xt, t), σ2 t I)
Dit resulteert in de hieronder getoonde alternatieve verliesfunctie, waarvan de auteurs vonden dat ze een meer consistente training en superieure resultaten opleveren:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
De auteurs leggen ook verbanden tussen deze formulering van diffusiemodellen en op Langevin gebaseerde generatieve modellen voor het matchen van scores. Net als bij de onafhankelijke en parallelle ontwikkeling van op golven gebaseerde kwantumfysica en op matrix gebaseerde kwantummechanica, die twee vergelijkbare formuleringen van hetzelfde fenomeen aan het licht bracht, lijkt het erop dat diffusiemodellen en scoregebaseerde modellen twee kanten van dezelfde medaille kunnen zijn.
Netwerk architectuur
Ondanks het feit dat onze gecondenseerde verliesfunctie een model wil trainen Σθ, hebben we nog steeds geen beslissing genomen over de architectuur van dit model. Houd er rekening mee dat het model gewoon dezelfde invoer- en uitvoerafmetingen moet hebben.
Gezien deze beperking is het waarschijnlijk niet onverwacht dat U-Net-achtige architecturen vaak worden gebruikt om beelddiffusiemodellen te maken.
Talloze wijzigingen worden aangebracht langs de route van het omgekeerde proces terwijl continue voorwaardelijke Gauss-verdelingen worden gebruikt. Onthoud dat het doel van de omgekeerde procedure is om een afbeelding te maken die bestaat uit gehele pixelwaarden. Het bepalen van discrete (log) waarschijnlijkheden voor elke potentiële pixelwaarde over alle pixels is daarom noodzakelijk.
Dit wordt bereikt door een afzonderlijke discrete decoder toe te wijzen aan de laatste overgang van de omgekeerde diffusieketen. de kans op een bepaald beeld inschatten x0 gegeven x1.
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ als x = 1 x + 1 255 als x < 1 δ−(x) = −∞ als x = −1 x − 1 255 als x > −1
waarbij het superscript I de extractie van één coördinaat aangeeft en D het aantal dimensies in de gegevens aangeeft.
Het doel op dit punt is om de waarschijnlijkheid vast te stellen van elke integerwaarde voor een specifieke pixel, gegeven de verdeling van potentiële waarden voor die pixel in de tijdsafhankelijke t=1.
einddoel
Volgens wetenschappers kwamen de grootste resultaten voort uit het voorspellen van de ruiscomponent van een afbeelding op een bepaalde tijdstap. Uiteindelijk hanteren ze het volgende doel:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
In de volgende afbeelding worden de training- en bemonsteringsprocedures voor ons diffusiemodel beknopt weergegeven:
Voordelen van het diffusiemodel
Zoals al aangegeven, is de hoeveelheid onderzoek naar diffusiemodellen de laatste tijd verveelvoudigd. Diffusiemodellen leveren nu de allernieuwste beeldkwaliteit en zijn geïnspireerd op thermodynamica die niet in evenwicht is.
Diffusiemodellen bieden naast de allernieuwste beeldkwaliteit nog een aantal andere voordelen, zoals het niet nodig hebben van vijandige training.
De nadelen van vijandige training zijn algemeen bekend, daarom verdient het vaak de voorkeur om niet-vijandige alternatieven te kiezen met gelijkwaardige prestaties en trainingseffectiviteit.
Diffusiemodellen bieden ook de voordelen van schaalbaarheid en parallelliseerbaarheid in termen van trainingseffectiviteit.
Hoewel diffusiemodellen schijnbaar uit het niets lijken te genereren, wordt de basis voor deze resultaten gelegd door een aantal doordachte en interessante wiskundige beslissingen en subtiliteiten, en er worden nog steeds best practices in de sector ontwikkeld.
Conclusie
Concluderend demonstreren onderzoekers hoogwaardige beeldsynthesebevindingen met behulp van diffusie-probabilistische modellen, een klasse van latente variabele modellen gemotiveerd door ideeën uit niet-evenwichtsthermodynamica.
Ze hebben geweldige dingen bereikt dankzij hun state-of-the-art resultaten en niet-vijandige training en gezien hun kinderschoenen, kunnen er in de komende jaren meer vorderingen worden verwacht.
Er is met name ontdekt dat diffusiemodellen cruciaal zijn voor de functionaliteit van geavanceerde modellen zoals DALL-E 2.
Here u heeft toegang tot het volledige onderzoek.
Laat een reactie achter