In onlangse jare het generatiewe modelle genaamd "diffusiemodelle" al hoe meer gewild geword, en met goeie rede.
Die wêreld het gesien waartoe verspreidingsmodelle in staat is, soos om beter as GAN's op prentsintese te presteer, danksy 'n paar uitgesoekte landmerkpublikasies wat net in die 2020's en 2021's gepubliseer is.
Praktisyns het mees onlangs die gebruik van diffusiemodelle in DALL-E2, OpenAI se beeldskeppingsmodel wat verlede maand gepubliseer is.
Baie Masjienleer-praktisyns is ongetwyfeld nuuskierig oor die innerlike werking van Diffusion Models gegewe hul onlangse oplewing van sukses.
In hierdie pos sal ons kyk na die teoretiese onderbou van diffusiemodelle, hul ontwerp, hul voordele en nog baie meer. Kom ons gaan.
Wat is die diffusiemodel?
Kom ons begin deur uit te vind hoekom daar na hierdie model verwys word as 'n diffusiemodel.
'n Woord wat met termodinamika in fisikaklasse verband hou, word diffusie genoem. 'n Stelsel is nie in ewewig as daar 'n groot konsentrasie van 'n materiaal, soos 'n reuk, op een plek is nie.
Diffusie moet plaasvind vir die sisteem om ewewig te betree. Die molekules van die reuk diffundeer deur die sisteem vanaf 'n gebied met 'n hoër konsentrasie, wat die sisteem deurgaans eenvormig maak.
Alles word uiteindelik homogeen as gevolg van diffusie.
Diffusiemodelle word gemotiveer deur hierdie termodinamiese nie-ewewigstoestand. Diffusiemodelle gebruik 'n Markov-ketting, wat 'n reeks veranderlikes is waar elke veranderlike se waarde staatmaak op die toestand van die vorige gebeurtenis.
Deur 'n foto te neem, voeg ons agtereenvolgens 'n bepaalde hoeveelheid geraas daarby deur die voorwaartse diffusiefase.
Nadat ons die raseriger beeld gestoor het, gaan ons voort om die daaropvolgende beeld in die reeks te skep deur bykomende geraas in te voer.
Hierdie prosedure word verskeie kere uitgevoer. 'n Suiwer geraasprent is die resultaat van die herhaling van hierdie metode 'n paar keer.
Hoe kan ons dan 'n prentjie van hierdie deurmekaar beeld skep?
Die diffusieproses word omgekeer deur gebruik te maak van a neurale netwerk. Dieselfde netwerke en dieselfde gewigte word in die terugwaartse verspreidingsproses gebruik om die prentjie van t tot t-1 te skep.
In plaas daarvan om die netwerk die prentjie te laat antisipeer, kan 'n mens probeer om die geraas by elke stap, wat van die beeld verwyder moet word, te voorspel om die taak verder te vereenvoudig.
In enige scenario, die neurale netwerk ontwerp moet gekies word op 'n manier wat data-dimensionaliteit handhaaf.
Diep duik in diffusiemodel
Die komponente van 'n diffusiemodel is 'n voorwaartse proses (ook bekend as 'n diffusieproses), waarin 'n datum (dikwels 'n beeld) geleidelik geraas word, en 'n omgekeerde proses (ook bekend as 'n omgekeerde diffusieproses), waarin geraas teruggeskakel na 'n steekproef uit die teikenverspreiding.
Wanneer die geraasvlak laag genoeg is, kan voorwaardelike Gaussiërs gebruik word om die steekproefkettingoorgange in die voorwaartse proses vas te stel. 'n Maklike parameterisering van die voorwaartse proses is die resultaat van die koppeling van hierdie kennis met die Markov-aanname:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
hier 1de ...T is 'n variansieskedule (óf geleer of vas) wat verseker, vir voldoende hoë T, dat xT feitlik 'n isotropiese Gauss is.
Die teenoorgestelde proses is waar diffusiemodelmagie plaasvind. Die model leer om hierdie verspreidingsproses tydens opleiding om te keer om vars data te produseer. Die model leer die gesamentlike verspreiding as (x0:T) die resultaat van begin met die suiwer Gaussiese geraasvergelyking
(xT):=N(xT,0,I).
pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, t))
waar die Gaussiese oorgange se tydafhanklike parameters ontdek word. Let veral op hoe die Markov-formulering sê dat 'n gegewe omgekeerde diffusie-oorgangsverspreiding uitsluitlik afhang van die vorige tydstap (of daaropvolgende tydstap, afhangend van hoe jy daarna kyk):
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Model Opleiding
'n Omgekeerde Markov-model wat die waarskynlikheid van die opleidingsdata maksimeer, word gebruik om 'n diffusiemodel op te lei. Prakties gesproke is opleiding analoog aan die vermindering van die variasie bogrens op die negatiewe log waarskynlikheid.
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L
Modelle
Ons moet nou besluit hoe om ons Diffusiemodel uit te voer nadat ons die wiskundige onderbou van ons doelfunksie vasgestel het. Die enigste besluit wat nodig is vir die voorwaartse proses is die bepaling van die afwykingskedule, waarvan die waardes tipies tydens die prosedure styg.
Ons oorweeg dit sterk om die Gaussiese verspreidingsparameterisering en modelargitektuur vir die omgekeerde prosedure te gebruik.
Die enigste voorwaarde van ons ontwerp is dat beide die inset en die uitset dieselfde afmetings het. Dit onderstreep die enorme mate van vryheid wat Diffusion Models bied.
Hieronder gaan ons in groter diepte oor hierdie opsies.
Voorstuur proses
Ons moet die afwykingskedule verskaf met betrekking tot die voorwaartse proses. Ons het hulle spesifiek as tydafhanklike konstantes gestel en die moontlikheid dat hulle aangeleer kan word, verontagsaam. N chronologiese skedule van
β1 = 10−4 tot βT = 0.02.
Lt word 'n konstante met betrekking tot ons stel leerbare parameters as gevolg van die vaste afwykingskedule, wat ons toelaat om dit tydens opleiding te ignoreer, ongeag die spesifieke waardes wat gekies is.
Omgekeerde proses
Ons gaan nou oor die besluite wat nodig is om die omgekeerde proses te definieer. Onthou hoe ons die omgekeerde Markov-oorgange as Gaussiaans beskryf het:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Noudat ons die funksionele tipes geïdentifiseer het. Ten spyte van die feit dat daar meer ingewikkelde tegnieke is om te parameteriseer, stel ons net
Σθ(xt, t) = σ 2 t I
σ 2 t = βt
Om dit anders te stel, ons beskou die meerveranderlike Gauss as die resultaat van afsonderlike Gaussiërs met dieselfde variansie, 'n variansiewaarde wat oor tyd kan fluktueer. Hierdie afwykings is ingestel om te pas by die rooster van aanstuurprosesafwykings.
As gevolg van hierdie nuwe formulering, ons het:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t)) :=N (xt−1; µθ (xt, t), σ2 t I)
Dit lei tot die alternatiewe verliesfunksie wat hieronder getoon word, wat die skrywers gevind het om meer konsekwente opleiding en voortreflike uitkomste te lewer:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Die skrywers trek ook verbande tussen hierdie formulering van diffusiemodelle en Langevin-gebaseerde tellingbypassende generatiewe modelle. Soos met die onafhanklike en parallelle ontwikkeling van golfgebaseerde kwantumfisika en matriksgebaseerde kwantummeganika, wat twee vergelykbare formulerings van dieselfde verskynsels aan die lig gebring het, blyk dit dat Diffusiemodelle en Tellinggebaseerde modelle twee kante van dieselfde munt kan wees.
Netwerkargitektuur
Ten spyte van die feit dat ons verkorte verliesfunksie daarop gemik is om 'n model op te lei Σθ, ons het nog nie op hierdie model se argitektuur besluit nie. Hou in gedagte dat die model eenvoudig dieselfde inset- en uitsetafmetings moet hê.
Gegewe hierdie beperking, is dit waarskynlik nie onverwags dat U-Net-agtige argitekture gereeld gebruik word om prentverspreidingsmodelle te skep nie.
Talle veranderinge word langs die roete van die omgekeerde proses aangebring terwyl deurlopende voorwaardelike Gaussiese verdelings gebruik word. Onthou dat die doel van die omgekeerde prosedure is om 'n prentjie te skep wat uit heelgetal pixelwaardes bestaan. Die bepaling van diskrete (log) waarskynlikhede vir elke potensiële pixelwaarde oor alle pixels is dus nodig.
Dit word bewerkstellig deur 'n aparte diskrete dekodeerder toe te ken aan die omgekeerde diffusieketting se laaste oorgang. die kans op 'n sekere beeld te skat x0 gegee x1.
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ as x = 1 x + 1 255 as x < 1 δ−(x) = −∞ as x = −1 x − 1 255 as x > −1
waar die boskrif I die onttrekking van een koördinaat aandui en D die aantal dimensies in die data aandui.
Die doelwit op hierdie punt is om die waarskynlikheid van elke heelgetalwaarde vir 'n spesifieke pixel vas te stel gegewe die verspreiding van potensiële waardes vir daardie pixel in die tydswisselende t=1.
Finale Doelwit
Die grootste uitkomste, volgens wetenskaplikes, het gekom van die voorspelling van die geraaskomponent van 'n prentjie op 'n sekere tydstap. Op die ou end gebruik hulle die volgende doelwit:
Lsimple(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
In die volgende prent word die opleiding- en steekproefprosedures vir ons verspreidingsmodel bondig uitgebeeld:
Voordele van diffusiemodel
Soos reeds aangedui, het die hoeveelheid navorsing oor diffusiemodelle onlangs vermenigvuldig. Diffusiemodelle lewer nou die nuutste beeldkwaliteit en is geïnspireer deur nie-ewewig termodinamika.
Diffusiemodelle bied 'n verskeidenheid ander voordele benewens die nuutste beeldkwaliteit, soos dat dit nie teenstanders opleiding vereis nie.
Die nadele van teenstrydige opleiding is wyd bekend, daarom is dit dikwels verkieslik om nie-teenstandige alternatiewe met gelykwaardige prestasie en opleidingseffektiwiteit te kies.
Diffusiemodelle bied ook die voordele van skaalbaarheid en paralleliseerbaarheid in terme van opleidingseffektiwiteit.
Alhoewel verspreidingsmodelle blykbaar uitkomste uit die lug genereer, word die basis vir hierdie resultate gelê deur 'n aantal deurdagte en interessante wiskundige besluite en subtiliteite, en die beste praktyke in die industrie word steeds ontwikkel.
Gevolgtrekking
Ten slotte demonstreer navorsers hoëgehalte-beeldsintese-bevindinge deur gebruik te maak van diffusie-waarskynlikheidsmodelle, 'n klas latente veranderlike modelle wat gemotiveer word deur idees uit nie-ewewig termodinamika.
Hulle het geweldige dinge bereik danksy hul moderne uitkomste en nie-teenstandige opleiding en gegewe hul kinderskoene, kan meer vordering in die komende jare verwag word.
Daar is veral ontdek dat verspreidingsmodelle deurslaggewend is vir die funksionaliteit van gevorderde modelle soos DALL-E 2.
hier jy kan toegang tot die volledige navorsing kry.
Lewer Kommentaar