Соңғы жылдары «диффузиялық модельдер» деп аталатын генеративті модельдер барған сайын танымал бола бастады және жақсы себептермен.
2020 және 2021 жылдары ғана жарияланған бірнеше маңызды басылымдардың арқасында әлем диффузиялық модельдердің, мысалы, сурет синтезі бойынша GAN-дан асып түсуге қабілетті екенін көрді.
Тәжірибешілер соңғы уақытта диффузиялық модельдерді қолдануды көрді DALL-E2, OpenAI өткен айда жарияланған кескін жасау үлгісі.
Көптеген Machine Learning практиктері, сөзсіз, олардың жақында табысқа жетуіне байланысты диффузиялық модельдердің ішкі жұмысына қызығушылық танытады.
Бұл постта біз диффузиялық модельдердің теориялық негіздерін, олардың дизайнын, артықшылықтарын және т.б. қарастырамыз. Барайық.
Диффузия моделі дегеніміз не?
Неліктен бұл модель диффузиялық модель деп аталатынын анықтаудан бастайық.
Физика сабағында термодинамикаға қатысты сөз диффузия деп аталады. Егер бір жерде хош иіс сияқты материалдың көп концентрациясы болса, жүйе тепе-теңдікте болмайды.
Жүйе тепе-теңдікке жету үшін диффузия болуы керек. Хош иістің молекулалары концентрациясы жоғары аймақтан бүкіл жүйеге таралып, жүйені біркелкі етеді.
Барлығы ақырында диффузияға байланысты біртекті болады.
Диффузиялық модельдер осы термодинамикалық тепе-теңдік емес жағдайға негізделген. Диффузиялық модельдер Марков тізбегін пайдаланады, бұл әр айнымалының мәні алдыңғы оқиғаның күйіне тәуелді болатын айнымалылар қатары.
Суретке түсіре отырып, біз алдыңғы диффузия фазасында оған белгілі бір шуыл мөлшерін дәйекті түрде қосамыз.
Шулы кескінді сақтағаннан кейін біз қосымша шуды енгізу арқылы сериядағы келесі кескінді жасауға кірісеміз.
Бұл процедура бірнеше рет орындалады. Таза шу кескіні осы әдісті бірнеше рет қайталау нәтижесінде пайда болады.
Олай болса, осы ретсіз кескіннен суретті қалай жасауға болады?
Диффузия процесі a көмегімен кері жүреді нейрондық желі. t-ден t-1-ге дейінгі суретті жасау үшін кері диффузия процесінде бірдей желілер мен бірдей салмақтар қолданылады.
Желіге суретті болжауға мүмкіндік берудің орнына, тапсырманы одан әрі жеңілдету үшін кескіннен жойылуы керек әр қадамдағы шуды болжауға болады.
Кез келген сценарийде нейрондық желіні жобалау деректер өлшемділігін сақтайтын жолмен таңдалуы керек.
Диффузия моделіне терең бойлау
Диффузия моделінің құрамдас бөліктері деректер (көбінесе кескін) біртіндеп шуылданатын тура процесс (диффузия процесі деп те аталады) және кері процесс (кері диффузия процесі деп те аталады), онда шу бар. мақсатты таратудан үлгіге қайта түрлендірілді.
Шу деңгейі жеткілікті төмен болған кезде, алға процесте іріктеу тізбегінің ауысуларын орнату үшін шартты Гаусстарды пайдалануға болады. Алдыңғы процестің оңай параметрленуі осы білімді Марковтың болжамымен біріктіру нәтижесінде пайда болады:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
осында 1 ....T – жеткілікті жоғары T үшін xT іс жүзінде изотропты Гаусс екеніне кепілдік беретін дисперсия кестесі (үйренілген немесе бекітілген).
Қарама-қарсы процесс диффузиялық модельдің сиқыры орын алатын жерде. Модель жаңа деректерді шығару үшін жаттығу кезінде осы диффузия процесін кері қайтаруды үйренеді. Үлгі ретінде бірлескен үлестіруді үйренеді (x0:T) таза Гаусс шуының теңдеуінен бастау нәтижесі
(xT):=N(xT,0,I).
pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, t))
мұнда Гаусс ауысуларының уақытқа тәуелді параметрлері ашылады. Атап айтқанда, Марковтың тұжырымы кері диффузиялық ауысудың берілген таралуы тек алдыңғы уақыт кезеңіне (немесе оған қалай қарайтыныңызға байланысты кейінгі уақыт кезеңіне) байланысты екенін қалай айтқанына назар аударыңыз:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Модельдік тренинг
Диффузиялық модельді оқыту үшін жаттығу деректерінің ықтималдығын барынша арттыратын кері Марков үлгісі қолданылады. Іс жүзінде оқыту теріс журнал ықтималдығының вариациялық жоғарғы шегін азайтуға ұқсас.
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L
Models
Енді мақсат функциямыздың математикалық негіздерін анықтағаннан кейін диффузиялық модельді қалай орындау керектігін шешуіміз керек. Форвардтық процеске қажетті жалғыз шешім мәндері әдетте процедура кезінде көтерілетін ауытқулар кестесін анықтау болып табылады.
Біз кері процедура үшін Гаусс таралу параметрін және модель архитектурасын пайдалануды қатты қарастырамыз.
Біздің дизайнымыздың жалғыз шарты - кірістің де, шығыстың да өлшемдері бірдей. Бұл диффузиялық модельдер беретін үлкен еркіндік дәрежесін көрсетеді.
Төменде біз бұл опциялар туралы тереңірек қарастырамыз.
Форвард процесс
Біз форвардтық процеске қатысты ауытқу кестесін беруіміз керек. Біз оларды арнайы уақытқа тәуелді константалар етіп орнаттық және оларды үйренуге болатын мүмкіндікті ескермедік. бастап хронологиялық кесте
β1 = 10−4 - βT = 0.02.
Lt бекітілген дисперсия кестесіне байланысты үйренуге болатын параметрлер жиынтығына қатысты тұрақты мәнге айналады, бұл таңдалған нақты мәндерге қарамастан оқыту кезінде оны елемеуге мүмкіндік береді.
Кері процесс
Енді біз кері процесті анықтау үшін қажетті шешімдерді қарастырамыз. Кері Марков ауысуларын Гаусс ретінде қалай сипаттағанымызды есте сақтаңыз:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Енді біз функционалдық түрлерін анықтадық. Параметрлеудің күрделірек әдістері бар екеніне қарамастан, біз жай ғана орнаттық
Σθ(xt, t) = σ 2 t I
σ 2 т = βт
Басқаша айтқанда, біз көп айнымалы гауссты бірдей дисперсияға ие бөлек гаусстардың нәтижесі деп есептейміз, дисперсия мәні уақыт бойынша ауытқуы мүмкін. Бұл ауытқулар жіберу процесінің ауытқуларының кестесіне сәйкес келу үшін орнатылады.
Осы жаңа тұжырымның нәтижесінде, Бізде бар:
pθ(xt−1|xt) := N (xt−1; μθ (xt, t), Σθ(xt, t)) :=N (xt−1; μθ (xt, t), σ2 t I)
Бұл төменде көрсетілген балама жоғалту функциясына әкеледі, бұл авторлар тұрақты жаттығулар мен жоғары нәтижелер беретінін анықтады:
Lқарапайым(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Авторлар сонымен қатар диффузиялық модельдердің осы тұжырымы мен Лангевин негізіндегі ұпайға сәйкес келетін генеративті модельдер арасында байланыстар жасайды. Бір құбылыстардың екі салыстырмалы тұжырымын ашқан толқынға негізделген кванттық физика мен матрицаға негізделген кванттық механиканың тәуелсіз және параллель дамуы сияқты, диффузиялық модельдер мен ұпайға негізделген модельдер бір монетаның екі жағы болуы мүмкін сияқты.
Желілік архитектура
Біздің қысқартылған жоғалту функциямыз модельді үйретуге бағытталғанына қарамастан Σθ, біз бұл модельдің архитектурасын әлі шешкен жоқпыз. Модельдің бірдей кіріс және шығыс өлшемдері болуы керек екенін есте сақтаңыз.
Осы шектеуді ескере отырып, U-Net тәрізді архитектуралардың кескін диффузиялық үлгілерін жасау үшін жиі пайдаланылуы күтпеген шығар.
Үздіксіз шартты Гаусс үлестірімдерін пайдалану кезінде кері процестің жүру жолында көптеген өзгерістер енгізіледі. Кері процедураның мақсаты бүтін пиксель мәндерінен тұратын суретті жасау екенін есте сақтаңыз. Сондықтан барлық пикселдер бойынша әрбір ықтимал пиксель мәні үшін дискретті (журнал) ықтималдықтарды анықтау қажет.
Бұл кері диффузиялық тізбектің соңғы өтуіне бөлек дискретті дешифраторды тағайындау арқылы орындалады. белгілі бір кескіннің мүмкіндігін бағалау x0 берілген x1.
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞, егер x = 1 x + 1 255, егер x < 1 δ−(x) = −∞ болса, x = −1 x − 1 255, x > −1 болса
мұндағы I үстіңгі белгісі бір координатаның алынуын, ал D деректердегі өлшемдердің санын білдіреді.
Бұл нүктедегі мақсат уақыт бойынша өзгеретін пиксель үшін әлеуетті мәндердің таралуын ескере отырып, белгілі бір пиксел үшін әрбір бүтін мәннің ықтималдығын анықтау болып табылады. t=1.
Қорытынды мақсат
Ғалымдардың пікірінше, ең үлкен нәтижелер белгілі бір уақыт кезеңінде суреттің шу құрамдас бөлігін болжаудан келді. Соңында олар келесі мақсатты қолданады:
Lқарапайым(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Төмендегі суретте диффузиялық үлгіміз үшін оқыту және іріктеу процедуралары қысқаша бейнеленген:
Диффузия моделінің артықшылықтары
Жоғарыда айтылғандай, соңғы уақытта диффузиялық модельдер бойынша зерттеулердің саны еселенді. Диффузия модельдері қазір ең заманауи кескін сапасын қамтамасыз етеді және тепе-теңдік емес термодинамикадан шабыттандырады.
Диффузия үлгілері ең озық сурет сапасына ие болудан басқа, бәсекелестік жаттығуларды қажет етпейтін басқа да көптеген артықшылықтарды қамтамасыз етеді.
Қарсылас жаттығулардың кемшіліктері кеңінен белгілі, сондықтан көбінесе баламалы өнімділігі мен жаттығу тиімділігі бар қарсылас емес баламаларды таңдаған жөн.
Диффузиялық модельдер сонымен қатар оқытудың тиімділігі тұрғысынан ауқымдылық пен параллельділіктің артықшылықтарын қамтамасыз етеді.
Диффузиялық модельдер ауадан көрінетін нәтижелерді шығаратын сияқты көрінгенімен, бұл нәтижелердің негізі бірнеше ойластырылған және қызықты математикалық шешімдер мен нәзіктіктерге негізделген және саланың үздік тәжірибелері әлі де әзірленуде.
қорытынды
Қорытындылай келе, зерттеушілер диффузиялық ықтималдық модельдерді, тепе-теңдіксіз термодинамика идеяларымен негізделген жасырын айнымалы модельдер класын пайдалана отырып, жоғары сапалы сурет синтезінің нәтижелерін көрсетеді.
Олар өздерінің соңғы жетістіктері мен бәсекелестіксіз жаттығуларының арқасында үлкен жетістіктерге жетті және олардың сәбилік шағында алдағы жылдары бұдан да көп жетістіктер күтілуі мүмкін.
Атап айтқанда, диффузиялық модельдер DALL-E 2 сияқты озық үлгілердің функционалдығы үшін өте маңызды екені анықталды.
осында толық зерттеуге қол жеткізе аласыз.
пікір қалдыру