Акыркы жылдары, "диффузия моделдери" деп аталган генеративдик моделдер барган сайын популярдуу болуп, жакшы себептер менен.
2020-жана 2021-жылдары жарык көргөн бир нече маанилүү басылмалардын аркасында дүйнө диффузиялык моделдер эмнеге жөндөмдүү экенин көрдү, мисалы, сүрөттөрдү синтездөө боюнча GANлардан жогору.
Практиктер жакында эле диффузиялык моделдердин колдонулушун көрүштү DALL-E2, OpenAIдин өткөн айда жарыяланган сүрөт түзүү модели.
Көптөгөн Machine Learning практиктери, албетте, Диффузия моделдеринин ички иштерине кызыгышат, анткени алардын акыркы ийгиликтери.
Бул постто биз диффузиялык моделдердин теориялык негиздерин, алардын дизайнын, артыкчылыктарын жана башка көптөгөн нерселерди карап чыгабыз. кетели.
Диффузия модели деген эмне?
Келгиле, бул модель эмне үчүн диффузиялык модель деп аталып жатканын аныктоо менен баштайлы.
Физика сабактарында термодинамикага байланыштуу сөз диффузия деп аталат. Эгерде бир жерде жыт сыяктуу материалдын көп концентрациясы бар болсо, система тең салмактуулукта болбойт.
Системанын тең салмактуулукка кириши үчүн диффузия болушу керек. Жыттын молекулалары жогорку концентрациялуу аймактан бүт системага таралып, системаны бүтүндөй бирдей кылат.
Бардыгы акыры диффузиядан улам бир тектүү болуп калат.
Диффузия моделдери бул термодинамикалык тең салмактуулук эмес шарт менен шартталган. Диффузия моделдеринде ар бир өзгөрмөнүн мааниси мурунку окуянын абалына көз каранды болгон өзгөрмөлөрдүн сериясы болгон Марков чынжырчасы колдонулат.
Сүрөткө тартуу менен, биз алдыга диффузия фазасында ага белгилүү бир ызы-чуунун санын кошобуз.
Ызы-чуураак сүрөттү сактагандан кийин, кошумча ызы-чууну киргизүү менен катардагы кийинки сүрөттү түзүүгө киришебиз.
Бир нече жолу, бул жол-жобосу жүзөгө ашырылат. Бул ыкманы бир нече жолу кайталоодо таза ызы-чуу сүрөт пайда болот.
Анда бул башаламан сүрөттөлүштөн кантип сүрөт түзө алабыз?
А аркылуу диффузия процесси тескери жүргүзүлөт нейрон тармак. Ошол эле тармактар жана бирдей салмактар артка диффузия процессинде т-дан t-1ге чейинки сүрөттү түзүү үчүн колдонулат.
Тармакка сүрөттү алдын ала көрүүгө уруксат берүүнүн ордуна, тапшырманы андан ары жөнөкөйлөтүү үчүн ар бир кадамда ызы-чууну алдын ала айтууга аракет кылса болот, аны сүрөттөн алып салуу керек.
Кандай гана сценарийде болбосун нейрон тармагы дизайн маалыматтардын өлчөмдүүлүгүн сактай турган жол менен тандалышы керек.
Диффузия моделине терең сүңгүңүз
Диффузия моделинин курамдык бөлүктөрүнө маалымат (көбүнчө сүрөттөлүш) акырындык менен ызы-чуу болуп турган алдыга процесс (диффузия процесси деп да аталат) жана тескери процесс (тескери диффузия процесси деп да аталат), мында ызы-чуу болуп саналат. максаттуу бөлүштүрүүнүн үлгүсүнө кайра айландырылат.
Ызы-чуу деңгээли жетишерлик төмөн болгондо, шарттуу Гаусстарды алдыга процессте тандап алуу чынжырчасынын өтүүлөрүн орнотуу үчүн колдонсо болот. Бул билимди Марковдун божомолу менен айкалыштыруудан улам алдыга карай процесстин оңой параметрлештирүү натыйжасы:
q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)
бул жерде 1 ....T – жетишерлик жогорку T үчүн xT иш жүзүндө изотроптук Гаусс экендигине кепилдик берүүчү дисперсия графиги (үйрөнгөн же белгиленген).
Карама-каршы процесс диффузиялык моделдин сыйкырдуу болгон жери. Модель жаңы маалыматтарды алуу үчүн машыгуу учурунда бул диффузия процессин тескери жасоону үйрөнөт. модели катары биргелешкен бөлүштүрүүнү үйрөнөт (x0:T) таза Гаусс ызы-чуу теңдемеси менен баштоонун натыйжасы
(xT):=N(xT,0,I).
pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, t))
мында Гаусс өтүүлөрдүн убакытка көз каранды параметрлери ачылат. Атап айтканда, Марковдун формуласында айтылган тескери диффузиялык өткөөл бөлүштүрүү бир гана мурунку убакыт баскычына (же аны кандай караганыңызга жараша кийинки убакыт баскычына) көз каранды экенине көңүл буруңуз:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Моделдик тренинг
Диффузия моделин үйрөтүү үчүн окуу маалыматтарынын ыктымалдуулугун арттырган тескери Марков модели колдонулат. Иш жүзүндө айтканда, окутуу терс журнал ыктымалдыгы боюнча вариациялык жогорку чекти азайтуу менен окшош.
E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L
моделдери
Эми биздин максат функциябыздын математикалык негиздерин аныктагандан кийин диффузиялык моделибизди кантип ишке ашырууну чечишибиз керек. Форвард процесси үчүн зарыл болгон жалгыз чечим бул дисперсия графигин аныктоо болуп саналат, анын мааниси процедуранын жүрүшүндө адатта көтөрүлөт.
Биз Гаусс бөлүштүрүүнүн параметрин жана моделдин архитектурасын тескери процедура үчүн колдонууну катуу ойлонобуз.
Биздин дизайндын бирден-бир шарты - киргизүү жана чыгаруу бирдей өлчөмдөрдө. Бул диффузиялык моделдер камсыз кылган эбегейсиз эркиндикти баса белгилейт.
Төмөндө биз бул варианттарга тереңирээк токтолобуз.
Forward Process
Биз алдыга процесске карата дисперсия графигин беришибиз керек. Биз аларды атайын убакытка көз каранды константалар кылып койдук жана аларды үйрөнүү мүмкүнчүлүгүн эске албадык. Хронологиялык графиктен
β1 = 10−4 дан βT = 0.02ге чейин.
Lt белгиленген дисперсия графигинен улам биздин үйрөнүүгө мүмкүн болгон параметрлердин топтомуна карата константага айланат, бул тандалган конкреттүү маанилерге карабастан окутуу учурунда аны эске албай коюуга мүмкүндүк берет.
Тескери процесс
Биз азыр тескери процессти аныктоо үчүн зарыл болгон чечимдерди карап чыгабыз. Марковдун тескери өткөөлдөрүн Гаусс деп кантип сүрөттөгөнүбүздү эстейли:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t))
Эми биз функционалдык түрлөрүн аныктадык. Параметрлөөнүн татаалыраак ыкмалары бар экендигине карабастан, биз жөн гана койдук
Σθ(xt, t) = σ 2 t I
σ 2 t = βt
Башкача айтканда, биз көп өзгөрмөлүү Гауссты бирдей дисперсияга ээ болгон өзүнчө Гаусстардын натыйжасы деп эсептейбиз, дисперсия мааниси убакыттын өтүшү менен өзгөрүп турушу мүмкүн. Бул четтөөлөр жөнөтүү процессинин четтөөлөрүнүн графигине дал келүү үчүн коюлган.
Бул жаңы формуланын натыйжасында, бизде бар:
pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ(xt, t)) :=N (xt−1; µθ (xt, t), σ2 t I)
Бул төмөндө көрсөтүлгөн альтернативдик жоготуу функциясына алып келет, бул авторлор ырааттуу машыгууларды жана жогорку натыйжаларды берерин аныкташкан:
L жөнөкөй(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Авторлор ошондой эле диффузиялык моделдердин бул формулировкасы менен Лангевинге негизделген упайга дал келүүчү генеративдик моделдердин ортосунда байланыштарды түзүшөт. Бир эле кубулуштун эки салыштырылуучу формуласын ачкан толкунга негизделген кванттык физиканын жана матрицага негизделген кванттык механиканын көз карандысыз жана параллелдүү өнүгүшү сыяктуу эле, диффузиялык моделдер жана баллга негизделген моделдер бир тыйындын эки тарабы болушу мүмкүн.
Network Архитектура
Биздин конденсацияланган жоготуу функциясы моделди окутууга багытталганына карабастан Σθ, биз бул моделдин архитектурасын дагы эле чече элекпиз. Модель жөн эле киргизүү жана чыгаруу өлчөмдөрү бирдей болушу керек экенин унутпаңыз.
Бул чектөөнү эске алганда, U-Net сыяктуу архитектуралар сүрөттүн диффузиялык моделдерин түзүү үчүн көп колдонулушу күтүүсүз эмес.
Үзгүлтүксүз шарттуу Гаусс бөлүштүрүүнү колдонууда тескери процесстин маршруту боюнча көптөгөн өзгөртүүлөр киргизилет. Тескери процедуранын максаты бүтүн пикселдик маанилерден турган сүрөттү түзүү экенин унутпаңыз. Демек, бардык пикселдердин ар бир потенциалдуу пикселдик мааниси үчүн дискреттик (лог) ыктымалдуулуктарды аныктоо зарыл.
Бул тескери диффузиялык чынжырдын акыркы өтүүсүнө өзүнчө дискреттик декодер ыйгаруу аркылуу ишке ашат. белгилүү бир сүрөттүн мүмкүнчүлүгүн баалоо x0 берилген x1.
pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx
δ+(x) = ∞ эгерде x = 1 x + 1 255, эгерде x < 1 δ−(x) = −∞ эгерде x = −1 x − 1 255, эгерде x > −1 болсо
мында I үстүнкү жазуусу бир координаттын алынышын билдирет жана D маалыматтардагы өлчөмдөрдүн санын билдирет.
Бул учурда максат - бул пиксел үчүн потенциалдуу маанилердин убакыт боюнча өзгөрүшүн эске алуу менен белгилүү бир пиксел үчүн ар бир бүтүн сандын ыктымалдыгын аныктоо. t=1.
Акыркы Максат
Окумуштуулардын айтымында, эң чоң натыйжалар сүрөттүн ызы-чуу компонентин белгилүү бир убакытта болжолдоодон алынган. Акыр-аягы, алар төмөнкү максатты колдонушат:
L жөнөкөй(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2
Төмөнкү сүрөттө, биздин диффузиялык модель үчүн окутуу жана үлгү алуу жол-жоболору кыскача сүрөттөлгөн:
Диффузия моделинин артыкчылыктары
Белгиленгендей, акыркы убакта диффузиялык моделдер боюнча изилдөөлөрдүн көлөмү көбөйдү. Диффузия моделдери азыр эң заманбап сүрөт сапатын камсыз кылат жана тең салмактуу эмес термодинамикадан шыктандырылган.
Диффузия моделдери эң алдыңкы сүрөт сапатына ээ болуу менен бирге башка ар кандай артыкчылыктарды берет, мисалы, атаандаштык машыгууну талап кылбайт.
Атаандаштык менен машыгуунун кемчиликтери кеңири белгилүү, ошондуктан көп учурда эквиваленттүү натыйжалуулугу жана машыгуунун эффективдүүлүгү менен атаандашпаган альтернативаларды тандоо артыкчылыкка ээ.
Диффузия моделдери окутуунун эффективдүүлүгү жагынан масштабдуулуктун жана параллелдүүлүктүн артыкчылыктарын да камсыз кылат.
Диффузия моделдери сырттан көрүнгөн натыйжаларды жаратып жаткандай көрүнгөнү менен, бул натыйжалардын негизин бир катар ойлонулган жана кызыктуу математикалык чечимдер жана кылдаттыктар түзөт жана тармактын мыкты тажрыйбалары дагы эле иштелип чыгууда.
жыйынтыктоо
Жыйынтыктап айтканда, изилдөөчүлөр диффузиялык ыктымалдык моделдерин, теңсалмактуу эмес термодинамика идеялары менен шартталган жашыруун өзгөрмө моделдердин классын колдонуу менен жогорку сапаттагы сүрөт синтезинин жыйынтыктарын көрсөтүшөт.
Алар эң алдыңкы жетишкендиктеринин жана атаандашсыз машыгуусунун аркасында эбегейсиз чоң ийгиликтерге жетишти жана алардын ымыркай кезин эске алганда, кийинки жылдарда дагы көп ийгиликтерди күтүүгө болот.
Атап айтканда, диффузиялык моделдер DALL-E 2 сыяктуу өнүккөн моделдердин иштеши үчүн өтө маанилүү экени аныкталган.
бул жерде толук изилдөөгө кире аласыз.
Таштап Жооп