Тархалтын загварын танилцуулга

Гарчиг[Нуух][Үзүүлэх]

Диффузын загвар гэж юу вэ?
Тархалтын загварт гүн гүнзгий шумбах+-
Эцсийн зорилго
Диффузын загварын ашиг тус
Дүгнэлт

Сүүлийн жилүүдэд "диффузын загвар" гэж нэрлэгддэг үүсгэгч загварууд улам бүр түгээмэл болж байгаа бөгөөд сайн шалтгаантай.

Дөнгөж 2020, 2021 онд хэвлэгдсэн цөөн хэдэн чухал нийтлэлийн ачаар зурагны синтезийн GAN-аас илүү гарах гэх мэт тархалтын загварууд ямар чадвартай болохыг дэлхий нийт олж харлаа.

Дасгалжуулагчид хамгийн сүүлд тархалтын загварыг ашиглахыг харсан DALL-E2, Өнгөрсөн сард хэвлэгдсэн OpenAI-ийн зураг бүтээх загвар.

Машины сургалтын олон дадлагажигчид сүүлийн үеийн амжилтын өсөлтийг харгалзан Diffusion Models-ийн дотоод ажиллагааг сонирхож байгаа нь дамжиггүй.

Энэ нийтлэлд бид Diffusion Models-ийн онолын үндэс, тэдгээрийн дизайн, давуу тал болон бусад олон зүйлийг авч үзэх болно. Явцгаая.

Диффузын загвар гэж юу вэ?

Энэ загварыг яагаад диффузын загвар гэж нэрлэдэгийг олж мэдье.

Физикийн хичээлийн термодинамиктай холбоотой үгийг диффуз гэж нэрлэдэг. Нэг байршилд анхилуун үнэр гэх мэт материалын их хэмжээний концентраци байвал систем тэнцвэрт байдалд байдаггүй.

Систем тэнцвэрт байдалд орохын тулд диффуз үүсэх ёстой. Үнэрийн молекулууд нь өндөр концентрацитай бүсээс систем даяар тархаж, системийг бүхэлд нь жигд болгодог.

Тархалтын улмаас бүх зүйл эцэстээ нэгэн төрлийн болдог.

Тархалтын загварууд нь энэхүү термодинамик тэнцвэрт бус нөхцөлөөр өдөөгддөг. Тархалтын загварууд нь Марковын гинжийг ашигладаг бөгөөд хувьсагч бүрийн утга нь өмнөх үйл явдлын төлөвөөс хамаардаг хувьсагчдын цуваа юм.

Зураг авахдаа бид урагш тархах үе шатанд тодорхой хэмжээний дуу чимээг дараалан нэмдэг.

Илүү чимээ шуугиантай дүрсийг хадгалсны дараа бид нэмэлт шуугианыг нэвтрүүлж цувралын дараагийн зургийг бүтээх ажлыг үргэлжлүүлнэ.

Энэ процедурыг хэд хэдэн удаа хийдэг. Энэ аргыг хэд хэдэн удаа давтан хийснээр цэвэр шуугиантай зураг гарч ирдэг.

Тэгвэл бид энэ эмх замбараагүй зургаас хэрхэн зураг бүтээх вэ?

Тархалтын процессыг a-г ашиглан урвуу болгоно мэдрэлийн сүлжээ. t-ээс t-1 хүртэлх зургийг бүтээхийн тулд ухрах тархалтын процесст ижил сүлжээ, ижил жинг ашигладаг.

Сүлжээнд зургийг урьдчилан таамаглахын оронд даалгаврыг илүү хялбарчлахын тулд зурагнаас хасах шаардлагатай алхам бүрт дуу чимээг урьдчилан таамаглахыг оролдож болно.

Ямар ч тохиолдолд, мэдрэлийн сүлжээний дизайн өгөгдлийн хэмжээст байдлыг хадгалах байдлаар сонгосон байх ёстой.

Тархалтын загварт гүн гүнзгий шумбах

Диффузын загварын бүрэлдэхүүн хэсгүүд нь датум (ихэвчлэн зураг) аажмаар чимээ шуугиантай байдаг урагшлах процесс (мөн тархалтын процесс гэж нэрлэдэг) ба урвуу процесс (мөн урвуу тархалтын процесс гэж нэрлэдэг) бөгөөд үүнд дуу чимээ үүсдэг. зорилтот тархалтаас түүвэр болгон хувиргасан.

Дуу чимээний түвшин хангалттай бага бол нөхцөлт Гауссыг урагшлах процесст түүвэрлэлтийн гинжин хэлхээний шилжилтийг бий болгоход ашиглаж болно. Энэхүү мэдлэгийг Марковын таамаглалтай холбосноор урагшлах үйл явцыг хялбархан параметржүүлэх боломжтой болно.

q(x1:T |x0) := YT t=1 q(xt|xt−1), q(xt|xt−1) := N (xt; p 1 − βtxt−1, βtI)

Энд 1 ....T нь хангалттай өндөр T-ийн хувьд xT нь бараг изотроп Гаусс гэдгийг баталгаажуулдаг вариацын хуваарь (сурсан эсвэл тогтмол) юм.

Том Т

Эсрэг үйл явц нь тархалтын загварын ид шидийн үйл явц юм. Энэхүү загвар нь шинэ мэдээлэл гаргахын тулд сургалтын явцад энэхүү тархалтын процессыг эргүүлж сурдаг. Загвар нь хамтарсан хуваарилалтыг гэж сурдаг (x0:T) цэвэр Гауссын дуу чимээний тэгшитгэлээс эхэлсний үр дүн

(xT):=N(xT,0,I).

pθ(x0:T ) := p(xT ) YT t=1 pθ(xt−1|xt), pθ(xt−1|xt) := N (xt−1; µθ (xt, t), Σθ( xt, t))

Гауссын шилжилтийн цаг хугацаанаас хамааралтай параметрүүдийг нээсэн. Ялангуяа, урвуу тархалтын шилжилтийн тархалт нь зөвхөн өмнөх цаг хугацааны алхмаас (эсвэл таны хэрхэн харж байгаагаас хамааран дараагийн үе шат) хамаарна гэж Марковын томъёололд хэрхэн заасныг анхаарна уу.

pθ(xt−1|xt) := N (xt−1; μθ (xt, t), Σθ(xt, t))

Загварын сургалт

Тархалтын загварыг сургахад сургалтын өгөгдлийн магадлалыг нэмэгдүүлэх урвуу Марковын загварыг ашигладаг. Практикт сургалт нь сөрөг бүртгэлийн магадлалын вариацын дээд хязгаарыг багасгахтай адил юм.

E [− log pθ(x0)] ≤ Eq − log pθ(x0:T ) q(x1:T |x0) = Eq − log p(xT ) − X t≥1 log pθ(xt−1|xt) q (xt|xt−1) =: L

загвар

Одоо бид зорилгын функцийнхээ математик үндэслэлийг тогтоосны дараа диффузын загвараа хэрхэн хэрэгжүүлэхээ шийдэх хэрэгтэй. Форвард процесст шаардлагатай цорын ганц шийдвэр бол процедурын явцад ихэвчлэн өсдөг хэлбэлзлийн хуваарийг тодорхойлох явдал юм.

Бид урвуу процедурын хувьд Гауссын тархалтын параметр ба загварын архитектурыг ашиглах талаар маш их бодож байна.

Манай дизайны цорын ганц нөхцөл бол оролт, гаралт хоёулаа ижил хэмжээтэй байх явдал юм. Энэ нь диффузын загваруудын асар их эрх чөлөөг онцолж байна.

Доор бид эдгээр сонголтуудын талаар илүү дэлгэрэнгүй авч үзэх болно.

Урагшлах үйл явц

Бид урагшлах үйл явцтай холбоотой өөрчлөлтийн хуваарийг өгөх ёстой. Бид тэдгээрийг цаг хугацаанаас хамааралтай тогтмолууд гэж тусгайлан тохируулсан бөгөөд тэдгээрийг сурч мэдэх боломжийг үл тоомсорлосон. -аас он цагийн хуваарь

β1 = 10−4 - βT = 0.02.

Lt Тогтмол хэлбэлзлийн хуваарийн улмаас бидний суралцах боломжтой параметрүүдийн хувьд тогтмол болж, сонгосон тодорхой утгуудаас үл хамааран сургалтын явцад үүнийг үл тоомсорлох боломжийг бидэнд олгодог.

Урвуу үйл явц

Одоо бид урвуу үйл явцыг тодорхойлоход шаардлагатай шийдвэрүүдийг авч үзэх болно. Бид Марковын урвуу шилжилтийг Гаусс гэж хэрхэн тодорхойлсоныг санаарай.

pθ(xt−1|xt) := N (xt−1; μθ (xt, t), Σθ(xt, t))

Одоо бид функциональ төрлүүдийг тодорхойлсон. Параметржүүлэх илүү төвөгтэй техникүүд байгаа хэдий ч бид зүгээр л тохируулсан

Σθ(xt, t) = σ 2 t I

σ 2 т = βт

Өөрөөр хэлбэл, бид олон хувьсагч Гауссыг ижил дисперстэй салангид Гауссуудын үр дүн гэж үздэг бөгөөд энэ нь цаг хугацааны явцад хэлбэлзэж болох дисперсийн утга юм. Эдгээр хазайлтыг дамжуулах үйл явцын хазайлтын хуваарьтай тааруулахаар тохируулсан.

Энэхүү шинэчилсэн найруулгын үр дүнд, бидэнд байгаа:

pθ(xt−1|xt) := N (xt−1; μθ (xt, t), Σθ(xt, t)) :=N (xt−1; μθ (xt, t), σ2 t I)

Үүний үр дүнд дор дурдсан өөр алдагдлын функц бий болж, зохиогчид илүү тогтвортой сургалт, илүү сайн үр дүнг бий болгодог болохыг тогтоожээ.

Энгийн(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2

Зохиогчид мөн диффузийн загваруудын энэхүү томъёолол ба Лангевин дээр суурилсан онооны тохирч буй үүсгэгч загваруудын хооронд холбоо тогтоожээ. Ижил үзэгдлийн харьцуулж болох хоёр томьёог илрүүлсэн долгион дээр суурилсан квант физик ба матрицад суурилсан квант механикийн бие даасан, зэрэгцээ хөгжлийн нэгэн адил Диффузын загвар ба Оноот суурилсан загвар нь нэг зоосны хоёр тал байж болох юм.

Сүлжээний архитектур

Хэдийгээр бидний хураангуй алдагдлын функц нь загварыг сургах зорилготой юм Σθ, бид энэ загварын архитектурыг хараахан шийдээгүй байна. Загвар нь зөвхөн ижил оролт, гаралтын хэмжээстэй байх ёстой гэдгийг санаарай.

Энэхүү хязгаарлалтыг харгалзан үзэхэд U-Net-тэй төстэй архитектуруудыг зургийн тархалтын загварыг бий болгоход байнга ашигладаг нь гэнэтийн зүйл биш юм.

Сүлжээний архитектур

Тасралтгүй нөхцөлт Гауссын тархалтыг ашиглах явцад урвуу үйл явцын маршрутын дагуу олон тооны өөрчлөлтүүд хийгддэг. Урвуу процедурын зорилго нь бүхэл пикселийн утгуудаас бүрдсэн зураг үүсгэх явдал гэдгийг санаарай. Тиймээс бүх пикселийн боломжит пикселийн утга тус бүрийн салангид (лог) магадлалыг тодорхойлох шаардлагатай.

Энэ нь урвуу тархалтын гинжин хэлхээний сүүлчийн шилжилтэд тусдаа дискрет декодчилогчийг хуваарилах замаар хийгддэг. тодорхой дүрсний боломжийг тооцоолох x0 өгөгдсөн x1.

pθ(x0|x1) = YD i=1 Z δ+(xi 0 ) δ−(xi 0 ) N (x; µ i θ (x1, 1), σ2 1 ) dx

δ+(x) = ∞ хэрэв x = 1 x + 1 255 бол x < 1 δ−(x) = −∞ бол x = −1 x − 1 255 хэрэв x > −1 бол

Энд дээд тэмдэг I нь нэг координатын олборлолтыг, D нь өгөгдөл дэх хэмжээсийн тоог илэрхийлдэг.

Энэ цэгийн зорилго нь цаг хугацааны хувьд тухайн пикселийн боломжит утгуудын тархалтыг харгалзан тухайн пикселийн бүхэл тоо тус бүрийн магадлалыг тогтоох явдал юм. t=1.

Эцсийн зорилго

Эрдэмтдийн үзэж байгаагаар зургийн дуу чимээний бүрэлдэхүүн хэсгийг тодорхой цаг хугацааны хувьд урьдчилан таамаглах нь хамгийн том үр дүн юм. Эцэст нь тэд дараахь зорилгыг хэрэгжүүлдэг.

Энгийн(θ) := Et,x0, h − θ( √ α¯tx0 + √ 1 − α¯t, t) 2

Дараах зураг дээр бидний тархалтын загварт зориулсан сургалт, түүвэрлэлтийн журмыг товч дүрсэлсэн болно.

Эцсийн зорилго

Диффузын загварын ашиг тус

Өмнө дурьдсанчлан тархалтын загваруудын судалгааны хэмжээ сүүлийн үед хэд дахин нэмэгдсэн. Диффузын загварууд нь одоо хамгийн сүүлийн үеийн зургийн чанарыг өгдөг бөгөөд тэнцвэрт бус термодинамикаас санаа авсан.

Тархалтын загварууд нь хамгийн сүүлийн үеийн зургийн чанараас гадна өөр олон давуу талтай, тухайлбал өрсөлдөгчийн сургалт шаарддаггүй.

Сөргөлдөөнтэй сургалтын сул талууд нь олон нийтэд мэдэгдэж байгаа тул ижил төстэй гүйцэтгэл, сургалтын үр дүнтэй сөрөг бус хувилбаруудыг сонгохыг илүүд үздэг.

Тархалтын загварууд нь сургалтын үр дүнтэй байдлын хувьд өргөтгөх, зэрэгцүүлэх давуу талыг өгдөг.

Тархалтын загварууд нь агааргүй мэт үр дүнг бий болгодог мэт боловч эдгээр үр дүнгийн үндэс нь хэд хэдэн бодолтой, сонирхолтой математикийн шийдвэр, нарийн ширийн зүйлсээр тавигдсан бөгөөд салбарын шилдэг туршлагууд боловсруулагдсаар байна.

Дүгнэлт

Дүгнэж хэлэхэд судлаачид тэнцвэргүй термодинамикийн санаанаас үүдэлтэй далд хувьсах загваруудын анги болох диффузийн магадлалын загваруудыг ашиглан өндөр чанартай зургийн синтезийн үр дүнг харуулж байна.

Тэд орчин үеийн дэвшилтэт үр дүн, сөргөлдөөнгүй бэлтгэлийнхээ ачаар асар их амжилтанд хүрсэн бөгөөд тэдний нялх балчир насандаа ирэх жилүүдэд илүү ахиц дэвшил гарах болно.

Ялангуяа тархалтын загварууд нь DALL-E 2 гэх мэт дэвшилтэт загваруудын үйл ажиллагаанд нэн чухал болохыг олж мэдсэн.

Энд Та бүрэн судалгаанд хамрагдах боломжтой.

Тархалтын загварын танилцуулга

Диффузын загвар гэж юу вэ?