Жалпысынан алганда, GANs, VAEs жана авторегрессивдүү моделдер сыяктуу терең генеративдик моделдер сүрөт синтези көйгөйлөрүн чечет.
Алар түзгөн маалыматтардын жогорку сапатын эске алуу менен, генеративдик атаандаштык тармактар (GANs) акыркы жылдары көп көңүл бурушту.
Диффузия моделдери өзүн көрсөткөн дагы бир кызыктуу изилдөө тармагы болуп саналат. Сүрөт, видео жана үн түзүү тармактары экөөнө тең кеңири колдонулушту.
Диффузия моделдери GANга каршы: кайсынысы жакшыраак натыйжаларды берет? Албетте, бул тынымсыз талкууга алып келди.
GAN деп аталган эсептөө архитектурасында эки нейрон тармактары чыныгы маалыматтар үчүн өтө турган маалыматтардын жаңы синтезделген нускаларын өндүрүү үчүн бири-бирине каршы күрөшөт.
Диффузия моделдери барган сайын популярдуу болуп баратат, анткени алар машыгуунун туруктуулугун жана музыканы жана графиканы чыгаруу үчүн жогорку натыйжаларды берет.
Бул макалада диффузиялык моделди жана GANларды майда-чүйдөсүнө чейин карап чыгабыз, ошондой эле алар бири-биринен кандайча айырмаланат жана бир нече башка нерселер.
Ошентип, Генеративдик атаандаш тармактар деген эмне?
Чыныгы маалыматтар менен жаңылышы мүмкүн болгон маалыматтардын жаңы, жасалма инстанцияларын түзүү үчүн, генеративдик атаандаштык тармактар (GANs) эки нейрондук тармактарды колдонуп, аларды бири-бирине каршы коюшат (ошондуктан, аталыштагы "душман").
Алар сүйлөө, видео жана сүрөт түзүү үчүн кеңири колдонулат.
GANдын максаты - белгилүү бир маалымат топтомунан мурда ачыла элек маалыматтарды түзүү. Үлгүлөрдөн чыныгы, аныкталбаган негизги маалыматтарды бөлүштүрүүнүн моделин чыгарууга аракет кылуу муну жасайт.
Же болбосо, бул тармактар белгилүү бир статистикалык бөлүштүрүүнү үйрөнүүгө аракет кылган жашыруун моделдер.
Бул максатка жетүү үчүн GAN колдонгон ыкма роман болчу. Чындыгында, алар жашыруун моделди иштеп чыгуу үчүн эки оюнчу оюнун ойноо менен маалыматтарды чыгарышат.
Төмөнкү структурасын сүрөттөйт:
- анык жана жасалма маалыматтарды айырмалоо мүмкүнчүлүгүн алган дискриминатор
- маалыматтарды түзүүнүн жаңы жолдорун тандап алган генератор дискриминаторду алдай алат.
Дискриминатор нейрондук тармак катары пайда болот. Ошондуктан, генератор алдоо үчүн жогорку сапаттагы сүрөттү түзүү керек.
Бул генераторлор эч кандай чыгаруу бөлүштүрүүнү колдонуу менен үйрөтүлгөн эмес, бул autoencoder моделдери жана башка моделдердин ортосундагы олуттуу айырма болуп саналат.
Моделдин жоготуу функциясын ажыратуунун эки жолу бар:
- дискриминатор чыныгы маалыматтарды так алдын ала билсе, сандык аныктоо мүмкүнчүлүгү
- түзүлгөн маалыматтар бир бөлүгү тарабынан так болжолдонот.
Эң жакшы мүмкүн болгон дискриминатордо бул жоготуу функциясы минимумга түшүрүлөт:
Демек, жалпы моделдерди аралыкты минимизациялоо моделдери катары, ал эми дискриминатор идеалдуу болсо, чыныгы жана өндүрүлгөн бөлүштүрүүнүн ортосундагы дивергенцияны минималдаштыруу катары кароого болот.
Чындыгында, ар кандай айырмачылыктар колдонулушу мүмкүн жана ар кандай GAN окутуу ыкмаларына алып келиши мүмкүн.
Генератор менен дискриминатордун ортосундагы соодалашууну камтыган окутуу динамикасы GANдардын жоготуу функциясын жөндөө оңой болгонуна карабастан, аны аткаруу кыйынга турат.
Окуу жакындайт деген кепилдик да жок. Натыйжада, GAN моделин окутуу кыйынга турат, анткени градиенттердин жоголуп кетиши жана режимдин кулашы (түзүлгөн үлгүлөрдүн ар түрдүүлүгү жок болгондо) сыяктуу көйгөйлөргө туш болуу мүнөздүү.
Эми диффузиялык моделдерге убакыт келди
ГАНдардын окуу конвергенциясы менен байланышкан көйгөй диффузиялык моделдерди иштеп чыгуу аркылуу чечилген.
Бул моделдер диффузия процесси ызы-чуунун прогрессивдүү интерференциясынан келип чыккан маалыматтын жоголушуна барабар деп болжолдойт (диффузия процессинин ар бир баскычында гаусстук ызы-чуу кошулат).
Мындай моделдин максаты – ызы-чуунун үлгүдөгү маалыматка кандай таасир тийгизерин, башкача айтканда, диффузиядан канча маалымат жоголгонун аныктоо.
Эгерде модель муну аныктай алса, анда ал баштапкы үлгүнү алып чыгып, болгон маалымат жоготууларын жокко чыгарышы керек.
Бул denoising диффузиялык модели аркылуу ишке ашат. Алдыга диффузия процесси жана тескери диффузия процесси эки кадамды түзөт.
Алдыга диффузия процесси ызы-чуу менен маалыматтар толугу менен булганмайынча Гаусс ызы-чуусун (б.а. диффузия процесси) акырындык менен кошууну камтыйт.
Нейрондук тармак кийинчерээк ызы-чууну жокко чыгаруу үчүн шарттуу бөлүштүрүү ыктымалдыгын үйрөнүү үчүн тескери диффузия ыкмасын колдонуу менен үйрөтүлөт.
Бул жерде сиз жөнүндө көбүрөөк түшүнүүгө болот диффузиялык модель.
Диффузия модели Vs GANs
Диффузия модели сыяктуу, GANлар ызы-чуудан сүрөттөрдү чыгарышат.
Модель класстын энбелгиси же текст коддоосу сыяктуу кээ бир маалыматтык кондициялоочу өзгөрмөнүн ызы-чуусу менен башталган генератор нейрон тармагынан турат.
Натыйжада реалдуу сүрөткө окшош нерсе болушу керек.
Фотореалисттик жана жогорку деңгээлдеги сүрөт муундарын түзүү үчүн биз GANдарды колдонобуз. GANга караганда дагы реалдуу визуализация диффузиялык моделдердин жардамы менен чыгарылат.
Башкача айтканда, диффузиялык моделдер фактыларды сүрөттөөдө такыраак.
GAN кокустук ызы-чууну же классты кондициялоочу өзгөрмө катары кабыл алып, реалдуу үлгүнү чыгарса, диффузиялык моделдер көбүнчө жайыраак, кайталануучу жана көбүрөөк жетекчиликке муктаж.
ызы-чуудан баштапкы сүрөткө кайтып келүү максатында деноиздөө кайра-кайра колдонулганда ката кетирүүгө көп орун жок.
Ар бир текшерүү пункту түзүү баскычында өтөт жана ар бир кадам сайын сүрөт көбүрөөк маалыматка ээ болушу мүмкүн.
жыйынтыктоо
Жыйынтыктап айтканда, 2020-жана 2021-жылдары гана жарыяланган бир нече олуттуу изилдөөлөрдөн улам, диффузиялык моделдер азыр сүрөттөрдү синтездөө жагынан GANлардан ашып түшө алат.
Бул жылы OpenAI ишке кирди DALL-E2, практиктерге диффузиялык моделдерди колдонууга мүмкүндүк берген сүрөт өндүрүү модели.
GANs эң алдыңкы болгону менен, алардын чектөөлөрү аларды масштабдоону жана жаңы контексттерде колдонууну кыйындатат.
Ыктымалдуулукка негизделген моделдерди колдонуу менен GAN үлгүсүндөгү сапатка жетүү үчүн ага көп эмгек жумшалды.
Таштап Жооп