Компьютер сүрөттү сүрөттөй аларын билесиз.
Мисалы, балдарыңыз менен ойноп жаткан иттин сүрөтүн "бактагы ит жана балдар" деп которсо болот. Бирок тескери жол азыр да мүмкүн экенин билесизби? Сиз кээ бир сөздөрдү терсеңиз, машина жаңы сүрөттү жаратат.
Учурдагы сүрөттөрдү издеген Google издөөсүнөн айырмаланып, мунун баары жаңы. Акыркы жылдары, OpenAI укмуштуудай жыйынтыктарды билдирген алдыңкы уюмдардын бири болуп калды.
Алар алгоритмдерин массалык текст жана сүрөт базаларында үйрөтүшөт. Алар жүз миллиондогон сүрөттөрдө үйрөтүлгөн GLIDE сүрөт модели боюнча эмгекти жарыялашты. Фотореализм жагынан бул алардын мурунку "DALL-E" моделинен ашып түштү.
Бул постто биз OpenAIдин GLIDE программасын карайбыз. баштайлы.
Эмне AI Glide'ди ачыңыз?
Сүрөттөрдүн көбү сөз менен сүрөттөлсө да, текст киргизүүдөн сүрөттөрдү түзүү атайын билимди жана көп убакытты талап кылат.
AI агентине табигый тилден фотореалисттик сүрөттөрдү чыгарууга уруксат берүү адамдарга болуп көрбөгөндөй оңойлук менен бай жана ар түрдүү визуалдык материалдарды түзүүгө гана мүмкүндүк бербестен, жаратылган сүрөттөрдү жөнөкөй итеративдик тактоо жана кылдат башкарууга мүмкүндүк берет.
GLIDE жаңы объекттерди киргизүү, көлөкө жана чагылууларды түзүү, аткаруу үчүн табигый тилдеги текст сунуштарын колдонуу менен учурдагы сүрөттөрдү түзөтүү үчүн колдонулушу мүмкүн. сүрөт тартуу, жана башка.
Ал ошондой эле негизги сызыктарды фотореалисттик сүрөттөргө айландыра алат жана татаал кырдаалдар үчүн өзгөчө нөл үлгүдөгү өндүрүш жана оңдоо мүмкүнчүлүктөрүнө ээ.
Акыркы изилдөөлөр көрсөткөндөй, ыктымалдуулукка негизделген диффузиялык моделдер, өзгөчө, ар түрдүүлүктү жана ишенимдүүлүктү тең салмактаган жетектөөчү ыкма менен айкалышканда, жогорку сапаттагы синтетикалык сүрөттөрдү да чыгара аларын көрсөттү.
OpenAI жарыялаган башкарылган диффузиялык модель май айында, бул диффузиялык моделдерге классификатордун этикеткаларында шарттуу болууга мүмкүндүк берет. GLIDE бул ийгилигин тексттик шарттуу сүрөт түзүү проблемасына багытталган диффузияны алып келүү менен жакшыртат.
Табигый тилдин сыпаттамаларына шарт түзүү үчүн текст коддорун колдонуу менен 3.5 миллиард параметр GLIDE диффузиялык моделин үйрөткөндөн кийин, изилдөөчүлөр эки альтернативдүү жетектөөчү стратегияны сынашкан: CLIP жетекчилиги жана классификаторсуз жетекчилик.
CLIP – бул тексттин жана сүрөттөрдүн биргелешкен өкүлчүлүктөрүн үйрөнүү үчүн масштабдуу ыкма, ал сүрөттүн коштомо жазууга канчалык жакын экендигине жараша балл берет.
Команда бул стратегияны диффузиялык моделдеринде классификаторду моделдерди “башкаруучу” CLIP моделине алмаштыруу менен колдонду. Ошол эле учурда классификаторсуз жетекчилик өзүнчө классификаторду окутууну камтыбаган диффузиялык моделдерди башкаруу стратегиясы болуп саналат.
GLIDE архитектурасы
GLIDE архитектурасы үч компоненттен турат: 64 × 64 сүрөттү жаратуу үчүн үйрөтүлгөн Ablated Diffusion Model (ADM), текстти чакыруу аркылуу сүрөттү түзүүгө таасир этүүчү текст модели (трансформатор) жана биздин кичинекей 64 × 64 өлчөмүн өзгөрткөн үлгү алуу модели. сүрөттөрдү чечмелөө үчүн 256 x 256 пиксел.
Биринчи эки компонент сүрөт түзүү процессин башкаруу үчүн чогуу иштешет, ал текстти туура чагылдырат, ал эми экинчиси биз жараткан сүрөттөрдү түшүнүүнү жеңилдетүү үчүн талап кылынат. GLIDE долбоору а 2021-жылы жарыяланган отчет Бул ADM ыкмалары сүрөт үлгүсүнүн сапаты боюнча учурда популярдуу, заманбап генеративдик моделдерден ашып түшкөнүн көрсөттү.
ADM үчүн GLIDE авторлору Dhariwal жана Nichol сыяктуу эле ImageNet 64 x 64 моделин колдонушкан, бирок 512 каналдын ордуна 64 каналы бар. Мунун натыйжасында ImageNet моделинде болжол менен 2.3 миллиард параметр бар.
GLIDE командасы, Dhariwal жана Nichol айырмаланып, сүрөт түзүү жараянына көбүрөөк түздөн-түз көзөмөлгө ээ болууну каалашкан, ошентип, алар визуалдык моделди көңүл бурууга багытталган трансформатор менен айкалыштырышкан. GLIDE сизге текст киргизүү чакырыктарын иштетүү аркылуу сүрөттү түзүү процессинин чыгышын бир аз көзөмөлдөөгө мүмкүнчүлүк берет.
Бул трансформатордун моделин фото жана жазуулардын ылайыктуу чоң маалымат топтомуна үйрөтүү аркылуу ишке ашат (DALL-E долбоорунда колдонулганга окшош).
Текст адегенде аны шарттоо үчүн бир катар К белгилерине коддолгон. Андан кийин, токендер трансформатордун моделине жүктөлөт. Андан кийин трансформатордун чыгышы эки жол менен колдонулушу мүмкүн. ADM модели үчүн классты кыстаруунун ордуна акыркы энбелгиси колдонулат.
Экинчиден, токенди кыстаруусунун акыркы катмары – өзгөчөлүк векторлорунун сериясы – ADM моделиндеги ар бир көңүл катмарынын өлчөмдөрүнө өз алдынча проекцияланат жана ар бир көңүл контекстке бириктирилет.
Чындыгында, бул ADM моделине окшош тексттик белгилердин жаңы айкалыштарынан сүрөттү уникалдуу жана фотореалисттик түрдө чыгарууга мүмкүндүк берет, анын кириш сөздөрүн жана аларга тиешелүү сүрөттөрдү үйрөнгөн түшүнүгүнүн негизинде. Бул текстти коддоочу трансформатор 1.2 миллиард параметрди камтыйт жана туурасы 24 болгон 2048 калган блокторду колдонот.
Акырында, upsampler диффузиялык модели болжол менен 1.5 миллиард параметрлерди камтыйт жана негизги моделден айырмаланат, анткени анын тексттик коддору базалык моделге салыштырмалуу кичине, туурасы 1024 жана 384 базалык каналдар менен. Бул модель, аты айтып тургандай, машиналар жана адамдар үчүн чечмелөөнү жакшыртуу максатында үлгүнү жаңыртууга жардам берет.
Диффузия модели
GLIDE ADMдин өзүнүн версиясын колдонуп сүрөттөрдү жаратат (ADM-G "жетектөөчү"). ADM-G модели диффузиялык U-net моделинин модификациясы болуп саналат. Диффузия U-net модели VAE, GAN жана трансформаторлор сыяктуу кеңири таралган сүрөттөрдү синтездөө ыкмаларынан кескин айырмаланат.
Алар акырындык менен берилиштерге туш келди ызы-чуу киргизүү үчүн диффузиялык кадамдардын Марков чынжырын курат, андан кийин диффузия процессин тескери кылып, керектүү маалымат үлгүлөрүн жалгыз ызы-чуусунан кайра түзүүнү үйрөнүшөт. Ал эки этапта иштейт: алдыга жана артка диффузия.
Алдыга диффузия ыкмасы, үлгүнүн чыныгы бөлүштүрүлүшүнөн алынган маалымат чекитин эске алуу менен, алдын ала коюлган кадамдардын сериясы боюнча үлгүгө азыраак ызы-чуу кошот. Кадамдар чоңоюп, чексиздикке жакындаган сайын үлгү бардык таанылган мүнөздөмөлөрүн жоготот жана ырааттуулук изотроптук Гаусс ийри сызыгына окшошуп баштайт.
Артка диффузия учурунда фазасы, диффузиялык модели сүрөттөргө кошулган ызы-чуунун таасирин жокко чыгарууну үйрөнөт жана баштапкы киргизүү үлгүсүнүн бөлүштүрүлүшүнө окшошууга аракет кылуу менен өндүрүлгөн сүрөттү баштапкы формасына алып келет.
Аякталган модель муну чыныгы Гаусс ызы-чуусу киргизүү жана тездик менен жасай алат. ADM-G ыкмасы мурункусунан айырмаланып турат, анткени модель, CLIP же ыңгайлаштырылган трансформатор, киргизилген текстти чакыруу белгилерин колдонуу менен артка диффузия фазасына таасир этет.
Ссылуу мүмкүнчүлүктөрү
1. Сүрөттү түзүү
GLIDEдин эң популярдуу жана кеңири колдонулушу, балким, сүрөт синтези болот. Сүрөттөр жупуну жана GLIDE жаныбарлардын/адамдардын формаларында кыйынчылыктарга дуушар болсо да, бир кадрдык сүрөттү өндүрүү мүмкүнчүлүгү дээрлик чексиз.
Ал жаныбарлардын, атактуулардын, пейзаждардын, имараттардын жана башка көптөгөн нерселердин сүрөттөрүн түзө алат жана аны ар кандай көркөм стилде, ошондой эле фотореалдуу түрдө жасай алат. Изилдөөчүлөрдүн авторлору GLIDE ар кандай тексттик киргизүүлөрдү интерпретациялоого жана төмөндөгү үлгүлөрдөн көрүнүп тургандай визуалдык форматка ылайыкташтырууга жөндөмдүү деп ырасташат.
2. Сырттан сырдоо
GLIDE автоматтык түрдө сүрөт тартуу эң кызыктуу колдонуу болуп саналат. GLIDE колдонуудагы сүрөттү киргизүү катары алып, аны өзгөртүү керек болгон жерлерди эске алуу менен текстти иштетип, анан ошол бөлүктөргө оңой эле активдүү өзгөртүүлөрдү киргизе алат.
Ал дагы жакшы натыйжаларды берүү үчүн, мисалы, SDEdit сыяктуу түзөтүү модели менен бирге колдонулушу керек. Келечекте ушул сыяктуу мүмкүнчүлүктөрдү пайдаланган колдонмолор сүрөттү кодсуз өзгөртүү ыкмаларын иштеп чыгууда маанилүү болушу мүмкүн.
жыйынтыктоо
Эми биз процессти басып өткөндөн кийин, сиз GLIDE кантип иштээрин, ошондой эле анын сүрөттөрдү түзүү жана сүрөттү өзгөртүү боюнча мүмкүнчүлүктөрүнүн кеңдигин түшүнүшүңүз керек.
Таштап Жооп