Мундариҷа[Пинҳон кардан][Намоиш]
Шумо эҳтимолан медонед, ки компютер метавонад тасвирро тасвир кунад.
Масалан, тасвири сагеро, ки бо фарзандони шумо бозӣ мекунад, метавон ҳамчун "саг ва кӯдакон дар боғ" тарҷума кард. Аммо оё шумо медонистед, ки роҳи муқобил ҳоло ҳам имконпазир аст? Шумо якчанд калимаҳоро нависед ва мошин тасвири нав тавлид мекунад.
Баръакси ҷустуҷӯи Google, ки аксҳои мавҷударо ҷустуҷӯ мекунад, ин ҳама тоза аст. Дар солҳои охир, OpenAI яке аз созмонҳои пешқадам буда, дар бораи натиҷаҳои аҷиб гузориш медиҳад.
Онҳо алгоритмҳои худро дар базаҳои азими матн ва тасвирҳо таълим медиҳанд. Онҳо коғазро дар бораи модели тасвирии худ GLIDE нашр карданд, ки дар садҳо миллион аксҳо омӯхта шудааст. Дар робита ба фотореализм, он аз модели қаблии "DALL-E" бартарӣ дорад.
Дар ин паём, мо GLIDE-и OpenAI-ро дида мебароем, ки яке аз ташаббусҳои ҷолибе мебошад, ки ба истеҳсол ва тағир додани тасвирҳои фотореалистӣ бо моделҳои диффузияи матн идорашаванда нигаронида шудаанд. Биёед оғоз кунем.
кадом аст AI Glide-ро кушоед?
Гарчанде ки аксари тасвирҳоро метавон бо калима тавсиф кард, эҷоди тасвирҳо аз вуруди матн дониши махсус ва миқдори зиёди вақтро талаб мекунад.
Иҷозат додан ба агенти AI барои тавлиди тасвирҳои фотореалистӣ аз забони табиӣ на танҳо ба одамон имкон медиҳад, ки бо осонии бесобиқа маводи бой ва гуногунҷабҳаи визуалӣ эҷод кунанд, балки инчунин имкон медиҳад, ки такмилдиҳии оддии такрорӣ ва назорати дақиқи тасвирҳои офаридашуда.
GLIDE-ро барои таҳрир кардани аксҳои мавҷуда бо истифода аз дастурҳои матнии забони табиӣ барои ворид кардани объектҳои нав, эҷоди сояҳо ва инъикосҳо, иҷро кардан истифода бурдан мумкин аст. кашидани тасвир, ва ғайра.
Он инчунин метавонад тасвирҳои хатти асосиро ба аксҳои фотореалистӣ табдил диҳад ва он дорои қобилиятҳои истисноии истеҳсол ва таъмир барои ҳолатҳои мураккаб мебошад.
Тадқиқоти охирин нишон дод, ки моделҳои паҳншавии эҳтимолӣ дар асоси эҳтимолият инчунин метавонанд тасвирҳои синтетикии баландсифатро ба вуҷуд оранд, алахусус дар якҷоягӣ бо равиши роҳнамо, ки гуногунрангӣ ва садоқатро мувозинат мекунад.
OpenAI нашр кардааст модели диффузияи роҳнамо дар моҳи май, ки имкон медиҳад, ки моделҳои диффузия дар тамғакоғазҳои таснифкунанда шартан бошанд. GLIDE ин муваффақиятро тавассути овардани диффузияи роҳнамо ба мушкилоти эҷоди тасвири матнии шартӣ беҳтар мекунад.
Пас аз омӯзиши модели паҳншавии 3.5 миллиард параметри GLIDE бо истифода аз рамзгузори матнӣ барои шарти тавсифи забони табиӣ, муҳаққиқон ду стратегияи алтернативии роҳнамоиро санҷиданд: роҳнамоии CLIP ва роҳнамоии бидуни таснифот.
CLIP як усули миқёспазир барои омӯхтани тасвирҳои муштараки матн ва тасвирҳо мебошад, ки дар асоси то чӣ андоза наздик будани тасвир ба сарлавҳа хол медиҳад.
Даста ин стратегияро дар моделҳои диффузии худ бо иваз кардани таснифот бо модели CLIP, ки моделҳоро “ҳидоят мекунад” истифода бурд. Дар ҳамин ҳол, роҳнамоии бидуни таснифкунанда стратегияи роҳнамоии моделҳои диффузия мебошад, ки омӯзиши таснифгари алоҳидаро дар бар намегирад.
Архитектураи GLIDE
Меъмории GLIDE аз се ҷузъ иборат аст: Модели диффузияи аблатсионӣ (ADM), ки барои тавлиди тасвири 64 × 64 омӯзонида шудааст, модели матнӣ (трансформатор), ки ба тавлиди тасвир тавассути дархости матн таъсир мерасонад ва модели болобардорӣ, ки 64 × 64 хурди моро табдил медиҳад тасвирҳо ба 256 x 256 пиксел бештар тафсир.
Ду ҷузъи аввал якҷоя кор мекунанд, то раванди тавлиди тасвирро назорат кунанд, то он дархости матнро ба таври мувофиқ инъикос кунад, дар ҳоле ки охирин барои фаҳмидани тасвирҳое, ки мо эҷод мекунем, талаб карда мешавад. Лоиҳаи GLIDE аз ҷониби а ҳисоботи дар соли 2021 нашршуда ки нишон дод, ки усулҳои ADM аз нуқтаи назари сифати намунаи тасвирҳо аз моделҳои маъмули муосири тавлидкунанда бартарӣ доранд.
Барои ADM, муаллифони GLIDE ҳамон модели ImageNet 64 x 64-ро ҳамчун Dhariwal ва Nichol истифода бурданд, аммо бо 512 канал ба ҷои 64. Модели ImageNet дар натиҷаи ин тақрибан 2.3 миллиард параметр дорад.
Дастаи GLIDE, бар хилофи Дҳаривал ва Никол, мехостанд, ки назорати бештари раванди тавлиди тасвирро дошта бошанд, бинобар ин онҳо модели визуалиро бо трансформатори қобили таваҷҷӯҳ муттаҳид карданд. GLIDE ба шумо тавассути коркарди дархостҳои вуруди матн аз болои раванди тавлиди тасвир назорат мекунад.
Ин тавассути омӯзиши модели трансформатор дар маҷмӯи маълумоти мувофиқи аксҳо ва сарлавҳаҳо анҷом дода мешавад (ба он чизе, ки дар лоиҳаи DALL-E истифода шудааст).
Матн дар аввал ба як қатор аломатҳои K рамзгузорӣ карда мешавад, то онро шарт созад. Пас аз он, токенҳо ба модели трансформатор бор карда мешаванд. Пас аз он, баромади трансформаторро бо ду роҳ истифода бурдан мумкин аст. Барои модели ADM, ба ҷои ҷойгиркунии синф воридкунии ниҳоии аломат истифода мешавад.
Дуюм, қабати ниҳоии ҷойгиркунии аломатҳо - як қатор векторҳои хусусият - мустақилона ба андозаҳои ҳар як қабати таваҷҷӯҳ дар модели ADM тарҳрезӣ карда мешавад ва ба ҳар як контексти таваҷҷӯҳ пайваст карда мешавад.
Дар асл, ин ба модели ADM имкон медиҳад, ки аз омезиши нави аломатҳои матнии шабеҳ дар асоси фаҳмиши омӯхтааш дар бораи калимаҳои воридотӣ ва тасвирҳои ба онҳо алоқаманд ба таври беназир ва фотореалистӣ тасвир тавлид кунад. Ин трансформатори рамзгузории матн 1.2 миллиард параметрро дар бар мегирад ва 24 блоки боқимондаро бо паҳнои 2048 истифода мебарад.
Ниҳоят, модели диффузияи upsampler тақрибан 1.5 миллиард параметрҳоро дар бар мегирад ва аз модели асосӣ фарқ мекунад, ки рамзгузори матнии он дар муқоиса бо модели асосӣ хурдтар буда, паҳнои 1024 ва 384 каналҳои асосӣ дорад. Ин модел, тавре ки аз ном бармеояд, дар такмил додани намуна барои беҳтар кардани тафсир барои ҳам мошинҳо ва ҳам одамон кӯмак мекунад.
Модели диффузия
GLIDE бо истифода аз версияи шахсии ADM тасвирҳо тавлид мекунад (ADM-G барои "ҳидоятшуда"). Модели ADM-G як тағйироти модели диффузии U-net мебошад. Модели диффузии U-net аз усулҳои маъмултарини синтези тасвир ба монанди VAE, GAN ва трансформаторҳо ба таври назаррас фарқ мекунад.
Онҳо як силсилаи қадамҳои диффузияи Марковро барои тадриҷан ворид кардани садои тасодуфӣ ба додаҳо месозанд ва сипас баръакси раванди диффузия ва барқарор кардани намунаҳои зарурии маълумотро танҳо аз садо меомӯзанд. Он дар ду марҳила амал мекунад: диффузияи пеш ва баръакс.
Усули диффузияи пеш, бо назардошти нуқтаи маълумот аз тақсимоти воқеии намуна, ба намуна дар тӯли як қатор қадамҳои пешакӣ миқдори ками садо илова мекунад. Вақте ки қадамҳо дар ҳаҷм зиёд мешаванд ва ба беохир наздик мешаванд, намуна тамоми хусусиятҳои шинохташавандаро гум мекунад ва пайдарпаӣ ба каҷи изотропии Гаусс шабоҳат дорад.
Ҳангоми паҳншавии ақиб марҳила, модели диффузия Баргардонидани таъсири садои иловагиро ба расмҳо меомӯзад ва тасвири тавлидшударо ба шакли аввалааш баргардонад, бо кӯшиши шабоҳат додан ба тақсимоти аслии воридот.
Модели анҷомёфта метавонад ин корро бо вуруди садои воқеии Гаусс ва фаврӣ анҷом диҳад. Усули ADM-G аз усули қаблӣ фарқ мекунад, ки модел, ё CLIP ё трансформатори фармоишӣ, ба марҳилаи паҳншавии ақиб тавассути истифодаи аломатҳои дархости матнии воридшуда таъсир мерасонад.
Қобилиятҳои лағзиш
1. Насли тасвир
Истифодаи маъмултарин ва васеъ истифодашавандаи GLIDE эҳтимолан синтези тасвирҳо бошад. Гарчанде ки тасвирҳо хоксоранд ва GLIDE бо шаклҳои ҳайвонот/инсон душворӣ дорад, потенсиали тавлиди тасвири якдафъаина қариб беохир аст.
Он метавонад аксҳои ҳайвонот, одамони машҳур, манзараҳо, биноҳо ва ғайраро эҷод кунад ва он метавонад онро бо услубҳои гуногуни санъат ва инчунин аксҳои воқеӣ иҷро кунад. Муаллифони муҳаққиқон мегӯянд, ки GLIDE қодир аст тафсир ва мутобиқсозии як қатор вурудоти матниро ба формати визуалӣ, тавре ки дар намунаҳои зер дида мешавад, дорад.
2. Лағжиш дар ранг кардан
Рангсозии автоматии аксҳои GLIDE эҳтимолан ҷолибтарин истифода аст. GLIDE метавонад тасвири мавҷударо ҳамчун вуруд бигирад, онро бо дархости матн барои ҷойҳое, ки бояд тағир дода шаванд, коркард кунад ва сипас ба осонӣ ба он қисмҳо тағироти фаъол ворид кунад.
Он бояд дар якҷоягӣ бо модели таҳриркунӣ, ба монанди SDEdit, барои ба даст овардани натиҷаҳои боз ҳам беҳтар истифода шавад. Дар оянда, барномаҳое, ки аз чунин қобилиятҳо бартарӣ доранд, метавонанд дар таҳияи равишҳои бе код тағир додани тасвирҳо муҳим бошанд.
хулоса
Акнун, ки мо ин равандро аз сар гузаронидем, шумо бояд асосҳои чӣ гуна кор кардани GLIDE ва инчунин фарогирии имкониятҳои онро дар эҷоди тасвир ва тағир додани тасвир дарк кунед.
Дин ва мазҳаб